CTranslate2
CTranslate2 是一个 C++ 和 Python 库,用于使用 Transformer 模型进行高效推理。
该项目实现了一个自定义运行时,应用了许多性能优化技术,例如权重量化、层融合、批量重排序等,以加速和减少 CPU 和 GPU 上 Transformer 模型的内存使用。
安装和设置
安装 Python 包
pip install ctranslate2
LLMs
查看 使用示例。
from langchain_community.llms import CTranslate2
API 参考:CTranslate2