Doctran
Doctran 是一个 Python 包。它使用 LLM 和开源 NLP 库将原始文本转换为干净、结构化、信息密集的文档,这些文档经过优化以进行向量空间检索。您可以将
Doctran
视为一个黑盒子,脏乱的字符串输入,然后输出漂亮、干净、带有标签的字符串。
安装与设置
pip install doctran
文档转换器
文档问答器
查看 DoctranQATransformer 的使用示例。
from langchain_community.document_transformers import DoctranQATransformer
API 参考:DoctranQATransformer
属性提取器
查看 DoctranPropertyExtractor 的使用示例。
from langchain_community.document_transformers import DoctranPropertyExtractor
API 参考:DoctranPropertyExtractor
文档翻译器
查看 DoctranTextTranslator 的使用示例。
from langchain_community.document_transformers import DoctranTextTranslator
API 参考:DoctranTextTranslator