CoNLL-U
CoNLL-U 是 CoNLL-X 格式的修订版本。 注释编码在纯文本文件中(UTF-8,归一化为 NFC,仅使用 LF 字符作为换行符,包括文件末尾的 LF 字符),包含三种类型的行
- 词语行,包含由单个制表符分隔的 10 个字段中单词/标记的注释;见下文。
- 空白行,标记句子边界。
- 注释行,以井号 (#) 开头。
这是一个如何在 CoNLL-U 格式中加载文件的示例。 整个文件被视为一个文档。 示例数据 (conllu.conllu
) 基于标准的 UD/CoNLL-U 示例之一。
from langchain_community.document_loaders import CoNLLULoader
API 参考:CoNLLULoader
loader = CoNLLULoader("example_data/conllu.conllu")
document = loader.load()
document
[Document(page_content='They buy and sell books.', metadata={'source': 'example_data/conllu.conllu'})]