源代码

此笔记本介绍如何使用语言解析的特殊方法加载源代码文件：代码中的每个顶层函数和类都加载到单独的文档中。任何剩余的顶层代码（在已经加载的函数和类之外）将被加载到单独的文档中。

这种方法可能比源代码更准确地提高 QA 模型。

支持代码解析的语言是

C (*)
C++ (*)
C# (*)
COBOL
Elixir
Go (*)
Java (*)
JavaScript（需要包 esprima）
Kotlin (*)
Lua (*)
Perl (*)
Python
Ruby (*)
Rust (*)
Scala (*)
TypeScript (*)

标有 (*) 的项目需要包 tree_sitter 和 tree_sitter_languages。使用 tree_sitter 添加对其他语言的支持很简单，尽管这目前需要修改 LangChain。

用于解析的语言可以配置，以及激活基于语法的分割所需的最小行数。

如果语言没有明确指定，LanguageParser 将从文件名扩展名（如果有）推断出语言。

%pip install -qU esprima esprima tree_sitter tree_sitter_languages

import warnings

warnings.filterwarnings("ignore")
from pprint import pprint

from langchain_community.document_loaders.generic import GenericLoader
from langchain_community.document_loaders.parsers import LanguageParser
from langchain_text_splitters import Language

API 参考：GenericLoader | LanguageParser | Language

loader = GenericLoader.from_filesystem(
    "./example_data/source_code",
    glob="*",
    suffixes=[".py", ".js"],
    parser=LanguageParser(),
)
docs = loader.load()

len(docs)

for document in docs:
    pprint(document.metadata)

{'content_type': 'functions_classes',
 'language': <Language.PYTHON: 'python'>,
 'source': 'example_data/source_code/example.py'}
{'content_type': 'functions_classes',
 'language': <Language.PYTHON: 'python'>,
 'source': 'example_data/source_code/example.py'}
{'content_type': 'simplified_code',
 'language': <Language.PYTHON: 'python'>,
 'source': 'example_data/source_code/example.py'}
{'content_type': 'functions_classes',
 'language': <Language.JS: 'js'>,
 'source': 'example_data/source_code/example.js'}
{'content_type': 'functions_classes',
 'language': <Language.JS: 'js'>,
 'source': 'example_data/source_code/example.js'}
{'content_type': 'simplified_code',
 'language': <Language.JS: 'js'>,
 'source': 'example_data/source_code/example.js'}

print("\n\n--8<--\n\n".join([document.page_content for document in docs]))

class MyClass:
    def __init__(self, name):
        self.name = name

    def greet(self):
        print(f"Hello, {self.name}!")

--8<--

def main():
    name = input("Enter your name: ")
    obj = MyClass(name)
    obj.greet()

--8<--

# Code for: class MyClass:


# Code for: def main():


if __name__ == "__main__":
    main()

--8<--

class MyClass {
  constructor(name) {
    this.name = name;
  }

  greet() {
    console.log(`Hello, ${this.name}!`);
  }
}

--8<--

function main() {
  const name = prompt("Enter your name:");
  const obj = new MyClass(name);
  obj.greet();
}

--8<--

// Code for: class MyClass {

// Code for: function main() {

main();

可以为小文件禁用解析器。

参数 parser_threshold 指示源代码文件必须具有的最小行数，才能使用解析器进行分割。

loader = GenericLoader.from_filesystem(
    "./example_data/source_code",
    glob="*",
    suffixes=[".py"],
    parser=LanguageParser(language=Language.PYTHON, parser_threshold=1000),
)
docs = loader.load()

len(docs)

print(docs[0].page_content)

class MyClass:
    def __init__(self, name):
        self.name = name

    def greet(self):
        print(f"Hello, {self.name}!")


def main():
    name = input("Enter your name: ")
    obj = MyClass(name)
    obj.greet()


if __name__ == "__main__":
    main()

分割

可能需要对那些太大函数、类或脚本进行额外的分割。

loader = GenericLoader.from_filesystem(
    "./example_data/source_code",
    glob="*",
    suffixes=[".js"],
    parser=LanguageParser(language=Language.JS),
)
docs = loader.load()

from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter,
)

API 参考：Language | RecursiveCharacterTextSplitter

js_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS, chunk_size=60, chunk_overlap=0
)

result = js_splitter.split_documents(docs)

len(result)

print("\n\n--8<--\n\n".join([document.page_content for document in result]))

class MyClass {
  constructor(name) {
    this.name = name;

--8<--

}

--8<--

greet() {
    console.log(`Hello, ${this.name}!`);
  }
}

--8<--

function main() {
  const name = prompt("Enter your name:");

--8<--

const obj = new MyClass(name);
  obj.greet();
}

--8<--

// Code for: class MyClass {

// Code for: function main() {

--8<--

main();

使用 Tree-sitter 模板添加语言

使用 Tree-Sitter 模板扩展语言支持涉及几个必要的步骤

创建新的语言文件:
- 从在指定目录（langchain/libs/community/langchain_community/document_loaders/parsers/language）中创建新文件开始。
- 根据现有语言文件（如 cpp.py）的结构和解析逻辑对该文件进行建模。
- 您还需要在 langchain 目录（langchain/libs/langchain/langchain/document_loaders/parsers/language）中创建一个文件。
解析语言细节:
- 模仿 cpp.py 文件中使用的结构，并将其调整以适合您要合并的语言。
- 主要更改涉及调整块查询数组以适合您要解析的语言的语法和结构。
测试语言解析器:
- 为了进行彻底的验证，请生成特定于新语言的测试文件。在指定目录（langchain/libs/community/tests/unit_tests/document_loaders/parsers/language）中创建 test_language.py。
- 按照 test_cpp.py 设置的示例为新语言中解析的元素建立基本测试。
集成到解析器和文本分割器:
- 在 language_parser.py 文件中合并您的新语言。确保更新 LANGUAGE_EXTENSIONS 和 LANGUAGE_SEGMENTERS 以及 LanguageParser 的文档字符串以识别和处理添加的语言。
- 此外，请确认您的语言包含在 text_splitter.py 中的 Language 类中，以便进行正确的解析。

通过遵循这些步骤并确保全面的测试和集成，您将成功使用 Tree-Sitter 模板扩展语言支持。

祝你好运！

文档加载器概念指南
文档加载器操作指南

源代码

分割

使用 Tree-sitter 模板添加语言

此页面是否有帮助？

您也可以留下详细的反馈在 GitHub 上.

源代码

分割​

使用 Tree-sitter 模板添加语言​

相关​

此页面是否有帮助？

您也可以留下详细的反馈 在 GitHub 上.

分割

使用 Tree-sitter 模板添加语言

相关

您也可以留下详细的反馈在 GitHub 上.