源代码
本笔记本介绍了如何使用一种特殊的方法(使用语言解析)加载源代码文件:代码中的每个顶级函数和类都加载到单独的文档中。任何剩余的顶级代码(在已经加载的函数和类之外)将加载到单独的文档中。
这种方法有可能提高 QA 模型对源代码的准确性。
支持代码解析的语言包括:
- C (*)
- C++ (*)
- C# (*)
- COBOL
- Elixir
- Go (*)
- Java (*)
- JavaScript(需要
esprima
包) - Kotlin (*)
- Lua (*)
- Perl (*)
- Python
- Ruby (*)
- Rust (*)
- Scala (*)
- TypeScript (*)
标有 (*) 的项目需要 tree_sitter
和 tree_sitter_languages
包。使用 tree_sitter
添加对其他语言的支持非常简单,尽管这目前需要修改 LangChain。
用于解析的语言可以配置,以及激活基于语法的拆分的最小行数。
如果未显式指定语言,则 LanguageParser
将从文件名扩展名(如果存在)推断一个语言。
%pip install -qU esprima esprima tree_sitter tree_sitter_languages
import warnings
warnings.filterwarnings("ignore")
from pprint import pprint
from langchain_community.document_loaders.generic import GenericLoader
from langchain_community.document_loaders.parsers import LanguageParser
from langchain_text_splitters import Language
loader = GenericLoader.from_filesystem(
"./example_data/source_code",
glob="*",
suffixes=[".py", ".js"],
parser=LanguageParser(),
)
docs = loader.load()
len(docs)
6
for document in docs:
pprint(document.metadata)
{'content_type': 'functions_classes',
'language': <Language.PYTHON: 'python'>,
'source': 'example_data/source_code/example.py'}
{'content_type': 'functions_classes',
'language': <Language.PYTHON: 'python'>,
'source': 'example_data/source_code/example.py'}
{'content_type': 'simplified_code',
'language': <Language.PYTHON: 'python'>,
'source': 'example_data/source_code/example.py'}
{'content_type': 'functions_classes',
'language': <Language.JS: 'js'>,
'source': 'example_data/source_code/example.js'}
{'content_type': 'functions_classes',
'language': <Language.JS: 'js'>,
'source': 'example_data/source_code/example.js'}
{'content_type': 'simplified_code',
'language': <Language.JS: 'js'>,
'source': 'example_data/source_code/example.js'}
print("\n\n--8<--\n\n".join([document.page_content for document in docs]))
class MyClass:
def __init__(self, name):
self.name = name
def greet(self):
print(f"Hello, {self.name}!")
--8<--
def main():
name = input("Enter your name: ")
obj = MyClass(name)
obj.greet()
--8<--
# Code for: class MyClass:
# Code for: def main():
if __name__ == "__main__":
main()
--8<--
class MyClass {
constructor(name) {
this.name = name;
}
greet() {
console.log(`Hello, ${this.name}!`);
}
}
--8<--
function main() {
const name = prompt("Enter your name:");
const obj = new MyClass(name);
obj.greet();
}
--8<--
// Code for: class MyClass {
// Code for: function main() {
main();
解析器可以禁用以用于小型文件。
参数 parser_threshold
指示源代码文件必须具有的最小行数,以使用解析器进行分段。
loader = GenericLoader.from_filesystem(
"./example_data/source_code",
glob="*",
suffixes=[".py"],
parser=LanguageParser(language=Language.PYTHON, parser_threshold=1000),
)
docs = loader.load()
len(docs)
1
print(docs[0].page_content)
class MyClass:
def __init__(self, name):
self.name = name
def greet(self):
print(f"Hello, {self.name}!")
def main():
name = input("Enter your name: ")
obj = MyClass(name)
obj.greet()
if __name__ == "__main__":
main()
拆分
对于那些太大而无法分解的函数、类或脚本,可能需要额外的拆分。
loader = GenericLoader.from_filesystem(
"./example_data/source_code",
glob="*",
suffixes=[".js"],
parser=LanguageParser(language=Language.JS),
)
docs = loader.load()
from langchain_text_splitters import (
Language,
RecursiveCharacterTextSplitter,
)
API 参考:Language | RecursiveCharacterTextSplitter
js_splitter = RecursiveCharacterTextSplitter.from_language(
language=Language.JS, chunk_size=60, chunk_overlap=0
)
result = js_splitter.split_documents(docs)
len(result)
7
print("\n\n--8<--\n\n".join([document.page_content for document in result]))
class MyClass {
constructor(name) {
this.name = name;
--8<--
}
--8<--
greet() {
console.log(`Hello, ${this.name}!`);
}
}
--8<--
function main() {
const name = prompt("Enter your name:");
--8<--
const obj = new MyClass(name);
obj.greet();
}
--8<--
// Code for: class MyClass {
// Code for: function main() {
--8<--
main();
使用 Tree-sitter 模板添加语言
使用 Tree-sitter 模板扩展语言支持涉及几个基本步骤
- 创建新的语言文件:
- 首先在指定目录(langchain/libs/community/langchain_community/document_loaders/parsers/language)中创建一个新文件。
- 根据现有语言文件(如
cpp.py
)的结构和解析逻辑对该文件进行建模。 - 您还需要在 langchain 目录(langchain/libs/langchain/langchain/document_loaders/parsers/language)中创建一个文件。
- 解析语言的细节:
- 模仿
cpp.py
文件中使用的结构,将其调整以适合您要合并的语言。 - 主要更改涉及调整块查询数组以适应您正在解析的语言的语法和结构。
- 模仿
- 测试语言解析器:
- 为了进行彻底的验证,生成一个特定于新语言的测试文件。在指定目录(langchain/libs/community/tests/unit_tests/document_loaders/parsers/language)中创建
test_language.py
。 - 遵循
test_cpp.py
设置的示例来为新语言中解析的元素建立基本测试。
- 为了进行彻底的验证,生成一个特定于新语言的测试文件。在指定目录(langchain/libs/community/tests/unit_tests/document_loaders/parsers/language)中创建
- 集成到解析器和文本拆分器中:
- 将您的新语言合并到
language_parser.py
文件中。确保更新 LANGUAGE_EXTENSIONS 和 LANGUAGE_SEGMENTERS,以及 LanguageParser 的文档字符串以识别和处理添加的语言。 - 此外,确认您的语言包含在
text_splitter.py
中的 Language 类中,以便正确解析。
- 将您的新语言合并到
通过遵循这些步骤并确保全面测试和集成,您将成功地使用 Tree-sitter 模板扩展语言支持。
祝您好运!