跳到主要内容

Google 语音转文本音频转录

SpeechToTextLoader 允许使用 谷歌云语音转文本 API 转录音频文件,并将转录的文本加载到文档中。

要使用它,您应该安装 google-cloud-speech Python 包,并且拥有一个启用了 语音转文本 API 的谷歌云项目。

安装 & 设置

首先,您需要安装 google-cloud-speech Python 包。

您可以在 语音转文本客户端库页面上找到更多信息。

请按照谷歌云文档中的快速入门指南创建一个项目并启用 API。

%pip install --upgrade --quiet langchain-google-community[speech]

示例

SpeechToTextLoader 必须包含 project_idfile_path 参数。音频文件可以指定为谷歌云存储 URI (gs://...) 或本地文件路径。

加载器仅支持同步请求,每个音频文件有 60 秒或 10MB 的限制

from langchain_google_community import SpeechToTextLoader

project_id = "<PROJECT_ID>"
file_path = "gs://cloud-samples-data/speech/audio.flac"
# or a local file path: file_path = "./audio.wav"

loader = SpeechToTextLoader(project_id=project_id, file_path=file_path)

docs = loader.load()

注意:调用 loader.load() 会阻塞,直到转录完成。

转录的文本在 page_content 中可用

docs[0].page_content
"How old is the Brooklyn Bridge?"

metadata 包含带有更多元信息的完整 JSON 响应

docs[0].metadata
{
'language_code': 'en-US',
'result_end_offset': datetime.timedelta(seconds=1)
}

识别配置

您可以指定 config 参数来使用不同的语音识别模型并启用特定功能。

请参阅 语音转文本识别器文档RecognizeRequest API 参考,以获取有关如何设置自定义配置的信息。

如果您未指定 config,则将自动选择以下选项

from google.cloud.speech_v2 import (
AutoDetectDecodingConfig,
RecognitionConfig,
RecognitionFeatures,
)
from langchain_google_community import SpeechToTextLoader

project_id = "<PROJECT_ID>"
location = "global"
recognizer_id = "<RECOGNIZER_ID>"
file_path = "./audio.wav"

config = RecognitionConfig(
auto_decoding_config=AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="long",
features=RecognitionFeatures(
enable_automatic_punctuation=False,
profanity_filter=True,
enable_spoken_punctuation=True,
enable_spoken_emojis=True,
),
)

loader = SpeechToTextLoader(
project_id=project_id,
location=location,
recognizer_id=recognizer_id,
file_path=file_path,
config=config,
)

此页是否对您有帮助?