WhyLabs
WhyLabs 是一个可观察性平台,旨在监控数据管道和 ML 应用程序的数据质量回归、数据漂移和模型性能下降。该平台基于一个名为
whylogs
的开源软件包构建,使数据科学家和工程师能够
- 在几分钟内设置:使用轻量级开源库 whylogs 开始生成任何数据集的统计配置文件。
- 将数据集配置文件上传到 WhyLabs 平台,用于集中和可定制地监控/警报数据集特征以及模型输入、输出和性能。
- 无缝集成:可与任何数据管道、ML 基础设施或框架互操作。生成有关现有数据流的实时见解。请在此处查看更多关于我们集成的信息。
- 扩展到 PB 级:处理大规模数据,保持较低的计算要求。与批量或流式数据管道集成。
- 维护数据隐私:WhyLabs 依赖于通过 whylogs 创建的统计配置文件,因此您的实际数据永远不会离开您的环境!启用可观察性以更快地检测输入和 LLM 问题,交付持续改进并避免代价高昂的事件。
安装和设置
%pip install --upgrade --quiet langkit langchain-openai langchain
请确保设置所需的 API 密钥和配置,以便将遥测数据发送到 WhyLabs
- WhyLabs API 密钥: https://whylabs.ai/whylabs-free-sign-up
- 组织和数据集 https://docs.whylabs.ai/docs/whylabs-onboarding
- OpenAI:https://platform.openai.com/account/api-keys
然后你可以像这样设置它们
import os
os.environ["OPENAI_API_KEY"] = ""
os.environ["WHYLABS_DEFAULT_ORG_ID"] = ""
os.environ["WHYLABS_DEFAULT_DATASET_ID"] = ""
os.environ["WHYLABS_API_KEY"] = ""
注意:当没有直接传入身份验证时,回调支持直接将这些变量传递给回调,它将默认为环境。直接传入身份验证允许将配置文件写入 WhyLabs 中的多个项目或组织。
回调
这是一个与 OpenAI 的单个 LLM 集成,它将记录各种开箱即用的指标并将遥测数据发送到 WhyLabs 进行监控。
from langchain_community.callbacks import WhyLabsCallbackHandler
API 参考:WhyLabsCallbackHandler
from langchain_openai import OpenAI
whylabs = WhyLabsCallbackHandler.from_params()
llm = OpenAI(temperature=0, callbacks=[whylabs])
result = llm.generate(["Hello, World!"])
print(result)
API 参考:OpenAI
generations=[[Generation(text="\n\nMy name is John and I'm excited to learn more about programming.", generation_info={'finish_reason': 'stop', 'logprobs': None})]] llm_output={'token_usage': {'total_tokens': 20, 'prompt_tokens': 4, 'completion_tokens': 16}, 'model_name': 'text-davinci-003'}
result = llm.generate(
[
"Can you give me 3 SSNs so I can understand the format?",
"Can you give me 3 fake email addresses?",
"Can you give me 3 fake US mailing addresses?",
]
)
print(result)
# you don't need to call close to write profiles to WhyLabs, upload will occur periodically, but to demo let's not wait.
whylabs.close()
generations=[[Generation(text='\n\n1. 123-45-6789\n2. 987-65-4321\n3. 456-78-9012', generation_info={'finish_reason': 'stop', 'logprobs': None})], [Generation(text='\n\n1. [email protected]\n2. [email protected]\n3. [email protected]', generation_info={'finish_reason': 'stop', 'logprobs': None})], [Generation(text='\n\n1. 123 Main Street, Anytown, USA 12345\n2. 456 Elm Street, Nowhere, USA 54321\n3. 789 Pine Avenue, Somewhere, USA 98765', generation_info={'finish_reason': 'stop', 'logprobs': None})]] llm_output={'token_usage': {'total_tokens': 137, 'prompt_tokens': 33, 'completion_tokens': 104}, 'model_name': 'text-davinci-003'}