评估
评估是评估由 LLM 驱动的应用程序的性能和有效性的过程。 它涉及根据一组预定义的标准或基准测试模型的响应,以确保它满足所需的质量标准并实现预期目的。 此过程对于构建可靠的应用程序至关重要。
LangSmith 通过以下几种方式帮助完成此过程
- 通过其追踪和注释功能,可以更轻松地创建和管理数据集
- 它提供了一个评估框架,可帮助您定义指标并针对数据集运行您的应用
- 它允许您随着时间的推移跟踪结果,并自动按计划或作为 CI/代码的一部分运行评估器
要了解更多信息,请查看此 LangSmith 指南。