基准测试模板 #
基准测试模板 Benchmarking Template
这是一个示例笔记本,可用于为您选择的任务创建基准测试笔记本。评估真的很难,所以我们非常欢迎任何可以让人们更容易进行实验的贡献
强烈建议您在启用跟踪的情况下进行任何评估/基准测试。请参阅此处here (opens in a new tab) 了解什么是跟踪以及如何设置它。
# Comment this out if you are NOT using tracing
import os
os.environ["LANGCHAIN_HANDLER"] = "langchain"
加载数据 Loading the data #
首先,让我们加载数据。
# This notebook should so how to load the dataset from LangChainDatasets on Hugging Face
# Please upload your dataset to https://huggingface.co/LangChainDatasets
# The value passed into `load_dataset` should NOT have the `LangChainDatasets/` prefix
from langchain.evaluation.loading import load_dataset
dataset = load_dataset("TODO")
设置链 Setting up a chain #
下一节应该有一个设置可以在此数据集上运行的链的示例。
预测 Make a prediction #
首先,我们可以一次预测一个数据点。在这种粒度级别上执行此操作允许use详细地探索输出,而且比在多个数据点上运行要便宜得多
# Example of running the chain on a single datapoint (`dataset[0]`) goes here
做很多预测 Make many predictions #
现在我们可以做出预测
# Example of running the chain on many predictions goes here
# Sometimes its as simple as `chain.apply(dataset)`
# Othertimes you may want to write a for loop to catch errors
评估性能 Evaluate performance #
任何以更系统的方式评估绩效的指南都在这里。