)
快速入门快速启动评估在几分钟内开始使用 Ragas。只需几个命令即可创建完整的评估项目。步骤 1创建项目选择以下方法之一1、uvx推荐无需安装。uvx 会自动下载并运行 ragasuvx ragas quickstart rag_evalcdrag_eval2、先安装 Ragas先安装 ragas然后创建项目pip install ragas ragas quickstart rag_eval cd rag_eval步骤 2安装依赖安装项目依赖uvsync或者如果您更喜欢使用 pippip install-e.步骤 3设置 API 密钥默认情况下快速入门示例使用 OpenAI。设置您的 API 密钥即可开始使用。您也可以通过少量更改使用其他提供商1、OpenAI默认exportOPENAI_API_KEYyour-openai-key2、Anthropic Claude设置您的 Anthropic API 密钥exportANTHROPIC_API_KEYyour-anthropic-key然后在 evals.py 中更新 LLM 初始化fromanthropicimportAnthropicfromragas.llmsimportllm_factory clientAnthropic(api_keyos.environ.get(ANTHROPIC_API_KEY))llmllm_factory(claude-3-5-sonnet-20241022,provideranthropic,clientclient)3、Google Gemini设置您的 Google 凭据exportGOOGLE_API_KEYyour-google-api-key然后在 evals.py 中更新 LLM 初始化选项 1使用 Google 官方库推荐importgoogle.generativeai as genai from ragas.llmsimportllm_factory genai.configure(api_keyos.environ.get(GOOGLE_API_KEY))clientgenai.GenerativeModel(gemini-2.0-flash)llmllm_factory(gemini-2.0-flash,providergoogle,clientclient)# Adapter is auto-detected as litellm for google provider更多 Gemini 选项和详细设置请参阅 Google Gemini 集成指南。4、本地模型Ollama在本地安装并运行 Ollama然后在 evals.py 中更新 LLM 初始化fromopenaiimportOpenAIfromragas.llmsimportllm_factory# Create an OpenAI-compatible client for OllamaclientOpenAI(api_keyollama,# Ollama doesnt require a real keybase_urlhttp://localhost:11434/v1)llmllm_factory(mistral,provideropenai,clientclient)5、自定义/其他提供商对于任何具有 OpenAI 兼容 API 的 LLMfromopenaiimportOpenAIfromragas.llmsimportllm_factory clientOpenAI(api_keyyour-api-key,base_urlhttps://your-api-endpoint)llmllm_factory(model-name,provideropenai,clientclient)有关更多详细信息请了解 LLM 集成。项目结构生成的项目包含rag_eval/ ├── README.md # Project documentation ├── pyproject.toml # Project configuration ├── rag.py # Your RAG application ├── evals.py # Evaluation workflow ├── __init__.py # Makes this a Python package └── evals/ ├── datasets/ # Test data files ├── experiments/ # Evaluation results └── logs/ # Execution logs步骤 4运行评估运行评估脚本uv run python evals.py或者如果您使用 pip 安装python evals.py评估将从 evals.py 中的 load_dataset() 函数加载测试数据使用测试问题查询您的 RAG 应用评估响应在控制台显示结果将结果保存到 CSV 文件位于 evals/experiments/ 目录恭喜您已成功运行完整的评估设置。自定义评估添加更多测试用例编辑 evals.py 中的 load_dataset() 函数以添加更多测试问题fromragasimportDatasetdefload_dataset():Load test dataset for evaluation.datasetDataset(nametest_dataset,backendlocal/csv,root_dir.,)data_samples[{question:What is Ragas?,grading_notes:Ragas is an evaluation framework for LLM applications,},{question:How do metrics work?,grading_notes:Metrics evaluate the quality and performance of LLM responses,},# Add more test cases here]forsampleindata_samples:dataset.append(sample)dataset.save()returndataset自定义评估指标模板包含用于自定义评估逻辑的 DiscreteMetric。您可以通过以下方式自定义评估1、修改指标提示- 更改评估标准2、调整允许值- 更新有效的输出类别3、添加更多指标- 为不同方面创建额外指标修改指标的示例fromragas.metricsimportDiscreteMetricfromragas.llmsimportllm_factory my_metricDiscreteMetric(namecustom_evaluation,promptEvaluate this response: {response} based on: {context}. Return excellent, good, or poor.,allowed_values[excellent,good,poor],)下一步学习概念阅读评估简单 LLM 应用指南以深入了解自定义指标使用简单的装饰器创建您自己的指标生产集成将评估集成到您的 CI/CD 管道中RAG 评估使用专门的指标评估 RAG 系统智能体评估探索 AI 智能体评估测试数据生成为您的评估生成合成测试数据集获取帮助 完整文档 加入我们的 Discord 社区 报告问题