Gen AI Evaluation Service 概览 (original) (raw)

Gen AI Evaluation Service 提供企业级工具，可对生成式 AI 模型进行客观、数据驱动的评估。它支持并指导多项开发任务，例如模型迁移、提示编辑和微调。

Gen AI Evaluation Service 功能

Gen AI Evaluation Service 的一个显著特点是能够使用自适应评分准则，这是一组针对每个提示量身定制的通过或未通过测试。评估评分准则类似于软件开发中的单元测试，旨在提高模型在各种任务中的性能。

Gen AI Evaluation Service 功能

Gen AI Evaluation Service 支持以下常见评估方法：

自适应评分准则（推荐）：针对数据集中的每个提示生成一组独有的通过或未通过评分准则。
静态评分准则：对所有提示应用一组固定的评分标准。
基于计算的指标：当有标准答案时，使用 ROUGE 或 BLEU 等确定性算法。
自定义函数：在 Python 中定义您自己的评估逻辑，以满足特殊要求。

生成评估数据集

您可以通过以下方法创建评估数据集：

上传包含完整提示实例的文件，或提供提示模板以及相应的变量值文件来填充完整提示。
直接从生产日志中抽样，以评估模型的实际使用情况。
使用合成数据生成功能，为任何提示模板生成大量一致的示例。

支持的接口

您可以使用以下界面定义和运行评估：

Google Cloud 控制台：一种网页界面，可提供引导式端到端工作流程。管理数据集、运行评估，并深入了解互动式报告和可视化图表。请参阅使用控制台执行评估。
Python SDK：以编程方式运行评估，并直接在 Colab 或 Jupyter 环境中呈现并排模型比较结果。请参阅使用 Agent Platform SDK 中的生成式 AI 客户端执行评估

使用场景

借助 Gen AI Evaluation Service，您可以了解模型在特定任务中以及根据您的独特标准表现如何，从而获得无法从公开排行榜和一般基准中获得的宝贵分析洞见。这有助于完成关键的开发任务，包括：

模型迁移：比较模型版本，了解行为差异，并相应地调整提示和设置。
寻找最佳模型：对 Google 模型和第三方模型在您的数据上进行直接比较，以建立性能基准并确定最适合您的应用场景的模型。
提示改进：利用评估结果指导您的自定义工作。重新运行评估可形成紧密的反馈环，从而针对您的更改提供即时、可量化的反馈。
模型微调：对每次运行应用一致的评估标准，以评估微调后模型的质量。
智能体评估：使用智能体专用指标（例如智能体轨迹和回答质量）评估智能体的性能。

评估工作流

完成评估通常需要执行以下步骤：

创建评估数据集：汇集一个包含提示实例的数据集，以反映您的特定使用场景。如果您打算使用基于计算的指标，可以添加参考答案（标准答案）。
定义评估指标：选择要用于衡量模型性能的指标。
生成模型回答：选择一个或多个模型，为数据集生成回答。Agent Platform SDK 支持可通过 LiteLLM 调用的任何模型，而控制台支持 Google Gemini 模型。
运行评估：运行评估作业，该作业会根据您选择的指标评估每个模型的回答。
解读结果：查看汇总得分和各个回答，以分析模型性能。

评估指标

以下是与评估指标相关的核心概念：

评分准则：有关如何对 LLM 模型或应用的回答进行评分的标准。
指标：根据评分准则衡量模型输出的得分。

Gen AI Evaluation Service 提供以下类别的指标：

基于评分准则的指标：将 LLM 纳入评估工作流，以评估模型回答的质量。基于评分准则的评估适用于各种任务，尤其是写作质量、安全性和指令遵从（这些方面通常难以使用确定性算法进行评估）。
- 自适应评分准则（推荐）：系统会针对每个提示动态生成评分准则，类似于单元测试。系统会针对数据集中的每个提示，使用一组独有的通过或未通过测试来评估回答。评分准则可确保评估与所请求的任务相关，旨在提供客观、可解释且一致的结果。
  自适应评分标准通常是开始评估的最快方式，可确保每次评估都与所评估的特定任务相关。
- 静态评分准则：明确定义评分准则，并对所有提示应用相同的评分准则。系统会使用同一组基于数值评分的评估器来评估回答。每个提示对应一个数值得分（例如 1-5 分）。如果需要针对非常具体的维度进行评估，或者需要对所有提示使用完全相同的评分准则，请使用静态评分准则。
基于计算的指标：使用确定性算法评估回答（通常使用标准答案）。每个提示的数值分数（例如 0.0-1.0）。适用于有标准答案可用且可以通过确定性方法进行匹配的情况。
自定义函数指标（仅限 Agent Platform SDK）：通过 Python 函数定义您自己的指标。

自适应评分准则示例

每个提示的评估流程都使用两步系统：

评分准则生成：该服务首先会分析您的提示，然后生成一份具体且可验证的测试列表（即评分准则），以确定优质回答应满足哪些条件。
评分准则验证：模型生成回答后，该服务会根据每条评分准则评估回答，并提供清晰的 Pass 或 Fail 判定和理由。

最终结果是汇总的通过率，以及模型通过的各项评分标准的详细细分，可为您提供切实可行的分析洞见，帮助您诊断问题并衡量改进效果。

通过从宏观的主观评分转变为细化的客观测试结果，您可以采用评估驱动型开发周期，并将软件工程最佳实践应用于构建生成式 AI 应用的流程。

以下示例展示了为一组提示生成的自适应评分准则示例：

用户提示：Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.

对于此提示，生成评分准则这一步可能会生成以下评分准则：

评分标准 1：回答是所提供文章的摘要。
评分准则 2：回答包含正好四个句子。
评分准则 3：回答保持乐观的语气。

模型可能会生成以下回答：The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.

在评分准则验证期间，Gen AI Evaluation Service 会根据每个评分准则评估回答：

评分标准 1：回答是所提供文章的摘要。
- 判定：Pass
- 原因：回答准确总结了要点。
评分准则 2：回答包含正好四个句子。
- 判定：Pass
- 原因：回答由四个不同的句子组成
评分准则 3：回答保持乐观的语气。
- 判定：Fail
- 原因：最后一句话引入了负面观点，削弱了乐观的语气。

此回答的最终通过率为 66.7%。如需比较两个模型，您可以针对同一组生成的测试评估它们的回答，并比较它们的总体通过率。

评估入门

您可以使用控制台开始评估。

或者，以下代码展示了如何使用 Agent Platform SDK 中的生成式 AI 客户端完成评估：

from vertexai import Client
from vertexai import types
import pandas as pd

client = Client(project=PROJECT_ID, location=LOCATION)

# Create an evaluation dataset
prompts_df = pd.DataFrame({
    "prompt": [
        "Write a simple story about a dinosaur",
        "Generate a poem about Agent Platform",
    ],
})

# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)

# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.RubricMetric.GENERAL_QUALITY]
)

# View the evaluation results
eval_result.show()

Gen AI Evaluation Service 提供两种Agent Platform SDK 接口：

Agent Platform SDK 中的生成式 AI 客户端（推荐）（预览版）
from vertexai import client
生成式 AI 客户端是用于评估的更新、推荐的接口，可通过统一的客户端类进行访问。它支持所有评估方法，专为包含模型比较、笔记本内可视化和模型自定义分析洞见的工作流而设计。
Agent Platform SDK 中的评估模块（正式版）
from vertexai.evaluation import EvalTask
评估模块是旧版接口，为了与现有工作流保持向后兼容性而进行维护，但不再处于积极开发阶段。可通过 EvalTask 类访问。此方法支持标准 LLM-as-a-judge 和基于计算的指标，但不支持自适应评分标准等较新的评估方法。

支持的区域

Gen AI Evaluation Service 支持以下区域：

爱荷华 (us-central1)
南卡罗来纳 (us-east1)
北弗吉尼亚 (us-east4)
俄亥俄州哥伦布 (us-east5)
德克萨斯州达拉斯 (us-south1)
俄勒冈 (us-west1)
内华达州，拉斯维加斯 (us-west4)
波兰华沙 (europe-central2)
芬兰 (europe-north1)
西班牙马德里 (europe-southwest1)
比利时 (europe-west1)
荷兰 (europe-west4)
意大利米兰 (europe-west8)
法国巴黎 (europe-west9)
全球支持专线（global）

可用的笔记本

笔记本链接	说明
使用入门：快速 Gen AI 评估	简要介绍了 Gen AI Evaluation Service。
使用 Gen AI Evaluation Service 评估第三方模型	演示了如何使用 Agent Platform SDK 评估各种类型的第三方模型，包括通过 API（如 OpenAI、Anthropic）访问的模型、Vertex Model Garden 中的模型即服务 (MaaS) 以及自带模型 (BYOM) 端点。
使用 Gen AI Evaluation Service 进行模型迁移	展示了如何使用 Agent Platform SDK for Gen AI Evaluation Service 比较两个第一方模型（例如 Gemini 2.0 Flash 与 Gemini 2.5 Flash）。它重点介绍了如何使用预定义的基于自适应评分准则的指标，以及评估结果如何指导提示优化。此外，本笔记本还介绍了多候选评估、笔记本内可视化和异步批量评估等关键功能。
使用 Gen AI Evaluation Service 评估文生图质量	展示了如何使用适用于 Gen AI Evaluation Service 的 Vertex AI SDK 根据文本提示评估生成的图片的质量。它演示了如何使用预定义的基于自适应评分准则的 Gecko 指标。
使用 Gen AI Evaluation Service 评估文生视频质量	展示了如何使用适用于 Gen AI Evaluation Service 的 Agent Platform SDK 根据文本提示评估生成的视频的质量。它演示了如何使用预定义的基于自适应评分准则的 Gecko 指标。

Gen AI Evaluation Service 概览 (original) (raw)

Gen AI Evaluation Service 功能

生成评估数据集

支持的接口

使用场景

评估工作流

评估指标

自适应评分准则示例

评估入门

支持的区域

可用的笔记本

后续步骤