Gen AI Evaluation Service 概览 (original) (raw)

Gen AI Evaluation Service 提供企业级工具,可对生成式 AI 模型进行客观、数据驱动的评估。它支持并指导多项开发任务,例如模型迁移、提示编辑和微调。

Gen AI Evaluation Service 功能

Gen AI Evaluation Service 的一个显著特点是能够使用自适应评分准则,这是一组针对每个提示量身定制的通过或未通过测试。评估评分准则类似于软件开发中的单元测试,旨在提高模型在各种任务中的性能。

Gen AI Evaluation Service 功能

Gen AI Evaluation Service 支持以下常见评估方法:

生成评估数据集

您可以通过以下方法创建评估数据集:

支持的接口

您可以使用以下界面定义和运行评估:

使用场景

借助 Gen AI Evaluation Service,您可以了解模型在特定任务中以及根据您的独特标准表现如何,从而获得无法从公开排行榜和一般基准中获得的宝贵分析洞见。这有助于完成关键的开发任务,包括:

评估工作流

完成评估通常需要执行以下步骤:

评估指标

以下是与评估指标相关的核心概念:

Gen AI Evaluation Service 提供以下类别的指标:

自适应评分准则示例

每个提示的评估流程都使用两步系统:

  1. 评分准则生成:该服务首先会分析您的提示,然后生成一份具体且可验证的测试列表(即评分准则),以确定优质回答应满足哪些条件。
  2. 评分准则验证:模型生成回答后,该服务会根据每条评分准则评估回答,并提供清晰的 PassFail 判定和理由。

最终结果是汇总的通过率,以及模型通过的各项评分标准的详细细分,可为您提供切实可行的分析洞见,帮助您诊断问题并衡量改进效果。

通过从宏观的主观评分转变为细化的客观测试结果,您可以采用评估驱动型开发周期,并将软件工程最佳实践应用于构建生成式 AI 应用的流程。

以下示例展示了为一组提示生成的自适应评分准则示例:

用户提示Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.

对于此提示,生成评分准则这一步可能会生成以下评分准则:

模型可能会生成以下回答:The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.

在评分准则验证期间,Gen AI Evaluation Service 会根据每个评分准则评估回答:

此回答的最终通过率为 66.7%。如需比较两个模型,您可以针对同一组生成的测试评估它们的回答,并比较它们的总体通过率。

评估入门

您可以使用控制台开始评估。

或者,以下代码展示了如何使用 Agent Platform SDK 中的生成式 AI 客户端完成评估:

from vertexai import Client
from vertexai import types
import pandas as pd

client = Client(project=PROJECT_ID, location=LOCATION)

# Create an evaluation dataset
prompts_df = pd.DataFrame({
    "prompt": [
        "Write a simple story about a dinosaur",
        "Generate a poem about Agent Platform",
    ],
})

# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)

# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.RubricMetric.GENERAL_QUALITY]
)

# View the evaluation results
eval_result.show()

Gen AI Evaluation Service 提供两种Agent Platform SDK 接口:

支持的区域

Gen AI Evaluation Service 支持以下区域:

可用的笔记本

笔记本链接 说明
使用入门:快速 Gen AI 评估 简要介绍了 Gen AI Evaluation Service。
使用 Gen AI Evaluation Service 评估第三方模型 演示了如何使用 **Agent Platform SDK** 评估各种类型的第三方模型,包括通过 API(如 OpenAI、Anthropic)访问的模型、Vertex Model Garden 中的模型即服务 (MaaS) 以及自带模型 (BYOM) 端点。
使用 Gen AI Evaluation Service 进行模型迁移 展示了如何使用 **Agent Platform SDK** for Gen AI Evaluation Service 比较两个第一方模型(例如 Gemini 2.0 Flash 与 Gemini 2.5 Flash)。它重点介绍了如何使用预定义的基于自适应评分准则的指标,以及评估结果如何指导提示优化。此外,本笔记本还介绍了多候选评估、笔记本内可视化和异步批量评估等关键功能。
使用 Gen AI Evaluation Service 评估文生图质量 展示了如何使用适用于 Gen AI Evaluation Service 的 Vertex AI SDK 根据文本提示评估生成的图片的质量。它演示了如何使用预定义的基于自适应评分准则的 Gecko 指标。
使用 Gen AI Evaluation Service 评估文生视频质量 展示了如何使用适用于 Gen AI Evaluation Service 的 **Agent Platform SDK** 根据文本提示评估生成的视频的质量。它演示了如何使用预定义的基于自适应评分准则的 Gecko 指标。

后续步骤