Evaluación de modelos en Agent Platform (original) (raw)

El servicio de evaluación de IA de inferencia te permite evaluar el rendimiento de un modelo en diversos casos de uso específicos. La evaluación también puede denominarse observabilidad del rendimiento de un modelo. La evaluación del modelo que proporciona Agent Platform puede ajustarse al flujo de trabajo típico del aprendizaje automático de varias maneras:

Después de entrenar el modelo, revisa las métricas de evaluación del modelo antes de implementarlo. Compara las métricas de evaluación en varios modelos para ayudarte a decidir qué modelo implementar.
Después de implementar el modelo en producción, evalúalo periódicamente con datos entrantes nuevos. Si las métricas de evaluación muestran que el rendimiento de tu modelo se está degradando, considera volver a entrenar tu modelo. Este proceso se denomina evaluación continua.

La forma de interpretar y usar estas métricas depende de las necesidades de su empresa y del problema para el que entrenó tu modelo. Por ejemplo, es posible que tengas una tolerancia más baja para los falsos positivos que para los falsos negativos, o viceversa. Estos tipos de preguntas afectan las métricas en las que te enfocarás a medida que iteras en el modelo.

Estas son algunas de las métricas clave que ofrece el servicio de evaluación de modelos de IA predictiva:

Funciones

Para evaluar un modelo con Agent Platform, necesitas un modelo entrenado, un resultado de inferencia por lotes y un conjunto de datos de verdad fundamental. El siguiente es un flujo de trabajo típico de evaluación de modelos que usa Agent Platform:

Entrena un modelo. Puedes hacerlo en Gemini Enterprise Agent Platform con AutoML o el entrenamiento personalizado.
Ejecuta un trabajo de inferencia por lotes en el modelo para generar resultados de inferencia.
Prepara los datos de verdad fundamental, que son los datos “etiquetados de forma correcta” según lo que determinen las personas. La verdad fundamental suele ser el conjunto de datos de prueba que usaste durante el proceso de entrenamiento de modelos.
Ejecuta un trabajo de evaluación en el modelo, que evalúa la exactitud de los resultados de la inferencia por lotes en comparación con los datos de verdad fundamental.
Analiza las métricas que resultan del trabajo de evaluación.
Itera en tu modelo para ver si puedes mejorar la exactitud de tu modelo. Puedes ejecutar varios trabajos de evaluación y comparar los resultados de varios trabajos en los modelos o versiones de modelos.

Puedes ejecutar la evaluación de modelos en Agent Platform de varias maneras:

Crea evaluaciones a través de Gemini Enterprise Agent Platform Model Registry en la Google Cloud consola.
Usa evaluaciones de modelo de Agent Platform como uncomponente de canalización con Gemini Enterprise Agent Platform Pipelines. Puedes crear ejecuciones de canalizaciones y plantillas que incluyan evaluaciones de modelos como parte de tu flujo de trabajo automatizado de MLOps.
Puedes ejecutar el componente de evaluación del modelo por sí solo o con otros componentes de canalización, como el componente de inferencia por lotes.

Agent Platform admite la evaluación de los siguientes tipos de modelos:

Imagen

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
Pérdida logística: La entropía cruzada entre las inferencias del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
Umbral de confianza: Una puntuación de confianza que determina qué inferencias mostrar. Un modelo muestra inferencias que tienen este valor o uno superior. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Agent Platform muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afectala precisiónyla recuperación.
Recuperación: La fracción de inferencias con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
Precisión: La fracción de inferencias de clasificación correctas que produjo el modelo.
Matriz de confusión: Unamatriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.

Tabular

Clasificación

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: el área bajo la curva de precisión y recuperación (PR), también conocida como precisión promedio. Esta medida puede variar de cero a uno y, cuanto más alto sea su valor, mejor será la calidad del modelo.
AuROC: El área bajo la curva de característica operativa del receptor. Esta puede variar de cero a uno y cuanto más alto sea su valor, mejor será la calidad del modelo.
Pérdida logística: La entropía cruzada entre las inferencias del modelo y los valores objetivo. Esta medida puede variar de cero a infinito y, cuanto más bajo sea su valor, mejor será la calidad del modelo.
Umbral de confianza: Una puntuación de confianza que determina qué inferencias mostrar. Un modelo muestra inferencias que tienen este valor o uno superior. Un umbral de confianza mayor aumenta la precisión, pero reduce la recuperación. Agent Platform muestra métricas de confianza con diferentes valores de umbral para mostrar cómo el umbral afectala precisiónyla recuperación.
Recuperación: La fracción de inferencias con esta clase que el modelo predijo de forma correcta. También se denomina tasa de verdaderos positivos.
Recuperación a 1: La recuperación (tasa de verdaderos positivos) cuando solo se considera la etiqueta que tiene la puntuación de inferencia más alta y no el nivel de confianza de cada ejemplo.
Precisión: La fracción de inferencias de clasificación correctas que produjo el modelo.
Precisión en 1: La precisión solo cuando se considera la etiqueta que tiene la puntuación de inferencia más alta y no está debajo del umbral de confianza para cada ejemplo.
Puntuación F1: La media armónica de precisión y recuperación. F1 es una métrica útil si lo que buscas es un equilibrio entre la precisión y la recuperación, y tienes una distribución de clases despareja.
Puntuación F1 en 1: La media armónica de recuperación en 1 y precisión en 1.
Matriz de confusión: Una matriz de confusión muestra la frecuencia con la que un modelo predijo correctamente un resultado. Para resultados previstos de forma incorrecta, la matriz muestra lo que el modelo predijo en su lugar. La matriz de confusión te ayuda a comprender dónde tu modelo "confunde" dos resultados.
Conteo de verdaderos negativos: la cantidad de veces que un modelo predijo correctamente una clase negativa.
Recuento de verdaderos positivos: La cantidad de veces que un modelo predijo de forma correcta una clase positiva.
Recuento de falsos negativos: La cantidad de veces que un modelo predijo de forma incorrecta una clase negativa.
Recuento de falsos positivos: La cantidad de veces que un modelo predijo de forma incorrecta una clase positiva.
Tasa de falsos positivos: La fracción de resultados previstos de forma incorrecta de todos los resultados previstos.
Tasa de falsos positivos en 1: Tasa de falsos positivos cuando solo se considera la etiqueta que tiene la puntuación más alta de la inferencia y no está debajo del umbral de confianza de cada ejemplo.
**Atribución de atributos del modelo:**Agent Platform te muestra cuánto afecta cada atributo a un modelo. Los valores se proporcionan como un porcentaje para cada atributo: cuanto más alto sea el porcentaje, más impacto tendrá el atributo en el entrenamiento de modelos. Revisa esta información para asegurarte de que todos los atributos más importantes sean relevantes para tus datos y tu problema empresarial.

Regresión

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: El error absoluto promedio (MAE) es la diferencia absoluta promedio entre los valores objetivo y los valores previstos. Esta métrica puede variar de cero a infinito, y cuanto más bajo sea el valor, mejor será la calidad del modelo.
RMSE: El error de la raíz cuadrada de la media es la raíz cuadrada de la diferencia cuadrada promedio entre los valores objetivo y previsto. RMSE es más sensible a los valores atípicos que MAE, por lo que si te preocupan los grandes errores, RMSE puede ser una métrica más útil para evaluar. Al igual que MAE, cuanto más bajo el valor, mayor será la calidad del modelo (0 representa un predictor perfecto).
RMSLE: La métrica del error logarítmico de la raíz cuadrada de la media es similar a RMSE, excepto que usa el logaritmo natural de los valores previstos y reales más 1. La RMSLE penaliza con mayor peso la subinferencia que la sobreinferencia. También puede ser una buena métrica cuando no quieres penalizar las diferencias para valores de inferencia grandes con más peso que para valores de inferencia pequeños. Esta métrica puede variar de cero a infinito y, cuanto más bajo sea el valor, mejor será la calidad del modelo. La métrica de evaluación RMSLE se muestra solo si todos los valores previstos y las etiquetas no son negativos.
r^2: r al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre las etiquetas y los valores previstos. Esta métrica puede variar entre cero y uno. Un valor más alto indica un ajuste más cercano a la línea de regresión.
MAPE: El error porcentual absoluto promedio (MAPE) es el promedio de la diferencia porcentual absoluta entre los valores previstos y las etiquetas. Esta métrica puede variar entre cero y un valor infinito; cuanto más bajo sea el valor, mejor será la calidad del modelo.
MAPE no se muestra si la columna objetivo contiene valores 0. En este caso, MAPE no está definido.
**Atribución de atributos del modelo:**Agent Platform te muestra cuánto afecta cada atributo a un modelo. Los valores se proporcionan como un porcentaje para cada atributo: cuanto más alto sea el porcentaje, más impacto tendrá el atributo en el entrenamiento de modelos. Revisa esta información para asegurarte de que todos los atributos más importantes sean relevantes para tus datos y tu problema empresarial.

Previsión

Puedes ver y descargar archivos de esquema desde la siguiente ubicación de Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: El error absoluto promedio (MAE) es la diferencia absoluta promedio entre los valores objetivo y los valores previstos. Esta métrica puede variar de cero a infinito, y cuanto más bajo sea el valor, mejor será la calidad del modelo.
RMSE: El error de la raíz cuadrada de la media es la raíz cuadrada de la diferencia cuadrada promedio entre los valores objetivo y previsto. RMSE es más sensible a los valores atípicos que MAE, por lo que si te preocupan los grandes errores, RMSE puede ser una métrica más útil para evaluar. Al igual que MAE, cuanto más bajo el valor, mayor será la calidad del modelo (0 representa un predictor perfecto).
RMSLE: La métrica del error logarítmico de la raíz cuadrada de la media es similar a RMSE, excepto que usa el logaritmo natural de los valores previstos y reales más 1. La RMSLE penaliza con mayor peso la subinferencia que la sobreinferencia. También puede ser una buena métrica cuando no quieres penalizar las diferencias para valores de inferencia grandes con más peso que para valores de inferencia pequeños. Esta métrica puede variar de cero a infinito y, cuanto más bajo sea el valor, mejor será la calidad del modelo. La métrica de evaluación RMSLE se muestra solo si todos los valores previstos y las etiquetas no son negativos.
r^2: r al cuadrado es el cuadrado del coeficiente de correlación de Pearson entre las etiquetas y los valores previstos. Esta métrica puede variar entre cero y uno. Un valor más alto indica un ajuste más cercano a la línea de regresión.
MAPE: El error porcentual absoluto promedio (MAPE) es el promedio de la diferencia porcentual absoluta entre los valores previstos y las etiquetas. Esta métrica puede variar entre cero y un valor infinito; cuanto más bajo sea el valor, mejor será la calidad del modelo.
MAPE no se muestra si la columna objetivo contiene valores 0. En este caso, MAPE no está definido.
WAPE: El error porcentual absoluto ponderado (WAPE) es la diferencia general entre el valor que predice un modelo y los valores que se observan sobre los valores observados. En comparación con el RMSE, el WAPE se calcula en función de las diferencias generales, en lugar de las diferencias individuales, que pueden estar muy influenciadas por valores bajos o intermitentes. Un valor más bajo indica un modelo de mejor calidad.
RMSPE: La raíz cuadrada del error cuadrático medio (RMPSE) muestra el RMSE como un porcentaje de los valores reales en lugar de como un número absoluto. Un valor más bajo indica un modelo de mejor calidad.
Cuantil: Es el porcentaje de cuantil, que indica la probabilidad de que un valor observado esté por debajo del valor previsto. Por ejemplo, en el cuantil 0.5, se espera que los valores observados sean más bajos que los valores previstos el 50% del tiempo.
Cuantil observado: Muestra el porcentaje de valores reales que eran inferiores al valor previsto de un cuantil dado.
Pérdida de pinball escalado: Es la pérdida de pinball escalada en un cuantil particular. Un valor más bajo indica un modelo de mayor calidad en el cuantil determinado.

Instructivos para uso de notebooks

Datos tabulares de AutoML

Entrenamiento personalizado: Tabular

Gemini Enterprise Agent Platform Model Registry

¿Qué sigue?

Obtén información para realizar una evaluación de modelos con Agent Platform.