Descripción general del entrenamiento sin servidores de Gemini Enterprise Agent Platform (original) (raw)

Gemini Enterprise Agent Platform proporciona un servicio de entrenamiento administrado que te permite poner en funcionamiento el entrenamiento de modelos a gran escala. Puedes usar Gemini Enterprise Agent Platform para ejecutar aplicaciones de entrenamiento basadas en cualquier framework de aprendizaje automático (AA) en Google Cloud la infraestructura. Para los siguientes frameworks del AA populares, Gemini Enterprise Agent Platform también tiene compatibilidad integrada que simplifica el proceso de preparación para el entrenamiento y la entrega de modelos:

En esta página, se explican los beneficios del entrenamiento sin servidores en Gemini Enterprise Agent Platform, el flujo de trabajo involucrado y las diversas opciones de entrenamiento disponibles.

Gemini Enterprise Agent Platform pone en funcionamiento el entrenamiento a gran escala

Hay varios desafíos para poner en operación el entrenamiento de modelos. Estos desafíos incluyen el tiempo y el costo necesarios para entrenar modelos, la profundidad de habilidades necesarias para administrar la infraestructura de procesamiento y la necesidad de proporcionar seguridad a nivel empresarial. Gemini Enterprise Agent Platform aborda estos desafíos y proporciona una gran cantidad de otros beneficios.

Infraestructura de procesamiento completamente administrada

Infraestructura administrada El entrenamiento de modelos en Gemini Enterprise Agent Platform es un servicio completamente administrado que requiere administración de infraestructura física. Puedes entrenar modelos de AA sin necesidad de aprovisionar o administrar servidores. Solo pagas por los recursos de procesamiento que consumas. Además, Gemini Enterprise Agent Platform también controla el registro, la puesta en cola y la supervisión de trabajos.

Alto rendimiento

Alto rendimiento Los trabajos de entrenamiento de Gemini Enterprise Agent Platform están optimizados para el entrenamiento de modelos de AA, lo que puede proporcionar un rendimiento más rápido que la ejecución directa de la aplicación de entrenamiento en un clúster de Google Kubernetes Engine (GKE). También puedes identificar y depurar los cuellos de botella de rendimiento en tu trabajo de entrenamiento con Cloud Profiler.

Entrenamiento distribuido

Entrenamiento distribuido Reduction Server es un algoritmo de reducción total en Gemini Enterprise Agent Platform que puede aumentar la capacidad de procesamiento y reducir la latencia del entrenamiento distribuido de varios nodos en unidades de procesamiento gráfico (GPU) de NVIDIA. Esta optimización ayuda a reducir el tiempo y el costo de completar trabajos de entrenamiento grandes.

Optimización de hiperparámetros

Ajuste de hiperparámetros Los trabajos de ajuste de hiperparámetros ejecutan varias pruebas de tu aplicación de entrenamiento con diferentes valores de hiperparámetros. Debes especificar un rango de valores para probar y Gemini Enterprise Agent Platform descubre los valores óptimos para tu modelo dentro de ese rango.

Seguridad empresarial

Integraciones de operaciones del AA (MLOps)

MLOps Gemini Enterprise Agent Platform proporciona un conjunto deherramientas integradas de MLOps y funciones que puedes usar para los siguientes propósitos: Organizar flujos de trabajo de AA de extremo a extremo Realizar ingeniería de atributos Realizar experimentos Iterar y administrar tus modelos Realizar un seguimiento de metadatos de AA Supervisar y evaluar la calidad del modelo

Flujo de trabajo para el entrenamiento sin servidores

En el siguiente diagrama, se muestra una descripción general de alto nivel del flujo de trabajo de entrenamiento sin servidores en Gemini Enterprise Agent Platform. En las siguientes secciones, se describe cada paso en detalle.

Flujo de trabajo para el entrenamiento personalizado

Carga y prepara datos de entrenamiento

Para obtener el mejor rendimiento y asistencia, usa uno de los siguientes Google Cloud servicios como fuente de datos:

Para obtener una comparación de estos servicios, consultaDescripción general de la preparación de datos.

También puedes especificar unconjunto de datos administrado de Gemini Enterprise Agent Platformcomo la fuente de datos cuando uses una canalización de entrenamiento para entrenar tu modelo. Entrenar un modelo personalizado y un modelo de AutoML con el mismo conjunto de datos te permite comparar el rendimiento de los dos modelos.

Prepara tu aplicación de entrenamiento

Para preparar tu aplicación de entrenamiento para usarla en Gemini Enterprise Agent Platform, haz lo siguiente:

Implementa las prácticas recomendadas del código de entrenamiento

La aplicación de entrenamiento debe implementar lasprácticas recomendadas de código de entrenamiento para Gemini Enterprise Agent Platform. Estas prácticas recomendadas se relacionan con la capacidad de tu aplicación de entrenamiento para hacer lo siguiente:

Selecciona un tipo de contenedor

Gemini Enterprise Agent Platform ejecuta tu aplicación de entrenamiento en unaimagen de contenedor de Docker. Una imagen de contenedor de Docker es un paquete de software autónomo que incluye código y todas las dependencias, que se puede ejecutar en casi cualquier entorno de computación. Puedes especificar el URI de una imagen de contenedor compilada previamente que quieras usar, o crear y subir una imagen de contenedor personalizada que tenga preinstaladas la aplicación de entrenamiento y las dependencias.

En la siguiente tabla, se muestran las diferencias entre las imágenes de contenedor compiladas previamente y personalizadas:

Especificaciones Imágenes de contenedor compiladas previamente Imágenes de contenedor personalizadas
Framework de AA Cada imagen de contenedor es específica de un framework del AA. Usa cualquier framework del AA o no usa ninguno.
Versión del marco de trabajo de AA Cada imagen de contenedor es específica de una versión del framework de AA. Usa cualquier versión del marco de trabajo de AA, incluidas las versiones secundarias y las compilaciones nocturnas.
Dependencias de aplicaciones Las dependencias comunes para el framework de AA están preinstaladas. Puedes especificar dependencias adicionales para instalar en tu aplicación de entrenamiento. Instala previamente las dependencias que necesita tu aplicación de entrenamiento.
Formato de entrega de aplicaciones Distribución de fuente de Python Archivo único de Python Instala previamente la aplicación de entrenamiento en la imagen de contenedor personalizada.
Esfuerzo de configuración Bajo Alta
Recomendado para Aplicaciones de entrenamiento de Python basadas en un framework de AA y una versión de framework que tiene disponible una imagen de contenedor compilada previamente. Mayor personalización y control. Aplicaciones de entrenamiento que no son de Python Dependencias privadas o personalizadas. Aplicaciones de entrenamiento que usan un framework de AA o una versión de framework que no tiene disponible una imagen de contenedor compilada previamente.

Empaquetar la aplicación de entrenamiento

Después de determinar el tipo de imagen de contenedor que se usará, empaqueta tu aplicación de entrenamiento en uno de los siguientes formatos según el tipo de imagen de contenedor:

Configure el trabajo de entrenamiento

Un trabajo de entrenamiento de Gemini Enterprise Agent Platform realiza las siguientes tareas:

Gemini Enterprise Agent Platform offerstres tipos de trabajos de entrenamientopara ejecutar tu aplicación de entrenamiento:

Cuando crees un trabajo de entrenamiento, especifica los recursos de procesamiento que se usarán para ejecutar tu aplicación de entrenamiento y establecer la configuración de tu contenedor.

Configuraciones de procesamiento

Especifica los recursos de procesamiento que se usarán en un trabajo de entrenamiento. Gemini Enterprise Agent Platform admite el entrenamiento de un solo nodo, en el que el trabajo de entrenamiento se ejecuta en una VM yel entrenamiento distribuido, en el que el trabajo de entrenamiento se ejecuta en varias VMs.

Los recursos de procesamiento que puedes especificar para tu trabajo de entrenamiento son los siguientes:

Configuraciones de contenedores

Las configuraciones de contenedores que debes realizar dependen de si usas una imagen de contenedor compilada previamente o personalizada.

Crea un trabajo de entrenamiento

Una vez que tus datos y tu aplicación de entrenamiento estén listos, crea uno de los siguientes trabajos de entrenamiento para ejecutar tu aplicación de entrenamiento:

Para crear el trabajo de entrenamiento, puedes usar la Google Cloud consola, Google Cloud CLI, el SDK de Agent Platform para Python o la API de Agent Platform.

Importa artefactos de modelo a Gemini Enterprise Agent Platform (opcional)

Es probable que tu aplicación de entrenamiento genere uno o más artefactos de modelo en una ubicación específica, por lo general, un bucket de Cloud Storage. Antes de obtener inferencias en Gemini Enterprise Agent Platform a partir de los artefactos de tu modelo, primeroimporta los artefactos del modelo en Gemini Enterprise Agent Platform Model Registry.

Al igual que las imágenes de contenedor para el entrenamiento, Gemini Enterprise Agent Platform te permite usar imágenes de contenedor precompiladas opersonalizadas para las inferencias. Si hay una imagen de contenedor compilada previamente para inferencias disponible en tu framework de AA y tu versión de framework, te recomendamos usar una imagen de contenedor compilada previamente.

¿Qué sigue?