Descripción general del entrenamiento sin servidores de Gemini Enterprise Agent Platform (original) (raw)

Gemini Enterprise Agent Platform proporciona un servicio de entrenamiento administrado que te permite poner en funcionamiento el entrenamiento de modelos a gran escala. Puedes usar Gemini Enterprise Agent Platform para ejecutar aplicaciones de entrenamiento basadas en cualquier framework de aprendizaje automático (AA) en Google Cloud la infraestructura. Para los siguientes frameworks del AA populares, Gemini Enterprise Agent Platform también tiene compatibilidad integrada que simplifica el proceso de preparación para el entrenamiento y la entrega de modelos:

En esta página, se explican los beneficios del entrenamiento sin servidores en Gemini Enterprise Agent Platform, el flujo de trabajo involucrado y las diversas opciones de entrenamiento disponibles.

Gemini Enterprise Agent Platform pone en funcionamiento el entrenamiento a gran escala

Hay varios desafíos para poner en operación el entrenamiento de modelos. Estos desafíos incluyen el tiempo y el costo necesarios para entrenar modelos, la profundidad de habilidades necesarias para administrar la infraestructura de procesamiento y la necesidad de proporcionar seguridad a nivel empresarial. Gemini Enterprise Agent Platform aborda estos desafíos y proporciona una gran cantidad de otros beneficios.

Infraestructura de procesamiento completamente administrada

El entrenamiento de modelos en Gemini Enterprise Agent Platform es un servicio completamente administrado que requiere administración de infraestructura física. Puedes entrenar modelos de AA sin necesidad de aprovisionar o administrar servidores. Solo pagas por los recursos de procesamiento que consumas. Además, Gemini Enterprise Agent Platform también controla el registro, la puesta en cola y la supervisión de trabajos.

Alto rendimiento

Los trabajos de entrenamiento de Gemini Enterprise Agent Platform están optimizados para el entrenamiento de modelos de AA, lo que puede proporcionar un rendimiento más rápido que la ejecución directa de la aplicación de entrenamiento en un clúster de Google Kubernetes Engine (GKE). También puedes identificar y depurar los cuellos de botella de rendimiento en tu trabajo de entrenamiento con Cloud Profiler.

Entrenamiento distribuido

	Reduction Server es un algoritmo de reducción total en Gemini Enterprise Agent Platform que puede aumentar la capacidad de procesamiento y reducir la latencia del entrenamiento distribuido de varios nodos en unidades de procesamiento gráfico (GPU) de NVIDIA. Esta optimización ayuda a reducir el tiempo y el costo de completar trabajos de entrenamiento grandes.

Optimización de hiperparámetros

	Los trabajos de ajuste de hiperparámetros ejecutan varias pruebas de tu aplicación de entrenamiento con diferentes valores de hiperparámetros. Debes especificar un rango de valores para probar y Gemini Enterprise Agent Platform descubre los valores óptimos para tu modelo dentro de ese rango.

Seguridad empresarial

Integraciones de operaciones del AA (MLOps)

	Gemini Enterprise Agent Platform proporciona un conjunto deherramientas integradas de MLOps y funciones que puedes usar para los siguientes propósitos: Organizar flujos de trabajo de AA de extremo a extremo Realizar ingeniería de atributos Realizar experimentos Iterar y administrar tus modelos Realizar un seguimiento de metadatos de AA Supervisar y evaluar la calidad del modelo

Flujo de trabajo para el entrenamiento sin servidores

En el siguiente diagrama, se muestra una descripción general de alto nivel del flujo de trabajo de entrenamiento sin servidores en Gemini Enterprise Agent Platform. En las siguientes secciones, se describe cada paso en detalle.

Flujo de trabajo para el entrenamiento personalizado

Carga y prepara datos de entrenamiento

Para obtener el mejor rendimiento y asistencia, usa uno de los siguientes Google Cloud servicios como fuente de datos:

Cloud Storage
BigQuery
Sistemas de archivos de alto rendimiento, como recursos compartidos de NFS en Google Cloud con servicios comoGoogle Cloud NetApp Volumes oFilestore.

Para obtener una comparación de estos servicios, consultaDescripción general de la preparación de datos.

También puedes especificar unconjunto de datos administrado de Gemini Enterprise Agent Platformcomo la fuente de datos cuando uses una canalización de entrenamiento para entrenar tu modelo. Entrenar un modelo personalizado y un modelo de AutoML con el mismo conjunto de datos te permite comparar el rendimiento de los dos modelos.

Prepara tu aplicación de entrenamiento

Para preparar tu aplicación de entrenamiento para usarla en Gemini Enterprise Agent Platform, haz lo siguiente:

Implementa las prácticas recomendadas de código de entrenamiento para Gemini Enterprise Agent Platform.
Determina el tipo de imagen de contenedor que se usará.
Empaqueta tu aplicación de entrenamiento en un formato compatible según el tipo de imagen de contenedor seleccionado.

Implementa las prácticas recomendadas del código de entrenamiento

La aplicación de entrenamiento debe implementar lasprácticas recomendadas de código de entrenamiento para Gemini Enterprise Agent Platform. Estas prácticas recomendadas se relacionan con la capacidad de tu aplicación de entrenamiento para hacer lo siguiente:

Acceder a Google Cloud servicios
Cargar datos de entrada.
Habilitar el registro automático para el seguimiento de experimentos
Exportar artefactos de modelo.
Usar las variables de entorno de Gemini Enterprise Agent Platform
Garantizar la resiliencia ante los reinicios de VM.

Selecciona un tipo de contenedor

Gemini Enterprise Agent Platform ejecuta tu aplicación de entrenamiento en unaimagen de contenedor de Docker. Una imagen de contenedor de Docker es un paquete de software autónomo que incluye código y todas las dependencias, que se puede ejecutar en casi cualquier entorno de computación. Puedes especificar el URI de una imagen de contenedor compilada previamente que quieras usar, o crear y subir una imagen de contenedor personalizada que tenga preinstaladas la aplicación de entrenamiento y las dependencias.

En la siguiente tabla, se muestran las diferencias entre las imágenes de contenedor compiladas previamente y personalizadas:

Especificaciones	Imágenes de contenedor compiladas previamente	Imágenes de contenedor personalizadas
Framework de AA	Cada imagen de contenedor es específica de un framework del AA.	Usa cualquier framework del AA o no usa ninguno.
Versión del marco de trabajo de AA	Cada imagen de contenedor es específica de una versión del framework de AA.	Usa cualquier versión del marco de trabajo de AA, incluidas las versiones secundarias y las compilaciones nocturnas.
Dependencias de aplicaciones	Las dependencias comunes para el framework de AA están preinstaladas. Puedes especificar dependencias adicionales para instalar en tu aplicación de entrenamiento.	Instala previamente las dependencias que necesita tu aplicación de entrenamiento.
Formato de entrega de aplicaciones	Distribución de fuente de Python Archivo único de Python	Instala previamente la aplicación de entrenamiento en la imagen de contenedor personalizada.
Esfuerzo de configuración	Bajo	Alta
Recomendado para	Aplicaciones de entrenamiento de Python basadas en un framework de AA y una versión de framework que tiene disponible una imagen de contenedor compilada previamente.	Mayor personalización y control. Aplicaciones de entrenamiento que no son de Python Dependencias privadas o personalizadas. Aplicaciones de entrenamiento que usan un framework de AA o una versión de framework que no tiene disponible una imagen de contenedor compilada previamente.

Empaquetar la aplicación de entrenamiento

Después de determinar el tipo de imagen de contenedor que se usará, empaqueta tu aplicación de entrenamiento en uno de los siguientes formatos según el tipo de imagen de contenedor:

Archivo único de Python para usar en un contenedor compilado previamente
Escribe tu aplicación de entrenamiento como un archivo único de Python y usa elSDK de Agent Platform para Python para crear unaCustomJob o CustomTrainingJob clase. El archivo de Python se empaqueta en una distribución de fuente de Python y se instala en una imagen de contenedor compilada previamente. Entregar tu aplicación de entrenamiento como un archivo único de Python es adecuado para el prototipado. En el caso de las aplicaciones de entrenamiento de producción, es probable que tengas tu aplicación de entrenamiento organizada en más de un archivo.
Distribución de fuente de Python para su uso en un contenedor compilado previamente
Empaqueta tu aplicación de entrenamientoen una o más distribuciones de fuente de Python y súbelas a un bucket de Cloud Storage. Gemini Enterprise Agent Platform instala las distribuciones de fuente en una imagen de contenedor compilada previamente cuando creas un trabajo de entrenamiento.
Imagen de contenedor personalizada
Crea tu propia imagen de contenedor de Docker que tenga preinstaladas tu aplicación de entrenamiento y las dependencias, y súbela a Artifact Registry. Si tu aplicación de entrenamiento está escrita en Python, puedes realizar estos pasos mediante un comando de Google Cloud CLI.

Configure el trabajo de entrenamiento

Un trabajo de entrenamiento de Gemini Enterprise Agent Platform realiza las siguientes tareas:

Aprovisiona una (entrenamiento de nodo único) o más (entrenamiento distribuido) máquinas virtuales (VMs).
Ejecuta la aplicación de entrenamiento en contenedores en las VMs aprovisionadas.
Borra las VMs después de que se completa el trabajo de entrenamiento.

Gemini Enterprise Agent Platform offerstres tipos de trabajos de entrenamientopara ejecutar tu aplicación de entrenamiento:

Trabajo personalizado
Un trabajo personalizado (CustomJob) ejecuta tu aplicación de entrenamiento. Si usas una imagen de contenedor compilada previamente, los artefactos del modelo se envían al bucket de Cloud Storage especificado. Para imágenes de contenedor personalizadas, tu aplicación de entrenamiento también puede generar artefactos de modelo en otras ubicaciones.
Trabajos de ajuste de hiperparámetros
Un trabajo de ajuste de hiperparámetros (HyperparameterTuningJob) ejecuta varias pruebas de tu aplicación de entrenamiento con diferentes valores de hiperparámetros hasta que produce artefactos de modelo con los valores óptimos de hiperparámetro de rendimiento. Especifica el rango de valores de hiperparámetros que se probarán y las métricas para optimizar.
Canalización de entrenamiento
Una canalización de entrenamiento (CustomTrainingJob) ejecuta un trabajo personalizado o un trabajo de ajuste de hiperparámetros y, de manera opcional, exporta los artefactos del modelo a Gemini Enterprise Agent Platform para crear un recurso de modelo. Puedes especificar un conjunto de datos administrado de Gemini Enterprise Agent Platform como tu fuente de datos.

Cuando crees un trabajo de entrenamiento, especifica los recursos de procesamiento que se usarán para ejecutar tu aplicación de entrenamiento y establecer la configuración de tu contenedor.

Configuraciones de procesamiento

Especifica los recursos de procesamiento que se usarán en un trabajo de entrenamiento. Gemini Enterprise Agent Platform admite el entrenamiento de un solo nodo, en el que el trabajo de entrenamiento se ejecuta en una VM yel entrenamiento distribuido, en el que el trabajo de entrenamiento se ejecuta en varias VMs.

Los recursos de procesamiento que puedes especificar para tu trabajo de entrenamiento son los siguientes:

Tipo de máquina de VM
Los diferentes tipos de máquinas ofrecen diferentes CPUs, tamaño de memoria y ancho de banda.
Unidades de procesamiento gráfico (GPU)
Puedes agregar una o más GPU a las VMs de tipo A2 o N1. Si tu aplicación de entrenamiento está diseñada para usar GPU, agregar GPU puede mejorar el rendimiento de manera significativa.
Unidades de procesamiento tensorial (TPU)
Las TPUs están diseñadas específicamente para acelerar las cargas de trabajo de aprendizaje automático. Cuando se usa una VM de TPU para el entrenamiento, puedes especificar solo un grupo de trabajadores. Ese grupo de trabajadores puede tener solo una réplica.
Discos de arranque
Puedes usar SSDs (predeterminadas) o HDDs para tu disco de arranque. Si tu aplicación de entrenamiento lee y escribe en el disco, el uso de SSDs puede mejorar el rendimiento. También puedes especificar el tamaño de tu disco de arranque según la cantidad de datos temporales que escriba la aplicación de entrenamiento en el disco. Los discos de arranque pueden tener entre 100 GiB (predeterminado) y 64,000 GiB. Todas las VMs en un grupo de trabajadores deben usar el mismo tipo y tamaño de disco de arranque.

Configuraciones de contenedores

Las configuraciones de contenedores que debes realizar dependen de si usas una imagen de contenedor compilada previamente o personalizada.

Configuraciones de contenedores compiladas previamente:
- Especifica el URI de la imagen de contenedor compilada previamente que deseas usar.
- Si tu aplicación de entrenamiento se empaqueta como una distribución de fuente de Python, especifica el URI de Cloud Storage donde se encuentra el paquete.
- Especifica el módulo de punto de entrada de la aplicación de entrenamiento.
- Opcional: Especifica una lista de argumentos de línea de comandos para pasar al módulo de punto de entrada de tu aplicación de entrenamiento.
Configuraciones personalizadas de contenedores:
- Especifica el URI de la imagen de contenedor personalizada, que puede ser un URI de Artifact Registry o Docker Hub.
- Opcional: Anula las instrucciones ENTRYPOINT o CMD en tu imagen de contenedor.

Crea un trabajo de entrenamiento

Una vez que tus datos y tu aplicación de entrenamiento estén listos, crea uno de los siguientes trabajos de entrenamiento para ejecutar tu aplicación de entrenamiento:

Para crear el trabajo de entrenamiento, puedes usar la Google Cloud consola, Google Cloud CLI, el SDK de Agent Platform para Python o la API de Agent Platform.

Importa artefactos de modelo a Gemini Enterprise Agent Platform (opcional)

Es probable que tu aplicación de entrenamiento genere uno o más artefactos de modelo en una ubicación específica, por lo general, un bucket de Cloud Storage. Antes de obtener inferencias en Gemini Enterprise Agent Platform a partir de los artefactos de tu modelo, primeroimporta los artefactos del modelo en Gemini Enterprise Agent Platform Model Registry.

Al igual que las imágenes de contenedor para el entrenamiento, Gemini Enterprise Agent Platform te permite usar imágenes de contenedor precompiladas opersonalizadas para las inferencias. Si hay una imagen de contenedor compilada previamente para inferencias disponible en tu framework de AA y tu versión de framework, te recomendamos usar una imagen de contenedor compilada previamente.

¿Qué sigue?

Obtén inferencias de tu modelo.
Evalúa tu modelo.
Prueba el instructivo de entrenamiento sin servidores Hellopara obtener instrucciones paso a paso sobre cómo entrenar un modelo de clasificación de imágenes de Keras para TensorFlow en Gemini Enterprise Agent Platform.