Treinar um modelo de extração de entidade de texto (original) (raw)

Treinar um modelo de extração de entidade de texto

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Nesta página, mostramos como treinar um modelo de extração de entidade do AutoML em um conjunto de dados de texto usando o console Google Cloud ou a API Vertex AI.

Antes de começar

Antes de treinar um modelo de extração de entidade de texto, você precisa fazer o seguinte:

Treinar um modelo do AutoML

Console do Google Cloud

No Google Cloud console, na seção da Vertex AI, acesse a página Conjuntos de dados.
Acessar a página "Conjuntos de dados"
Clique no nome do conjunto de dados que você quer usar para treinar seu modelo para abrir a página de detalhes.
Selecione o conjunto de anotações que você quer usar para o modelo.
Clique em Treinar novo modelo.
Para o método de treinamento, selecione oAutoML.
Clique em Continuar.
Dê um nome para o modelo.
Se você quiser definir manualmente como os dados de treinamento são divididos, expanda as Opções avançadas e selecione uma opção de divisão de dados.Saiba mais.
Clique em Iniciar treinamento.
O treinamento do modelo pode levar muitas horas dependendo do tamanho e da complexidade dos dados, além do orçamento de treinamento, se você tiver especificado um. Você pode fechar essa guia e voltar a ela mais tarde. Você receberá um e-mail quando o treinamento do seu modelo for concluído.

API

Selecione uma guia para seu idioma ou ambiente:

Controlar a divisão de dados usando REST

É possível controlar como os dados de treinamento são divididos entre os conjuntos de treinamento, validação e teste. Ao usar a API Vertex AI, use o Splitobjeto para determinar a divisão de dados. O objeto Split pode ser incluído no objeto InputConfigcomo um dos vários tipos de objeto, cada um fornecendo uma maneira diferente de dividir os dados de treinamento. É possível selecionar apenas um método.

FractionSplit:
- TRAINING_FRACTION: a fração dos dados de treinamento a ser usada para o conjunto de treinamento.
- VALIDATION_FRACTION: a fração dos dados de treinamento a ser usada para o conjunto de validação. Não usada para dados de vídeo.
- TEST_FRACTION: a fração dos dados de treinamento a ser usada para o conjunto de teste.
  Se alguma das frações for especificada, tudo deverá ser especificado. As frações precisam ser adicionadas a 1,0. Osvalores padrão das frações variam de acordo com o tipo de dados.Saiba mais.
  "fractionSplit": {
  "trainingFraction": TRAINING_FRACTION,
  "validationFraction": VALIDATION_FRACTION,
  "testFraction": TEST_FRACTION
  },
FilterSplit:
- TRAINING_FILTER: itens de dados que correspondem a esse filtro são usados no conjunto de treinamento.
- VALIDATION_FILTER: os itens de dados que correspondem a esse filtro são usados no conjunto de validação. Precisa ser "-" para dados de vídeo.
- TEST_FILTER: os itens de dados que correspondem a esse filtro são usados no conjunto de teste.

Esses filtros podem ser usados com o rótulo ml_use ou com qualquer rótulo aplicado aos seus dados. Saiba mais sobre como usaro rótulo ml-use label e outros rótulos para filtrar os dados.

O exemplo a seguir mostra como usar o objetofilterSplit com o rótulo ml_use, com o conjunto de validação incluído:

"filterSplit": { "trainingFilter": "labels.aiplatform.googleapis.com/ml_use=training", "validationFilter": "labels.aiplatform.googleapis.com/ml_use=validation", "testFilter": "labels.aiplatform.googleapis.com/ml_use=test" }