Treinar um modelo de extração de entidade de texto (original) (raw)
Treinar um modelo de extração de entidade de texto
Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.
.
Nesta página, mostramos como treinar um modelo de extração de entidade do AutoML em um conjunto de dados de texto usando o console Google Cloud ou a API Vertex AI.
Antes de começar
Antes de treinar um modelo de extração de entidade de texto, você precisa fazer o seguinte:
Treinar um modelo do AutoML
Console do Google Cloud
- No Google Cloud console, na seção da Vertex AI, acesse a página Conjuntos de dados.
Acessar a página "Conjuntos de dados" - Clique no nome do conjunto de dados que você quer usar para treinar seu modelo para abrir a página de detalhes.
- Selecione o conjunto de anotações que você quer usar para o modelo.
- Clique em Treinar novo modelo.
- Para o método de treinamento, selecione oAutoML.
- Clique em Continuar.
- Dê um nome para o modelo.
- Se você quiser definir manualmente como os dados de treinamento são divididos, expanda as Opções avançadas e selecione uma opção de divisão de dados.Saiba mais.
- Clique em Iniciar treinamento.
O treinamento do modelo pode levar muitas horas dependendo do tamanho e da complexidade dos dados, além do orçamento de treinamento, se você tiver especificado um. Você pode fechar essa guia e voltar a ela mais tarde. Você receberá um e-mail quando o treinamento do seu modelo for concluído.
API
Selecione uma guia para seu idioma ou ambiente:
Controlar a divisão de dados usando REST
É possível controlar como os dados de treinamento são divididos entre os conjuntos de treinamento, validação e teste. Ao usar a API Vertex AI, use o Splitobjeto para determinar a divisão de dados. O objeto Split
pode ser incluído no objeto InputConfig
como um dos vários tipos de objeto, cada um fornecendo uma maneira diferente de dividir os dados de treinamento. É possível selecionar apenas um método.
FractionSplit
:- TRAINING_FRACTION: a fração dos dados de treinamento a ser usada para o conjunto de treinamento.
- VALIDATION_FRACTION: a fração dos dados de treinamento a ser usada para o conjunto de validação. Não usada para dados de vídeo.
- TEST_FRACTION: a fração dos dados de treinamento a ser usada para o conjunto de teste.
Se alguma das frações for especificada, tudo deverá ser especificado. As frações precisam ser adicionadas a 1,0. Osvalores padrão das frações variam de acordo com o tipo de dados.Saiba mais.
"fractionSplit": {
"trainingFraction": TRAINING_FRACTION,
"validationFraction": VALIDATION_FRACTION,
"testFraction": TEST_FRACTION
},
FilterSplit
:- TRAINING_FILTER: itens de dados que correspondem a esse filtro são usados no conjunto de treinamento.
- VALIDATION_FILTER: os itens de dados que correspondem a esse filtro são usados no conjunto de validação. Precisa ser "-" para dados de vídeo.
- TEST_FILTER: os itens de dados que correspondem a esse filtro são usados no conjunto de teste.
Esses filtros podem ser usados com o rótulo ml_use
ou com qualquer rótulo aplicado aos seus dados. Saiba mais sobre como usaro rótulo ml-use label e outros rótulos para filtrar os dados.
O exemplo a seguir mostra como usar o objetofilterSplit
com o rótulo ml_use
, com o conjunto de validação incluído:
"filterSplit": { "trainingFilter": "labels.aiplatform.googleapis.com/ml_use=training", "validationFilter": "labels.aiplatform.googleapis.com/ml_use=validation", "testFilter": "labels.aiplatform.googleapis.com/ml_use=test" }