Prepara i dati per l'importazione (original) (raw)

Il modo in cui prepari i dati dipende dal tipo di dati che importi e dal modo scegli di importarlo. Inizia con il tipo di dati che prevedi di importare:

Dati del sito web
Dati non strutturati
Dati strutturati
Origini dati di terze parti
Dati multimediali strutturati
Dati FHIR sanitari

Per informazioni sulla ricerca combinata, dove è possibile eseguire più datastore connessa a una singola app di ricerca generica, consulta l'articolo Informazioni sul collegamento di più dati. di Google Cloud.

Dati sui siti web

Quando crei un datastore per i dati dei siti web, fornisci gli URL dei siti web pagine che Google deve sottoporre a scansione e indicizzazione per le ricerche o i consigli.

Prima di indicizzare i dati del tuo sito web:

Decidi quali pattern URL includere nell'indicizzazione e quali escludere.
- Escludi i pattern per gli URL dinamici. Gli URL dinamici sono URL che variano al momento della pubblicazione in base alla richiesta.
  Ad esempio, i pattern URL per le pagine web che pubblicano i risultati di ricerca, come www.example.com/search/*. Supponiamo che un utente cerchi la frase Nobel prize. L'URL di ricerca dinamico potrebbe essere un URL univoco:www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Se il pattern URL www.example.com/search/* non è escluso, tutti gli URL di ricerca dinamica univoci che seguono questo pattern vengono indicizzati. Ne consegue un indice sovraccarico e una qualità della ricerca diluita.
- Elimina gli URL duplicati utilizzando pattern URL canonici. Ciò fornisce un singolo URL canonico per la Ricerca Google durante la scansione del sito web e elimina l'ambiguità. Per esempi di canonicalizzazione e altre informazioni, consulta Che cos'è la canonicalizzazione degli URL e Come specificare un URL canonico con rel="canonical" e altri metodi.

Puoi includere pattern URL di domini uguali o diversi che devono essere indicizzati ed escludere quelli che non devono essere indicizzati. Il numero di modelli di URL che puoi includere ed escludere è diverso nel seguente modo:

Tipo di indicizzazione	Siti inclusi	Siti esclusi
Ricerca di base su sito web	Massimo 50 pattern URL	Massimo 50 pattern URL
Indicizzazione avanzata dei siti web	Massimo 500 pattern URL	Massimo 500 pattern URL

Verificare che le pagine web che intendi fornire non utilizzino un file robots.txt per bloccare dell'indicizzazione. Per ulteriori informazioni, consulta la sezione Introduzione a robot.txt.
Se prevedi di utilizzare l'indicizzazione avanzata dei siti web, Deve essere in grado di verificare i domini per i pattern URL. nel tuo datastore.
Aggiungi dati strutturati sotto forma di tag meta e PageMaps al tuo schema del datastore per arricchire l'indicizzazione come spiegato inUtilizzare i dati strutturati per l'indicizzazione avanzata dei siti web.

Per creare il datastore, consulta Creare un datastore per la ricerca oppureCrea un datastore di suggerimenti.

Dati non strutturati

Vertex AI Search supporta la ricerca in documenti in formato HTML, PDF con testo incorporato e TXT. I formati PPTX e DOCX sono disponibili in Anteprima.

Importi i documenti da un bucket Cloud Storage. Puoi eseguire l'importazione utilizzando la console Google Cloud,ImportDocuments o importazione di flussi di dati mediante metodi CRUD. Per informazioni di riferimento dell'API, vedi DocumentServicee documents.

Nella tabella seguente sono elencati i limiti delle dimensioni di ogni tipo di file con differenti (per ulteriori informazioni, consultaanalizzare e suddividere i documenti). Puoi importare fino a 100.000 file alla volta.

Tipo di file	Importazione predefinita	Importa con chunking dei documenti sensibile al layout	Importa con parser del layout
File basati su testo come HTML, TXT, JSON, XHTML e XML	< 2,5 MB	< 10 MB	< 10 MB
PPTX, DOCX e XLSX	< 200 MB	< 200 MB	< 200 MB
PDF	< 200 MB	< 200 MB	< 40 MB

Se prevedi di includere incorporamenti nei tuoi dati non strutturati, consultaUtilizza incorporamenti personalizzati.

Se hai PDF non sottoposti a ricerca (PDF scansionati o PDF con testo all'interno di immagini, come le infografiche), ti consigliamo di attivare l'elaborazione tramite il riconoscimento ottico dei caratteri (OCR) durante la creazione dell'archivio dati. In questo modo, Vertex AI Search può estrarre elementi come blocchi di testo e tabelle. Se hai PDF disponibili per la ricerca composti principalmente da file leggibili automaticamente testo e contenere molte tabelle, puoi valutare di attivare l'elaborazione OCR con attivare l'opzione di testo leggibile dal computer per migliorare il rilevamento e durante l'analisi. Per ulteriori informazioni, consulta Analisi e chunking documenti.

Se vuoi utilizzare Vertex AI Search per la generazione basata sul recupero (RAG), attiva il chunking dei documenti quando crei il tuo datastore. Per ulteriori informazioni, consulta Eseguire l'analisi e il chunking dei documenti.

Puoi importare i dati non strutturati dalle seguenti origini:

Cloud Storage
BigQuery
Google Drive

Cloud Storage

Puoi importare dati da Cloud Storage con o senza metadati.

L'importazione dati non è ricorsiva. In altre parole, se all'interno del bucket o della cartella specificata sono presenti cartelle, i file al loro interno non vengono importati.

Se prevedi di importare documenti da Cloud Storage senza metadati, inserisci documenti direttamente in un bucket Cloud Storage. L'ID documento è un esempio di metadati.

Per i test, puoi utilizzare le seguenti cartelle Cloud Storage disponibili pubblicamente, che contengono PDF:

gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Se prevedi di importare i dati da Cloud Storage con i metadati, inserisci un file JSON contenente i metadati in un bucket Cloud Storage di cui fornisci la posizione durante l'importazione.

I documenti non strutturati possono trovarsi nello stesso bucket Cloud Storage del metadati o uno diverso.

Il file di metadati deve essere un file JSON Lines o un file NDJSON. L'ID documento è un esempio di metadati. Ogni riga del file di metadati deve seguire una delle seguenti formati JSON:

Utilizzo di jsonData:
- { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Utilizzo di structData:
- { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Utilizza il campo uri in ogni riga per indicare la posizione di Cloud Storage del documento.

Ecco un esempio di file di metadati NDJSON per un documento non strutturato. Nella in questo esempio, ogni riga del file di metadati rimanda a un documento PDF e contiene i metadati per quel documento. Le prime due righe usano jsonData e le seconde due righe usano structData. Con structData non è necessario le virgolette di escape visualizzate tra virgolette.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Per creare il tuo datastore, consulta Creare un datastore di ricerca oCreare un datastore di consigli.

BigQuery

Se prevedi di importare i metadati da BigQuery, crea un'istanza Tabella BigQuery contenente i metadati. L'ID documento è un esempio di metadati.

Inserisci i documenti non strutturati in un bucket Cloud Storage.

Utilizza il seguente schema di BigQuery. Utilizza il campo uri in ogni record per indicare la posizione di Cloud Storage del documento.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Per saperne di più, consulta Creare e utilizzare le tabellenella documentazione di BigQuery.

Per creare il tuo datastore, consulta Creare un datastore di ricerca oCreare un datastore di consigli.

Google Drive

La sincronizzazione dei dati da Google Drive è supportata per la ricerca generica.

Se prevedi di importare dati da Google Drive, devi configurare l'identità Google come provider di identità in Vertex AI Agent Builder. Per informazioni su Configurare il controllo dell'accesso; consulta Utilizzare l'accesso all'origine dati. controllo.

Per creare il datastore, consulta Creare un datastore per la ricerca.

Dati strutturati

Prepara i dati in base al metodo di importazione che prevedi di utilizzare. Se di importare dati multimediali, vedi ancheDati multimediali strutturati.

Puoi importare i dati strutturati dalle seguenti origini:

BigQuery
Cloud Storage
Dati JSON locali
Origini dati di terze parti (anteprima con lista consentita)

Quando importi dati strutturati da BigQuery o da Cloud Storage, puoi scegliere di importare i dati con i metadati. I dati strutturati con metadati sono noti anche come dati strutturati avanzati.

BigQuery

Puoi importare dati strutturati dai set di dati BigQuery.

Il tuo schema viene rilevato automaticamente. Dopo l'importazione, Google consiglia di modificare lo schema rilevato automaticamente per mappare le proprietà chiave, come i titoli. Se effettui l'importazione utilizzando l'API anziché la console Google Cloud, hai la possibilità di fornire il tuo schema come oggetto JSON. Per ulteriori informazioni, consultaFornire o rilevare automaticamente uno schema.

Per esempi di dati strutturati disponibili pubblicamente, consulta i set di dati pubblici di BigQuery.

Se prevedi di includere gli elementi incorporati nei tuoi dati strutturati, consultaUtilizzare elementi incorporati personalizzati.

Se scegli di importare dati strutturati con metadati, includi due campi in le tabelle BigQuery:

Un campo id per identificare il documento. Se importi dati strutturati senza metadati, id viene generato automaticamente. Metadati inclusi consente di specificare il valore di id.
Un campo jsonData che contiene i dati. Per esempi di stringhe jsonData, consulta la sezione precedente Cloud Storage.

Utilizza il seguente schema BigQuery per i dati strutturati con metadati importazioni:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Per istruzioni sulla creazione di un datastore, consulta Creare un datastore di ricercao Crea un datastore di suggerimenti.

Cloud Storage

I dati strutturati in Cloud Storage devono essere in formato JSON Linee o NDJSON. Le dimensioni di ogni file non devono superare i 2 GB. Puoi importare fino a 100 file alla volta.

Per esempi di dati strutturati disponibili pubblicamente, fai riferimento a quanto segue cartelle in Cloud Storage, che contengono file NDJSON:

gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311

Se prevedi di includere incorporamenti nei tuoi dati strutturati, consultaUtilizza incorporamenti personalizzati.

Ecco un esempio di un file di metadati NDJSON di dati strutturati. Ogni riga del file rappresenta un documento ed è costituita da un insieme di campi.

{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Per creare il datastore, consulta Creare un datastore per la ricerca oppureCrea un datastore di suggerimenti.

Dati JSON locali

Puoi caricare direttamente un documento o un oggetto JSON utilizzando l'API.

Google consiglia di fornire uno schema personalizzato come oggetto JSON per ottenere risultati migliori. Se non fornisci il tuo schema, questo viene rilevato automaticamente. Dopo il giorno l'importazione, ti consigliamo di modificare lo schema rilevato automaticamente per mappare la chiave come i titoli. Per ulteriori informazioni, consultaFornire o rilevare automaticamente uno schema.

Se prevedi di includere incorporamenti nei tuoi dati strutturati, consultaUtilizza incorporamenti personalizzati.

Per creare il tuo datastore, consulta Creare un datastore di ricerca oCreare un datastore di consigli.

Se prevedi di importare dati multimediali strutturati, come video, notizie o musica, esamina quanto segue:

Informazioni sul metodo di importazione (BigQuery o Cloud Storage): Dati strutturati
Schemi e campi obbligatori per i documenti multimediali e i datastore:Informazioni sui documenti multimediali e sui datastore
Requisiti e schemi degli eventi utente: Informazioni sugli eventi utente
Informazioni sui tipi di consigli per i contenuti multimediali:Informazioni sui tipi di consigli per i contenuti multimediali

Origini dati di terze parti

L'importazione da origini dati di terze parti è un'anteprima con la funzionalità della lista consentita.

Le connessioni alle origini dati di terze parti sono supportate per la ricerca generica.

Quando colleghi un'origine dati di terze parti, i dati vengono inizialmente importati e poi sincronizzati con Vertex AI Search con la frequenza specificata.

Prima di configurare la connessione dell'origine dati, devi configurare il controllo dell'accesso per l'origine dati. Per informazioni sulla configurazione del controllo dell'accesso, consulta Utilizzare il controllo dell'accesso alle origini dati.

Per le credenziali richieste per connettere un'origine dati, vai alla documentazione per collegare l'origine dati di terze parti da cui prevedi di importare:

Dati FHIR Healthcare

Se prevedi di importare i dati FHIR dall'API Cloud Healthcare, assicurati di quanto segue:

Località: il datastore FHIR di origine deve trovarsi in un set di dati dell'API Cloud Healthcare nella posizione us-central1, us o eu. Per ulteriori informazioni, vediCrea e gestisci i set di dati nell'API Cloud Healthcare.
Tipo di datastore FHIR: il datastore FHIR di origine deve essere un datastore R4. Puoi Controlla le versioni dei tuoi datastore FHIR elencando i datastore FHIR nel tuo set di dati. Per creare un archivio FHIR R4, consulta Creare archivi FHIR.
Quota di importazione: il datastore FHIR di origine deve contenere meno di un milione di risorse FHIR. Se sono presenti più di un milione di risorse FHIR, il processo di importazione si interrompe dopo aver raggiunto questo limite. Per ulteriori informazioni, vediQuote e limiti.
I file a cui viene fatto riferimento in una risorsa DocumentReference devono essere PDF, RTF o file immagine archiviati in Cloud Storage. Il link ai file di riferimento deve essere nel campo content[].attachment.urldella risorsa nel formato standard del percorso di Cloud Storage:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.
Esamina l'elenco delle risorse FHIR R4 supportate da Vertex AI Search. Per maggiori informazioni, consulta Riferimento allo schema dei dati FHIR R4 per l'assistenza sanitaria.