Finalizzazione del setup e prima indicizzazione

Una volta completata l'installazione e la configurazione dei plugin, è necessario procedere con l'inizializzazione del sistema e il caricamento della base di conoscenza (Knowledge Base).

Procedura di scraping e ingestione dati

A sistema avviato, si procederà con l'acquisizione automatica dei contenuti del sito web istituzionale per popolarne la memoria a lungo termine in due modalità:

Attendere le 2 AM UTC per la prima scansione automatica
Procedere manualmente:
1. Accesso: effettuare nuovamente il login alla dashboard di amministrazione (/admin) con credenziali di amministratore.
2. Esecuzione comando: posizionarsi nella scheda Home (l'interfaccia di chat di test). Inviare il seguente comando nella chat per attivare il plugin Scrapycat: @scrapycat https://www.ente.it

Il sistema avvierà il processo di crawling (navigazione) e scraping (estrazione):

il testo estratto verrà convertito in vettori numerici (tramite l'Embedder configurato).
i vettori verranno salvati nella Memoria Dichiarativa all'interno del database vettoriale Qdrant.

La velocità di indicizzazione è stimata in circa 1 secondo per pagina web. Il tempo totale dipenderà quindi dalla mole di pagine presenti sul sito target, con un cut-off automatico a 4000 pagine.

PreviousGestione dei Plugin NextIntegrazione con il frontend

Last updated 1 day ago

Was this helpful?

Good night

hashtagProcedura di scraping e ingestione dati

Procedura di scraping e ingestione dati