Finalizzazione del setup e prima indicizzazione

Una volta completata l'installazione e la configurazione dei plugin, è necessario procedere con l'inizializzazione del sistema e il caricamento della base di conoscenza (Knowledge Base).

Procedura di scraping e ingestione dati

A sistema avviato, si procederà con l'acquisizione automatica dei contenuti del sito web istituzionale per popolarne la memoria a lungo termine in due modalità:

  1. Attendere le 2 AM UTC per la prima scansione automatica

  2. Procedere manualmente:

    1. Accesso: effettuare nuovamente il login alla dashboard di amministrazione (/admin) con credenziali di amministratore.

    2. Esecuzione comando: posizionarsi nella scheda Home (l'interfaccia di chat di test). Inviare il seguente comando nella chat per attivare il plugin Scrapycat: @scrapycat https://www.ente.it

Il sistema avvierà il processo di crawling (navigazione) e scraping (estrazione):

  • il testo estratto verrà convertito in vettori numerici (tramite l'Embedder configurato).

  • i vettori verranno salvati nella Memoria Dichiarativa all'interno del database vettoriale Qdrant.

La velocità di indicizzazione è stimata in circa 1 secondo per pagina web. Il tempo totale dipenderà quindi dalla mole di pagine presenti sul sito target, con un cut-off automatico a 4000 pagine.

Last updated

Was this helpful?