Ciclo di test e ottimizzazione del chatbot

OpenCity Chatbot AI è il risultato di un esteso processo di validazione condotto su un vasto campione di portali della Pubblica Amministrazione italiana. L'obiettivo di questa fase di quality assurance è garantire uno strumento affidabile, capace di rispondere alle reali esigenze dei cittadini.

La fase di test non è stata intesa come una semplice verifica tecnica, ma come un processo di validazione strategica volto a garantire che l’assistente virtuale risponda con precisione alle dinamiche del settore pubblico.

I test sono stati progettati per rispondere a tre esigenze fondamentali:

Riflettere l’utilizzo reale dei cittadini: le simulazioni sono state strutturate per rappresentare il modo concreto con cui le persone interagiscono con i servizi digitali della Pubblica Amministrazione. Questo significa aver testato non solo domande formali, ma anche richieste poste con linguaggio colloquiale o meno strutturato.
Assicurare l’affidabilità in un contesto pubblico: l'autorevolezza di un Ente dipende dalla precisione delle informazioni fornite. Per questo, i test hanno verificato che il chatbot fornisca risposte coerenti, corrette e comprensibili, specialmente quando si trattano temi sensibili (es. scadenze di pagamento o requisiti per l'accesso a servizi sociali).
Garantire solidità in scenari diversi: la comunicazione dei cittadini varia sensibilmente per forma, registro linguistico e livello di dettaglio. I test sono stati pensati per coprire questa varietà, assicurando che il sistema rimanga stabile e preciso sia di fronte a quesiti sintetici, sia di fronte a richieste più articolate e complesse.

Tipologia di test condotti

Per garantire una copertura completa delle possibili interazioni tra cittadino e Pubblica Amministrazione, il ciclo di ottimizzazione ha previsto cinque diverse tipologie di test complementari:

Analisi dei domini informativi rilevanti: prima della fase di test vera e propria, sono stati identificati i temi e le informazioni più ricercate sui siti della PA italiana. Questo ha permesso di focalizzare l'addestramento del chatbot sugli argomenti di reale interesse per la collettività (es. tributi, anagrafe, mobilità).
Validazione della qualità delle risposte: una serie di test mirati a verificare sistematicamente la bontà delle risposte fornite, applicando i criteri di correttezza, chiarezza e completezza per ogni informazione erogata.
Test di robustezza linguistica (varianti e formulazioni): il sistema è stato sollecitato con diverse formulazioni della stessa domanda, simulando linguaggi colloquiali, stili sintetici o richieste molto dettagliate. L'obiettivo è assicurare che il chatbot comprenda l'intento dell'utente indipendentemente dalla forma grammaticale utilizzata.
Test di copertura degli scenari trasversali: valutazione della capacità del chatbot di navigare tra bisogni informativi diversi e complessi, garantendo risposte precise anche quando le domande toccano uffici o procedimenti amministrativi differenti.
Stress-test su casi limite e ambiguità: verifica del comportamento del sistema in presenza di domande incomplete, ambigue o del tutto estranee al contesto istituzionale (fuori perimetro). Questo assicura che il chatbot mantenga sempre un tono professionale e non fornisca informazioni incerte.

Le sessioni di validazione hanno coperto un ventaglio completo di servizi, riflettendo la complessità e la varietà delle richieste che un Comune riceve quotidianamente. Gli argomenti sono stati selezionati per testare la capacità del chatbot di navigare tra domini informativi molto diversi tra loro:

Cultura, eventi e tempo libero: iniziative locali, musei e manifestazioni.
Servizi scolastici e formazione: iscrizioni, mense e agevolazioni.
Servizi anagrafici e stato civile: certificati, atti e documenti d'identità.
Segnalazioni e assistenza: guasti, reclami e supporto al cittadino.
Edilizia, Urbanistica (PRG) e Regolamenti: pratiche edilizie e norme tecniche.
Tributi e tasse: IMU, TARI e scadenze fiscali.
Concorsi e personale: bandi di gara e opportunità di impiego nell'Ente.
Sociale, Casa e Welfare: alloggi popolari e sussidi.
Organizzazione uffici: orari, sedi e competenze dei singoli settori.
Mobilità e trasporti: ZTL, parcheggi e viabilità.

Esempi di domande poste al chatbot

Per verificare la solidità del sistema, sono stati formulati quesiti con diversi livelli di complessità e registri linguistici. Di seguito sono riportati alcuni esempi significativi:

"Come posso iscrivere mio figlio all'asilo nido?"
"Come posso richiedere la carta d’identità elettronica (CIE)?"
"Devo liberarmi di un vecchio divano e di un armadio. Dove posso portare i rifiuti ingombranti?"
"Ho perso il mio portafoglio in città. Dove posso segnalarlo?"
"Quanto costa un funerale comunale?"
"Come si fa un cambio di residenza online?"
"Vorrei sapere dove sono le zone a traffico limitato"

Questa varietà di scenari ha permesso di certificare che l'OpenCity AI Chatbot sia in grado di agire come un punto di accesso unico e affidabile, indipendentemente dall'ufficio o dal settore di competenza della richiesta.

Metodologia

Ogni risposta generata dal sistema è stata sottoposta a un rigoroso processo di validazione. La metodologia adottata prevede l’assegnazione di un punteggio da 1 a 3 (dove 3 rappresenta il massimo livello di qualità) per ciascuna interazione, valutata secondo cinque criteri oggettivi:

Correttezza: l'informazione fornita non è solo priva di errori fattuali, ma risulta verificabile, aggiornata e accurata rispetto alle fonti ufficiali e alle banche dati dell'Ente.
Aderenza alla domanda: il chatbot mantiene il focus costante sulla richiesta specifica dell'utente, evitando divagazioni inutili o risposte che non rispondono direttamente all'intento rilevato.
Completezza: viene offerta una risposta esaustiva che copre tutti gli aspetti rilevanti del quesito, assicurando che non rimangano lacune informative o punti in sospeso per il cittadino.
Chiarezza: la risposta è formulata in un italiano corretto, con un’esposizione piana, ordinata e facilmente comprensibile anche per utenti con diversi livelli di competenza digitale.
Concisione: il messaggio viene comunicato in modo diretto ed essenziale, eliminando ridondanze, ripetizioni e qualsiasi contenuto superfluo che non aggiunga valore informativo alla conversazione.

Il processo si articola in tre fasi operative:

individuazione dei bisogni: partendo dai dati reali di navigazione e dalle analisi SEO dei siti istituzionali, abbiamo costruito un set di centinaia di domande rappresentative delle necessità più frequenti dei cittadini;
simulazione di scenari d'uso: ogni domanda è stata testata in molteplici varianti, simulando l'uso di un linguaggio colloquiale, la presenza di refusi o formulazioni ambigue, per garantire la robustezza dell'interpretazione semantica;
validazione delle risposte: ogni risposta generata è stata analizzata secondo criteri di pertinenza, completezza (assenza di informazioni superflue) e coerenza con le pagine citate come fonte.

Sistema di valutazione dei risultati

A ciascuno dei criteri di analisi è stato assegnato un valore che riflette il grado di aderenza agli standard qualitativi di OpenCity Italia:

3 (Ottimale): la risposta soddisfa pienamente il criterio. L'informazione è accurata, il tono è corretto e non sono necessari interventi;
2 (Migliorabile): la risposta è corretta e utile, ma presenta margini di perfezionamento (es. nella concisione o nella formattazione);
1 (Non soddisfacente): la risposta non rispetta il criterio. Segnala la necessità di un intervento prioritario sulla Knowledge Base.

Di seguito vengono riportati i punteggi medi rilevati, che evidenziano la solidità delle risposte sia in contesti metropolitani che in realtà di dimensioni ridotte.

Criterio

Descrizione

Comune grande (~100.000 ab.)

Comune piccolo (~10.000 ab.)

Correttezza

L'informazione è priva di errori fattuali, verificabile, aggiornata e accurata.

2,4

Aderenza alla domanda

Il chatbot rimane focalizzato sulla richiesta, evitando divagazioni o risposte fuori contesto.

2,6

2,8

Completezza

La risposta è esaustiva e copre tutti gli aspetti rilevanti del quesito.

2,7

Chiarezza

Esposizione chiara, ordinata, in italiano corretto e facilmente comprensibile.

2,8

2,7

Concisione

Il messaggio è diretto ed essenziale, privo di ridondanze o contenuti superflui.

2,7

2,6

Analisi comparativa

Per misurare il valore aggiunto del sistema, abbiamo condotto analisi comparative tra le prestazioni del chatbot e quelle dei motori di ricerca nativi dei siti web dell'Ente.

I test hanno dimostrato che OpenCity Chatbot AI è in grado di fornire risposte puntuali anche laddove la ricerca tradizionale per parola chiave non produce risultati utili, orientando il cittadino con maggiore efficacia.

Ottimizzazione continua

Le evidenze emerse dai test hanno permesso di implementare azioni di miglioramento mirate a:

incrementare la precisione semantica nelle risposte ai quesiti complessi;
affinare la selezione delle fonti, mostrando all'utente i link più pertinenti;
garantire un miglioramento costante: il sistema è progettato per evolvere insieme ai contenuti del sito. Periodicamente, vengono eseguiti test su set di domande standard per assicurare che il livello di qualità rimanga elevato nel tempo, seguendo un modello di miglioramento continuo.

PreviousFunzionalità del chatbot NextArchitettura e framework

Last updated 14 days ago

Was this helpful?

Good night

hashtagTipologia di test condotti

hashtagEsempi di domande poste al chatbot

hashtagMetodologia

hashtagSistema di valutazione dei risultati

hashtagAnalisi comparativa

hashtagOttimizzazione continua