Come l’intelligenza artificiale può gestire le emergenze, la sfida di PromptAId Arena

Per gestire le emergenze o coordinare i soccorsi dopo un terremoto, usare l'intelligenza artificiale, fino a qualche anno fa, poteva sembrare fantascienza. Oggi è quasi realtà, ma non sempre una buona idea. I modelli linguistici come ChatGPT, Gemini e Claude stanno già entrando nei flussi di lavoro di chi gestisce le emergenze, spesso senza che nessuno abbia verificato se funzionano davvero. PromptAId Arena nasce esattamente per colmare questo vuoto: è la prima piattaforma di valutazione al mondo dedicata all’uso dell’intelligenza artificiale nella gestione delle catastrofi. Wired Italia ha incontrato Jean-Baptiste Bove, il ricercatore che l’ha ideata, per capire come funziona e perché potrebbe cambiare il modo in cui affrontiamo le crisi.Uno standard che non esistevaPromptAId Arena è uno strumento di ricerca progettato per testare le prestazioni dei grandi modelli linguistici — i cosiddetti llm — applicati al supporto decisionale in situazioni di emergenza. L’obiettivo è rispondere a domande concrete: questi strumenti sono affidabili quando servono davvero? In quale fase di una crisi aiutano? Dove, invece, è meglio non fidarsi di loro? “L’idea è nata osservando come in questo settore non esiste un benchmark, un insieme di parametri di riferimento standard e oggettivi per valutare, misurare e confrontare le prestazioni dell’AI – spiega Bove –. Serviva una base dati empirica che potesse aiutare a capire quali sono i limiti di questa tecnologia applicata alla gestione dell’emergenza".La piattaforma è frutto del dottorato di Bove in intelligenza artificiale per il monitoraggio dei disastri, finanziato dalla Croce rossa italiana e sviluppato in collaborazione con la Fondazione Cima, centro di competenza della Protezione civile italiana specializzato in analisi climatiche. Non è un prodotto commerciale: è uno strumento di ricerca aperto, disponibile online, pensato per chi vuole sperimentare queste tecnologie in modo strutturato prima di adottarle sul campo.La differenza principale rispetto ad altre piattaforme simili è nel metodo di valutazione. La maggior parte dei benchmark esistenti usa altri modelli di ai per giudicare gli output — un approccio rapido ed economico, ma con un limite evidente: chi valuta non sa cosa significa trovarsi sul campo durante un’alluvione. “Noi invece usiamo persone con esperienza diretta – dice Bove –. Raccogliamo feedback direttamente da chi è più preparato per valutare, perché ha davvero lavorato in situazioni simili e reali".Tutto ma non le mappeNella pratica, PromptAId Arena funziona su due livelli. Il primo è la generazione e il test dei prompt: la piattaforma guida l’utente passo dopo passo nella costruzione di uno scenario realistico: si sceglie il paese, il tipo di disastro (inclusi eventi reali come le alluvioni in Emilia Romagna o il terremoto di Amatrice), la fase del ciclo di gestione dell’emergenza e il ruolo professionale con cui ci si identifica. Il risultato è un prompt che simula una richiesta concreta, quella che un operatore o un coordinatore potrebbe fare durante una crisi vera. Questo viene inviato simultaneamente a più modelli commerciali — attualmente Anthropic, Google Gemini e OpenAI — e le risposte vengono valutate da esperti umani secondo criteri specifici: precisione, utilità e capacità di spiegare il ragionamento.Il secondo livello è la consultazione dei risultati. Chi accede alla piattaforma può esplorare i dati già raccolti filtrando per tipo di disastro, fase operativa, ruolo dell’utente e modello testato: un modo per vedere, prima ancora di sperimentare in proprio, dove l’AI ha già dimostrato di funzionare e dove no.I primi dati arrivano dai volontari della Croce rossa e stanno aiutando Bove a tracciare un quadro preciso. “I modelli sembrano estremamente bravi quando devono raccogliere fonti di informazione per il monitoraggio di un evento – racconta il ricercatore –. Ma quando si tratta di generare mappe non sono performanti".Il punto di forza degli llm, secondo quanto emerso finora, è la capacità di trasformare dati non strutturati in formati operativi: aggregare fonti eterogenee, convertire rapidamente un report in qualcosa di compatibile con un sistema gis, passare dall’informazione grezza a quella utile per prendere decisioni. La sintesi analitica, invece, richiede più cautela — e per ragioni che vanno oltre la qualità tecnica dell’output. “Utilizzando l’ai per scrivere un briefing da presentare a un centro di controllo si rischia di non sviluppare quella familiarità cognitiva con l’emergenza che mi sarei costruito facendolo da solo. La tecnologia è utile se non ti fa perdere un certo tipo di cognizione. Altrimenti diventa controproducente".Verso un agente specialeLa piattaforma per llm per gestire le emergenze è già operativa e aperta a collaborazioni con altre organizzazioni attive nella gestione delle crisi che vogliano testarla come stanno facendo i volontari della Croce Rossa Italiana. L’idea di Bove non è dare i voti ai modelli in veste di soccorritori ma “usare i risultati per sviluppare un sistema agentico per la gestione delle emergenze basato su questa sperimentazione. Un tool ad hoc per il settore”.C’è però un limite pratico che Bove non nasconde: “Sarebbe molto più efficace pagare un gruppo di professionisti per una settimana di valutazioni intensive. Non avendo i fondi, lo stiamo facendo attraverso il volontariato. Ce la stiamo cavando così, ma obiettivamente sarebbe meglio". Nel frattempo, il messaggio è semplice: prima di affidare all’ai decisioni che riguardano vite umane, vale la pena capire esattamente cosa sa fare e cosa no. PromptAId Arena esiste per rispondere a questa domanda.

Come l’intelligenza artificiale può gestire le emergenze, la sfida di PromptAId Arena

Come l’intelligenza artificiale può gestire le emergenze, la sfida di PromptAId Arena

Other newsrooms on this story

Related reading

L’intelligenza artificiale può colmare il vuoto dei primi minuti di…

La capacità di giudizio della IA è solo apparenza - Notizie - Ansa.it

Gli Ai agent sono tra noi e cominciano a fare paura - 24+

La capacità di giudizio dell'IA è solo apparenza - Notizie - Ansa.it

Ti sei perso? Ti troverà un’intelligenza artificiale

Senza qualità del dato, l’AI nella pubblica amministrazione amplifica il caos -…

Other newsrooms on this story

Related reading

L’intelligenza artificiale può colmare il vuoto dei primi minuti di…

La capacità di giudizio della IA è solo apparenza - Notizie - Ansa.it

Gli Ai agent sono tra noi e cominciano a fare paura - 24+

La capacità di giudizio dell'IA è solo apparenza - Notizie - Ansa.it

Ti sei perso? Ti troverà un’intelligenza artificiale

Senza qualità del dato, l’AI nella pubblica amministrazione amplifica il caos -…