Per gestire le emergenze o coordinare i soccorsi dopo un terremoto, usare l'intelligenza artificiale, fino a qualche anno fa, poteva sembrare fantascienza. Oggi è quasi realtà, ma non sempre una buona idea. I modelli linguistici come ChatGPT, Gemini e Claude stanno già entrando nei flussi di lavoro di chi gestisce le emergenze, spesso senza che nessuno abbia verificato se funzionano davvero. PromptAId Arena nasce esattamente per colmare questo vuoto: è la prima piattaforma di valutazione al mondo dedicata all’uso dell’intelligenza artificiale nella gestione delle catastrofi. Wired Italia ha incontrato Jean-Baptiste Bove, il ricercatore che l’ha ideata, per capire come funziona e perché potrebbe cambiare il modo in cui affrontiamo le crisi.Uno standard che non esistevaPromptAId Arena è uno strumento di ricerca progettato per testare le prestazioni dei grandi modelli linguistici — i cosiddetti llm — applicati al supporto decisionale in situazioni di emergenza. L’obiettivo è rispondere a domande concrete: questi strumenti sono affidabili quando servono davvero? In quale fase di una crisi aiutano? Dove, invece, è meglio non fidarsi di loro? “L’idea è nata osservando come in questo settore non esiste un benchmark, un insieme di parametri di riferimento standard e oggettivi per valutare, misurare e confrontare le prestazioni dell’AI – spiega Bove –. Serviva una base dati empirica che potesse aiutare a capire quali sono i limiti di questa tecnologia applicata alla gestione dell’emergenza".La piattaforma è frutto del dottorato di Bove in intelligenza artificiale per il monitoraggio dei disastri, finanziato dalla Croce rossa italiana e sviluppato in collaborazione con la Fondazione Cima, centro di competenza della Protezione civile italiana specializzato in analisi climatiche. Non è un prodotto commerciale: è uno strumento di ricerca aperto, disponibile online, pensato per chi vuole sperimentare queste tecnologie in modo strutturato prima di adottarle sul campo.La differenza principale rispetto ad altre piattaforme simili è nel metodo di valutazione. La maggior parte dei benchmark esistenti usa altri modelli di ai per giudicare gli output — un approccio rapido ed economico, ma con un limite evidente: chi valuta non sa cosa significa trovarsi sul campo durante un’alluvione. “Noi invece usiamo persone con esperienza diretta – dice Bove –. Raccogliamo feedback direttamente da chi è più preparato per valutare, perché ha davvero lavorato in situazioni simili e reali".Tutto ma non le mappeNella pratica, PromptAId Arena funziona su due livelli. Il primo è la generazione e il test dei prompt: la piattaforma guida l’utente passo dopo passo nella costruzione di uno scenario realistico: si sceglie il paese, il tipo di disastro (inclusi eventi reali come le alluvioni in Emilia Romagna o il terremoto di Amatrice), la fase del ciclo di gestione dell’emergenza e il ruolo professionale con cui ci si identifica. Il risultato è un prompt che simula una richiesta concreta, quella che un operatore o un coordinatore potrebbe fare durante una crisi vera. Questo viene inviato simultaneamente a più modelli commerciali — attualmente Anthropic, Google Gemini e OpenAI — e le risposte vengono valutate da esperti umani secondo criteri specifici: precisione, utilità e capacità di spiegare il ragionamento.Il secondo livello è la consultazione dei risultati. Chi accede alla piattaforma può esplorare i dati già raccolti filtrando per tipo di disastro, fase operativa, ruolo dell’utente e modello testato: un modo per vedere, prima ancora di sperimentare in proprio, dove l’AI ha già dimostrato di funzionare e dove no.I primi dati arrivano dai volontari della Croce rossa e stanno aiutando Bove a tracciare un quadro preciso. “I modelli sembrano estremamente bravi quando devono raccogliere fonti di informazione per il monitoraggio di un evento – racconta il ricercatore –. Ma quando si tratta di generare mappe non sono performanti".Il punto di forza degli llm, secondo quanto emerso finora, è la capacità di trasformare dati non strutturati in formati operativi: aggregare fonti eterogenee, convertire rapidamente un report in qualcosa di compatibile con un sistema gis, passare dall’informazione grezza a quella utile per prendere decisioni. La sintesi analitica, invece, richiede più cautela — e per ragioni che vanno oltre la qualità tecnica dell’output. “Utilizzando l’ai per scrivere un briefing da presentare a un centro di controllo si rischia di non sviluppare quella familiarità cognitiva con l’emergenza che mi sarei costruito facendolo da solo. La tecnologia è utile se non ti fa perdere un certo tipo di cognizione. Altrimenti diventa controproducente".Verso un agente specialeLa piattaforma per llm per gestire le emergenze è già operativa e aperta a collaborazioni con altre organizzazioni attive nella gestione delle crisi che vogliano testarla come stanno facendo i volontari della Croce Rossa Italiana. L’idea di Bove non è dare i voti ai modelli in veste di soccorritori ma “usare i risultati per sviluppare un sistema agentico per la gestione delle emergenze basato su questa sperimentazione. Un tool ad hoc per il settore”.C’è però un limite pratico che Bove non nasconde: “Sarebbe molto più efficace pagare un gruppo di professionisti per una settimana di valutazioni intensive. Non avendo i fondi, lo stiamo facendo attraverso il volontariato. Ce la stiamo cavando così, ma obiettivamente sarebbe meglio". Nel frattempo, il messaggio è semplice: prima di affidare all’ai decisioni che riguardano vite umane, vale la pena capire esattamente cosa sa fare e cosa no. PromptAId Arena esiste per rispondere a questa domanda.
Come l’intelligenza artificiale può gestire le emergenze, la sfida di PromptAId Arena
È nata la prima piattaforma che mette alla prova gli LLM più comuni e la loro capacità di supporto per chi interviene durante le catastrofi. Sembra siano bravi coi dati ma non con le mappe







