Intelligenza artificiale ancora inaffidabile per raccomandazioni mediche e salute

Intelligenza artificiale e salute: cosa rivela il test dell’Università di Oxford
I chatbot basati su intelligenza artificiale generativa, inclusi modelli come GPT-4o, Llama 3 e Command R+, mostrano ancora limiti strutturali nel fornire consigli sanitari affidabili ai cittadini.
Una ricerca pubblicata su Nature Medicine e condotta dall’Università di Oxford evidenzia uno scarto netto tra le prestazioni dei modelli in ambiente controllato e il loro comportamento quando interagiscono con persone reali.
I risultati sollevano interrogativi cruciali per medici, regolatori, sviluppatori di IA e piattaforme digitali che progettano servizi sanitari basati su chatbot, con implicazioni dirette per la sicurezza dei pazienti e la fiducia nelle tecnologie emergenti.
Come è stato progettato l’esperimento clinico digitale
Lo studio ha coinvolto quasi 1.300 persone online, chiamate a valutare dieci scenari clinici realistici: dal giovane con forte mal di testa dopo una serata con amici alla neomamma esausta e affannata.
Per ciascuna situazione, i partecipanti dovevano ipotizzare il possibile problema di salute e decidere se fosse opportuno contattare il medico di famiglia o chiamare un’ambulanza.
Come supporto potevano scegliere tra un modello linguistico di grandi dimensioni o le consuete risorse sul web, come i motori di ricerca tradizionali, riproducendo il comportamento tipico di chi cerca informazioni sanitarie online.
Prestazioni degli LLM in condizioni controllate
In parallelo, i ricercatori hanno sottoposto gli stessi scenari direttamente ai chatbot, in assenza di utenti umani e con descrizioni cliniche strutturate.
In questo contesto, i modelli hanno identificato correttamente i problemi di salute nel 94,9% dei casi, dimostrando una notevole capacità di interpretare i dati quando forniti in modo completo e coerente.
Tuttavia, la scelta della linea d’azione corretta (es. rassicurazione, contatto con il medico, chiamata ai servizi di emergenza) è risultata adeguata solo nel 56,3% dei casi, evidenziando lacune nella valutazione del rischio clinico.
Quando entrano in gioco gli utenti: crollo dell’accuratezza clinica
Il quadro cambia radicalmente quando i partecipanti umani interagiscono in prima persona con i modelli di IA.
Nel passaggio dal laboratorio alla realtà d’uso, la performance degli Llm peggiora in modo significativo, fino ad allinearsi ai risultati del gruppo di controllo che utilizza i comuni motori di ricerca.
Questo scarto tra potenziale tecnico e impiego pratico suggerisce che il problema non è solo nell’algoritmo, ma nell’interazione fra persone, sintomi raccontati e risposte generate dalla macchina.
Calano diagnosi corrette e decisioni di triage
Quando erano gli utenti a descrivere i sintomi ai chatbot, i problemi di salute rilevanti sono stati identificati in meno del 34,5% dei casi.
Anche la scelta di una linea d’azione appropriata (ad esempio, curarsi a casa, contattare il medico, ricorrere all’emergenza) è scesa sotto il 44,2%.
Questi valori non risultano migliori rispetto a quelli del gruppo di controllo che ha utilizzato soltanto i motori di ricerca del web, mettendo in discussione l’idea che un chatbot avanzato garantisca automaticamente un vantaggio clinico nell’autovalutazione dei sintomi.
Perché l’interazione uomo-macchina peggiora le risposte
L’analisi qualitativa di 30 casi specifici ha mostrato un doppio livello di criticità.
Da un lato, molti partecipanti fornivano ai chatbot informazioni incomplete o errate, tipiche di chi descrive i sintomi in modo impreciso, confuso o influenzato dall’ansia.
Dall’altro lato, i chatbot talvolta generavano contenuti fuorvianti o errati, combinando lacune cliniche, ambiguità linguistiche e fenomeni di “allucinazione” tipici dei modelli generativi, con un potenziale impatto sulla sicurezza del paziente.
Implicazioni etiche, regolatorie e cliniche per l’uso dei chatbot sanitari
I risultati dello studio di Oxford indicano che i sistemi di intelligenza artificiale per la salute non possono, allo stato attuale, sostituire il giudizio clinico né essere presentati come strumenti di triage affidabili per il pubblico.
Serve una cornice più rigorosa di regolazione, trasparenza e validazione scientifica prima di integrarli nei percorsi assistenziali.
Per ridurre i rischi è essenziale progettare interfacce che guidino meglio l’utente nella descrizione dei sintomi, affiancate da chiare avvertenze sui limiti del servizio e da un forte coinvolgimento delle autorità sanitarie e delle società scientifiche.
Ruolo dei medici e delle istituzioni sanitarie
Gli operatori sanitari restano il riferimento imprescindibile per la valutazione di segni e sintomi, soprattutto quando possono indicare condizioni gravi o tempo-dipendenti.
Le istituzioni dovrebbero definire linee guida chiare sull’uso dei chatbot in ambito sanitario, stabilendo quali funzioni siano ammesse (educazione, supporto informativo) e quali debbano essere vietate o strettamente supervisionate (diagnosi, triage, prescrizioni).
Un’integrazione responsabile dell’IA richiede formazione specifica per i professionisti, sistemi di audit continuo delle risposte generate e meccanismi di responsabilità condivisa tra sviluppatori e strutture sanitarie.
Verso chatbot più sicuri e trasparenti
Per avvicinare gli Llm a standard clinici accettabili occorrono dataset medicali di alta qualità, valutazioni indipendenti e aggiornamenti costanti basati su evidenze scientifiche.
È cruciale rendere espliciti all’utente i limiti del sistema, differenziando chiaramente tra informazione generale e consiglio medico personalizzato, che deve restare prerogativa del professionista.
Modelli come GPT-4o, Llama 3 e Command R+ potranno diventare strumenti utili se inseriti in percorsi certificati, supervisionati da medici e conformi alle normative su sicurezza, privacy e responsabilità clinica.
FAQ
Gli attuali chatbot di intelligenza artificiale possono sostituire il medico?
No. I chatbot non sono in grado di sostituire il giudizio clinico di un medico, soprattutto per diagnosi, triage o decisioni terapeutiche. Possono al massimo offrire informazioni generali, che devono sempre essere verificate con un professionista.
Quanto sono accurati i modelli come GPT-4o e Llama 3 in ambito medico?
In condizioni controllate, con descrizioni cliniche complete, possono riconoscere correttamente il problema di salute in oltre il 90% dei casi. Tuttavia, nella pratica con utenti reali l’accuratezza cala drasticamente, specialmente nella scelta della corretta azione da intraprendere.
Perché le prestazioni peggiorano quando interagiscono persone reali?
Le persone spesso descrivono i sintomi in modo incompleto, ambiguo o distorto. I chatbot, basati su linguaggio naturale, amplificano queste imprecisioni e talvolta generano risposte errate o fuorvianti, riducendo la sicurezza complessiva.
I chatbot sono più efficaci dei motori di ricerca tradizionali per la salute?
Nello studio dell’Università di Oxford, i risultati dei chatbot non sono stati migliori di quelli ottenuti con i motori di ricerca tradizionali, né nella corretta identificazione del problema né nella scelta dell’azione raccomandata.
È sicuro usare i chatbot per valutare sintomi urgenti?
No. In presenza di sintomi gravi, improvvisi o in peggioramento è necessario contattare subito i servizi di emergenza o il medico. Affidarsi a un chatbot può ritardare cure essenziali e aumentare il rischio clinico.
Come possono essere usati in modo responsabile i chatbot sanitari?
Possono essere utilizzati per informazione generale, educazione alla salute e supporto alla comprensione di termini medici, ma sempre con avvertenze chiare e la raccomandazione esplicita di rivolgersi a un professionista per decisioni cliniche.
Cosa dovrebbero fare sviluppatori e istituzioni per migliorare la sicurezza?
Devono adottare protocolli di validazione scientifica, audit indipendenti, interfacce che guidino meglio l’utente e regole trasparenti su limiti d’uso, responsabilità e gestione degli errori, in collaborazione con medici e autorità sanitarie.
Qual è la fonte dei dati citati sullo studio dei chatbot medici?
I dati e le percentuali riportate derivano dall’esperimento pubblicato sulla rivista Nature Medicine e condotto dall’Università di Oxford, come sintetizzato nell’articolo originale di ANSA citato in apertura.
DIRETTORE EDITORIALE
Michele Ficara Manganelli ✿
PUBBLICITA’ – COMUNICATI STAMPA – PROVE PRODOTTI
Per acquistare pubblicità CLICCA QUI
Per inviarci comunicati stampa e per proporci prodotti da testare prodotti CLICCA QUI





