Agenti IA crollano nella maggior parte dei compiti professionali complessi, studio svela limiti insospettati e rischi concreti

Indice dei Contenuti:
Agenti AI, falliscono nel 75% dei compiti professionali reali
Quando l’automazione si inceppa
Due anni fa le previsioni di Satya Nadella e dei grandi nomi della Silicon Valley annunciavano un rimpiazzo rapido di avvocati, analisti finanziari, consulenti e contabili da parte di modelli generativi. In realtà, i colletti bianchi sono ancora lì, e non per inerzia del sistema.
Secondo i nuovi dati di Mercor, il problema è più semplice: gli agenti di intelligenza artificiale falliscono circa nel 75% dei compiti professionali realistici che viene loro affidato. Il benchmark proprietario APEX-Agents simula attività d’ufficio reali, con documenti sparsi, tool aziendali e vincoli di contesto, non domande da quiz.
I risultati sono impietosi: Gemini 3 Flash si ferma a un’accuratezza del 24%, GPT‑5.2 al 23%, mentre modelli come Opus 4.5 e GPT‑5 gravitano intorno al 18%. Nella maggioranza dei casi, le risposte sono sbagliate o assenti. Il CEO di Mercor, Brendan Foody, riassume: è come avere uno stagista che azzecca una risposta su quattro, e sbaglia tutto il resto. Un profilo che nessun partner di studio affiderebbe a pratiche sensibili.
Il vero limite: lavoro frammentato
La difficoltà cruciale emerge quando i modelli devono muoversi tra più ambienti digitali, ricordare ciò che hanno letto prima e collegare dati parziali. Esattamente ciò che caratterizza il lavoro in ufficio.
Nella vita reale un avvocato oscilla tra Slack, Google Drive, database giuridici, client di posta, intranet come SharePoint. Un analista verifica policy interne, ricerche passate, messaggi istantanei e file Excel con numeri sensibili, mantenendo il filo logico di una strategia o di un parere.
I modelli brillano solo quando il contesto è ordinato, statico, concentrato in un unico prompt o documento. Crollano quando devono ricordare dove hanno trovato un’informazione, ricomporre frammenti da dieci fonti diverse e aggiornare il ragionamento mentre emergono nuovi dati. L’AI è forte sulla risposta puntuale, debole sul processo continuativo. E il lavoro cognitivo, specie quello ad alto valore, vive proprio di processi incompleti, ambigui, che richiedono memoria di lungo periodo e navigazione tra strumenti eterogenei.
Benchmark contro realtà
L’industria dell’AI celebra regolarmente nuovi punteggi record su benchmark come GDPval di OpenAI, pensato per valutare competenze professionali di tipo generale. Ma APEX-Agents misura qualcos’altro: la capacità di portare a termine compiti complessi, in sequenza, all’interno di poche ma remunerative professioni.
Per Foody il trend è incoraggiante: un anno fa l’“agente-stagista” azzeccava circa il 5–10% dei task, oggi il 20–25%. Con questa curva, gli errori potrebbero calare rapidamente. Ma resta una differenza sostanziale tra migliorare su benchmark accademici e diventare affidabili in un contesto in cui un errore su tre, o su quattro, genera rischi legali, reputazionali e finanziari.
Un legale, un banker o un consulente che sbaglia il 75% delle volte non è un principiante da formare: è un rischio operativo. Per questo studi legali, banche d’investimento e grandi società di consulenza vedono l’AI come strumento di supporto, ricerca e bozza, non come sostituto autonomo. Finché la soglia di affidabilità non cambierà radicalmente, la promessa di una piena automazione del lavoro intellettuale resterà più narrativa che realtà.
FAQ
D: Che cosa misura esattamente APEX-Agents?
R: Valuta come gli agenti AI gestiscono sequenze di compiti reali tipici di professioni d’ufficio ad alto valore, con documenti, tool e vincoli di contesto distribuiti.
D: Quali modelli hanno ottenuto i punteggi migliori nel benchmark?
R: I risultati migliori sono stati registrati da Gemini 3 Flash (24% di accuratezza) e GPT‑5.2 (23%), comunque ben lontani da una soglia professionale.
D: Perché gli agenti AI falliscono nel 75% dei compiti?
R: Crollano quando devono recuperare informazioni sparse tra più strumenti, conservarne il contesto nel tempo e integrare frammenti eterogenei in un’unica linea di ragionamento.
D: In che cosa APEX-Agents differisce da GDPval di OpenAI?
R: GDPval testa conoscenze professionali generali, mentre APEX-Agents replica flussi di lavoro continui e realistici, fornendo una fotografia più aderente all’uso in azienda.
D: Gli errori degli agenti sono recuperabili con supervisione umana?
R: In parte sì, ma un sistema che sbaglia tre volte su quattro richiede talmente tanta revisione da annullare il vantaggio di produttività in molti scenari critici.
D: Qual è la posizione di Brendan Foody sul futuro dell’AI?
R: Il CEO di Mercor è ottimista sui progressi rapidi, ma sottolinea che il divario tra performance di benchmark e affidabilità nel mondo reale resta ancora molto ampio.
D: Le grandi aziende stanno già sostituendo i colletti bianchi con agenti AI?
R: No, usano l’AI soprattutto per ricerche, drafting e analisi preliminare; le decisioni e le responsabilità restano saldamente in mano ai professionisti umani.
D: Qual è la fonte giornalistica dei dati sul benchmark APEX-Agents?
R: Le informazioni citate provengono da un’inchiesta basata sui dati diffusi da Mercor e sul confronto con benchmark come GDPval, riportata dalla stampa internazionale specializzata in tecnologia.




