Agenti IA crollano nella maggior parte dei compiti professionali complessi, studio svela limiti insospettati e rischi concreti

Agenti IA crollano nella maggior parte dei compiti professionali complessi, studio svela limiti insospettati e rischi concreti

23 Gennaio 2026

Agenti AI, falliscono nel 75% dei compiti professionali reali

Quando l’automazione si inceppa

Due anni fa le previsioni di Satya Nadella e dei grandi nomi della Silicon Valley annunciavano un rimpiazzo rapido di avvocati, analisti finanziari, consulenti e contabili da parte di modelli generativi. In realtà, i colletti bianchi sono ancora lì, e non per inerzia del sistema.

Secondo i nuovi dati di Mercor, il problema è più semplice: gli agenti di intelligenza artificiale falliscono circa nel 75% dei compiti professionali realistici che viene loro affidato. Il benchmark proprietario APEX-Agents simula attività d’ufficio reali, con documenti sparsi, tool aziendali e vincoli di contesto, non domande da quiz.

I risultati sono impietosi: Gemini 3 Flash si ferma a un’accuratezza del 24%, GPT‑5.2 al 23%, mentre modelli come Opus 4.5 e GPT‑5 gravitano intorno al 18%. Nella maggioranza dei casi, le risposte sono sbagliate o assenti. Il CEO di Mercor, Brendan Foody, riassume: è come avere uno stagista che azzecca una risposta su quattro, e sbaglia tutto il resto. Un profilo che nessun partner di studio affiderebbe a pratiche sensibili.

BOTTONE COMPRA BRANDED CONTENT SU ASSODIGITALE SMALL

Il vero limite: lavoro frammentato

La difficoltà cruciale emerge quando i modelli devono muoversi tra più ambienti digitali, ricordare ciò che hanno letto prima e collegare dati parziali. Esattamente ciò che caratterizza il lavoro in ufficio.

Nella vita reale un avvocato oscilla tra Slack, Google Drive, database giuridici, client di posta, intranet come SharePoint. Un analista verifica policy interne, ricerche passate, messaggi istantanei e file Excel con numeri sensibili, mantenendo il filo logico di una strategia o di un parere.

I modelli brillano solo quando il contesto è ordinato, statico, concentrato in un unico prompt o documento. Crollano quando devono ricordare dove hanno trovato un’informazione, ricomporre frammenti da dieci fonti diverse e aggiornare il ragionamento mentre emergono nuovi dati. L’AI è forte sulla risposta puntuale, debole sul processo continuativo. E il lavoro cognitivo, specie quello ad alto valore, vive proprio di processi incompleti, ambigui, che richiedono memoria di lungo periodo e navigazione tra strumenti eterogenei.

Benchmark contro realtà

L’industria dell’AI celebra regolarmente nuovi punteggi record su benchmark come GDPval di OpenAI, pensato per valutare competenze professionali di tipo generale. Ma APEX-Agents misura qualcos’altro: la capacità di portare a termine compiti complessi, in sequenza, all’interno di poche ma remunerative professioni.

Per Foody il trend è incoraggiante: un anno fa l’“agente-stagista” azzeccava circa il 5–10% dei task, oggi il 20–25%. Con questa curva, gli errori potrebbero calare rapidamente. Ma resta una differenza sostanziale tra migliorare su benchmark accademici e diventare affidabili in un contesto in cui un errore su tre, o su quattro, genera rischi legali, reputazionali e finanziari.

Un legale, un banker o un consulente che sbaglia il 75% delle volte non è un principiante da formare: è un rischio operativo. Per questo studi legali, banche d’investimento e grandi società di consulenza vedono l’AI come strumento di supporto, ricerca e bozza, non come sostituto autonomo. Finché la soglia di affidabilità non cambierà radicalmente, la promessa di una piena automazione del lavoro intellettuale resterà più narrativa che realtà.

FAQ

D: Che cosa misura esattamente APEX-Agents?
R: Valuta come gli agenti AI gestiscono sequenze di compiti reali tipici di professioni d’ufficio ad alto valore, con documenti, tool e vincoli di contesto distribuiti.

D: Quali modelli hanno ottenuto i punteggi migliori nel benchmark?
R: I risultati migliori sono stati registrati da Gemini 3 Flash (24% di accuratezza) e GPT‑5.2 (23%), comunque ben lontani da una soglia professionale.

D: Perché gli agenti AI falliscono nel 75% dei compiti?
R: Crollano quando devono recuperare informazioni sparse tra più strumenti, conservarne il contesto nel tempo e integrare frammenti eterogenei in un’unica linea di ragionamento.

D: In che cosa APEX-Agents differisce da GDPval di OpenAI?
R: GDPval testa conoscenze professionali generali, mentre APEX-Agents replica flussi di lavoro continui e realistici, fornendo una fotografia più aderente all’uso in azienda.

D: Gli errori degli agenti sono recuperabili con supervisione umana?
R: In parte sì, ma un sistema che sbaglia tre volte su quattro richiede talmente tanta revisione da annullare il vantaggio di produttività in molti scenari critici.

D: Qual è la posizione di Brendan Foody sul futuro dell’AI?
R: Il CEO di Mercor è ottimista sui progressi rapidi, ma sottolinea che il divario tra performance di benchmark e affidabilità nel mondo reale resta ancora molto ampio.

D: Le grandi aziende stanno già sostituendo i colletti bianchi con agenti AI?
R: No, usano l’AI soprattutto per ricerche, drafting e analisi preliminare; le decisioni e le responsabilità restano saldamente in mano ai professionisti umani.

D: Qual è la fonte giornalistica dei dati sul benchmark APEX-Agents?
R: Le informazioni citate provengono da un’inchiesta basata sui dati diffusi da Mercor e sul confronto con benchmark come GDPval, riportata dalla stampa internazionale specializzata in tecnologia.


Redazione Assodigitale Avatar

Redazione Assodigitale

La Redazione di Assodigitale Phd, MBA, CPA

Il team editoriale di Assodigitale coordina la pubblicazione di notizie, analisi e approfondimenti quotidiani dal mondo dell'innovazione, della tecnologia e dei mercati digitali.

Questo account raccoglie i contributi storici della testata, i comunicati stampa certificati e le inchieste collettive curate dai nostri giornalisti e analisti.

Fondata per esplorare l'impatto della trasformazione digitale sulla società e sull'economia, la Redazione di Assodigitale si impegna a fornire un'informazione accurata, indipendente e verificata, seguendo rigorosi standard deontologici e di fact-checking per garantire ai lettori una visione chiara ed esperta del futuro tecnologico."

Per tutte le vostre esigenze editoriali e per proporci progetti speciali di Branded Content oppure per inviare alla redazione prodotti per recensioni e prove tecniche potete contattarci direttamente scrivendo alla redazione : CLICCA QUI

Areas of Expertise: Digital Marketing, SEO, Content Strategy, Crypto, Blockchain, Fintech, Finance, Web3, Metaverse, Digital Content, Journalism, Branded Content, Digital Transformation, AI Strategy, Digital Publishing, DeFi, Tokenomics, Growth Hacking, Online Reputation Management, Emerging Tech Trends, Business Development, Media Relations, Editorial Management.
Fact Checked & Editorial Guidelines

Our Fact Checking Process

We prioritize accuracy and integrity in our content. Here's how we maintain high standards:

  1. Expert Review: All articles are reviewed by subject matter experts.
  2. Source Validation: Information is backed by credible, up-to-date sources.
  3. Transparency: We clearly cite references and disclose potential conflicts.
Reviewed by: Subject Matter Experts

Our Review Board

Our content is carefully reviewed by experienced professionals to ensure accuracy and relevance.

  • Qualified Experts: Each article is assessed by specialists with field-specific knowledge.
  • Up-to-date Insights: We incorporate the latest research, trends, and standards.
  • Commitment to Quality: Reviewers ensure clarity, correctness, and completeness.

Look for the expert-reviewed label to read content you can trust.