GPT-5.4 rivoluziona il lavoro al computer e supera l’efficienza degli utenti umani

GPT‑5.4 di OpenAI supera l’umano medio nel controllo del computer
Il 5 marzo 2026 OpenAI ha rilasciato GPT‑5.4, nuovo modello di punta destinato a ChatGPT, API e piattaforma Codex. Nei test indipendenti OSWorld‑Verified, che misurano la capacità di controllare un computer reale tramite screenshot, mouse e tastiera, GPT‑5.4 ottiene il 75% di successo, superando sia l’umano medio (72,4%) sia il precedente GPT‑5.2 (47,3%) e il record di Claude Opus‑4.6. L’annuncio riguarda in particolare professionisti, aziende e sviluppatori che costruiscono agenti software autonomi. OpenAI punta così a consolidare la propria leadership sugli LLM “agentici”, capaci non solo di generare testo ma di eseguire task complessi su desktop e web, con ricadute immediate su produttività, automazione e costi operativi.
In sintesi:
- GPT‑5.4 supera l’umano medio su OSWorld‑Verified nel controllo di un computer reale.
- Tre varianti: Thinking, standard e Pro, con pricing molto differenziato.
- Context window fino a 1 milione di token in opt‑in, con costi raddoppiati oltre 272K.
- Computer use nativo e Tool Search riducono fino al 47% il consumo di token.
Caratteristiche chiave, varianti e benchmark professionali
GPT‑5.4 arriva in tre configurazioni: la versione Thinking, di default su ChatGPT Plus, Team, Pro e via API come gpt-5.4; la variante standard a bassa latenza; e GPT‑5.4‑pro, pensato per carichi estremi e piani Enterprise. Thinking sostituisce GPT‑5.2 Thinking con prezzi API di 2,50 dollari/milione token in input e 15 dollari in output, mentre il Pro sale a 30/180 dollari, diventando il modello più costoso mai offerto da OpenAI. Su GDPval, benchmark di “knowledge work” reale in 44 professioni, GPT‑5.4 eguaglia o supera il professionista umano nell’83% dei casi, rispetto al 70,9% di GPT‑5.2 e al 79,5% di Claude Opus 4.6.
Il modello introduce una context window fino a 1 milione di token, attivabile in opt‑in via parametri API. Oltre i 272.000 token, il costo in input raddoppia e l’output aumenta di 1,5 volte, imponendo una valutazione accurata del TCO per pipeline con contesti lunghi. La gestione “native compaction” comprime automaticamente il contesto per mantenere coerenza sulle sessioni estese. Sul fronte allucinazioni, OpenAI indica una riduzione del 33% delle affermazioni false e del 18% delle risposte errate rispetto a GPT‑5.2, dati da leggere comunque nel perimetro dei benchmark interni dell’azienda.
Computer use nativo e prospettive per gli agenti autonomi
Con GPT‑5.4, il computer use diventa nativo nel modello principale. La prima modalità genera codice Playwright per automatizzare browser e web app prive di API; la seconda lavora direttamente su screenshot, inviando sequenze di click e input da tastiera su qualunque applicazione desktop. Per gli sviluppatori, l’abilitazione del “computer tool” via API include custom confirmation policies per graduare il rischio delle azioni automatizzate, da attività sui file locali all’accesso a sistemi critici.
La novità più rilevante per chi gestisce ecosistemi di tool complessi è Tool Search. Invece di caricare tutte le definizioni nel contesto, GPT‑5.4 riceve solo una lista leggera e recupera on‑demand la descrizione completa del tool necessario. Nei test OpenAI sul benchmark Scale MCP Atlas con 36 server MCP, questa architettura ha ridotto del 47% il consumo totale di token a parità di accuratezza. In scenari reali, piattaforme come OpenClaw segnalano planning più solido ma anche tendenza all’“overbuilding” e occasionali errori non dichiarati, motivo per cui restano indispensabili step di verifica umani sui workflow ad alto impatto.
FAQ
Che cos’è GPT‑5.4 e a chi è destinato principalmente?
GPT‑5.4 è il nuovo modello di punta di OpenAI, pensato per professionisti, aziende e sviluppatori che richiedono automazione avanzata, reasoning profondo e integrazione con agenti software complessi.
In cosa GPT‑5.4 è superiore al precedente GPT‑5.2?
GPT‑5.4 migliora la performance su GDPval (83% vs 70,9%), riduce allucinazioni fino al 33%, introduce computer use nativo, Tool Search e supporto opt‑in a 1 milione di token di contesto.
Quando conviene usare GPT‑5.4‑pro rispetto alla versione Thinking?
Conviene adottare GPT‑5.4‑pro per matematica avanzata, ricerca web molto profonda e agenti critici multi‑step; per il knowledge work standard la versione Thinking offre già prestazioni elevate a costi molto inferiori.
Il contesto da 1 milione di token è sempre consigliabile?
Non sempre: è utile per codebase enormi o archivi documentali estesi. Oltre 272K token i costi raddoppiano, quindi va abilitato solo dopo un’analisi precisa del budget.
Da quali fonti è stata ricavata questa analisi su GPT‑5.4?
L’analisi deriva da una elaborazione congiunta delle fonti ufficiali Ansa.it, Adnkronos.it, Asca.it e Agi.it, opportunamente rielaborate dalla nostra Redazione.
DIRETTORE EDITORIALE
Michele Ficara Manganelli ✿
PUBBLICITA’ – COMUNICATI STAMPA – PROVE PRODOTTI
Per acquistare pubblicità CLICCA QUI
Per inviarci comunicati stampa e per proporci prodotti da testare prodotti CLICCA QUI



