### Super Mario come benchmark per l’intelligenza artificiale

Il recente utilizzo di Super Mario Bros. come strumento di valutazione per l’intelligenza artificiale rappresenta un innovativo approccio nel campo della ricerca. Nonostante il gioco risalga al 1985, ha rivelato le complessità delle prestazioni degli algoritmi AI moderni. Il progetto dell’Hao AI Lab, collegato all’Università della California a San Diego, ha messo in luce come i modelli AI, come Claude 3.7 di Anthropic e GPT-4o di OpenAI, affrontino le sfide in modo significativo mentre controllano Mario in un contesto di gioco emulato. Questa scelta non è casuale: il gioco fornisce condizioni di test che richiedono pianificazioni strategiche e adattamenti in tempo reale, qualità che sono essenziali per la misurazione delle capacità decisionali delle AI.

### Le AI in gara: una sfida emulata

Nel contesto di questa sfida, l’Hao AI Lab ha implementato un framework chiamato GamingAgent, progettato specificamente per controllare Mario attraverso interazioni dinamiche nel gioco. Le AI partecipanti, tra cui Claude 3.7, Claude 3.5, Gemini 1.5 Pro e GPT-4o, sono state equipaggiate con linee guida fondamentali come “Se un ostacolo o un nemico è vicino, muoviti o salta a sinistra”. Questo approccio ha consentito alle AI di ricevere feedback in tempo reale sotto forma di screenshot, rendendo la competizione ancora più avvincente e impegnativa. La generazione di input, realizzata tramite codice Python, ha rappresentato una sfida tecnica significativa, costringendo i modelli a interagire con il gioco in modo fluido e reattivo.

Una delle scoperte più curiose del test è stata la performance dei modelli basati su ragionamento, come o1 di OpenAI, i quali hanno mostrato performance inferiori rispetto ai modelli standard. Nonostante la loro superiorità in diversi benchmark classici, in un ambiente frenetico come quello di Super Mario, il tempo di elaborazione si è rivelato un fattore cruciale per il successo nel gioco. Questo dimostra che, sebbene le capacità analitiche siano fondamentali, la rapidità di reazione e l’adattamento strategico risultano essenziali per superare gli ostacoli e i nemici nel tempo limitato che il gioco impone.

### La crisi di identità dei benchmark attuali

La discussione sull’affidabilità degli attuali benchmark per l’intelligenza artificiale è sempre più rilevante all’interno della comunità scientifica. Expert come Andrej Karpathy di OpenAI hanno sollevato interrogativi fondamentali sulla capacità di misurare efficacemente le prestazioni dei modelli AI. Karpathy ha evidenziato che le metriche tradizionali, come il MMLU, che erano utili in passato, hanno mostrato i loro limiti, lasciando gli esperti in una situazione di crisi valutativa. Questa considerazione invita a riflettere sulla necessità di metodi di valutazione più robusti e realistici, che possano rispecchiare le sfide pratiche dell’AI.

In questo contesto, l’uso dei videogiochi come Super Mario offre spunti interessanti, ma anche complessità sconosciute. I risultati dei test mostrano che, sebbene alcuni modelli possano performare bene in ambienti controllati, il passaggio a scenari complessi e imprevedibili come un videogioco attivo può rivelare debolezze significative. La rapidità e l’efficacia delle decisioni devono essere valutate in relazione al tempo reale richiesto per completare le azioni nel gioco, un aspetto che spesso viene trascurato nei benchmark più tradizionali.

La sfida, quindi, è quella di sviluppare strumenti di valutazione che non solo testino le capacità analitiche e strategiche delle AI, ma che incorporino anche elementi di reattività e capacità di adattamento alle condizioni dinamiche, caratteristiche sempre più necessarie per un’accurata valutazione delle prestazioni dei sistemi intelligenti.