OpenAI e i Modelli “Strawberry”
OpenAI non vuole che gli utenti scoprano cosa “pensa” il suo ultimo modello di intelligenza artificiale. Dopo il lancio della famiglia di modelli “Strawberry” la scorsa settimana, l’azienda ha messo in evidenza le capacità di ragionamento del modello o1-preview e o1-mini, ma ha anche avviato un giro di avvisi e minacce di ban per gli utenti che cercano di esplorare il funzionamento di questi modelli.
A differenza dei modelli precedenti come GPT-4o, OpenAI ha addestrato o1 specificamente per affrontare i problemi attraverso un processo di risoluzione passo-passo prima di generare una risposta. Quando gli utenti pongono una domanda a un modello “o1” all’interno di ChatGPT, hanno la possibilità di visualizzare questo processo di ragionamento descritto nell’interfaccia. Tuttavia, OpenAI nasconde intenzionalmente la catena di pensiero grezza, presentando invece un’interpretazione filtrata creata da un altro modello di intelligenza artificiale.
Secondo fonti del settore, come Ars Technica, che offre notizie e analisi sulla tecnologia, il mistero è un forte incentivo per gli appassionati e i ricercatori, alimentando una corsa tra hacker e “red-teamers” per cercare di svelare la catena di pensiero grezza di o1 utilizzando tecniche di jailbreak o iniezione di prompt, nel tentativo di indurre il modello a rivelare i suoi segreti. Sebbene ci siano stati alcuni rapporti preliminari di successi, nulla è stato confermato in modo robusto fino ad ora.
Minacce di Ban e Politiche di Sicurezza
OpenAI sta mantenendo una sorveglianza intensa sull’uso dei suoi ultimi modelli, implementando politiche di sicurezza rigorose e adottando misure drastiche contro comportamenti che considera in violazione delle sue linee guida. Varie segnalazioni indicano che la società ha cominciato ad inviare email di avviso agli utenti i cui tentativi di interazione con o1 sono stati considerati pericolosi o non conformi. Un utente su X, confermato anche da Riley Goodside di Scale AI, ha riportato di aver ricevuto un avviso semplicemente per aver utilizzato il termine “catena di ragionamento” durante una conversazione con o1.
Le email di avviso esplicitano che le richieste effettuate dagli utenti sono state contrassegnate per aver violato politiche che impediscono di eludere misure di sicurezza. “Per favore, interrompete questa attività e assicuratevi di utilizzare ChatGPT in accordo con i nostri Termini di Utilizzo e le nostre Politiche di Utilizzo,” recita un passaggio di queste comunicazioni. “Ulteriori violazioni di questa politica potrebbero comportare la perdita dell’accesso a GPT-4o con Ragionamento,” un riferimento all’appellativo interno per il modello o1.
Marco Figueroa, responsabile dei programmi di bug bounty di GenAI per Mozilla, ha recentemente condiviso la sua frustrazione riguardo a queste minacce, descrivendo la situazione come un ostacolo alla sua capacità di condurre ricerche di sicurezza positiva. “Ero troppo preso a concentrarmi su #AIRedTeaming per accorgermi che avevo ricevuto questa email da @OpenAI ieri dopo tutti i miei jailbreak,” ha commentato, evidenziando la difficile posizione in cui si trovano i ricercatori che tentano di testare e valutare la sicurezza dei modelli di intelligenza artificiale.
Tecniche di Jailbreaking e Ricerche di Sicurezza
Con la crescente attenzione verso i modelli “Strawberry” di OpenAI, è emersa una comunità attiva di hacker e ricercatori di sicurezza intenzionati a esplorare e testare i limiti di questi strumenti avanzati. Le tecniche di jailbreaking e di iniezione di prompt sono diventate modalità comuni per tentare di accedere alla catena di pensiero grezza di o1, che l’azienda ha scelto di mantenere sotto chiave. Le prime hanno come obiettivo quello di eludere le restrizioni impostate da OpenAI, cercando di “sbloccare” un’accessibilità che altrimenti rimarrebbe preclusa.
Nonostante l’assenza di conferme definitive sui successi di queste tecniche, ci sono stati rapporti di tentativi riusciti che hanno attirato l’attenzione di OpenAI. Alcuni utenti hanno riferito di essere stati in grado di indurre il modello a rivelare elementi della sua logica interna, sebbene tali successi possano essere sporadici e non del tutto replicabili. Il continuo tentativo di decifrare il modo in cui o1 elabora le informazioni riflette una spinta per una maggiore comprensione e trasparenza nell’IA, ma pone anche importanti questioni etiche lungo il cammino.
Un utente su X ha condiviso la sua esperienza, evidenziando come le sue domande nelle interazioni con il modello siano state strumentalizzate per individuare tentativi di accesso non autorizzato alle “catene di ragionamento”. A seguito di questa attività, ha espresso la propria preoccupazione riguardo al clima di paura che si può generare, ostacolando ricerche legittime condotte da esperti di sicurezza. La mancanza di chiarezza delle politiche di OpenAI, in questo contesto, rischia di soffocare importanti iniziative di ricerca che potrebbero contribuire al miglioramento della sicurezza degli AI e all’efficacia delle loro applicazioni.
In molti casi, la frustrazione di coloro che cercano di condurre ricerche di sicurezza si scontra con la proattività di OpenAI nel proteggere i suoi modelli. Come rilevato da Marco Figueroa, la sua esperienza evidenzia un significativo conflitto tra il desiderio di innovare e la necessità di operare nel rispetto delle normative di utilizzo stabilite dall’azienda. Le tensioni tra ricerca etica e politiche di sicurezza sono diventate sempre più evidenti, portando a un terreno di battaglia dinamico e, a volte, controverso.
Catene di Pensiero Nascoste
In un post intitolato “Learning to Reason With LLMs” pubblicato sul blog di OpenAI, l’azienda discute come le catene di pensiero nascoste nei modelli di intelligenza artificiale offrano un’opportunità unica di monitoraggio, permettendo di “leggere la mente” del modello e comprendere il suo processo di pensiero. Questi processi sono più utili per l’azienda se lasciati nella loro forma grezza e non censurata. Tuttavia, questa libertà potrebbe non allinearsi con gli interessi commerciali di OpenAI per diversi motivi.
Una delle preoccupazioni principali riguarda la possibilità di monitorare la catena di pensiero per identificare segni di manipolazione dell’utente. Come sottolinea OpenAI, “per poter fare questo, il modello deve avere la libertà di esprimere i suoi pensieri in forma non alterata, quindi non possiamo addestrare alcuna conformità alle politiche o preferenze degli utenti sulla catena di pensiero.” Inoltre, la compagnia non desidera rendere visibile una catena di pensiero non allineata agli utenti, poiché questo potrebbe generare confusione e malintesi.
OpenAI ha deciso di non mostrare queste catene di pensiero grezze agli utenti, citando fattori come la necessità di mantenere un flusso grezzo per uso interno, l’esperienza dell’utente e il “vantaggio competitivo.” La società ammette che questa decisione ha svantaggi, cercando di compensarli insegnando al modello a riprodurre idee utili dalla catena di pensiero nelle risposte finali.
Il punto del “vantaggio competitivo” ha suscitato frustrazione tra i ricercatori indipendenti. Simon Willison, un ricercatore nel campo dell’IA, ha espresso preoccupazione a riguardo. “Interpreto [questa decisione] come un tentativo di evitare che altri modelli possano addestrarsi sui lavori di ragionamento che hanno investito,” ha scritto nel suo blog personale. Willison evidenzia anche che è un segreto aperto nel settore dell’IA che i ricercatori utilizzano regolarmente output da modelli di OpenAI come GPT-4 per addestrare modelli concorrenti, una pratica che viola i termini di servizio di OpenAI.
La mancanza di trasparenza di OpenAI sull’interno funzionamento di o1 è vista come una perdita per la comunità, secondo Willison. “Non sono affatto soddisfatto di questa decisione politica,” ha aggiunto, evidenziando l’importanza della trasparenza nel lavoro con i modelli di linguaggio.
Implicazioni per la Trasparenza e la Competitività
La scelta di OpenAI di non rivelare le catene di pensiero grezze dei suoi modelli ha suscitato notevoli preoccupazioni riguardo alla trasparenza nel campo dell’intelligenza artificiale. Ricercatori e professionisti del settore hanno espresso frustrazione per il fatto che nascondere tali informazioni possa ostacolare l’innovazione e la comprensione delle capacità dei modelli di AI. Simon Willison ha sottolineato che, mantenendo le sue scoperte e i processi interni segreti, OpenAI limita la possibilità di valutazioni critiche da parte della comunità scientifica e degli sviluppatori, creando un ambiente di lavoro meno aperto e collaborativo.
Inoltre, la mancanza di trasparenza potrebbe influenzare in modo significativo la competitività nel campo dell’IA. I modelli concorrenti potrebbero non avere accesso agli elementi fondamentali che distinguono i modelli di OpenAI, rendendo difficile per loro competere efficacemente. Molti ricercatori nel settore dell’IA utilizzano tecniche di apprendimento supervisionato, dove la formazione di nuovi modelli si basa su esempi di linguaggio e ragionamento provenienti da modelli esistenti. La disponibilità della catena di pensiero grezza di o1 sarebbe un’opportunità unica di apprendimento per i concorrenti, permettendo loro di sviluppare modelli simili con proprietà di ragionamento avanzate.
In questo contesto, il dibattito sulla necessità di una maggiore trasparenza contrasta con le preoccupazioni legate alla sicurezza e alla protezione dei dati. OpenAI ha chiarito che, sebbene il monitoraggio interno delle catene di pensiero possa fornire vantaggi strategici, si tratta di un dilemma etico e commerciale. Mentre alcuni sostengono che le informazioni dovrebbero essere condivise per il progresso della ricerca e dello sviluppo, altri temono che una maggiore esposizione possa condurre a vulnerabilità o abusi.
Il futuro della trasparenza nell’IA e i suoi effetti sulla competitività rimangono argomenti di accesso acceso nella comunità tecnologica. La posizione di OpenAI potrebbe influenzare non solo il modo in cui interagisce con i suoi utenti, ma anche la direzione della ricerca sull’intelligenza artificiale negli anni a venire.