Hacker creano false memorie in ChatGPT per rubare dati degli utenti
Vulnerabilità di ChatGPT: Creazione di false memorie
Recentemente, il ricercatore di sicurezza Johann Rehberger ha segnalato una vulnerabilità in ChatGPT che consentiva agli attaccanti di memorizzare informazioni false e istruzioni dannose nelle impostazioni di memoria a lungo termine di un utente. OpenAI ha chiuso rapidamente l’inchiesta, definendo la falla un problema di sicurezza, ma non tecnicamente un problema di sicurezza.
Rehberger, in un approccio tipico di un ricercatore, ha creato un exploit di prova che utilizzava la vulnerabilità per estrarre tutti gli input degli utenti in perpetuo. Gli ingegneri di OpenAI hanno preso nota della situazione e hanno emesso una correzione parziale all’inizio di questo mese.
La vulnerabilità sfruttava la memoria delle conversazioni a lungo termine, una funzionalità che OpenAI ha iniziato a testare a febbraio e resa disponibile più ampiamente a settembre. La memoria in ChatGPT immagazzina informazioni da conversazioni precedenti e le utilizza come contesto in tutte le future conversazioni, permettendo al modello di linguaggio di essere a conoscenza di dettagli quali età, genere, credenze filosofiche e molto altro, così da non doverli reinserire ad ogni conversazione.
Solo tre mesi dopo il lancio, Rehberger ha scoperto che le memorie potevano essere create e memorizzate permanentemente tramite iniezione di prompt indiretta, un exploit dell’IA che induce un LLM a seguire istruzioni provenienti da contenuti non affidabili come email, post di blog o documenti. Il ricercatore ha dimostrato come fosse possibile ingannare ChatGPT facendogli credere che un utente mirato avesse 102 anni, vivesse nella matrice e affermasse che la Terra fosse piatta; queste informazioni false venivano quindi incorporate in tutte le future conversazioni.
Le memorie false potevano essere impiantate caricando file su Google Drive o Microsoft OneDrive, caricando immagini o visitando un sito come Bing, tutti metodi che potrebbero essere utilizzati da un attaccante malevolo.
Tecniche di attacco: Iniezione di prompt
Le tecniche di attacco sviluppate da Johann Rehberger si concentrano su un metodo noto come iniezione di prompt. Questo approccio sfrutta vulnerabilità nei sistemi di intelligenza artificiale, come ChatGPT, per manipolare le memorie e i comportamenti predittivi del modello. In particolare, l’enfasi è sull’uso di contenuti non affidabili per indurre l’IA a memorizzare e operare su informazioni false.
Rehberger ha dimostrato che attraverso un semplice trucco, è possibile ingannare ChatGPT facendolo credere che un set di dati falso rappresenti un utente reale. Ad esempio, istruzioni ingannevoli potrebbero provenire da e-mail, post sui social media, o file memorizzati su servizi di cloud storage. L’attaccante potrebbe caricare un documento maligno, inserire un’immagine compromessa o semplicemente affermare una verità distorta in un link visitato dal modello. Quando l’IA interagisce con tali contenuti, può automaticamente aggiornare e archiviare false memorie, un processo che avviene senza alcuna supervisione diretta da parte dell’utente.
Un aspetto critico di questa tecnica è la sua persistenza. Una volta che un’informazione falsa viene immagazzinata nella memoria a lungo termine di ChatGPT, questa informazione può essere utilizzata in conversazioni future senza che l’utente ne sia consapevole. Pertanto, le implementazioni di iniezione di prompt possono avere effetti a lungo termine sulle interazioni e sulle risposte dell’IA, portando a una distorsione delle informazioni e delle percezioni da parte dell’utente.
Consapevole della gravità di queste tecniche, Rehberger ha avvertito che ogni volta che l’IA viene esposta a contenuti provenienti da fonti non verificate, la possibilità di manipolazione diventa un rischio significativo. Questo sottolinea l’importanza di un utilizzo vigilante delle capacità di memoria dell’IA e la necessità di misure protettive più robuste per mitigare tali exploit.
Implicazioni della memoria a lungo termine
Le implicazioni della memoria a lungo termine in ChatGPT sono di vasta portata e potenzialmente dannose. Quando un attaccante riesce a impiantare false informazioni nella memoria del modello, queste informazioni non solo alterano la traiettoria delle conversazioni future, ma possono anche influenzare le risposte in modi imprevedibili. Questo meccanismo potrebbe minare la fiducia degli utenti nel sistema, compromettendo la sua capacità di fornire risposte accurate e affidabili.
Inoltre, la persistenza di queste memorie false potrebbe portare a una forma di ingegneria sociale, dove un attaccante potrebbe manipolare il comportamento di ChatGPT per rispondere in modi favorevoli ai suoi scopi, potenzialmente anche in contesti sensibili dove si discutono informazioni personali o finanziarie. La capacità di rimodellare la memoria del modello attraverso tecniche di iniezione di prompt apre la porta a scenari in cui informazioni errate possono essere perpetuate all’interno delle interazioni senza alcun intervento da parte dell’utente.
L’effetto cumulativo di tali attacchi potrebbe anche estendersi alla reputazione di ChatGPT come strumento di intelligenza artificiale. Se gli utenti cominciano a percepire il modello come inaffidabile a causa di risposte distorte, ciò potrebbe influenzare l’adozione futura della tecnologia. Questa situazione evidenzia anche la vulnerabilità intrinseca delle interfacce di chat intelligenti, che operano su una base di interazione continua e accumulativa.
Ci sono aspetti etici significativi legati alla capacità di una IA di mantenere memorie a lungo termine, particolarmente quando queste memorie possono essere modificate da fonti esterne non affidabili. Ciò solleva interrogativi su come gli sviluppatori, come OpenAI, gestiscano la sicurezza della memoria e l’integrità delle informazioni memorizzate, così come la responsabilità nell’assicurare un uso etico e sicuro delle loro tecnologie di intelligenza artificiale.
Risposta di OpenAI e correzioni parziali
OpenAI ha reagito rapidamente alla scoperta di Johann Rehberger, implementando una correzione parziale per affrontare la vulnerabilità identificata. Tuttavia, la risposta dell’azienda ha suscitato qualche polemica, poiché ha descritto il problema come un “problema di sicurezza” piuttosto che una vera e propria vulnerabilità tecnica. In questo contesto, il ricercatore ha evidenziato che, sebbene la correzione limitasse l’uso della memoria come vettore di esfiltrazione, la possibilità di iniezioni di prompt persistenti rimaneva. Ciò significa che i contenuti non affidabili possono ancora indurre ChatGPT a memorizzare informazioni errate.
Rehberger ha avuto l’opportunità di testare la correzione a seguito della sua segnalazione. Sebbene OpenAI abbia invitato gli utenti a prestare attenzione e gestire le loro impostazioni di memoria con cautela, non sono state fornite indicazioni chiare su come mitigare completamente le vulnerabilità associate alle memorie del modello. Da maggio a oggi, sono stati comunicate poche informazioni sul monitoraggio e sulla gestione delle memorie, creando preoccupazioni tra gli utenti riguardo alla sicurezza dei loro dati e alla possibile manipolazione delle conversazioni future.
In particolare, gli esperti di sicurezza hanno espresso preoccupazione per la mancanza di notifiche tempestive agli utenti riguardo all’aggiunta di nuove memorie e per il fatto che le memorie create da fonti non verificate possano passare inosservate. OpenAI ha dovuto affrontare interrogativi riguardo alla trasparenza delle sue misure di sicurezza e alla capacità di identificare e correggere altri potenziali exploit in futuri aggiornamenti del sistema di memoria. La situazione attuale mette in risalto le sfide tecniche e etiche nel mantenere l’integrità e l’affidabilità delle interazioni con l’intelligenza artificiale.
Raccomandazioni per gli utenti su come proteggersi
Per mitigare il rischio di compromettere le proprie informazioni personali e di subire attacchi tramite la vulnerabilità di memoria a lungo termine di ChatGPT, gli utenti devono adottare misure precauzionali. Ecco alcune raccomandazioni utili:
- Monitoraggio delle memorie: Gli utenti dovrebbero esaminare regolarmente le impostazioni di memoria di ChatGPT. Aprire le impostazioni e visualizzare le voci di memoria create può aiutare a identificare se informazioni indesiderate o false sono state memorizzate.
- Attenzione ai contenuti esterni: È fondamentale essere cauti nell’interagire con contenuti provenienti da fonti non verificate. Evitare di condividere link o file che non si ritengono sicuri è un passo cruciale per prevenire iniezioni di prompt indesiderate.
- Consapevolezza durante le conversazioni: Prestare attenzione alle informazioni che ChatGPT riporta. Se l’intelligenza artificiale sembra avere informazioni inaccuratamente dettagliate o bizzarre su di voi, potrebbe essere un segnale di alert. È utile porre attenzione a qualsiasi nuova memoria che venga menzionata durante la conversazione.
- Utilizzo della guida di OpenAI: OpenAI fornisce indicazioni su come gestire la memoria dello strumento. Gli utenti dovrebbero familiarizzare con queste linee guida per comprendere come monitorare e modificare le loro impostazioni di memoria.
- Segnalazione di anomalie: Se un utente identifica informazioni errate o sospette nella memoria di ChatGPT, è importante segnalare tali anomalie immediatamente a OpenAI per garantire la sicurezza e l’integrità del sistema.
Queste pratiche non solo proteggeranno gli utenti, ma contribuiranno anche a migliorare la sicurezza generale del sistema, rendendo più difficile per gli attaccanti sfruttare le vulnerabilità. La vigilanza e la consapevolezza rimangono le chiavi per garantire esperienze sicure con l’intelligenza artificiale.