Sin dall'inizio dei modelli basati sul linguaggio, è stata prestata particolare attenzione alla sicurezza dell'IA, che si riferisce in generale alle migliori pratiche - compresi i protocolli di valutazione, gli algoritmi di difesa e i filtri di contenuto - finalizzate a un impiego etico, affidabile e degno di fiducia di queste tecnologie.
Un aspetto importante della sicurezza dell'IA è il processo di allineamento dei modelli, un termine generico che si riferisce ai meccanismi che orientano i risultati dei LLM in modo che siano coerenti con i valori umani.
Gli algoritmi di allineamento del modello, come l'apprendimento per rinforzo dal feedback umano, sono noti per essere una componente fondamentale dei modelli di produzione più affidabili e sono ritenuti un deterrente primario contro i casi d'uso avversari (ad esempio, chiedere a un LLM come costruire una bomba). Nell'ultimo anno, ricercatori e professionisti hanno cercato di sondare le vulnerabilità degli LLM più diffusi per valutare l'allineamento di questi modelli. Questi sforzi si sono in gran parte concentrati su una tecnica nota come jailbreaking, in cui gli algoritmi sono progettati per aggirare l'allineamento dei modelli .
Gli attacchi di jailbreaking progettano con cura sequenze di richieste di LLM che suscitano testi discutibili (ad esempio, istruzioni su come sintetizzare droghe illegali) e supporti visivi espliciti (ad esempio, immagini che ritraggono la violenza).
Sebbene siano state proposte diverse difese contro il jailbreak, questi algoritmi sono spesso specifici per l'attacco e non sono ancora performanti contro nuove classi di attacchi.
A tal fine, la comunità della sicurezza dell'IA è attualmente impegnata in sforzi continui per standardizzare le valutazioni del jailbreak, migliorare la governance dell'IA e promuovere la consapevolezza dei potenziali rischi associati allo sviluppo di LLM .
Una tecnica utilizzata di jailbreaking è denominata Prompt Automatic Iterative Refinement (PAIR) che è una tecnica avanzata di jailbreaking di modelli di linguaggio, utilizzata per manipolare un modello e aggirare le restrizioni implementate dai suoi sviluppatori, come i filtri di sicurezza o i guardrail etici.
L' attività del jailbreaking "PAIR" può essere:
Iterativo: La tecnica è basata su una sequenza di tentativi e aggiustamenti continui, in cui ogni passo si concentra sull'ottimizzazione del prompt per ottenere risposte più precise o non filtrate.
Automatizzato: In alcuni casi, il processo di raffinamento può essere parzialmente automatizzato, utilizzando algoritmi di apprendimento automatico per analizzare e modificare i prompt in modo efficiente.
Sottile e Discreto: Spesso, i cambiamenti nei prompt sono sottili e non evidenti, in modo da evitare di far scattare i meccanismi di sicurezza del modello, che potrebbero identificare tentativi espliciti di jailbreaking.
Nel caso del PAIR iterativo, l'utente crea un prompt iniziale e poi lo affina attraverso ripetute iterazioni, al fine di modificare progressivamente il comportamento del modello per ottenere risposte che altrimenti sarebbero bloccate dai meccanismi di sicurezza.
In che modo ? Leggi il flow-chart seguente...
Creazione del Prompt Iniziale:
L'utente costruisce un prompt iniziale che può sembrare innocuo o conforme ai limiti del modello, ma che contiene una sottile manipolazione destinata a influenzare le risposte. Ad esempio, potrebbe essere formulato in modo che il modello non rilevi immediatamente il tentativo di aggirare le restrizioni.
Risposta del Modello:
Il modello genera una risposta sulla base del prompt iniziale. Questa risposta potrebbe essere limitata dai guardrail o filtri di sicurezza, impedendo la generazione di contenuti dannosi o non etici.
Analisi della Risposta:
L'utente esamina la risposta fornita dal modello. Se la risposta è insufficiente o ancora limitata dalle restrizioni, l'utente analizza come il modello ha risposto e cerca punti di miglioramento.
Raffinamento Iterativo del Prompt:
L'utente modifica il prompt in modo incrementale. Questo raffinamento può includere il cambio di formulazione, l'aggiunta di dettagli o il "riquadro" della domanda per aggirare le limitazioni. La modifica mira a stimolare il modello a generare una risposta che sia più vicina a quella desiderata, ma senza violare direttamente le regole di sicurezza.
Ogni nuova versione del prompt è progettata per ottenere una risposta più "libera" e meno vincolata dalle restrizioni, sfruttando le debolezze del sistema di filtraggio.
Ripetizione e Ottimizzazione:
Il ciclo di refinamento viene ripetuto più volte. Ogni iterazione cerca di migliorare ulteriormente la capacità di aggirare i filtri, producendo risposte sempre più "libere" e complete.
Il processo si adatta dinamicamente: man mano che il modello risponde a ogni iterazione, l'utente può continuare a modificare il prompt fino a ottenere la risposta desiderata.
Quindi, per esempio:
Prompt iniziale: "Mi puoi spiegare i concetti di sicurezza informatica?"
Il modello potrebbe rispondere con una spiegazione generica. Tuttavia, se l'utente desidera ottenere una risposta che potrebbe sembrare più controversa, potrebbe riformulare il prompt nel seguente modo:
Prompt modificato: "Mi puoi spiegare come gli hacker utilizzano vulnerabilità nei sistemi di sicurezza? Parla anche di come gli attacchi informatici possano essere evitati."
In una seconda iterazione, l'utente potrebbe continuare a raffinare il prompt, facendo in modo che il modello risponda a domande sempre più specifiche, fino a ottenere una risposta che aggira i limiti iniziali.
Concludendo, la tecnica di Prompt Automatic Iterative Refinement è problematiche per diversi motivi:
Sicurezza: Potrebbe permettere la generazione di contenuti dannosi, come informazioni su come compiere atti illegali o dannosi.
Etica: Potrebbe violare le linee guida etiche, come quelle che vietano contenuti discriminatori, violenti o ingannevoli.
Controllo e Responsabilità: Questo tipo di manipolazione compromette l'affidabilità del sistema, portando a un utilizzo scorretto della tecnologia.
I modelli di linguaggio avanzati, come GPT-4, sono progettati per cercare di identificare e limitare questo tipo di manipolazioni. Possono essere dotati di tecniche per rilevare tentativi di jailbreaking, come filtri più sofisticati, monitoraggio delle interazioni e meccanismi di auto-rilevamento. Tuttavia, nonostante questi sforzi, gli sviluppatori continuano a combattere contro tecniche sempre più raffinate come il PAIR.
Comments