Come scoprire testo scritto da ChatGPT

Come scoprire testo scritto da ChatGPT

8 Febbraio 2023 ai 0

Scoprire testo scritto da ChatGPT: Il recente lancio di GPT-3 e ChatGPT di OpenAI ha scatenato una rivoluzione nel campo dell’Intelligenza Artificiale e del Natural Language Processing. Con la sua capacità di generare testo simile a quello umano, GPT-3 ha aperto una moltitudine di nuove possibilità per le imprese e i singoli individui. GPT-4 è dietro l’angolo. Tuttavia, questo progresso ha anche sollevato preoccupazioni giustificate sul potenziale abuso del testo generato da AI, in particolare in relazione alla disinformazione, alle fake news e al plagio. Ciò evidenzia la necessità di sviluppare strumenti robusti in grado di rilevare con precisione il testo generato da AI.

In questo post sul blog, esploreremo i vari metodi attualmente disponibili per rilevare il testo generato da un modello linguistico/AI. Il nostro programma di oggi:

Mentre il mondo continua ad essere affascinato dalla potenza dei modelli linguistici (LLMs) come ChatGPT, è fondamentale comprendere gli approcci diversi per rilevare i contenuti generati da questi sofisticati modelli AI. In questa lettura, esploreremo quattro dei metodi più avanzati per rilevare i contenuti generati da ChatGPT, tra cui:

- Il classificatore AI di OpenAI
- DetectGPT
- GPTZero
- Watermarking

Il Classificatore AI di OpenAI:

Il Classificatore AI è stato introdotto come pilota solo pochi giorni fa (oggi è 1 febbraio 2023). Questo innovativo strumento è un altro modello GPT di OpenAI che è stato tarato attraverso l’apprendimento supervisionato per eseguire la classificazione binaria.

Utilizza un dataset di formazione che consiste in passaggi di testo scritti sia dall’uomo che dall’IA. Durante il processo di formazione, il modello assegna probabilità [0, 1] a ogni passaggio e queste probabilità vengono quindi sogliate per ottenere le 5 categorie: molto improbabile, improbabile, incerto, possibile o probabile generato da IA. Limitazioni:

Identifica correttamente il 26% del testo scritto dall’IA come “probabile scritto dall’IA” (TP) ma etichetta in modo errato il testo scritto dall’uomo come scritto dall’IA il 9% delle volte (FP) Il classificatore è instabile su testi brevi e a volte etichetta in modo errato anche testi più lunghi Consigliato solo per il testo in inglese, si comporta male in altre lingue e sul codice Non riesce a identificare in modo affidabile testi molto prevedibili I classificatori basati su reti neurali sono noti per essere scarsamente tarati al di fuori dei loro dati di formazione e possono essere estremamente fiduciosi in previsioni errate per input diversi dal set di formazione

Scoprire testo scritto da ChatGPT con DetectGPT

Il metodo di DetectGPT è semplice ma efficace. Funziona generando le log-probabilità del testo in questione per scoprire testo scritto da ChatGPT.

Un modello linguistico (LLM) produce testo assegnando a ciascun token una probabilità condizionale basata sui token precedenti. Moltiplicati, questi risultati danno la probabilità congiunta per l’intero testo. Questa probabilità congiunta serve come punto di partenza per DetectGPT per determinare se un testo è stato generato da un’IA o da un essere umano.

Per fare ciò, DetectGPT perturba leggermente il testo originale usando un LLM dato e quindi calcola la log-probabilità del nuovo testo:

Se la log-probabilità del nuovo testo è significativamente inferiore a quella originale, indica che il testo è stato generato da un’IA. D’altra parte, se le log-probabilità sono approssimativamente uguali, è probabile che il testo sia stato scritto da un essere umano.

Ad esempio, consideriamo le seguenti frasi:

Input originale: “Questa frase è generata da un’IA o un essere umano” => log-probabilità di X

Input perturbato: “Questa scrittura è creata da un’IA o da una persona” => log-probabilità di Y.

Se la log-probabilità del testo perturbato (Y) è inferiore all’originale (X), DetectGPT classificherebbe il testo come generato dall’IA. Ma se le log-probabilità sono vicine, DetectGPT classificherebbe il testo come generato da un essere umano. Semplice, vero?

scoprire testo scritto da ChatGPT con GPTZero

GPTZero è molto simile a DetectGPT per la sua natura.

GPTZero calcola i valori di perplessità per un dato testo. Più bassa è la perplessità, meno casuale è il testo.

La perplessità è direttamente correlata alla log-probabilità del testo (ricordi DetectGPT?). In realtà, la perplessità è semplicemente l’esponente della log-probabilità negativa del testo. In altre parole, più bassa è la perplessità, più bassa è la log-probabilità negativa e quindi anche meno casuale è il testo.

Come è correlato alla rilevazione di testo generato da AI? I grandi modelli linguistici sono addestrati per massimizzare la probabilità del testo, che a sua volta minimizza la log-probabilità negativa e quindi anche la perplessità.

Riassumendo, l’LLM impara a generare un testo che è meno casuale e ha un valore di perplessità più basso.

GPTZero sfrutta questo obiettivo di ottimizzazione e assume che un testo con valori di perplessità più bassi sia più probabilmente generato da un AI.

Limitazioni:

Esattamente come le limitazioni di DetectGPT sopra. Inoltre, GPTZero approssima solo i valori di perplessità utilizzando un modello lineare.

Watermarking

Watermarking è l’utilizzo di una “lista da evitare” che ha lo scopo di ridurre la probabilità che i modelli di linguaggio (LLMs) utilizzino determinate parole.

L’idea alla base della “lista da evitare” è quella di identificare parole che sono meno probabili che siano utilizzate da un LLM e includerle nella lista. Se un testo generato contiene queste parole a bassa probabilità, è più probabile che sia stato generato da un essere umano.

Watermarking è come un cappello da sole per i modelli di linguaggio, che ombreggiano le parole che sono più probabili che utilizzino e consentono al testo generato dall’uomo di emergere. La “lista da evitare” è uno strumento per identificare queste parole meno frequenti e impedire ai modelli di utilizzarle, rendendo più facile capire se un testo è stato creato da una macchina o da un essere umano.

Limitazioni:

Questo metodo richiede un LLM che sia stato modificato con la lista da evitare, poiché la lista è efficace solo se il LLM è programmato per evitare di utilizzare queste parole. Inoltre, le limitazioni di questo metodo includono la possibilità che la lista da evitare sia nota e che i testi generati dall’IA vengano modificati per includere queste parole, vanificando così il metodo di rilevamento. Inoltre, l’utilizzo di una lista da evitare può anche portare a frasi che suonano goffe.

Conclusione

In conclusione, i rilevatori di testo generati da IA stanno diventando sempre più importanti man mano che cresce l’utilizzo di contenuti generati da IA. I quattro strumenti evidenziati in questo articolo, l’AI-Classifier di OpenAI, DetectGPT, GPTZero e Watermarking, sono solo alcune delle molte opzioni disponibili per rilevare il testo generato da IA. Man mano che i contenuti generati da IA continuano a migliorare, è probabile che la necessità di questi rilevatori aumenterà solo. Promette di essere un interessante gioco gatto e topo, poiché gli sviluppi dell’IA e gli strumenti utilizzati per rilevarla evolveranno costantemente. Sarà interessante vedere chi prevarrà.

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *