Il modello linguistico di intelligenza artificiale ChatGPT ha raccolto un'attenzione significativa per la sua capacità di impegnarsi in conversazioni che sembrano straordinariamente umane. Tuttavia, due ricercatori dell’Università della California, a San Diego, hanno stabilito che, sebbene ChatGPT si avvicini al superamento del test di Turing, alla fine non è all’altezza.

In uno studio intitolato “GPT-4 supera il test di Turing?” pubblicato sul server di preprint arXiv, Cameron Jones e Benjamin Bergen hanno esaminato le prestazioni di ChatGPT nel generare conversazioni che potrebbero ingannare i partecipanti facendogli credere che stavano conversando con un essere umano. Hanno condotto “giochi” in cui i partecipanti interagivano con un modello umano o con un modello GPT e gli veniva chiesto di identificare con quale stavano comunicando.

I risultati hanno mostrato che GPT-4 ha ingannato con successo i partecipanti il ​​41% delle volte, mentre la versione precedente, GPT-3.5, ha raggiunto un tasso di inganno compreso solo tra il 5% e il 14%. È interessante notare che i partecipanti umani sono riusciti a convincere gli altri della loro umanità solo nel 63% delle prove.

Jones e Bergen hanno concluso che ChatGPT non supera il test di Turing, indicando che presenta ancora dei limiti nel generare output indistinguibili dalle risposte umane. Tuttavia, hanno sottolineato la continua rilevanza del test di Turing come quadro per valutare l’efficacia del dialogo tra macchine e comprendere le strategie umane per adattarsi ai dispositivi di intelligenza artificiale.

I ricercatori hanno anche evidenziato le potenziali conseguenze dei modelli di intelligenza artificiale che impersonano in modo convincente le persone. Con un tasso di successo del 41%, l’inganno da parte dei modelli di intelligenza artificiale potrebbe avere impatti sociali ed economici significativi, soprattutto in contesti in cui gli utenti sono meno consapevoli di poter interagire con una macchina.

Inoltre, lo studio ha identificato i fattori che i partecipanti hanno considerato nel determinare se stavano interagendo con esseri umani o macchine. La formalità, l’informalità, la prolissità, la grammatica, la punteggiatura e le risposte dal suono generico hanno tutti giocato un ruolo importante nell’identificazione delle conversazioni generate dall’intelligenza artificiale.

Poiché i modelli di intelligenza artificiale come ChatGPT continuano ad evolversi e diventano più fluidi, i ricercatori hanno sottolineato la necessità di monitorarne lo sviluppo e sviluppare strategie per mitigare gli inganni.

(Fonte: arXiv)