Kunsmatige intelligensie-taalmodel ChatGPT het aansienlike aandag gekry vir sy vermoë om betrokke te raak by gesprekke wat merkwaardig menslik klink. Twee navorsers aan die Universiteit van Kalifornië, San Diego het egter vasgestel dat hoewel ChatGPT naby daaraan kom om die Turing-toets te slaag, dit uiteindelik te kort skiet.

In 'n studie getiteld "Slaag GPT-4 die Turing-toets?" gepubliseer op die arXiv-voordrukbediener, het Cameron Jones en Benjamin Bergen die prestasie van ChatGPT ondersoek in die generering van gesprekke wat deelnemers kan mislei om te dink dat hulle met 'n mens gesels. Hulle het "speletjies" uitgevoer waar deelnemers met óf 'n mens óf 'n GPT-model in wisselwerking was en gevra is om te identifiseer met wie hulle kommunikeer.

Die resultate het getoon dat GPT-4 deelnemers 41% van die tyd suksesvol geflous het, terwyl die vorige weergawe, GPT-3.5, 'n misleidingsyfer van slegs 5% tot 14% behaal het. Interessant genoeg het menslike deelnemers daarin geslaag om ander van hul menslikheid te oortuig in net 63% van die proewe.

Jones en Bergen het tot die gevolgtrekking gekom dat ChatGPT nie die Turing-toets slaag nie, wat aandui dat dit steeds beperkings het in die generering van uitset wat nie onderskei kan word van menslike reaksies nie. Hulle het egter die voortdurende relevansie van die Turing-toets beklemtoon as 'n raamwerk vir die evaluering van die doeltreffendheid van masjiendialoog en die begrip van menslike strategieë om by KI-toestelle aan te pas.

Die navorsers het ook die potensiële gevolge van KI-modelle uitgelig wat mense oortuigend naboots. Met 'n sukseskoers van 41% kan misleiding deur KI-modelle beduidende sosiale en ekonomiese impak hê, veral in kontekste waar gebruikers minder bewus is dat hulle dalk met 'n masjien omgaan.

Verder het die studie faktore geïdentifiseer wat deelnemers in ag geneem het wanneer hulle bepaal of hulle met mense of masjiene interaksie het. Die formaliteit, informaliteit, woordigheid, grammatika, leestekens en generies-klinkende antwoorde het almal belangrike rol gespeel in die identifisering van KI-gegenereerde gesprekke.

Namate KI-modelle soos ChatGPT voortgaan om te ontwikkel en meer vloeibaar te word, het die navorsers beklemtoon dat dit nodig is om hul ontwikkeling na te spoor en strategieë te ontwikkel om misleiding te versag.

Algemene vrae (FAQ)

Wat is die Turing-toets?

Die Turing-toets, voorgestel deur wiskundige Alan Turing, is 'n maatstaf van 'n masjien se vermoë om intelligente gedrag te toon wat nie van dié van 'n mens onderskei kan word nie.

Hoe het die navorsers ChatGPT se prestasie beoordeel?

Die navorsers het "speletjies" uitgevoer waar deelnemers met óf 'n mens óf ChatGPT in wisselwerking was en moes bepaal met watter een hulle gesels.

Watter sukseskoers het ChatGPT behaal om deelnemers te flous?

ChatGPT (GPT-4) het deelnemers 41% van die tyd suksesvol mislei, terwyl die vorige weergawe, GPT-3.5, 'n misleidingsyfer van 5% tot 14% behaal het.

Wat is die potensiële gevolge van KI-modelle wat mense naboots?

As KI-modelle mense oortuigend naboots, kan dit wydverspreide sosiale en ekonomiese gevolge hê, wat moontlik lei tot misleiding en die vervaging van mens-masjien-interaksies.

Watter faktore het deelnemers oorweeg wanneer hulle KI-gegenereerde gesprekke identifiseer?

Deelnemers het aandag gegee aan faktore soos formaliteit, informaliteit, woordigheid, grammatika, leestekens en generies-klinkende response om te bepaal of hulle met mense of masjiene kommunikeer.

(Bron: arXiv)