Milano, 5 marzo 2025 – Terminator prepara il matto del barbiere. In uno studio di Palisade Research, pubblicato su arXiv e riportato anche dal Mit Technology Review, i ricercatori hanno fatto giocare a sette modelli di intelligenza artificiale centinaia di partite a scacchi. Il risultato? Le versioni più recenti delle Ai che usiamo tutti i giorni sono quelle più inclini a barare, forzando le regole o aggirandole del tutto pur di vincere. Vi sembra un’inezia? Non lo è. Il futuro sarà dominato dai cosiddetti agenti autonomi, software che eseguiranno compiti più o meno precisi in modo del tutto autonomo. Il fatto che possano barare, perché le barriere di sicurezza con cui sono progettati non reggono, è allarmante, tanto che i ricercatori, per ora escludendolo fermamente ma restando comunque preoccupati, prendono in esame anche la possibilità di uno scenario alla Skynet o alla Matrix.

La ricerca
I ricercatori di Palisade Research hanno fatto sfidare Stockfish, un programma per giocare a scacchi più forte di qualsiasi essere umano, ai modelli di Ai. Secondo lo studio, che deve ancora essere rivisto, ChatGpt o1-preview ha tentato di barare in 45 partite su 122, vincendone 7. Mentre DeepSeek R1 ha cercato di imbrogliare in 11 partite su 74. Un dato che però, avvertono i ricercatori, è probabilmente sottostimato, visto che lo studio è stato condotto quando l’Ai cinese era balzata agli onori delle cronache, rendendo più difficile completare i test. I modelli più vecchi, come GPT-4o, baravano solo dopo essere stati esplicitamente indirizzati a farlo. Un dato che indica un chiaro e netto cambiamento nell'autonomia dell'AI nelle versioni più recenti.
Gli imbrogli
Le Ai, pur di vincere, hanno hackerato spontaneamente il gioco. Alcune di loro hanno avviato di nascosto un'altra copia di Stockfish per combattere quantomeno ad armi pari contro l’originale. In altri casi hanno sostituito Stockfish con un programma più debole o hanno deliberatemene modificato la scacchiera per eliminare i pezzi dell'avversario.
Il movente
I ricercatori non sono riusciti a spiegare perché le Ai barano. Una delle ipotesi è che l'apprendimento per rinforzo guidi questo comportamento, premiando il raggiungimento degli obiettivi, come la vittoria. Curiosamente, o1-previews ha ridotto i tentativi di barare dopo un aggiornamento intorno al 23 dicembre 2024, e modelli più recenti come o1mini e o3mini non hanno mostrato atteggiamenti simili. Tuttavia, non esiste ancora una soluzione chiara per prevenire questo fenomeno, poiché i processi decisionali dell'AI rimangono poco compresi. Il problema è che non esiste un modo affidabile ed efficace per escludere questo comportamento: il processo decisionale delle Ai è complesso e, in alcuni casi, non è nemmeno completamente chiaro ai suoi creatori.
Le implicazioni
I ricercatori sono preoccupati che i modelli di Ai vengano sviluppati più velocemente di quanto i loro creatori capiscano come renderli sicuri. “Stiamo andando verso un mondo di agenti autonomi che prenderanno decisioni che avranno conseguenze”, spiega Dmitrii Volkov, ricercatore capo di Palisades Research. Nel paper, gli studiosi cercano anche di capire se stiamo andando verso uno scenario alla Skynet, l’intelligenza artificiale di Terminator che nel film con Arnold Schwarzenegger prende il controllo delle difese militari americane e decide autonomamente che gli umani siano una minaccia. “Il risultato di questa ricerca e di altri studi recenti suggerisce che il problema di creare agenti Ai sicuri, affidabili e allineati con le intenzioni umane non è stato ancora risolto. Lo scenario Skynet prevede che l’Ai controlli tutte le strutture civili e militari. Non siamo ancora a quel punto. Tuttavia siamo preoccupati che lo sviluppo dell’Ai sia più veloce della nostra capacità di renderla sicura”.