In un inatteso passo indietro nell’evoluzione dell’intelligenza artificiale, i recenti modelli o3 e o4-mini lanciati da OpenAI, pur essendo tecnologicamente all’avanguardia sotto molti aspetti, mostrano una preoccupante tendenza a generare allucinazioni o inventare informazioni con maggiore frequenza rispetto ai loro predecessori. Secondo quanto riportato da TechCrunch, questi modelli di ultima generazione sembrano interrompere la tendenza al miglioramento continuo che aveva caratterizzato finora lo sviluppo dei LLM (Large Language Models).
Un inaspettato aumento delle allucinazioni
I test interni condotti da OpenAI hanno rivelato dati sorprendenti: il modello o3 genera allucinazioni in risposta al 33% delle domande su PersonQA, il benchmark utilizzato dall’azienda per misurare l’accuratezza delle conoscenze su persone reali. Questo tasso rappresenta circa il doppio rispetto ai modelli precedenti: o1 e o3-mini avevano registrato rispettivamente tassi di allucinazione del 16% e del 14,8%.
La situazione appare ancora più critica con o4-mini, che genera informazioni false o inventate addirittura nel 48% dei casi sottoposti allo stesso benchmark. Questi dati sono particolarmente significativi perché interrompono una tendenza storica in cui ogni nuovo modello di OpenAI mostrava progressivi miglioramenti nella riduzione delle allucinazioni.
Test indipendenti condotti da terze parti come Transluce hanno ulteriormente confermato questa regressione, evidenziando casi in cui o3 inventa azioni che afferma di aver compiuto, come dichiarare falsamente di aver eseguito codice su un MacBook Pro “al di fuori di ChatGPT”.
Il caso critico di o4-mini
Il modello o4-mini presenta problematiche ancora più marcate, con un tasso di allucinazione che raggiunge quasi il 50% nel benchmark PersonQA. Si tratta di un valore triplo rispetto al tasso di allucinazione di o1 (16%), e significativamente peggiore anche rispetto al già preoccupante 33% di o3.
Anche l’accuratezza generale di o4-mini desta preoccupazione, con un punteggio di appena 0,36, ben al di sotto dello 0,59 di o3 e persino dello 0,47 del più vecchio o1. Queste problematiche non si limitano alla conoscenza fattuale ma si estendono anche ai contesti educativi, dove o4-mini ha ottenuto solo 0,69 nella valutazione “Tutor jailbreak – system message”, con prestazioni significativamente inferiori rispetto allo 0,91 di o3 e al perfetto 1,0 di o1.
Un’ulteriore area di debolezza riguarda la gestione di domande ambigue che potrebbero suscitare pensieri stereotipati: in questo ambito, o4-mini ha registrato un punteggio di 0,82 nella valutazione BBQ (Bias Benchmark for QA), inferiore allo 0,94 di o3 e allo 0,96 di o1.
Paradossalmente, nonostante questi allarmanti tassi di allucinazione, o4-mini eccelle in alcune aree specifiche, in particolare nei compiti legati alle discipline STEM (Scienza, Tecnologia, Ingegneria e Matematica). Il modello ha ottenuto il 68,1% nei benchmark di codifica SWE-bench, superando sia o3-mini (49,3%) che Claude 3.7 Sonnet (62,3%), modello di punta di Anthropic.
Specializzazione vs accuratezza generale
Questi dati suggeriscono un potenziale trade-off nel perfezionamento dei modelli di intelligenza artificiale: mentre o4-mini offre capacità di ragionamento migliorate per applicazioni tecniche specifiche, queste sembrano essere state ottenute a scapito dell’affidabilità generale delle informazioni prodotte.
Nonostante questi problemi, alcuni professionisti continuano a trovare valore nei nuovi modelli. Il professor Kian Katanforoosh di Stanford ha dichiarato che il suo team sta già utilizzando o3 nei flussi di lavoro di programmazione, pur avendo notato la tendenza del modello a generare allucinazioni riguardo a link di siti web non funzionanti.
Questa specializzazione orientata al ragionamento tecnico piuttosto che alla precisione fattuale solleva interrogativi sulla direzione dello sviluppo dell’IA generativa e sulla definizione stessa di “miglioramento” per questi sistemi.
La svolta di Google con Gemini 2.0
In netto contrasto con i problemi riscontrati nei modelli OpenAI, Google ha recentemente annunciato un progresso significativo con il suo modello Gemini 2.0 Flash-001, che ha raggiunto un tasso di allucinazioni di appena lo 0,7%, diventando ufficialmente il LLM meno soggetto ad allucinazioni del 2025.
Questo risultato rappresenta un miglioramento drastico rispetto al già ottimo tasso di allucinazioni del 3,4% di Gemini 1.5 Flash nel 2024, con una riduzione di 2,7 punti percentuali in soli sei mesi. Il traguardo segna una pietra miliare storica, poiché i modelli di intelligenza artificiale sia di Google che di OpenAI sono scesi per la prima volta sotto la soglia dell’1% di allucinazioni, con il modello o3 Mini High di OpenAI che segue da vicino con lo 0,8%.
Le capacità di ragionamento di Gemini sono migliorate significativamente nei benchmark, con Gemini 2.0 Flash Thinking Experimental che ha ottenuto il 73,3% su AIME2024 (matematica), il 74,2% su GPQA Diamond (scienze) e il 75,4% su MMMU (ragionamento multimodale).
Questi miglioramenti derivano dall’approccio dei “modelli pensanti” di Google, in cui i sistemi di IA vengono addestrati a ragionare sui propri pensieri prima di formulare una risposta finale. L’ultima iterazione, Gemini 2.5 Pro, porta ulteriormente avanti queste capacità, guidando benchmark come Humanity’s Last Exam (18,8%) e AIME 2024 (92,0%).
Implicazioni e prospettive future
I risultati contrastanti di OpenAI e Google sollevano interrogativi fondamentali sul futuro dello sviluppo dell’IA generativa. La regressione nell’accuratezza dei modelli di punta di OpenAI potrebbe indicare che l’azienda sta privilegiando l’ottimizzazione di capacità specifiche rispetto all’affidabilità generale, una scelta che potrebbe avere implicazioni significative per gli utenti che fanno affidamento su questi sistemi.
La crescente divergenza tra capacità di ragionamento e accuratezza fattuale evidenzia una tensione centrale nello sviluppo dell’IA: è possibile migliorare le capacità di ragionamento avanzato senza compromettere l’affidabilità delle informazioni fornite?
Il successo di Google con il suo approccio “thinking-based” suggerisce una possibile via d’uscita da questo dilemma, dimostrando che ragionamento avanzato e accuratezza fattuale non sono necessariamente obiettivi mutuamente esclusivi.
Per gli utenti di questi sistemi, il messaggio è chiaro: nonostante i continui progressi tecnologici, rimane essenziale un approccio critico alle informazioni generate dall’IA, particolarmente quando si utilizzano i più recenti modelli di OpenAI per ricerche fattuali su persone o eventi reali.