
Sakana AI, la startup giapponese che si occupa di intelligenza artificiale, afferma di aver trovato un modo per trasformare più modelli linguistici di grandi dimensioni (LLM) in un singolo problema, consentendo loro di lavorare in modo cooperativo con risultati migliori che mai, sebbene l’azienda abbia una storia di “affermazioni alquanto ambiziose” che non hanno successivamente trovato conferma.
“In Sakana AI, sviluppiamo sistemi di intelligenza artificiale applicando principi ispirati alla natura, come l’evoluzione e l’intelligenza collettiva. Nella nostra ricerca del 2024 sulla fusione di modelli evolutivi, abbiamo sfruttato la vasta intelligenza collettiva dei modelli open source esistenti attraverso il calcolo evolutivo e la fusione di modelli”, spiega l’azienda. “Questo ci ha portato a una nuova domanda: possiamo utilizzare più modelli non solo per costruire nuovi modelli, ma anche durante l’inferenza? Possiamo utilizzare i modelli di frontiera in continua evoluzione, come [OpenAI] ChatGPT, [Google] Gemini e [Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co.] DeepSeek, per sfruttarli come una forma di intelligenza collettiva?”

La risposta, sostengono i ricercatori di Sakana AI, è sì: utilizzando un algoritmo di scala chiamato Adaptive Branching Monte Carlo Tree Search (AB-MCTS), che consente ai modelli di lavorare per tentativi ed errori e di collaborare con altri. Si tratta di un’estensione del precedente approccio di “fusione di modelli evolutivi” dell’azienda, che mirava a combinare più modelli linguistici di grandi dimensioni in un unico modello combinato. Questa volta, però, ogni modello viene mantenuto separato, combinando i loro sforzi al momento dell’inferenza, anziché prima.
“La nostra combinazione AB-MCTS di [OpenAI] o4-mini + [Google] Gemini-2.5-Pro + [DeepSeek] R1-0528, modelli di intelligenza artificiale di frontiera al momento della stesura, raggiunge prestazioni elevate nel benchmark ARC-AGI-2”, afferma l’azienda, “superando di gran lunga i singoli modelli o4-mini, Gemini-2.5-Pro e DeepSeek-R1-0528”.
Si tratta di un’affermazione che porrebbe Sakana AI al vertice delle prestazioni LLM, consentendo alla sua combinazione di modelli di restituire risultati migliori – o, tecnicamente parlando, oggetti con una forma più precisa, formati da continuazioni di flussi di token statisticamente probabili – rispetto ai concorrenti che lavorano con un singolo modello. L’azienda, tuttavia, ha già fatto affermazioni audaci che non hanno poi retto alla prova dei fatti: a febbraio di quest’anno Sakana AI ha dichiarato di aver creato un “ingegnere AI CUDA” in grado di migliorare le prestazioni dei progetti PyTorch di ordini di grandezza rispetto a un programmatore umano esperto, solo per ammettere in seguito che il suo sistema avesse semplicemente superato i benchmark utilizzati. Chi desidera verificare personalmente le affermazioni dell’azienda, tuttavia, può trovare maggiori informazioni sul blog di Sakana AI e in un preprint non sottoposto a revisione, scritto per l’ICLR 2025 Workshop on Foundation Models in the Wild, pubblicato sul server arXiv della Cornell University.
Iscriviti ai nostri gruppi Telegram
Link utili