Lo stato degli AI LLM, analizzati 1Trilione di token da Openrouter
Un recente studio empirico condotto da a16z e OpenRouter ha analizzato oltre 100 trilioni di token di interazioni con Large Language Models, fornendo la visione più completa mai realizzata sull'utilizzo reale degli LLM. Questo studio, basato su dati aggregati dalla piattaforma OpenRouter che serve milioni di sviluppatori e utenti finali, rivela dinamiche sorprendenti nell'ecosistema dell'intelligenza artificiale, in particolare per quanto riguarda i modelli open source.
L'Ecosistema Open Source in Crescita
I dati mostrano una trasformazione radicale del mercato degli LLM. Mentre i modelli proprietari continuano a dominare il segmento enterprise, i modelli open source hanno raggiunto circa il 30% del totale dei token elaborati entro la fine del 2025. Questa crescita non è casuale: picchi di utilizzo coincidono con importanti rilasci di modelli open source come DeepSeek V3 e Kimi K2, suggerendo un'adozione rapida e sostenuta.
Principali attori dell'ecosistema OSS:
- DeepSeek: 14.37 trilioni di token (leader indiscusso)
- Qwen: 5.59 trilioni di token
- Meta LLaMA: 3.96 trilioni di token
- Mistral AI: 2.92 trilioni di token
Particolarmente significativa è l'ascesa dei modelli cinesi, passati da una quota di mercato trascurabile (1.2% a fine 2024) a quasi il 30% del totale dei modelli OSS in alcune settimane del 2025.
I Casi d'Uso Dominanti
Roleplay: Il Sorprendente Leader
Contrariamente alle aspettative, oltre il 52% dell'utilizzo dei modelli OSS è dedicato al roleplay e alle interazioni creative. Questo dato rivela che gli utenti si rivolgono principalmente ai modelli open source per:
- Dialoghi creativi e storytelling interattivo
- Giochi di ruolo e simulazioni di personaggi
- Contenuti di intrattenimento e narrativa personalizzata
I modelli open source hanno un vantaggio distintivo in questo settore: possono essere meno vincolati da filtri di contenuto e più facilmente personalizzati per scenari fittizi e di intrattenimento.
Programmazione: Il Secondo Pilastro
La programmazione rappresenta la seconda categoria per volume di utilizzo ed è in rapida crescita. I modelli OSS sono sempre più utilizzati per:
- Generazione di codice e debugging
- Assistenza nello sviluppo software
- Scripting e automazione di task tecnici
Questo trend riflette l'integrazione crescente degli LLM nei flussi di lavoro degli sviluppatori, dove l'efficienza dei costi e la possibilità di deployment locale sono fattori critici.
Dinamiche di Costo e Utilizzo
L'analisi costo-utilizzo rivela quattro archetipi distinti nel mercato:
Giganti Efficienti (es. DeepSeek V3, Gemini Flash):
- Costo: <$0.40 per milione di token
- Utilizzo: Altissimo
- Posizionamento: Default per workload ad alto volume
Leader Premium (es. Claude Sonnet):
- Costo: ~$2 per milione di token
- Utilizzo: Molto alto
- Posizionamento: Qualità superiore per task critici
Coda Lunga (modelli minori):
- Costo: Pochi centesimi per milione di token
- Utilizzo: Limitato
- Posizionamento: Niche specializzate
Specialisti Premium (es. GPT-5 Pro):
- Costo: ~$35 per milione di token
- Utilizzo: Selettivo
- Posizionamento: Task ad altissima complessità
L'Impatto dei Modelli Cinesi
I modelli cinesi hanno ridefinito il competitività nell'ecosistema OSS:
Qwen mostra un profilo orientato principalmente alla programmazione (40-60% dei token), con una forte presenza nei task tecnici e di sviluppo.
DeepSeek si concentra invece sul roleplay e le interazioni conversazionali, rappresentando oltre due terzi del suo utilizzo totale.
Questa diversificazione riflette strategie di mercato distinte: mentre Qwen compete direttamente nel segmento enterprise/developer, DeepSeek ha conquistato il mercato consumer con esperienze conversazionali coinvolgenti.
Il Futuro dell'Inferenza Agentic
Lo studio evidenzia una transizione fondamentale dall'inferenza single-turn verso workflow agentic multi-step:
- Modelli di reasoning ora rappresentano oltre il 50% di tutti i token
- Utilizzo di strumenti (tool calling) in costante crescita
- Lunghezza delle sequenze triplicata, indicando task più complessi
Questa evoluzione suggerisce che gli LLM stanno diventando motori di ragionamento piuttosto che semplici generatori di testo.
Implicazioni Strategiche
Per gli Sviluppatori
- Approccio Multi-Modello: Nessun modello domina tutti i casi d'uso. La flessibilità nell'integrare diversi modelli è cruciale.
- Ottimizzazione dei Costi: I modelli OSS eccellono nei workload ad alto volume e sensibili ai costi.
- Specializzazione: I modelli open source offrono vantaggi specifici in roleplay e personalizzazione.
Per i Provider di Modelli
- Competizione Globale: L'ascesa dei modelli cinesi dimostra che l'innovazione non è più esclusivamente occidentale.
- Segmentazione del Mercato: Diverse fasce di prezzo e capacità servono segmenti distinti di utenti.
- Innovazione Continua: Il mercato è altamente dinamico, con leadership che cambia rapidamente.
Per le Imprese
- Valutazione Basata su Task: La scelta del modello dovrebbe basarsi sul caso d'uso specifico piuttosto che su prestazioni generiche.
- Costo-Performance: I modelli OSS offrono eccellenti rapporti costo-prestazioni per molti workload.
- Sicurezza e Affidabilità: I modelli proprietari mantengono vantaggi per applicazioni mission-critical.
Conclusioni
L'analisi di 100 trilioni di token rivela un ecosistema LLM maturo e diversificato. I modelli open source non sono più alternative di nicchia, ma componenti essenziali dell'infrastruttura computazionale globale. La loro forza risiede nella capacità di servire efficacemente segmenti di mercato specifici - in particolare il roleplay creativo e l'assistenza alla programmazione - dove offrono un equilibrio superiore tra costo, personalizzazione e prestazioni.
Il futuro dell'AI sarà probabilmente caratterizzato da un ecosistema eterogeneo dove modelli proprietari e open source coesisteranno, servendo diversi bisogni e casi d'uso. Per gli stakeholder del settore, comprendere queste dinamiche e adattare le strategie di conseguenza sarà fondamentale per il successo nel prossimo decennio dell'intelligenza artificiale.