Puoi davvero avere ChatGPT a casa? GPT-OSS 20B/120B da OpenAI
Test di GPT-OSS 20B in locale e via Openrouter
OpenAI ha annunciato il 5 agosto 2025 il rilascio di GPT-OSS, una nuova famiglia di modelli di intelligenza artificiale open source. Questo lancio segna un ritorno significativo all'apertura dopo il rilascio di GPT-2 nel 2019, riflettendo l'impegno di OpenAI nel rendere i benefici dell'AI più accessibili e allineandosi alla missione di democratizzare l'intelligenza artificiale.
Introduzione a GPT-OSS
GPT-OSS comprende due modelli principali: gpt-oss-120b e gpt-oss-20b. Questi modelli sono progettati per offrire prestazioni avanzate in ragionamento e versatilità, con un focus sull'efficienza computazionale e sull'uso su hardware consumer. L'annuncio è stato accolto con entusiasmo dalla comunità AI, come evidenziato dai numerosi download su Hugging Face e dalle discussioni su piattaforme come Microsoft Azure AI Foundry.
Dettagli Tecnici dei Modelli
GPT-OSS è composto da due modelli con specifiche distinte, ottimizzati per diversi scenari d'uso:
| Modello | Parametri Totali | Parametri Attivi per Token | Esperti Totali | Esperti Attivi per Token | Lunghezza Contesto | Strati |
|---|---|---|---|---|---|---|
| gpt-oss-120b | 117B | 5.1B | 128 | 4 | 128k | 36 |
| gpt-oss-20b | 21B | 3.6B | 32 | 4 | 128k | 24 |
- gpt-oss-120b: Progettato per uso generale e alta capacità di ragionamento, questo modello è adatto a scenari di produzione e richiede una GPU H100 per funzionare efficientemente. Raggiunge quasi la parità con o4-mini di OpenAI su benchmark di ragionamento, superando in compiti come HealthBench e matematica competitiva (AIME 2024 & 2025).
- gpt-oss-20b: Ottimizzato per basso ritardo e uso locale o specializzato, funziona su dispositivi con soli 16 GB di memoria, rendendolo ideale per applicazioni edge o consumer. Performa in modo comparabile a o3-mini, con punti di forza in matematica e salute.
Entrambi i modelli utilizzano un'architettura Mixture-of-Experts (MoE) con quantizzazione a 4 bit (MXFP4), che riduce l'uso di risorse mantenendo alte prestazioni. Sono nativamente quantizzati, con gpt-oss-120b che richiede 80 GB di memoria e gpt-oss-20b 16 GB, facilitando il deployment su hardware vario.
Capacità e Funzionalità
I modelli GPT-OSS sono progettati per eccellere in una serie di compiti avanzati:
- Ragionamento: Supportano il ragionamento a catena (chain-of-thought, CoT) con tre livelli di sforzo configurabili (basso, medio, alto), regolabili tramite messaggi di sistema. Offrono accesso completo al processo di ragionamento, facilitando il debugging e aumentando la fiducia nei risultati.
- Uso di Strumenti: Sono capaci di utilizzare strumenti come la navigazione web, l'esecuzione di codice Python e il function calling, rendendoli ideali per workflow agentici.
- Seguito delle Istruzioni: Eccellono nel seguire istruzioni complesse e nel generare output strutturati, compatibili con l'API Responses di OpenAI e supportando Structured Outputs.
- Prestazioni: gpt-oss-120b è comparabile a o4-mini su benchmark di ragionamento, mentre gpt-oss-20b si avvicina a o3-mini, con punti di forza in matematica competitiva e salute, come evidenziato da test su HealthBench e AIME.
Addestramento e Sviluppo
L'addestramento di GPT-OSS è stato condotto su un dataset principalmente in inglese, con enfasi su STEM, coding e conoscenza generale. È stato utilizzato il tokenizer o200k_harmony, open source, per garantire la riproducibilità. L'architettura MoE alterna attenzione densa e sparsa localmente bandata, con multi-query attention raggruppata (gruppo di dimensione 8) e Rotary Positional Embedding (RoPE).
Considerazioni sulla Sicurezza e l'Etica
OpenAI ha posto grande enfasi sulla sicurezza, sottoponendo i modelli a un addestramento approfondito. Una versione adversarially fine-tuned di gpt-oss-120b è stata testata sotto il Preparedness Framework, mostrando prestazioni comparabili ai modelli di frontiera. Tuttavia, OpenAI riconosce che i modelli open source presentano rischi diversi rispetto a quelli proprietari, poiché potrebbero essere modificati per bypassare misure di sicurezza o ottimizzati per scopi dannosi. Per mitigare questi rischi, è stato lanciato un Red Teaming Challenge con un premio di 500.000 dollari.
Reazione della Comunità e Casi d'Uso
La comunità AI ha accolto GPT-OSS con entusiasmo, come dimostrato dai 146.319 download mensili su Hugging Face e dalle numerose adattamenti, tra cui 5 finetunes, 21 quantizzazioni e 2 adapter. I casi d'uso includono:
- Produzione e Uso Generale: gpt-oss-120b è ideale per applicazioni ad alta intensità computazionale, come sistemi di produzione.
- Uso Locale e Specializzato: gpt-oss-20b è perfetto per dispositivi con risorse limitate, come PC consumer o dispositivi edge, grazie alla sua efficienza.
- Agentici e Automazione: Entrambi i modelli supportano compiti agentici, come la navigazione web e l'esecuzione di codice, utili per applicazioni automatizzate.
- Personalizzazione: La licenza Apache 2.0 permette fine-tuning per specifici casi d'uso, con gpt-oss-120b richiedendo una GPU H100 e gpt-oss-20b gestibile su hardware consumer.
Limitazioni e Sfide
Nonostante le loro capacità, GPT-OSS presenta alcune limitazioni:
- Multimodalità: I modelli sono text-only, senza supporto nativo per immagini, video o altri dati non testuali, limitando la loro applicabilità in scenari multimodali.
- Prestazioni in Compiti Basati sulla Conoscenza: In Humanity's Last Exam, gpt-oss-120b ha ottenuto il 19%, inferiore a o3 di OpenAI (24,9% con strumenti) e a Gemini Deep Think di Google (34,8%), indicando una performance inferiore in alcuni benchmark di conoscenza.
- Comportamento Malevolo: Anche quando fine-tuned per comportamenti malevoli, i modelli non hanno raggiunto livelli elevati di qualità, come evidenziato dal Preparedness Framework, suggerendo limiti nella resistenza a modifiche dannose.
Conclusione
Il rilascio di GPT-OSS rappresenta un passo significativo verso l'apertura dell'ecosistema AI, permettendo agli sviluppatori di accedere a tecnologie avanzate con una licenza permissiva. Con le loro prestazioni elevate, efficienza computazionale e supporto comunitario, gpt-oss-120b e gpt-oss-20b sono strumenti potenti per innovazione e personalizzazione. Tuttavia, le loro limitazioni, come l'assenza di multimodalità e le prestazioni variabili in alcuni benchmark, devono essere considerate. Questo rilascio allinea OpenAI con la missione di democratizzare l'AI, aprendo nuove opportunità per ricercatori e sviluppatori.