A che punto siamo con le AI Locali? Gemma4-26B-A4B vs Qwen3.5-35B-A3B

A che punto siamo con le AI Locali? Gemma4-26B-A4B vs Qwen3.5-35B-A3B

Si può fare Vibe Coding con LLM Locali? A seguire alcuni benchmark "real world" agentici con OpenCode (alias ClaudeCode opensource alternative) e Pi-Coding-Agent (alias il core harness di OpenClaw).

Cosa testare?

Ho creato una piccola applicazione Bun/Svelte e chiedo al LLM di fare alcune modifiche che richiedono l'uso di skill personalizzate e tool CLI personalizzati.

NB: È uno scenario agentic coding di base, potresti estenderlo a scenari più complessi e contesti più grandi se hai l'hardware e la RAM adeguati.

  • Pi con modelli in modalità No thinking (perché è più veloce in scenari non matematici o complessi)
  • OpenCode con Gemma4-26B-A4B vs Qwen3.5-35B-A3B con reasoning/thinking attivo.

Chi è il vincitore?

Onestamente non ho una risposta, entrambi i modelli locali MoE si comportano bene in contesti che richiedono l'utilizzo dei tool, quindi le funzionalità ci sono, il limite maggiore rimane che, con lo stato dell'hardware attuale, all'ingrandirsi del contesto diminuisce la velocità di inferenza token/s, ma l'ottimismo non è ingiustificato perchè con l'aumentare della velocità delle RAM e NPU ad-hoc, in un futuro prossimo sarà possibile avere delle AI locali capaci su server propri non in cloud.

Pi Coding Agent ha solitamente un footprint di contesto/prompt piccolo per default ma senza guidelines può commettere errori nell'uso degli strumenti.

OpenCode ha un contesto iniziale più ricco, quindi è più lento ad avviarsi ma ha avuto meno problemi con le chiamate agli strumenti Qwen3.5-35B-A3B probabilmente è un po' meglio nei task coding/agentici, ma per singolo prompt Gemma4-26B-A4B ha il miglior tradeoff qualità per velocità, quindi sono da provare entrambi e vedere a seconda del caso d'uso.

💠 Vuoi approfondire l'intelligenza artificiale locale agentica? Dai uno sguardo alla Techonsapevole Academy.