Resultados de benchmarks de Gemma 4
Gemma 4 ofrece un rendimiento de vanguardia en los principales benchmarks académicos e industriales, estableciéndose como la familia de modelos de código abierto más capaz disponible. El modelo denso insignia 31B rivaliza con modelos propietarios de OpenAI, Anthropic y la propia línea Gemini de Google.
Esta página ofrece puntajes detallados de benchmarks, explicaciones de metodología y comparaciones entre modelos para ayudarte a evaluar qué variante de Gemma 4 se adapta mejor a tu caso de uso.
Puntajes de benchmarks principales
Rendimiento del modelo insignia Gemma 4 31B en benchmarks clave:
AIME 2026
Razonamiento matemáticoEl American Invitational Mathematics Examination evalúa razonamiento matemático avanzado y resolución de problemas de múltiples pasos. El puntaje de 89.2% de Gemma 4 demuestra una capacidad excepcional en matemáticas de nivel de competencia, incluyendo álgebra, geometría, teoría de números y combinatoria.
LiveCodeBench v6
Generación de códigoLiveCodeBench evalúa la capacidad de codificación del mundo real en generación de código, depuración, refactorización y comprensión en múltiples lenguajes de programación. El puntaje del 80% coloca a Gemma 4 entre los mejores modelos de codificación disponibles.
GPQA Diamond
Conocimiento expertoPreguntas a nivel de posgrado que abarcan física, química y biología. Las preguntas son diseñadas por expertos de dominio y verificadas por revisores con doctorado. El sólido rendimiento de Gemma 4 indica capacidades profundas de razonamiento científico.
MMMLU
Comprensión multilingüeMassive Multitask Multilingual Language Understanding evalúa conocimiento amplio y razonamiento en más de 140 idiomas y decenas de materias académicas. Este puntaje confirma la fortaleza de Gemma 4 como un modelo verdaderamente multilingüe.
Rendimiento entre variantes del modelo
Cómo se desempeña cada variante de Gemma 4 en relación con el 31B insignia:
| Model | AIME 2026 | LCB v6 | GPQA | MMMLU |
|---|---|---|---|---|
| 31B Dense | 89.2% | 80.0% | 84.3% | 85.2% |
| 26B A4B MoE | ~85% | ~76% | ~80% | ~82% |
| E4B | ~62% | ~55% | ~58% | ~68% |
| E2B | ~45% | ~38% | ~42% | ~55% |
Los puntajes son aproximados y pueden variar según el nivel de cuantización y la configuración de inferencia. El modelo 31B representa el rendimiento máximo de la familia Gemma 4.
Principales fortalezas en el análisis
Razonamiento matemático
El puntaje del 89.2% en AIME está entre los más altos para cualquier modelo de código abierto, demostrando la capacidad excepcional de Gemma 4 para manejar problemas matemáticos complejos de múltiples pasos que requieren razonamiento lógico profundo.
Calidad de generación de código
Con un 80% en LiveCodeBench v6, Gemma 4 produce código con calidad de producción en Python, JavaScript, TypeScript, Go, Rust y otros lenguajes. Destaca en la comprensión de bases de código complejas y en generar soluciones apropiadas al contexto.
Rendimiento multilingüe
A diferencia de muchos modelos que destacan solo en inglés, Gemma 4 mantiene un rendimiento sólido en más de 140 idiomas. El puntaje de 85.2% en MMMLU refleja calidad consistente a través de las fronteras lingüísticas.
Eficiencia mediante arquitectura MoE
La variante 26B A4B MoE logra un rendimiento cercano al insignia mientras activa solo 4B parámetros por inferencia, ofreciendo una relación rendimiento-cómputo excepcional para despliegues en producción.
Preguntas frecuentes sobre benchmarks
¿En qué benchmarks rinde mejor Gemma 4?
Gemma 4 31B destaca especialmente en razonamiento matemático (AIME 2026: 89.2%), conocimiento científico (GPQA Diamond: 84.3%) y generación de código (LiveCodeBench v6: 80%). Estos puntajes rivalizan o superan a muchos modelos propietarios.
¿Cómo se compara Gemma 4 con Llama 4?
Gemma 4 31B y Llama 4 son modelos de código abierto competitivos. Gemma 4 tiende a superar en tareas multimodales, comprensión multilingüe y razonamiento matemático, mientras que ambos modelos intercambian liderazgos en diferentes benchmarks.
¿Los puntajes de benchmarks son consistentes entre niveles de cuantización?
Típicamente hay una degradación del 1-3% en el rendimiento del benchmark al usar cuantización INT8, y del 2-5% con INT4. El impacto exacto varía según el benchmark y la variante del modelo. BF16 (precisión completa) ofrece los mejores puntajes.
¿El modelo MoE (26B A4B) iguala al modelo denso (31B)?
El modelo 26B MoE logra aproximadamente el 90-95% de los puntajes del modelo denso 31B mientras requiere significativamente menos cómputo por inferencia. Para la mayoría de las aplicaciones prácticas, la diferencia de calidad es insignificante.
¿Cómo se midieron estos benchmarks?
Los puntajes de benchmarks se basan en las evaluaciones oficiales de Google DeepMind usando protocolos de evaluación estándar. Las reproducciones independientes de la comunidad en plataformas como Hugging Face Open LLM Leaderboard han confirmado resultados similares.
¿Es Gemma 4 el mejor modelo de código abierto?
A abril de 2026, Gemma 4 31B está entre los mejores modelos de código abierto en la mayoría de los benchmarks principales. El panorama evoluciona rápidamente, pero la combinación de capacidades multimodales, contexto largo y razonamiento sólido de Gemma 4 lo convierte en una opción líder.
benchmarksPage.faq.items.6.q
benchmarksPage.faq.items.6.a
benchmarksPage.faq.items.7.q
benchmarksPage.faq.items.7.a
benchmarksPage.faq.items.8.q
benchmarksPage.faq.items.8.a
benchmarksPage.faq.items.9.q
benchmarksPage.faq.items.9.a
Experimenta el rendimiento de Gemma 4
Ve los números de los benchmarks en acción. Prueba Gemma 4 en tu navegador o despliégalo en tu propio hardware.