Gemma 4 벤치마크 결과

Gemma 4는 주요 학계 및 업계 벤치마크 전반에서 최첨단 성능을 제공하며, 현재 이용 가능한 가장 강력한 오픈 소스 모델 제품군으로 자리매김했습니다. 플래그십 31B dense 모델은 OpenAI, Anthropic, 그리고 Google 자체의 Gemini 라인의 독점 모델과 경쟁합니다.

이 페이지는 상세한 벤치마크 점수, 방법론 설명, 모델 간 비교를 제공하여 사용 사례에 가장 적합한 Gemma 4 변형을 평가할 수 있도록 돕습니다.

핵심 벤치마크 점수

주요 벤치마크에서의 Gemma 4 31B 플래그십 모델 성능입니다.

AIME 2026

수학 추론

89.2%

American Invitational Mathematics Examination은 고급 수학 추론과 다단계 문제 해결 능력을 평가합니다. Gemma 4의 89.2% 점수는 대수, 기하, 정수론, 조합론을 포함한 경시대회 수준의 수학에서 탁월한 능력을 보여줍니다.

LiveCodeBench v6

코드 생성

80.0%

LiveCodeBench는 여러 프로그래밍 언어에서 코드 생성, 디버깅, 리팩토링, 이해 작업 전반의 실제 코딩 능력을 평가합니다. 80% 점수는 Gemma 4를 현존 최상위 코딩 모델 중 하나로 자리매김시킵니다.

GPQA Diamond

전문가 지식

84.3%

물리, 화학, 생물학을 아우르는 대학원 수준 질문 답변 벤치마크입니다. 문제는 해당 분야 전문가가 설계하고 박사 수준 검토자가 검증합니다. Gemma 4의 우수한 성능은 깊이 있는 과학 추론 능력을 나타냅니다.

MMMLU

다국어 이해

85.2%

Massive Multitask Multilingual Language Understanding은 140개 이상의 언어와 수십 개 학문 과목에 걸친 폭넓은 지식과 추론 능력을 평가합니다. 이 점수는 Gemma 4가 진정한 다국어 모델로서의 강점을 입증합니다.

모델 변형별 성능

각 Gemma 4 변형이 31B 플래그십 대비 어떻게 성능을 발휘하는지 보여줍니다.

Model	AIME 2026	LCB v6	GPQA	MMMLU
31B Dense	89.2%	80.0%	84.3%	85.2%
26B A4B MoE	~85%	~76%	~80%	~82%
E4B	~62%	~55%	~58%	~68%
E2B	~45%	~38%	~42%	~55%

점수는 근사치이며 양자화 수준과 추론 구성에 따라 달라질 수 있습니다. 31B 모델은 Gemma 4 제품군의 최고 성능을 대표합니다.

리뷰의 핵심 강점

수학 추론

89.2% AIME 점수는 오픈 소스 모델 중 최상위에 속하며, 깊이 있는 논리 추론이 필요한 복잡한 다단계 수학 문제를 다루는 Gemma 4의 탁월한 능력을 보여줍니다.

코드 생성 품질

LiveCodeBench v6에서 80%를 기록하며, Gemma 4는 Python, JavaScript, TypeScript, Go, Rust 등 여러 언어에서 프로덕션 품질의 코드를 생성합니다. 복잡한 코드베이스를 이해하고 맥락에 맞는 솔루션을 제공하는 데 탁월합니다.

다국어 성능

영어에서만 뛰어난 많은 모델과 달리, Gemma 4는 140개 이상의 언어에 걸쳐 강력한 성능을 유지합니다. 85.2% MMMLU 점수는 언어 경계를 넘나드는 일관된 품질을 반영합니다.

MoE 아키텍처를 통한 효율성

26B A4B MoE 변형은 추론당 4B 파라미터만 활성화하면서도 플래그십에 근접한 성능을 제공하여, 프로덕션 배포에 탁월한 성능 대비 연산 비율을 제공합니다.

벤치마크 FAQ

Gemma 4가 가장 잘하는 벤치마크는 무엇인가요?

Gemma 4 31B는 특히 수학 추론(AIME 2026: 89.2%), 과학 지식(GPQA Diamond: 84.3%), 코드 생성(LiveCodeBench v6: 80%)에서 뛰어납니다. 이러한 점수는 많은 독점 모델에 필적하거나 능가합니다.

Gemma 4는 Llama 4와 어떻게 비교되나요?

Gemma 4 31B와 Llama 4는 모두 경쟁력 있는 오픈 소스 모델입니다. Gemma 4는 멀티모달 작업, 다국어 이해, 수학 추론에서 더 뛰어난 경향이 있으며, 두 모델은 서로 다른 벤치마크에서 우위를 주고받습니다.

벤치마크 점수는 양자화 수준에 따라 일관되나요?

INT8 양자화 사용 시 일반적으로 벤치마크 성능이 1-3% 저하되며, INT4에서는 2-5% 저하됩니다. 정확한 영향은 벤치마크와 모델 변형에 따라 다릅니다. BF16(풀 정밀도)이 최고 점수를 제공합니다.

MoE 모델(26B A4B)이 dense 모델(31B)과 대등한가요?

26B MoE 모델은 추론당 훨씬 적은 연산이 필요하면서도 31B dense 모델 벤치마크 점수의 약 90-95%를 달성합니다. 대부분의 실무 애플리케이션에서 품질 차이는 무시할 수 있는 수준입니다.

이 벤치마크는 어떻게 측정되었나요?

벤치마크 점수는 표준 평가 프로토콜을 사용한 Google DeepMind의 공식 평가를 기반으로 합니다. Hugging Face Open LLM Leaderboard 등 커뮤니티 플랫폼의 독립적 재현 실험에서도 유사한 결과가 확인되었습니다.

Gemma 4는 최고의 오픈 소스 모델인가요?

2026년 4월 기준, Gemma 4 31B는 대부분의 주요 벤치마크에서 최상위 오픈 소스 모델 중 하나입니다. 환경은 빠르게 변화하지만, Gemma 4의 멀티모달 기능, 긴 컨텍스트, 강력한 추론의 조합은 선도적 선택으로 만듭니다.

benchmarksPage.faq.items.6.q

benchmarksPage.faq.items.6.a

benchmarksPage.faq.items.7.q

benchmarksPage.faq.items.7.a

benchmarksPage.faq.items.8.q

benchmarksPage.faq.items.8.a

benchmarksPage.faq.items.9.q

benchmarksPage.faq.items.9.a

Gemma 4 성능을 직접 체험하세요

벤치마크 수치를 실제로 확인해 보세요. 브라우저에서 Gemma 4를 체험하거나 자신의 하드웨어에 배포하세요.

Gemma 4 온라인으로 체험 로컬 배포