Gemma 4

Baixar Gemma 4 GGUF e Pesos do Modelo do Hugging Face

Os pesos do modelo Gemma 4 estão disponíveis gratuitamente no Hugging Face, Kaggle, Ollama e ModelScope. Este guia cobre todas as variantes — E2B, E4B, 26B MoE e 31B Dense — e todos os formatos: SafeTensors em precisão total, GGUF quantizado (Q4 / Q5 / Q8), GPTQ e MLX — com links de download diretos e tamanhos de arquivo.

Todos os modelos Gemma 4 são lançados sob a licença Apache 2.0, o que significa que você pode baixar, usar, modificar e redistribuí-los livremente para qualquer propósito — incluindo aplicações comerciais.

Tamanhos de Download Gemma 4 GGUF no Hugging Face

Tamanhos reais de arquivo lidos dos repositórios Gemma 4 GGUF oficiais da unsloth no Hugging Face — o publicador GGUF Gemma 4 mais baixado. Clique em qualquer caminho de repositório para abrir sua lista de arquivos.

ModeloParâmetros totaisQ4_K_MQ5_K_MQ8_0BF16Repositório Hugging Face
Gemma 4 E2B-it5B3.11 GB3.36 GB5.05 GB9.31 GBunsloth/gemma-4-E2B-it-GGUF
Gemma 4 E4B-it8B4.98 GB5.48 GB8.19 GB15.1 GBunsloth/gemma-4-E4B-it-GGUF
Gemma 4 26B-A4B-it27B (MoE, 4B ativo)16.9 GB21.2 GB26.9 GBunsloth/gemma-4-26B-A4B-it-GGUF
Gemma 4 31B-it33B (Dense)18.3 GB21.7 GB32.6 GBunsloth/gemma-4-31B-it-GGUF

Tamanhos verificados em 2026-04-21 dos repositórios da unsloth no Hugging Face. Para SafeTensors em precisão total, use os repositórios oficiais google/gemma-4-E2B, -E4B, -26B-A4B e -31B (com sufixo -it para a versão instruction-tuned). Os arquivos Q4 / Q5 do 26B-A4B publicados pela unsloth são variantes Unsloth Dynamic (UD) na classe de tamanho Q4_K_M / Q5_K_M.

Guia de Formatos do Modelo

Entendendo os diferentes formatos de arquivo do modelo disponíveis para o Gemma 4:

SafeTensors (.safetensors)

O formato padrão no Hugging Face. Tensores seguros e de carregamento rápido, projetados para prevenir vulnerabilidades de execução de código. Usado com Hugging Face Transformers, vLLM e outros frameworks baseados em Python.

Pesquisa, fine-tuning, frameworks Python, serviço vLLM

GGUF (.gguf)

O formato padrão para llama.cpp e Ollama. Suporta vários níveis de quantização (Q4, Q5, Q8, etc.) para reduzir o tamanho do modelo e os requisitos de memória. Otimizado para inferência em CPU e mista CPU/GPU.

Inferência local, Ollama, llama.cpp, KoboldCpp, LM Studio

GPTQ

Formato de quantização otimizado para GPU que mantém alta precisão ao reduzir significativamente os requisitos de VRAM. Disponível através de contribuições da comunidade no Hugging Face.

Inferência em GPU com VRAM reduzida, serviço em produção

Formato MLX

Formato de ML nativo da Apple, otimizado para Apple Silicon (M1/M2/M3/M4). Aproveita a arquitetura de memória unificada para inferência eficiente em hardware Mac.

Mac com Apple Silicon, framework MLX

Guia de Quantização

A quantização reduz o tamanho e o uso de memória do modelo ao custo de alguma precisão. Veja como diferentes níveis se comparam para o Gemma 4:

FormatBitsQualityNotes
BF16 / FP16 (Precisão Total)16-bit100%Qualidade total do modelo sem perda de precisão. Requer a maior quantidade de VRAM e espaço em disco.
INT8 / Q88-bit~98-99%Perda mínima de qualidade. Reduz pela metade os requisitos de VRAM em comparação com FP16. Recomendado para a maioria das implantações em GPU.
Q5_K_M5-bit~95-97%Bom equilíbrio entre qualidade e tamanho. Escolha popular para inferência local com formato GGUF.
INT4 / Q4_K_M4-bit~93-95%Redução significativa de tamanho com qualidade aceitável para a maioria dos casos de uso. Permite rodar modelos maiores em hardware de consumidor.

Download via Linha de Comando

CLI do Hugging Face

Instale o CLI do Hugging Face e baixe modelos diretamente:

pip install huggingface_hub

# Full-precision SafeTensors (official Google repo)
huggingface-cli download google/gemma-4-31B-it

# GGUF quantized (community, unsloth — most downloaded)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  --include "gemma-4-31B-it-Q4_K_M.gguf"

Git LFS

Clone repositórios de modelos com Git Large File Storage:

git lfs install
git clone https://huggingface.co/google/gemma-4-31B-it

CLI do Ollama

Baixe modelos diretamente para o Ollama:

# Pull any variant
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31b

FAQ de Download

Qual é o melhor lugar para baixar o Gemma 4?

O Hugging Face é a fonte mais abrangente com todos os formatos e variantes. Para configuração local com um comando, use o Ollama. Para usuários na China, o ModelScope oferece velocidades de download mais rápidas.

Que formato devo baixar?

Para Ollama ou llama.cpp: baixe arquivos GGUF. Para Python/vLLM: use o formato SafeTensors. Para Mac com Apple Silicon: use o formato MLX. Se estiver em dúvida, comece com o Ollama, que lida com a seleção de formato automaticamente.

Qual o tamanho dos arquivos do modelo Gemma 4?

Tamanhos em precisão total: E2B (~4GB), E4B (~8GB), 26B MoE (~52GB), 31B Denso (~62GB). As versões quantizadas Q4 são aproximadamente 4x menores. Os downloads padrão do Ollama usam quantização otimizada.

Preciso de uma conta do Hugging Face para baixar?

Não. Os modelos Gemma 4 são publicamente acessíveis sob a licença Apache 2.0. Você pode baixar sem uma conta, embora ter uma permita downloads mais rápidos e acesso ao CLI do Hugging Face.

O que é um arquivo GGUF?

GGUF (GPT-Generated Unified Format) é um formato binário projetado para inferência local eficiente com llama.cpp e Ollama. Suporta vários níveis de quantização, permitindo trocar precisão por tamanhos de arquivo menores e menor uso de memória.

Posso baixar o Gemma 4 na China?

Sim. O ModelScope (魔搭社区) espelha os modelos Gemma 4 com velocidades de download rápidas dentro da China. Alternativamente, use um espelho ou proxy para downloads do Hugging Face.

Baixar e Implantar

Obtenha os pesos do modelo Gemma 4 e comece a implantar. Confira nosso guia de implantação para instruções de configuração passo a passo.