Baixar Gemma 4 GGUF e Pesos do Modelo do Hugging Face
Os pesos do modelo Gemma 4 estão disponíveis gratuitamente no Hugging Face, Kaggle, Ollama e ModelScope. Este guia cobre todas as variantes — E2B, E4B, 26B MoE e 31B Dense — e todos os formatos: SafeTensors em precisão total, GGUF quantizado (Q4 / Q5 / Q8), GPTQ e MLX — com links de download diretos e tamanhos de arquivo.
Todos os modelos Gemma 4 são lançados sob a licença Apache 2.0, o que significa que você pode baixar, usar, modificar e redistribuí-los livremente para qualquer propósito — incluindo aplicações comerciais.
Tamanhos de Download Gemma 4 GGUF no Hugging Face
Tamanhos reais de arquivo lidos dos repositórios Gemma 4 GGUF oficiais da unsloth no Hugging Face — o publicador GGUF Gemma 4 mais baixado. Clique em qualquer caminho de repositório para abrir sua lista de arquivos.
| Modelo | Parâmetros totais | Q4_K_M | Q5_K_M | Q8_0 | BF16 | Repositório Hugging Face |
|---|---|---|---|---|---|---|
| Gemma 4 E2B-it | 5B | 3.11 GB | 3.36 GB | 5.05 GB | 9.31 GB | unsloth/gemma-4-E2B-it-GGUF |
| Gemma 4 E4B-it | 8B | 4.98 GB | 5.48 GB | 8.19 GB | 15.1 GB | unsloth/gemma-4-E4B-it-GGUF |
| Gemma 4 26B-A4B-it | 27B (MoE, 4B ativo) | 16.9 GB | 21.2 GB | 26.9 GB | — | unsloth/gemma-4-26B-A4B-it-GGUF |
| Gemma 4 31B-it | 33B (Dense) | 18.3 GB | 21.7 GB | 32.6 GB | — | unsloth/gemma-4-31B-it-GGUF |
Tamanhos verificados em 2026-04-21 dos repositórios da unsloth no Hugging Face. Para SafeTensors em precisão total, use os repositórios oficiais google/gemma-4-E2B, -E4B, -26B-A4B e -31B (com sufixo -it para a versão instruction-tuned). Os arquivos Q4 / Q5 do 26B-A4B publicados pela unsloth são variantes Unsloth Dynamic (UD) na classe de tamanho Q4_K_M / Q5_K_M.
Fontes Oficiais de Download
Hugging Face
A plataforma principal para pesos do modelo Gemma 4. Oferece todas as variantes em múltiplos formatos, incluindo SafeTensors, GGUF e versões quantizadas GPTQ. Suporta downloads baseados em git, o CLI do Hugging Face e downloads diretos pelo navegador.
- • Todas as variantes e tamanhos de modelo
- • Múltiplos formatos de quantização
- • Downloads via Git LFS e CLI
- • Quantizações contribuídas pela comunidade
- • Model cards com documentação
Kaggle
A plataforma de ciência de dados do Google hospeda os pesos oficiais do modelo Gemma 4. Conveniente para usuários que já estão no ecossistema Kaggle, com integração de notebooks para experimentação rápida.
- • Distribuição oficial do Google
- • Integração com notebooks
- • Rastreamento de versões
- • Download direto
Biblioteca Ollama
Modelos Gemma 4 pré-empacotados, otimizados para inferência local com Ollama. Download e execução com um comando. Os modelos são automaticamente quantizados e otimizados para seu hardware.
- • Instalação com um comando
- • Auto-otimizado para seu hardware
- • Todas as variantes disponíveis
- • Atualizações automáticas
ModelScope (魔搭社区)
Plataforma de hospedagem de modelos baseada na China com velocidades de download rápidas para usuários na Ásia. Espelha os modelos Gemma 4 oficiais com documentação completa em chinês.
- • Downloads rápidos na China/Ásia
- • Documentação em chinês
- • Downloads baseados em Git
- • Modelos da comunidade
Guia de Formatos do Modelo
Entendendo os diferentes formatos de arquivo do modelo disponíveis para o Gemma 4:
SafeTensors (.safetensors)
O formato padrão no Hugging Face. Tensores seguros e de carregamento rápido, projetados para prevenir vulnerabilidades de execução de código. Usado com Hugging Face Transformers, vLLM e outros frameworks baseados em Python.
Pesquisa, fine-tuning, frameworks Python, serviço vLLM
GGUF (.gguf)
O formato padrão para llama.cpp e Ollama. Suporta vários níveis de quantização (Q4, Q5, Q8, etc.) para reduzir o tamanho do modelo e os requisitos de memória. Otimizado para inferência em CPU e mista CPU/GPU.
Inferência local, Ollama, llama.cpp, KoboldCpp, LM Studio
GPTQ
Formato de quantização otimizado para GPU que mantém alta precisão ao reduzir significativamente os requisitos de VRAM. Disponível através de contribuições da comunidade no Hugging Face.
Inferência em GPU com VRAM reduzida, serviço em produção
Formato MLX
Formato de ML nativo da Apple, otimizado para Apple Silicon (M1/M2/M3/M4). Aproveita a arquitetura de memória unificada para inferência eficiente em hardware Mac.
Mac com Apple Silicon, framework MLX
Guia de Quantização
A quantização reduz o tamanho e o uso de memória do modelo ao custo de alguma precisão. Veja como diferentes níveis se comparam para o Gemma 4:
| Format | Bits | Quality | Notes |
|---|---|---|---|
| BF16 / FP16 (Precisão Total) | 16-bit | 100% | Qualidade total do modelo sem perda de precisão. Requer a maior quantidade de VRAM e espaço em disco. |
| INT8 / Q8 | 8-bit | ~98-99% | Perda mínima de qualidade. Reduz pela metade os requisitos de VRAM em comparação com FP16. Recomendado para a maioria das implantações em GPU. |
| Q5_K_M | 5-bit | ~95-97% | Bom equilíbrio entre qualidade e tamanho. Escolha popular para inferência local com formato GGUF. |
| INT4 / Q4_K_M | 4-bit | ~93-95% | Redução significativa de tamanho com qualidade aceitável para a maioria dos casos de uso. Permite rodar modelos maiores em hardware de consumidor. |
Download via Linha de Comando
CLI do Hugging Face
Instale o CLI do Hugging Face e baixe modelos diretamente:
pip install huggingface_hub
# Full-precision SafeTensors (official Google repo)
huggingface-cli download google/gemma-4-31B-it
# GGUF quantized (community, unsloth — most downloaded)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
--include "gemma-4-31B-it-Q4_K_M.gguf"Git LFS
Clone repositórios de modelos com Git Large File Storage:
git lfs install
git clone https://huggingface.co/google/gemma-4-31B-itCLI do Ollama
Baixe modelos diretamente para o Ollama:
# Pull any variant
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31bFAQ de Download
Qual é o melhor lugar para baixar o Gemma 4?
O Hugging Face é a fonte mais abrangente com todos os formatos e variantes. Para configuração local com um comando, use o Ollama. Para usuários na China, o ModelScope oferece velocidades de download mais rápidas.
Que formato devo baixar?
Para Ollama ou llama.cpp: baixe arquivos GGUF. Para Python/vLLM: use o formato SafeTensors. Para Mac com Apple Silicon: use o formato MLX. Se estiver em dúvida, comece com o Ollama, que lida com a seleção de formato automaticamente.
Qual o tamanho dos arquivos do modelo Gemma 4?
Tamanhos em precisão total: E2B (~4GB), E4B (~8GB), 26B MoE (~52GB), 31B Denso (~62GB). As versões quantizadas Q4 são aproximadamente 4x menores. Os downloads padrão do Ollama usam quantização otimizada.
Preciso de uma conta do Hugging Face para baixar?
Não. Os modelos Gemma 4 são publicamente acessíveis sob a licença Apache 2.0. Você pode baixar sem uma conta, embora ter uma permita downloads mais rápidos e acesso ao CLI do Hugging Face.
O que é um arquivo GGUF?
GGUF (GPT-Generated Unified Format) é um formato binário projetado para inferência local eficiente com llama.cpp e Ollama. Suporta vários níveis de quantização, permitindo trocar precisão por tamanhos de arquivo menores e menor uso de memória.
Posso baixar o Gemma 4 na China?
Sim. O ModelScope (魔搭社区) espelha os modelos Gemma 4 com velocidades de download rápidas dentro da China. Alternativamente, use um espelho ou proxy para downloads do Hugging Face.
Baixar e Implantar
Obtenha os pesos do modelo Gemma 4 e comece a implantar. Confira nosso guia de implantação para instruções de configuração passo a passo.