Baixar Modelos Gemma 4

Os pesos do modelo Gemma 4 estão disponíveis gratuitamente em várias fontes oficiais. Quer você precise de pesos em precisão total para pesquisa, arquivos GGUF quantizados para inferência local ou modelos pré-empacotados para Ollama, este guia cobre todas as opções de download.

Todos os modelos Gemma 4 são lançados sob a licença Apache 2.0, o que significa que você pode baixar, usar, modificar e redistribuí-los livremente para qualquer propósito — incluindo aplicações comerciais.

Fontes Oficiais de Download

Hugging Face

A plataforma principal para pesos do modelo Gemma 4. Oferece todas as variantes em múltiplos formatos, incluindo SafeTensors, GGUF e versões quantizadas GPTQ. Suporta downloads baseados em git, o CLI do Hugging Face e downloads diretos pelo navegador.

• Todas as variantes e tamanhos de modelo
• Múltiplos formatos de quantização
• Downloads via Git LFS e CLI
• Quantizações contribuídas pela comunidade
• Model cards com documentação

Kaggle

A plataforma de ciência de dados do Google hospeda os pesos oficiais do modelo Gemma 4. Conveniente para usuários que já estão no ecossistema Kaggle, com integração de notebooks para experimentação rápida.

• Distribuição oficial do Google
• Integração com notebooks
• Rastreamento de versões
• Download direto
• downloadGuide.sources.kaggle.features.4

Biblioteca Ollama

Modelos Gemma 4 pré-empacotados, otimizados para inferência local com Ollama. Download e execução com um comando. Os modelos são automaticamente quantizados e otimizados para seu hardware.

• Instalação com um comando
• Auto-otimizado para seu hardware
• Todas as variantes disponíveis
• Atualizações automáticas
• downloadGuide.sources.ollama.features.4

ModelScope (魔搭社区)

Plataforma de hospedagem de modelos baseada na China com velocidades de download rápidas para usuários na Ásia. Espelha os modelos Gemma 4 oficiais com documentação completa em chinês.

• Downloads rápidos na China/Ásia
• Documentação em chinês
• Downloads baseados em Git
• Modelos da comunidade
• downloadGuide.sources.modelscope.features.4

Guia de Formatos do Modelo

Entendendo os diferentes formatos de arquivo do modelo disponíveis para o Gemma 4:

SafeTensors (.safetensors)

O formato padrão no Hugging Face. Tensores seguros e de carregamento rápido, projetados para prevenir vulnerabilidades de execução de código. Usado com Hugging Face Transformers, vLLM e outros frameworks baseados em Python.

Pesquisa, fine-tuning, frameworks Python, serviço vLLM

GGUF (.gguf)

O formato padrão para llama.cpp e Ollama. Suporta vários níveis de quantização (Q4, Q5, Q8, etc.) para reduzir o tamanho do modelo e os requisitos de memória. Otimizado para inferência em CPU e mista CPU/GPU.

Inferência local, Ollama, llama.cpp, KoboldCpp, LM Studio

GPTQ

Formato de quantização otimizado para GPU que mantém alta precisão ao reduzir significativamente os requisitos de VRAM. Disponível através de contribuições da comunidade no Hugging Face.

Inferência em GPU com VRAM reduzida, serviço em produção

Formato MLX

Formato de ML nativo da Apple, otimizado para Apple Silicon (M1/M2/M3/M4). Aproveita a arquitetura de memória unificada para inferência eficiente em hardware Mac.

Mac com Apple Silicon, framework MLX

Guia de Quantização

A quantização reduz o tamanho e o uso de memória do modelo ao custo de alguma precisão. Veja como diferentes níveis se comparam para o Gemma 4:

Format	Bits	Quality	Notes
BF16 / FP16 (Precisão Total)	16-bit	100%	Qualidade total do modelo sem perda de precisão. Requer a maior quantidade de VRAM e espaço em disco.
INT8 / Q8	8-bit	~98-99%	Perda mínima de qualidade. Reduz pela metade os requisitos de VRAM em comparação com FP16. Recomendado para a maioria das implantações em GPU.
Q5_K_M	5-bit	~95-97%	Bom equilíbrio entre qualidade e tamanho. Escolha popular para inferência local com formato GGUF.
INT4 / Q4_K_M	4-bit	~93-95%	Redução significativa de tamanho com qualidade aceitável para a maioria dos casos de uso. Permite rodar modelos maiores em hardware de consumidor.

Download via Linha de Comando

CLI do Hugging Face

Instale o CLI do Hugging Face e baixe modelos diretamente:

pip install huggingface_hub

# Download a specific model
huggingface-cli download google/gemma-4-31b

# Download GGUF quantized version
huggingface-cli download google/gemma-4-31b-GGUF \
  --include "gemma-4-31b-Q4_K_M.gguf"

Git LFS

Clone repositórios de modelos com Git Large File Storage:

git lfs install
git clone https://huggingface.co/google/gemma-4-31b

CLI do Ollama

Baixe modelos diretamente para o Ollama:

# Pull any variant
ollama pull gemma4:e4b
ollama pull gemma4:31b
ollama pull gemma4:26b

FAQ de Download

Qual é o melhor lugar para baixar o Gemma 4?

O Hugging Face é a fonte mais abrangente com todos os formatos e variantes. Para configuração local com um comando, use o Ollama. Para usuários na China, o ModelScope oferece velocidades de download mais rápidas.

Que formato devo baixar?

Para Ollama ou llama.cpp: baixe arquivos GGUF. Para Python/vLLM: use o formato SafeTensors. Para Mac com Apple Silicon: use o formato MLX. Se estiver em dúvida, comece com o Ollama, que lida com a seleção de formato automaticamente.

Qual o tamanho dos arquivos do modelo Gemma 4?

Tamanhos em precisão total: E2B (~4GB), E4B (~8GB), 26B MoE (~52GB), 31B Denso (~62GB). As versões quantizadas Q4 são aproximadamente 4x menores. Os downloads padrão do Ollama usam quantização otimizada.

Preciso de uma conta do Hugging Face para baixar?

Não. Os modelos Gemma 4 são publicamente acessíveis sob a licença Apache 2.0. Você pode baixar sem uma conta, embora ter uma permita downloads mais rápidos e acesso ao CLI do Hugging Face.

O que é um arquivo GGUF?

GGUF (GPT-Generated Unified Format) é um formato binário projetado para inferência local eficiente com llama.cpp e Ollama. Suporta vários níveis de quantização, permitindo trocar precisão por tamanhos de arquivo menores e menor uso de memória.

Posso baixar o Gemma 4 na China?

Sim. O ModelScope (魔搭社区) espelha os modelos Gemma 4 com velocidades de download rápidas dentro da China. Alternativamente, use um espelho ou proxy para downloads do Hugging Face.

downloadGuide.faq.items.6.q

downloadGuide.faq.items.6.a

downloadGuide.faq.items.7.q

downloadGuide.faq.items.7.a

downloadGuide.faq.items.8.q

downloadGuide.faq.items.8.a

downloadGuide.faq.items.9.q

downloadGuide.faq.items.9.a

Baixar e Implantar

Obtenha os pesos do modelo Gemma 4 e comece a implantar. Confira nosso guia de implantação para instruções de configuração passo a passo.

Guia de Implantação Comparar Modelos Experimente Online Primeiro