Presets y guía de configuración de Gemma 4

Obtener el mejor resultado de Gemma 4 requiere la configuración de parámetros correcta. La temperatura, top-p, penalización por repetición y longitud de contexto impactan significativamente en la calidad. Esta guía ofrece presets probados para casos de uso comunes para que obtengas resultados óptimos de inmediato.

Estos presets funcionan en todas las herramientas de inferencia de Gemma 4 — Ollama, LM Studio, vLLM, llama.cpp y MLX. Ajusta los valores para que coincidan con tus necesidades específicas.

Parámetros clave explicados

Temperatura

Range: 0.0 – 2.0Default: 0.7

Controla la aleatoriedad en la salida. Valores más bajos (0.1-0.3) producen respuestas más deterministas y enfocadas. Valores más altos (0.8-1.2) aumentan la creatividad y la variedad. Valores superiores a 1.5 pueden producir salida incoherente.

Top-P (Nucleus Sampling)

Range: 0.0 – 1.0Default: 0.9

Limita la selección de tokens al conjunto más pequeño de tokens cuya probabilidad acumulada excede P. Valores más bajos (0.5-0.7) enfocan la salida; valores más altos (0.9-1.0) permiten más diversidad. Funciona en conjunto con la temperatura.

Top-K

Range: 1 – 100+Default: 40

Limita la consideración a los K tokens más probables. Valores más bajos aumentan el enfoque y la consistencia. Establece en 1 para una salida totalmente determinista (greedy).

Penalización por repetición

Range: 1.0 – 2.0Default: 1.1

Penaliza la repetición de tokens para evitar bucles y salida redundante. Valores alrededor de 1.05-1.15 funcionan bien para la mayoría de los casos de uso. Valores más altos pueden hacer que el modelo evite repeticiones necesarias.

Longitud de contexto (num_ctx)

Range: 2048 – 256000Default: 8192

Número máximo de tokens que el modelo considera. Contextos más grandes permiten procesar documentos más largos pero requieren más memoria. Gemma 4 admite hasta 128K (E2B/E4B) o 256K (26B/31B).

Max Tokens

Range: 1 – límite de contextoDefault: 2048

Número máximo de tokens a generar en la respuesta. Establece más alto para generación de contenido de formato largo, más bajo para respuestas concisas.

Presets recomendados

Código y técnica

Optimizado para generación de código, depuración y tareas técnicas. Temperatura baja para precisión, contexto alto para comprensión de la base de código.

temperature0.2

topP0.85

topK20

repeatPenalty1.05

numCtx32768

maxTokens4096

System Prompt

Eres un ingeniero de software experto. Escribe código limpio, bien documentado y con calidad de producción. Incluye siempre manejo de errores y sigue las mejores prácticas para el lenguaje que se esté usando.

Escritura creativa

Temperatura más alta para variedad creativa, con suficiente top-p para mantener la coherencia. Bueno para historias, textos de marketing y lluvia de ideas.

temperature0.9

topP0.95

topK60

repeatPenalty1.15

numCtx16384

maxTokens8192

System Prompt

Eres un escritor creativo talentoso. Escribe contenido vívido y atractivo con una voz narrativa fuerte. Varía la estructura de las oraciones y usa lenguaje evocador.

Análisis e investigación

Ajustes balanceados para tareas analíticas — análisis de documentos, resumen e investigación. Temperatura moderada con contexto largo para análisis exhaustivo.

temperature0.3

topP0.9

topK30

repeatPenalty1.1

numCtx65536

maxTokens4096

System Prompt

Eres un analista minucioso. Proporciona análisis bien estructurados y basados en evidencia. Cita detalles específicos del material fuente. Sé objetivo y exhaustivo.

Chat general y asistente

Preset versátil para interacciones cotidianas. Tono conversacional natural con buen balance entre consistencia y variedad.

temperature0.7

topP0.9

topK40

repeatPenalty1.1

numCtx8192

maxTokens2048

System Prompt

Eres un asistente de IA útil y amigable. Proporciona respuestas claras y precisas. Haz preguntas aclaratorias cuando sea necesario. Sé conciso pero minucioso.

Roleplay y personajes

Alta creatividad con fuerte penalización por repetición para mantener la consistencia del personaje. Adecuado para ficción interactiva y conversaciones basadas en personajes.

temperature0.85

topP0.92

topK50

repeatPenalty1.18

numCtx16384

maxTokens4096

System Prompt

Mantente en el personaje en todo momento. Responde con descripciones vívidas, profundidad emocional y personalidad consistente. Nunca rompas la cuarta pared.

Factual y preciso

Aleatoriedad mínima para tareas que requieren precisión — extracción de datos, clasificación, salida estructurada y preguntas y respuestas factuales.

temperature0.1

topP0.8

topK10

repeatPenalty1.05

numCtx8192

maxTokens2048

System Prompt

Eres un asistente preciso y factual. Proporciona solo información precisa. Si no estás seguro, dilo. Usa formatos estructurados (listas, tablas) cuando sea apropiado.

Usar presets con Ollama

Crea un Modelfile personalizado para aplicar un preset en Ollama:

# Create a Modelfile
cat > Modelfile.coding <<'EOF'
FROM gemma4:e4b

PARAMETER temperature 0.2
PARAMETER top_p 0.85
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER num_ctx 32768

SYSTEM """
You are an expert software engineer. Write clean, well-documented, production-quality code. Always include error handling and follow best practices for the language being used.
"""
EOF

# Build and run
ollama create gemma4-coding -f Modelfile.coding
ollama run gemma4-coding

Preguntas frecuentes sobre presets

¿Cuál es la mejor temperatura para Gemma 4?

Depende de la tarea: 0.1-0.3 para código y tareas factuales, 0.6-0.8 para chat general, 0.8-1.0 para escritura creativa. Empieza con el preset recomendado para tu caso de uso y ajusta según la calidad del resultado.

¿Debería usar top-p o top-k?

La mayoría de los usuarios deberían usar top-p (nucleus sampling) ya que se adapta mejor a diferentes distribuciones de probabilidad. Top-k es más simple pero puede ser demasiado restrictivo o demasiado suelto dependiendo del contexto. Usarlos juntos ofrece control de grano fino.

¿Qué longitud de contexto debo establecer?

Usa el contexto más pequeño que se ajuste a tus necesidades — un contexto más largo usa más memoria. 8K está bien para chats simples. 32K para archivos de código. 64K+ para documentos largos. Solo usa 128K/256K cuando proceses entradas muy grandes.

¿Cómo arreglo la salida repetitiva?

Aumenta la penalización por repetición (prueba 1.15-1.25). También prueba aumentar ligeramente la temperatura (añade 0.1-0.2) y reducir top-k. Si el modelo se queda en bucle con frases específicas, agrégalas a una lista de penalización por presencia si tu herramienta lo admite.

¿Los presets difieren entre tamaños de modelo?

Los mismos presets generalmente funcionan en todas las variantes de Gemma 4. Los modelos más pequeños (E2B, E4B) pueden beneficiarse de temperaturas ligeramente más bajas (resta 0.1) para compensar la capacidad reducida del modelo. El modelo 31B maneja bien temperaturas más altas.

¿Puedo usar estos presets con otros modelos?

Estos presets están optimizados para Gemma 4 pero funcionan como puntos de partida razonables para la mayoría de los LLM. Diferentes familias de modelos pueden responder de manera diferente a los mismos ajustes — siempre prueba y ajusta.

Aplica estos presets

Descarga Gemma 4 y empieza a usar estas configuraciones optimizadas. O prueba Gemma 4 en línea primero.

Guía de Ollama Descargar modelos Prueba en línea