Modelos Gemma 4 sin censura

Los modelos "sin censura" o "abliterados" se refieren a versiones modificadas de Gemma 4 donde los comportamientos de rechazo por seguridad se han reducido o eliminado mediante técnicas de fine-tuning. Estos modelos son creados por la comunidad de código abierto, no por Google DeepMind.

Esta página explica qué es la abliteración, cómo estos modelos difieren del Gemma 4 base, y ofrece orientación para investigadores y desarrolladores que necesitan modelos con tasas de rechazo reducidas para casos de uso legítimos.

¿Qué es la abliteración?

La abliteración es una técnica que identifica y modifica las representaciones internas responsables del comportamiento de rechazo en los modelos de lenguaje. A diferencia del fine-tuning con datos dañinos, la abliteración funciona encontrando la "dirección de rechazo" en el espacio de activación del modelo y atenuándola.

El resultado es un modelo que está más dispuesto a seguir instrucciones y discutir una gama más amplia de temas, mientras conserva la mayoría de sus capacidades y conocimientos generales. Los puntajes en benchmarks típicamente están dentro del 1-3% del modelo original.

Técnicas comunes

Abliteración por activación

Identifica la dirección de rechazo en el flujo residual del modelo y la ortogonaliza. Este es el método más común, requiere cómputo mínimo y preserva la calidad del modelo.

Fine-tuning con LoRA

Entrena un pequeño adaptador LoRA en datasets que incluyen ejemplos diversos de seguimiento de instrucciones. El adaptador modifica el comportamiento del modelo mientras mantiene intactos los pesos base.

Entrenamiento DPO/ORPO

Usa optimización de preferencias para entrenar al modelo a preferir respuestas útiles sobre rechazos. Requiere más cómputo pero puede producir resultados más matizados.

Dónde encontrar modelos sin censura

Las variantes de Gemma 4 sin censura creadas por la comunidad están disponibles en Hugging Face. Busca términos como "abliterated", "uncensored" o "unfiltered":

Verifica siempre la calidad del modelo revisando las opiniones de la comunidad, los puntajes de benchmarks y los conteos de descargas antes de usar cualquier modelo comunitario.

Casos de uso legítimos

Escritura creativa y ficción

Los autores que escriben ficción que incluye conflicto, tensión o temas maduros pueden necesitar modelos que no se nieguen a interactuar con escenarios narrativos desafiantes.

Investigación en seguridad

Los profesionales de ciberseguridad que prueban sistemas de IA en busca de vulnerabilidades necesitan modelos que puedan discutir temas de seguridad sin restricciones.

Investigación académica

Los investigadores que estudian seguridad de IA, sesgos y alineación necesitan modelos sin filtros para entender y documentar los comportamientos del modelo.

Capas de seguridad personalizadas

Los desarrolladores que construyen aplicaciones con sus propios sistemas de seguridad pueden preferir un modelo base sin restricciones integradas, aplicando en su lugar sus propias barreras específicas del dominio.

Uso responsable

Los modelos sin censura son herramientas poderosas que vienen con responsabilidad:

Cumple siempre con las leyes y regulaciones locales sobre contenido generado por IA

Implementa tus propias medidas de seguridad apropiadas para tu contexto de despliegue

No uses estos modelos para generar contenido dañino, ilegal o engañoso

Considera las implicaciones éticas de tu caso de uso antes del despliegue

La licencia Apache 2.0 otorga libertad para modificar, pero no libertad de consecuencias

Preguntas frecuentes sobre modelos sin censura

¿Los modelos Gemma 4 sin censura son oficiales?

No. Las variantes sin censura/abliteradas son creadas por la comunidad de código abierto, no por Google DeepMind. Los modelos oficiales de Gemma 4 incluyen entrenamiento de seguridad y filtros de contenido.

¿Es legal usar modelos sin censura?

La licencia Apache 2.0 permite la modificación y redistribución de Gemma 4, incluyendo la creación de variantes sin censura. Sin embargo, cómo uses la salida debe cumplir con las leyes aplicables en tu jurisdicción.

¿Los modelos sin censura tienen peor rendimiento?

Los modelos abliterados típicamente puntúan dentro del 1-3% del original en benchmarks estándar. La diferencia principal está en el comportamiento de rechazo, no en la capacidad general. Algunos usuarios reportan un seguimiento de instrucciones mejorado.

¿Cómo hago abliteración de un modelo yo mismo?

El enfoque más común usa la biblioteca failspy/abliterator en Hugging Face. Requiere una GPU con suficiente VRAM para cargar el modelo, y el proceso toma unas pocas horas para el modelo 31B.

¿Qué es mejor — abliteración o fine-tuning?

La abliteración es más rápida y preserva más de las capacidades del modelo original. El fine-tuning ofrece más control sobre el comportamiento pero requiere datos de entrenamiento y más cómputo. Muchos modelos comunitarios combinan ambos enfoques.

¿Puedo usar modelos sin censura con Ollama?

Sí, si el modelo está disponible en formato GGUF. Impórtalo en Ollama con un Modelfile personalizado. Algunos registros comunitarios de Ollama también alojan variantes sin censura directamente.

uncensoredPage.faq.items.6.q

uncensoredPage.faq.items.6.a

uncensoredPage.faq.items.7.q

uncensoredPage.faq.items.7.a

uncensoredPage.faq.items.8.q

uncensoredPage.faq.items.8.a

uncensoredPage.faq.items.9.q

uncensoredPage.faq.items.9.a

Explora los modelos Gemma 4

Ya sea que elijas los modelos oficiales o las variantes comunitarias, comienza con Gemma 4 hoy.

Descargar modelos Variantes oficiales del modelo Guía de despliegue