Reconocimiento de un texto generado por IA

Wilfredo Cruz Yarlequé - wcruzy@gmail.com

Información generada a través de conversaciones con modelos de lenguaje de Google y DeepSeek el 03 de julio de 2025

Reconocer un texto generado por IA se ha vuelto cada vez más complejo a medida que los modelos de IA se vuelven más complicados y sofisticados, y su capacidad para generar contenido indistinguible del humano mejora. Sin embargo, todavía hay algunas características y patrones que, aunque no son infalibles, pueden servir como indicadores potenciales de que un texto fue generado por una Inteligencia Artificial:

Falta de Experiencia o Perspectiva Única: Aunque las IA intentan ser naturales, a veces presentan estas características:
- Generalidad o uniformidad excesiva: Las IA tienden a ser muy generalistas para evitar errores, con textos muy estructurados, con poca variación en tono o estilo. A menudo evitan tomar posiciones firmes o expresar opiniones muy personales, son muy “diplomáticas”.
- Ausencia de anécdotas personales: Generalidades en lugar de anécdotas personales o datos muy concretos. Rara vez (a menos que se les instruya explícitamente y se les proporcione el contexto) incluyen experiencias de vida, recuerdos o puntos de vista idiosincrásicos que son comunes en la escritura humana.
- Voz plana o genérica: El texto puede carecer de un estilo literario distintivo, un tono humorístico particular, sarcasmo sutil o la “voz” única de un autor humano.
- Coherencia “demasiado perfecta”: Las ideas fluyen lógicamente, pero pueden carecer de saltos creativos o contradicciones humanas.
Repetición y Redundancia: A veces repiten conceptos con palabras distintas.
- Aunque los modelos modernos son mejores, a veces pueden repetir frases, ideas o estructuras gramaticales de manera innecesaria dentro de un mismo texto.
- Pueden usar sinónimos de forma inconsistente o redundante para variar el lenguaje sin añadir un significado real.
Precisión Excesiva o Inexactitudes Sutiles:
- Fluidez perfecta (demasiado perfecta): La gramática, la ortografía y la sintaxis suelen ser impecables. Esto puede ser un indicio, ya que los humanos a menudo cometen pequeños errores o varían sus construcciones.
- Alucinaciones o información falsa: A veces, las IA pueden “inventar” hechos, citas, nombres o referencias que suenan plausibles pero son incorrectos o inexistentes. Esto es un gran indicador.
- Coherencia superficial pero falta de profundidad: El texto puede sonar coherente a primera vista, pero si se profundiza, puede carecer de un argumento lógico sólido o de una verdadera comprensión del tema.
Vocabulario Formal o Ligeramente Inusual:
- Pueden usar un vocabulario amplio pero a veces ligeramente fuera de contexto o de una manera que suena académica o robótica para una conversación casual.
- Uso de clichés o frases comunes sin un propósito específico.
Estructura y Patrones Predecibles:
- Tendencia a seguir una estructura muy lógica y lineal (introducción, desarrollo de puntos, conclusión) sin las divagaciones o el flujo más natural del pensamiento humano.
- Uso consistente de conectores de texto de manera muy formal (e.g., “Además...”, “Por lo tanto...”, “En consecuencia...”).

Uso de Detectores de IA

Existen herramientas y software diseñados para intentar identificar textos generados por IA (ej. GPTZero, Originality.ai), Turnitin. Analizan la perplejidad (variabilidad lingüística) y la burstiness (cambios en ritmo del texto). Sin embargo, su precisión es variable y suelen tener falsos positivos o falsos negativos.

¿Cómo funcionan?

Los detectores de IA emplean algoritmos de aprendizaje automático para analizar el texto y compararlo con grandes conjuntos de datos de texto generado por IA y texto escrito por humanos. Algunos de los factores que analizan son:

Patrones de escritura: Los detectores buscan patrones de lenguaje que son comunes en la IA, como frases repetitivas, estructuras de oraciones predecibles y un lenguaje demasiado perfecto gramaticalmente.
Longitud de las oraciones: Analizan la longitud y complejidad de las oraciones para detectar si son demasiado uniformes o complejas para un estilo de escritura humana.
Selección de palabras: Examinan el vocabulario utilizado y buscan patrones que indiquen el uso de un modelo lingüístico específico.
Información inexacta: Detectan si el texto contiene información falsa o desactualizada que un modelo de IA podría haber generado.

Herramientas que podemos encontrar en la web

ZeroGPT o Writer.com: Identifican patrones estadísticos típicos de modelos como GPT. Ofrece también la posibilidad de detectar IA en chats de WhatsApp y Telegram, además de otras funciones como traducción y corrección gramatical.
Copyleaks: Ofrece detección de contenido generado por IA, incluyendo modelos como ChatGPT y GPT-4.
Winston AI: Especializada en la detección de texto generado por IA, con alta precisión en la identificación de contenido creado por ChatGPT.
ContentDetector.AI: Otra herramienta que analiza textos para determinar si fueron creados por IA.
GPTZero: Popular entre estudiantes y profesores para detectar contenido generado por IA, especialmente en documentos web.
CrossPlag AI: Permite detectar plagio y contenido generado por IA.
Originality.ai: Destaca por su capacidad para identificar contenido de IA en diversos tipos de documentos.
Smodin: Su detector de IA puede identificar si el texto fue creado parcial o totalmente por un modelo de IA y determinar el nivel de participación humana.
Scribbr: Ofrece un detector de IA gratuito que analiza textos generados por herramientas populares como ChatGPT, Gemini y Copilot.

Son una ayuda, no una sentencia definitiva.

Pruebas manuales: Pide detalles muy específicos (ej: “¿Qué sentiste exactamente en X situación?”), las IA suelen inventar respuestas genéricas, o busca errores humanos: Erratas, ironía espontánea o humor absurdo (las IA lo intentan, pero suelen fallar).

Generación de contenidos IA siguiendo un determinado modelo o patrón

Las IAs (especialmente los grandes modelos de lenguaje, LLM (Large Language Model, Modelo Extenso de Lenguaje) , como Gemini, ChatGPT, etc.) generan contenido siguiendo modelos y patrones subyacentes, aunque estos son increíblemente complejos y multifacéticos.

Los LLM están entrenados en vastísimas cantidades de texto y código de Internet. Durante este entrenamiento, aprenden a:

Patrones Lingüísticos y Gramaticales: Reconocen cómo se construyen las oraciones, las reglas de gramática, la sintaxis, la puntuación y el uso correcto del vocabulario. Aprenden qué palabras suelen seguir a otras palabras en un contexto dado.
Estructuras de Texto y Discurso: Aprenden patrones comunes en diferentes tipos de texto: cómo se estructura un ensayo, un artículo de noticias, un correo electrónico, una historia, etc. Esto incluye el uso de introducciones, cuerpos de párrafo, conclusiones, títulos, subtítulos.
Información y Hechos: Absorben una inmensa cantidad de conocimiento general, hechos, conceptos y relaciones entre ellos. Sin embargo, no “entienden” los hechos como un humano, sino que los asocian con patrones de lenguaje.
Estilos y Tonos: Pueden identificar y replicar diferentes estilos de escritura (formal, informal, académico, creativo, periodístico) y tonos (optimista, pesimista, sarcástico, objetivo) basados en los datos de entrenamiento.
Propagación de Estereotipos y Sesgos: Lamentablemente, también aprenden y pueden replicar patrones de sesgo y estereotipos presentes en sus datos de entrenamiento, lo que es un desafío importante para los desarrolladores de IA.
Generación Token a Token (o Word a Word): El modelo no escribe un texto completo de una vez. Predice la siguiente palabra (o “token") más probable basándose en la secuencia de palabras que ha generado hasta el momento y la instrucción (prompt) inicial. Este proceso iterativo es lo que le da su fluidez, pero también puede ser la fuente de repeticiones o divagaciones si no hay una fuerte señal de “fin".
Imitar estructuras: Ejemplos: ensayos, diálogos, poemas, etc., pero sin verdadera comprensión.
Adaptarse al contexto: Pero con limitaciones en creatividad auténtica o experiencia subjetiva.

Ejemplo práctico:

Texto humano: “Ayer fui a la playa y ¡oh sorpresa! mi amigo Juan se resbaló con una cáscara de plátano. Nos reímos horas.”
Texto IA: “Ayer visité la playa, donde disfruté del sol y el mar. Fue una experiencia muy agradable y relajante.”

¿Nota la diferencia? El primero es espontáneo; el segundo, genérico.

¿Se puede mejorar la detección?

Las IA evolucionan rápido, pero también las herramientas anti-AI. Si necesitas analizar un texto, use la combinación de métodos (herramientas + intuición).

Es importante entender que no hay un patrón simple que pueda “ver” directamente como un humano. Los patrones son estadísticos y probabilísticos, incrustados en los miles de millones de parámetros del modelo. La creatividad de la IA surge de su capacidad para combinar estos patrones de maneras novedosas que no estaban explícitamente presentes en los datos de entrenamiento, pero que son estadísticamente coherentes con ellos.

Por lo tanto, aunque una IA sigue patrones y modelos, son tan complejos que a menudo hacen que el texto parezca muy humano. La detección se convierte más en una cuestión de buscar sutilezas en la perspectiva, la coherencia lógica profunda y la presencia de errores que una IA rara vez cometería, o “alucinaciones” que un humano no crearía.

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.