Imagen impactante de un archivo de periódico que se transforma en un grafo de conocimiento estructurado y luminoso, que representa la tesis central del artículo: convertir el periodismo estático en inteligencia conversacional.
Artificial IntelligenceMediaTechnology

El artículo de noticias es una fusta de calesa y tu archivo es una mina de oro

Ashutosh SinghalAshutosh Singhal8 de febrero de 202613 min

Estaba sentado frente al director digital de un periódico tradicional —uno que sin duda has leído— cuando abrió un gráfico en su portátil y lo giró hacia mí. Tráfico orgánico, mes tras mes, durante los últimos dieciocho meses. Parecía que alguien hubiera empujado una roca gigante por un acantilado.

«Lo estamos haciendo todo bien», dijo. «Más artículos, mejor SEO, cargas de página más rápidas. Y estamos perdiendo».

No se equivocaba sobre la ejecución. Se equivocaba sobre el juego. El juego había cambiado bajo sus pies mientras él optimizaba para el antiguo. Y esa conversación —que ocurrió con un café tibio en una sala de reuniones con vistas a un aparcamiento— es la razón por la que pasé los siguientes meses construyendo algo que creo que redefinirá cómo sobreviven las empresas de medios.

La idea central es sencilla, casi dolorosamente sencilla: las empresas de medios deben dejar de vender artículos y empezar a vender respuestas. El feed de noticias está muerto. El archivo está vivo. Y la tecnología para salvar esa brecha —para convertir cincuenta años de periodismo en un motor de inteligencia conversacional— ya existe. Solo tenemos que construirla bien.

Escribí un análisis interactivo en profundidad de toda esta tesis por si quieres el panorama completo. Pero déjame contarte la historia de cómo llegamos hasta aquí, porque las cifras por sí solas no capturan el vértigo de ver cómo se agrieta el fundamento de toda una industria.

¿Por qué ya nadie hace clic?

Una infografía que muestra las estadísticas clave del colapso del tráfico citadas en el artículo —tasas de búsquedas sin clic, descensos del tráfico de los editores y el impacto de AI Overviews— para que los lectores puedan asimilar la magnitud de la crisis de un vistazo.

Este es el dato que mantiene despiertos a los ejecutivos de medios: el 60 % de las búsquedas en Google ahora terminan sin un solo clic a ningún sitio web. En móvil, es el 77 %. Google se ha convertido en el destino, no en la puerta de entrada. El motor de búsqueda que construyó la economía de la publicación digital se ha convertido silenciosamente en su mayor competidor.

Y la magnitud del daño es asombrosa. En la primera mitad de 2025, el editor mediano registró una caída del tráfico del 10 % interanual. Pero la «mediana» oculta la carnicería. CNN cayó entre un 27 % y un 38 %. Forbes y Business Insider bajaron casi un 50 %. HubSpot —una empresa que esencialmente inventó el marketing de contenidos moderno— perdió entre el 70 % y el 80 % de su tráfico orgánico.

El culpable es AI Overviews. Cuando el resumen de IA de Google aparece en la parte superior de los resultados de búsqueda —lo que ahora ocurre en aproximadamente el 13 % de las consultas—, las tasas de clic a los enlaces orgánicos se desploman alrededor de un 47 %. La IA lee los artículos para que el usuario no tenga que hacerlo.

Recuerdo a mi equipo y a mí mirando fijamente estas cifras durante una sesión de trabajo a última hora de la tarde. Alguien dijo: «Entonces, ¿los editores crean el contenido, la IA de Google se lo come y el usuario nunca visita el sitio?». Exactamente. Y va a peor.

El motor de búsqueda ya no es un referente de tráfico. Es un competidor por la atención.

El tráfico hacia las plataformas de IA generativa —ChatGPT, Perplexity, Claude— está creciendo 165 veces más rápido que el tráfico hacia la búsqueda tradicional. Los usuarios formulan preguntas más largas y complejas. Las búsquedas de cinco o más palabras crecen 1,5 veces más rápido que las consultas cortas de palabras clave. La gente no quiere diez enlaces azules. Quiere una buena respuesta.

El artículo es una reliquia (y lo digo con cariño)

Tengo que tener cuidado aquí porque me encanta de verdad el periodismo de formato largo. Lo leo constantemente. Pero también debo ser honesto sobre lo que realmente es el formato del artículo: un contenedor diseñado para la distribución impresa.

Piénsalo. Imprimías una noticia de 800 palabras en un periódico porque no podías imprimir 800 respuestas individuales. La distribución física era cara y esporádica, así que agrupabas la información en narrativas. Eso tenía todo el sentido en 1975. Tenía bastante sentido en 2005, cuando el artículo migró a internet pero el comportamiento de lectura se mantuvo más o menos igual.

No tiene casi ningún sentido en 2025.

Un usuario que busca «¿Cuál es la postura del alcalde sobre la vivienda?» no quiere un reportaje de 1000 palabras sobre la historia de la zonificación urbana. Quiere la postura del alcalde sobre la vivienda. El modelo tradicional lo obliga a atravesar una carrera de obstáculos: Buscar → Hacer clic → Desplazarse → Escanear → Leer → Extraer. Cada paso es fricción. Cada paso es una oportunidad de perderlo.

Tuve esta discusión con una amiga periodista que se resistió con fuerza. «Estás reduciendo el periodismo a hechos», dijo. «Las historias importan. El contexto importa. La narrativa importa». Tiene toda la razón, para los artículos de opinión, las investigaciones, los perfiles, los reportajes. Esas son formas de arte. Pero la inmensa mayoría de lo que llena un feed de noticias no es arte. Es información atrapada dentro de un formato ineficiente. Y los usuarios votan con su comportamiento: prefieren preguntarle a una IA que vadear todo eso.

¿Y si el archivo no es un cementerio?

Aquí es donde la conversación con aquel director digital pasó de deprimente a electrizante.

Le pregunté cuántos artículos había en su archivo. Hizo una pausa. «¿Probablemente... unos pocos millones? ¿Desde los años setenta?». Lo dijo como si fuera un lastre: un coste de servidor, un dolor de cabeza de mantenimiento.

Le dije que era el activo más valioso que poseía su empresa. Más valioso que la marca. Más valioso que la lista de suscriptores. Porque esos millones de artículos, que abarcan cinco décadas de política local, negocios, crimen, cultura, son un conjunto de datos que ninguna empresa de IA del planeta puede replicar sin su permiso.

El problema no son los datos. El problema es que están encerrados dentro de masas de texto no estructurado que están desconectadas entre sí. El artículo A menciona que la Persona X trabaja en la Empresa Y. El artículo B, publicado tres años después, menciona que la Empresa Y está enredada en el Escándalo Z. Ningún artículo individual conecta a la Persona X con el Escándalo Z. Pero la conexión existe, enterrada por todo el archivo, invisible para cualquier barra de búsqueda, esperando a que alguien la hilvane.

Los editores que ven su producto únicamente como «artículos» están fabricando fustas de calesa en la era del automóvil.

Ese hilvanado es lo que construimos en Veriprajna. No chatbots. No envoltorios de GPT. Motores de inteligencia.

La pregunta sobre el alcalde que lo cambió todo

Déjame concretarlo. Imagina a un usuario —un investigador de políticas locales, un ciudadano preocupado, un periodista de un medio de la competencia— que quiere entender cómo ha evolucionado la postura del alcalde sobre la vivienda desde 2010.

En el modelo antiguo, busca en el sitio del periódico «postura del alcalde sobre la vivienda». Obtiene cincuenta resultados. Abre el artículo de 2010: «El alcalde se opone al desarrollo de rascacielos». Abre el artículo de 2015: «El alcalde suaviza su postura ante la crisis de asequibilidad». Abre el artículo de 2022: «El alcalde impulsa la ley Build Now». Sintetiza mentalmente la evolución. Le lleva cuarenta y cinco minutos si es rápido.

En el modelo que estamos construyendo, escribe la pregunta. El sistema la descompone en subconsultas temporales. Recorre un grafo de conocimiento —no solo buscando palabras clave, sino siguiendo las relaciones entre la entidad Alcalde y la entidad Desarrollo de Vivienda a lo largo de aristas con marca temporal. Encuentra el cambio de postura de negativa (2010) a neutral (2015) a positiva (2022). Genera una narrativa con citas que enlazan a los artículos originales. Renderiza una visualización de línea de tiempo.

Diez segundos.

Eso no es un chatbot. Es un producto de inteligencia. Y es el tipo de cosa por la que los profesionales —lobistas, analistas, abogados, estrategas corporativos— pagarían dinero de verdad.

¿Por qué no puedes simplemente lanzarle GPT a un archivo?

Ojalá pudieras. Me facilitaría mucho el trabajo.

Al principio probamos el enfoque ingenuo. Toma artículos, córtalos en fragmentos de 500 palabras, incrústalos como vectores, haz una búsqueda por similitud y pasa los resultados a un LLM. Esto es lo que hacen la mayoría de las implementaciones de «chatbot de IA». Y para búsquedas simples de un solo dato en documentación estática, funciona bien.

Para los archivos de noticias, falla de formas sutiles y peligrosas.

Pierde el hilo. La fragmentación rompe los arcos narrativos. Un fragmento que analiza un veredicto queda separado del fragmento que describe el crimen. El sistema literalmente no puede seguir una historia que se desarrolla a lo largo de múltiples artículos durante múltiples años.

Es ciego al tiempo. La similitud vectorial no sabe en qué año estamos. Un artículo de 2010 que dice «el mercado inmobiliario se está desplomando» es semánticamente idéntico a uno de 2024 que dice lo mismo. El sistema confunde la realidad antigua con la realidad actual. No puede distinguir lo que era cierto de lo que es cierto.

No puede conectar los puntos. Si la Persona X y el Escándalo Z nunca aparecen en el mismo artículo, la recuperación ingenua nunca encontrará la conexión, aunque la Empresa Y los vincule. El sistema carece de lo que los investigadores llaman «razonamiento multisalto».

Alucina para rellenar huecos. Cuando la recuperación pasa por alto contexto relevante, el LLM no dice «no lo sé». Inventa. Fabrica citas. Crea acontecimientos que nunca ocurrieron. En el periodismo, esto no es un informe de errores. Es una demanda.

Aprendimos todo esto por las malas. Hubo una prueba concreta —no nombraré la publicación— en la que el sistema ingenuo atribuyó con seguridad una cita a un político que jamás había dicho nada ni remotamente parecido. La cita sonaba plausible. Era gramaticalmente coherente con la forma de hablar del político. Estaba completamente fabricada. Ese fue el momento en que supe que necesitábamos una arquitectura fundamentalmente diferente.

¿Cómo se construye un motor de inteligencia que funcione de verdad?

Un diagrama de arquitectura de tres capas que muestra las capas de GraphRAG, RAG Temporal y Flujo de Trabajo Agéntico con sus funciones específicas y cómo se conectan, haciendo comprensible el sistema técnico de un vistazo.

La arquitectura que desarrollamos en Veriprajna tiene tres capas, cada una resolviendo un modo de fallo específico. Las esbozaré brevemente aquí; para el desglose técnico completo, consulta nuestro artículo de investigación.

Capa uno: GraphRAG. En lugar de tratar el archivo como una bolsa de fragmentos de texto desconectados, extraemos un grafo de conocimiento: entidades (personas, organizaciones, ubicaciones, acontecimientos) y las relaciones entre ellas. «Elon Musk» → adquirió → «Twitter». Estos se almacenan en una base de datos de grafos donde cada artículo está interconectado. Cuando un usuario formula una pregunta compleja, el sistema no solo busca palabras clave. Recorre el grafo, saltando de nodo en nodo, encontrando conexiones que abarcan décadas y miles de artículos.

Los resultados son espectaculares. En tareas de razonamiento multisalto, GraphRAG ha mostrado mejoras en exhaustividad del 72 al 83 % en comparación con los enfoques basados solo en vectores. Puede responder «¿Cuáles son los temas principales en cinco años de cobertura sobre el clima?», una pregunta que el RAG ingenuo ni siquiera puede intentar.

Capa dos: RAG Temporal. Cada fragmento y cada arista del grafo se etiqueta con metadatos de tiempo de validez. Las relaciones tienen versiones: la arista «CEO de Apple» de Steve Jobs tiene límites temporales diferentes a la de Tim Cook. Cuando un usuario formula una pregunta evolutiva, el sistema la descompone en subconsultas temporales y ensambla los resultados de forma cronológica. El archivo se convierte en una máquina del tiempo.

Capa tres: flujos de trabajo agénticos. El LLM no solo recupera y responde. Planifica. Un agente Planificador descompone una solicitud compleja («Redacta un informe de diligencia debida sobre la Empresa X») en subtareas. Un agente Investigador ejecuta consultas dirigidas. Un agente Crítico revisa los resultados en busca de lagunas y contradicciones antes de que el usuario vea nada. Un agente Redactor sintetiza el resultado final con citas.

No envolvemos API. Reconstruimos los cimientos de la infraestructura del conocimiento.

Ese agente Crítico es crucial. Es esencialmente un verificador de hechos integrado: una segunda llamada a un LLM que compara cada afirmación generada con los documentos fuente y elimina todo lo que no tenga respaldo. Combinado con instrucciones estrictas de anclaje y aplicación de citas, así es como mantenemos lo que yo considero una política de tolerancia cero hacia la fabricación.

¿Qué sabe el Financial Times que los demás no?

El FT lanzó «Ask FT», una interfaz conversacional que permite a los suscriptores profesionales interrogar su archivo. Cada respuesta está anclada únicamente en el periodismo del FT. Cada afirmación tiene una cita en la que se puede hacer clic. Está diseñada para flujos de trabajo profesionales específicos: preparación de reuniones, diligencia debida rápida, análisis de tendencias.

Bloomberg fue aún más lejos con BloombergGPT, un LLM específico de dominio que traduce el lenguaje natural al Bloomberg Query Language. Un analista puede preguntar «Muéstrame el crecimiento de ingresos de las empresas tecnológicas en el tercer trimestre de 2024» y obtener una tabla formateada. Puede interrogar transcripciones de conferencias de resultados —preguntando sobre el tono de un CEO acerca de un factor de riesgo específico— en lugar de leer cientos de páginas de forma lineal.

Estos no son experimentos. Son modelos de negocio. Y señalan dónde está realmente el dinero.

¿De dónde viene el dinero?

Un diagrama de un modelo de ingresos de tres niveles que muestra las capas de monetización del Nivel de Inteligencia, la Licencia de API y el Foso de Datos con los detalles clave, ayudando a los lectores a captar rápidamente la estructura del modelo de negocio.

La gente siempre me pregunta si este modelo de «inteligencia como servicio» puede sustituir realmente a los ingresos publicitarios. Mi respuesta honesta: no necesita sustituir todos esos ingresos. Necesita sustituir la parte que está desapareciendo.

La economía se desglosa en tres niveles.

Primero, una suscripción de Nivel de Inteligencia: no 10 $/mes por «leer las noticias», sino más de 1000 $/año para profesionales que necesitan acceso profundo al archivo, flujos de trabajo agénticos e investigación respaldada por citas. Profesionales de las finanzas, equipos de inteligencia corporativa, bufetes de abogados que hacen investigación regulatoria. Estos usuarios existen. Actualmente están pagando a analistas para que hagan manualmente lo que un sistema bien construido hace en segundos.

Segundo, licencias de API. En lugar de combatir a los rastreadores de IA con robots.txt, formaliza el intercambio de datos. Vende acceso limpio, vectorizado y estructurado en grafos al archivo a plataformas de búsqueda empresarial, terminales financieros y desarrolladores externos. Cobra por consulta o por token. La inteligencia del editor vive dentro del flujo de trabajo del cliente.

Tercero, y esta es la parte que la mayoría de la gente pasa por alto: el propio foso de datos. En un mundo donde cualquiera puede acceder a GPT-4, el modelo no es la ventaja competitiva. Los datos lo son. Un archivo de cincuenta años de noticias locales es un conjunto de datos que OpenAI no puede replicar. El grafo de conocimiento derivado de ese archivo —la red de actores de poder locales, la línea de tiempo de los cambios de política, la red de relaciones corporativas— es propiedad intelectual patentada que se revaloriza con el tiempo.

En un mundo de modelos de IA convertidos en materia prima, el foso no es el algoritmo. Es el archivo.

¿Y los periodistas?

Me hacen esta pregunta constantemente, y creo que merece una respuesta directa en lugar de una evasiva. Este giro no elimina el periodismo. Elimina la ineficiencia de cómo el periodismo llega a la gente. El reportero que pasa tres meses investigando un escándalo de corrupción está haciendo un trabajo que ninguna IA puede replicar. El sistema que construimos hace que ese trabajo sea más descubrible, más consultable y más valioso con el tiempo. Convierte una historia que se lee durante una semana y luego queda enterrada en la página 47 de los resultados de búsqueda en un nodo permanente y recuperable de un grafo de conocimiento que emerge cada vez que alguien hace una pregunta relacionada durante los próximos cincuenta años.

La amenaza para el periodismo no es la IA conversacional. La amenaza es el colapso de la economía de las referencias que financia el periodismo. Si el tráfico ha desaparecido —y así es—, entonces aferrarse al modelo de feed financiado por publicidad no es lealtad al oficio. Es negación.

¿Qué pasa si las empresas de medios no dan el giro?

Algo peor que el declive: la irrelevancia. Sus archivos son rastreados por empresas de IA, sintetizados en datos de entrenamiento y devueltos a los usuarios sin atribución, sin pago y sin la capa de confianza que proporcionan los estándares editoriales. El editor se convierte en un proveedor de contenido no remunerado del producto de inteligencia de otra persona.

Algunos editores ya están firmando acuerdos de licencia con OpenAI y otros. Es un comienzo, pero es una transacción única de bajo margen. Estás vendiendo materias primas cuando podrías estar vendiendo inteligencia refinada. Es la diferencia entre exportar petróleo crudo y construir una refinería.

El futuro del consumo de noticias no es el feed. Es la conversación. Nos dirigimos hacia lo que yo considero la UI Generativa: interfaces que se adaptan a la respuesta. Pide una línea de tiempo y obtén una línea de tiempo. Pide una comparación y obtén una tabla. Pide un informe y obtén un PDF. El sitio web estático se disuelve en un lienzo fluido y adaptable para la inteligencia.

Las empresas de medios que dominen las estructuras de datos subyacentes —los vectores, los grafos, la lógica temporal— definirán este futuro. No solo sobrevivirán a la muerte del feed de noticias. Construirán algo mejor de lo que el feed jamás fue.

El archivo no es un centro de costes. Es todo el negocio. La única pregunta es si serás tú quien lo desbloquee, o si verás cómo otro lo hace con tus datos.

Deja de vender palabras. Empieza a vender respuestas.

Related Research

Also Published On