Hace poco se publicó un interesante informe del Nuance AI Lab que compara herramientas de inteligencia artificial para realizar revisiones bibliográficas profundas. Al parecer, hay una clara ganadora. Pero antes de hacerla subir al podio, vamos a aclarar qué es aquello de la deep research.
El concepto
Deep research es una metodología basada en inteligencia artificial que automatiza tareas complejas típicas de una revisión bibliográfica tradicional: búsqueda iterativa de documentos, análisis textual para establecer o asignar unas categorías, síntesis de resultados del análisis y redacción estructurada de las conclusiones.
A diferencia de una búsqueda simple en Google o un resumen automático breve -realizado, tal vez, con ayuda de un chatbot generalista-, las herramientas de deep research generan informes detallados y bien documentados, imitando la profundidad y precisión de revisiones académicas humanas.
El informe
El informe de Nuance AI Lab evaluó más de 20 herramientas y seleccionó las 8 con mejor desempeño para un análisis comparativo riguroso. Las herramientas evaluadas fueron: Elicit, Scite.ai, OpenAI (ChatGPT en modo Deep Research), Gemini, Deepseek, Perplexity, Kimi y STORM.
La muestra seleccionada conforma una combinación de plataformas propietarias, de código abierto y de origen estadounidense o chino.
A cada herramienta se le asignaron los mismos prompts estándar relacionados con dos temas de investigación reales. Los resultados se evaluaron de forma anónima por paneles independientes de expertos, utilizando rúbricas específicas para cada criterio.
Herramienta | Adherencia al prompt (%) | Calidad de citas (%) | Calidad de escritura (%) | Total (%) |
---|---|---|---|---|
Elicit | 99 | 94,45 | 47,50 | 80,32 |
Scite_ | 95 | 77,75 | 50 | 74,25 |
OpenAI | 71 | 69,45 | 76,25 | 72,23 |
Deepseek | 75 | 67,20 | 60,00 | 67,40 |
Gemini | 62 | 66,10 | 62,50 | 63,53 |
Kimi | 75 | 56,10 | 55,00 | 62,03 |
Perplexity | 64 | 74,45 | 42,50 | 60,32 |
STORM | 39 | 30,60 | 61,25 | 43,62 |
El análisis se centró en cinco dimensiones clave:
- Adherencia al prompt: fidelidad con que la herramienta sigue las instrucciones específicas dadas.
- Calidad de las citas: precisión, relevancia, autenticidad y variedad de las fuentes citadas.
- Calidad de escritura: claridad, coherencia, estilo académico y profundidad analítica.
- Tiempo de respuesta: rapidez para generar resultados útiles.
- Eficiencia de costos: relación entre precio y calidad del output.
Ninguna herramienta fue perfecta en todos los aspectos, pero sí se identificaron fortalezas específicas.
Fuente: Elaboración propia a partir del informe de Nuance AI Lab.
Elicit obtuvo la mejor evaluación general, destacando en adherencia al prompt y calidad de las citas, aunque su claridad de escritura fue inferior a la de OpenAI. Esta leve desventaja tiene que ver, seguramente, con el enfoque analítico de Elicit, más orientado a producir resultados pormenorizados e interpretables que a la elaboración de textos finales.
Por su parte, OpenAI fue la mejor en calidad de redacción, generando textos bien estructurados, claros y profesionalmente elaborados.
Scite.ai también destacó en el rigor de las fuentes citadas. En cambio, otras, como STORM o Gemini, presentaron dificultades serias, tales como citas irrelevantes o redacción deficiente.
El próximo capítulo de la investigación académica
Los resultados del informe de Nuance AI Lab muestran con claridad que la deep research está lejos de ser una promesa vacía. Herramientas como Elicit, OpenAI o Scite.ai demuestran que ya es posible automatizar buena parte del trabajo preliminar de una revisión bibliográfica con niveles aceptables —y en algunos casos, sobresalientes— de rigor y eficiencia. Sin embargo, el informe también deja ver que ninguna solución actual es integral: cada una tiene fortalezas y debilidades que deben conocerse para integrarlas con criterio y supervisión humana.
El potencial de la IA para transformar cómo hacemos deep research es enorme, pero exige una alfabetización crítica.
Estas herramientas no sustituyen al equipo investigador: amplifican su alcance, aceleran sus procesos y, bien utilizadas, pueden incluso democratizar el acceso a prácticas de investigación rigurosa. Pero como muestra el informe, el reto no está solo en usar la IA, sino en saber cuándo confiar en ella, cómo combinar herramientas y qué papel jugamos en un nuevo ecosistema donde pensar junto con las máquinas será la norma.
Mirando hacia adelante, es probable que la deep research evolucione desde una función de revisión documental asistida por IA hacia una colaboración mucho más integrada. Veremos sistemas que no sólo resuman literatura, sino que formulen hipótesis, detecten lagunas en el conocimiento, recomienden diseños de estudio y se ajusten dinámicamente a las preferencias epistemológicas del usuario. En ese futuro próximo, nuestra tarea no será sólo investigar con IA, sino aprender a diseñar mejores preguntas, construir marcos conceptuales con su ayuda y conservar aquello que la máquina aún no puede replicar: el juicio, la intuición y el sentido crítico.