TEMA 3. BÚSQUEDA AVANZADA DE INFORMACIÓN EN SALUD

1. INTRODUCCIÓN

Internet es a día de hoy la principal fuente de información para cualquier tema y cada vez más también para la salud. Tanto pacientes como profesionales usan la red para encontrar información a partir de distintas fuentes: revistas científicas, blogs y páginas profesionales e institucionales, publicaciones en redes sociales, contenido multimedia, etc. De esta forma los buscadores se están convirtiendo en la principal puerta de entrada de la población a la información en salud.

Sin olvidar que el otro gran pilar en el que se sustenta Internet hoy en día son las redes sociales, aglutinando gran parte de la conversación (también en salud) y convirtiéndose en espacios desde los que seleccionamos y filtramos contenidos relevantes, y dónde volvemos a poner la información en circulación a través de diversas redes.

2. USO AVANZADO DE BUSCADORES

En los albores de Internet, cuando acudíamos a la red en busca de información era muy probable que usáramos hasta 10 buscadores distintos, los cuales ofrecían a su vez resultados muy variados. Pero en el año 1997 apareció Google de la mano de Larry Page y Sergey Brin y lo cambió todo, hasta tal punto que con el tiempo se convirtió en la principal herramienta de búsqueda en Internet (en España representa el 95% de las búsquedas), alrededor del cual se ha ido desarrollando todo un ecosistema de aplicaciones que lo complementan.

El funcionamiento de los buscadores es bastante similar. Básicamente utilizan determinados programas informáticos llamados rastreadores, bots o arañas, para descubrir sitios web que son de dominio público y una vez detectadas, consultan las páginas web que contienen y siguen sus enlaces, tal y como haría un usuario normal. Conforme van rastreando, recopilan datos sobre esas páginas (enlaces internos, externos, palabras clave, imágenes, etc.), los cuales son enviados a un servidor central que los procesa en base a unos criterios (más o menos conocidos) y finalmente crea un índice sobre el que devuelve después unos resultados cuando se ejecuta una búsqueda.

De esta forma, los sistemas de indexación tienen en cuenta muchos aspectos diferentes de las páginas y últimamente (y cada vez más), características del entorno donde se hace la búsqueda (área geográfica, cuenta de usuario, búsquedas anteriores, etc.).

Podemos diferenciar entre buscadores generalistas, que son aquellos que rastrean todo tipo de archivos y sitios web de cualquier tipo (como lo es por ejemplo, Google), y buscadores especializados, los cuales limitan su rastreo a un ámbito concreto (caso de Google Académico).

2.1. Funcionamiento de los buscadores

Lo más importante en el funcionamiento de un buscador es su potente motor de búsqueda, capaz de rastrear la red e indexar millones de páginas y todo tipo de archivos, para clasificarlos en función de distintos criterios y que cuando hagamos una búsqueda los resultados sean lo más fieles posibles a lo que queremos encontrar.

El motor de búsqueda de Google es, sin lugar a dudas, uno de los más avanzados y sofisticados del mundo. Su capacidad para rastrear la web e indexar una inmensa cantidad de información es asombrosa. Google utiliza rastreadores web llamados "Googlebots" para recorrer la web, examinar páginas y recopilar información sobre ellas. Estos bots no solo registran el texto en las páginas, sino que también siguen enlaces, analizan la estructura de los sitios web y recopilan datos sobre la calidad y la relevancia de los contenidos. Esta vasta colección de datos se procesa y se utiliza para determinar la clasificación de las páginas web en los resultados de búsqueda.

El algoritmo que impulsa el motor de búsqueda de Google es un secreto celosamente guardado, y se actualiza constantemente para mejorar la precisión de los resultados y evitar la manipulación de estos. El algoritmo considera una amplia variedad de factores para determinar qué páginas son las más relevantes para una consulta dada, como la calidad del contenido, la autoridad del sitio, la velocidad de carga, la estructura de la página, la frescura de la información y otros muchos aspectos.

2.2. Principales características de los buscadores

Cuando realizamos cualquier búsqueda de salud, el buscador nos devuelve un número aproximado de páginas que contienen información relacionada con nuestra consulta (habitualmente miles de páginas) y nos permite navegar por los 1.000 primeros resultados, mostrándonos un máximo de 100 resultados por página. Esto significa que, si no conocemos la forma de acotar y filtrar nuestras búsquedas, podríamos pasar horas navegando entre los resultados y aun así estaríamos perdiéndonos información relevante.

Un hecho muy relevante en el ámbito de la salud es que el buscador no clasifica los resultados con criterios de calidad científica, sino de otros relacionados con términos de posicionamiento o el llamado SEO (Search Engine Optimization). Esto significa que, si queremos optimizar nuestras búsquedas de información en salud para encontrar la información más relevante y ahorrarnos cientos de horas, deberíamos conocer los entresijos de la búsqueda avanzada.

Estas son algunas de las características más importantes de Google que permiten mejorar las búsquedas (muchas de las cuales también funcionan en otros tipos de buscadores):

Resultados privados
Google Instant
Búsquedas relacionadas
Tipos de resultados
Herramientas de búsqueda
Conjunto de opciones
Búsqueda avanzada
Uso de comandos y operadores

2.3. Tipos de búsquedas

A la hora de utilizar un buscador podemos ejecutar dos tipos de búsquedas:

Búsqueda simple: consiste en introducir los términos o palabras clave en la caja de búsqueda y hacer una petición al sistema.
Búsqueda avanzada: proporciona más opciones para filtrar y limitar tanto los términos de búsqueda, como la devolución de resultados. Suele realizarse mediante el uso de operadores en la caja de búsqueda simple, o bien a través de formularios más amplios que disponen de casillas para precisar las búsquedas.

3. REDES SOCIALES: EXTRAYENDO INFORMACIÓN DE X (TWITTER)

Se estima que X (antes Twitter y nos referiremos a ella de ambas formas) tiene más de 330 millones de usuarios, lo cuales publican 500 millones de entradas y realizan más de 2 billones de peticiones de búsqueda diarias.

Gracias a este gran volumen de actividad e información publicada, sus aplicaciones dentro del entorno de la Ciencia 2.0 (la aplicación de las tecnologías de la web social al proceso científico), X se ha convertido en mucho más que una red social de microblogging, llegando incluso algunos la consideran un “microPubmed”.

Esto es debido también a otros motivos (nuevos índices de impacto y métricas alternativas, búsquedas científicas, aparición de Journal Clubs, etc.), pero en esta entrada nos centraremos únicamente en las búsquedas científicas a través de esta red social, una funcionalidad algo desconocida y que nos puede ayudar bastante en el uso de esta herramienta.

Al igual que en PubMed o en otros buscadores de evidencia clásicos, X también permite realizar búsquedas acotadas mediante el uso de operadores y filtros.

4. MODELOS GRANDES DE LENGUAJE E INTELIGENCIA ARTIFICIAL

Si hablamos de gestión del conocimiento, la irrupción en estos últimos años de la inteligencia artificial, concretamente de loa modelos grandes de lenguaje (LLM, por sus siglas en inglés), ha supuesto un hito con un potencial impacto revolucionario en el campo de la búsqueda y gestión de información. Estos modelos, como GPT-3 y sus sucesores, han sido entrenados en grandes corpus de texto y pueden generar información de manera coherente y contextualmente relevante. Su impacto en la búsqueda y gestión de información está siendo significativo por varias razones.

4.1. ChatGPT y otros LLM

ChatGPT es un sistema de conversación basado en modelos de lenguaje desarrollado por OpenAI. Este sistema se basa en la arquitectura GPT (Generative Pre-trained Transformer) y se ha adaptado para tareas de diálogo y conversación. Consiste en un sistema de procesamiento de lenguaje natural basado en modelos de inteligencia artificial. Está diseñado para mantener conversaciones y diálogos con usuarios de manera coherente y contextual.

4.2. Interaccionando con modelos de lenguaje

Si hablamos de LLM, tenemos que hablar también de cómo interactuar con estos sistemas. Un "prompt" es una instrucción o una solicitud dada a un modelo de lenguaje para que genere una respuesta o generación de texto específica. Los prompts son esenciales para interactuar con modelos de lenguaje y obtener respuestas coherentes y relevantes.

Un prompt puede ser una pregunta, una declaración incompleta o cualquier texto que el usuario proporcione al modelo para solicitar información o generar contenido. El modelo de lenguaje utiliza el prompt para comprender la intención del usuario y generar una respuesta coherente. La calidad y la relevancia de la respuesta generada por el modelo dependen en gran medida de la claridad y la precisión del prompt que se le proporciona. Por lo tanto, formular prompts adecuados es importante para obtener los resultados deseados al interactuar con estos modelos.

4.3. Usos de los LLM en la gestión de información en salud

A continuación, se exponen algunos de los usos que se están dando a ChatGPT en el ámbito de la salud:

Creación de contenido
Adaptación de informes para pacientes
Aclaración de dudas
Enfocar trabajos sobre distintos temas
Búsqueda concreta de información y síntesis
Resumen y extracción de información
Elaboración de casos clínicos

Resulta lógico pensar que, conforme estas herramientas sigan evolucionando, los usos en salud se irán expandiendo, se refinarán los resultados generados en las consultas y se irán integrando en las distintas herramientas de gestión del conocimiento.