Integración automática de datos epidemiológicos distribuidos basada en ontologías
- A. Pazos Director
- Javier Pereira-Loureiro Director
Universidade de defensa: Universidade da Coruña
Fecha de defensa: 18 de decembro de 2009
- Juan Pazos Sierra Presidente/a
- Julián Dorado Secretario
- Jorge Teijeiro Vidal Vogal
- Norberto Ezquerra Machado Vogal
- José Luis Oliveira Vogal
Tipo: Tese
Resumo
La epidemiología es la ciencia que estudia la distribución y los determinantes de enfermedades en las poblaciones humanas. Algunos estudios epidemiológicos, especialmente el caso de enfermedades multifactoriales como el cáncer, requieren cantidades masivas de datos para poder extraer conclusiones relevantes. Una forma de obtener un gran volumen de datos epidemiológicos sobre una misma temática es coordinando la recogida de datos a gran escala. Esta técnica suele proporcionar buenos resultados, pero es muy costosa, tanto en tiempo como en recursos humanos, de modo que sólo puede utilizarse en casos muy concretos. Otra forma de obtener cantidades grandes de datos es reutilizando distintos conjuntos de datos epidemiológicos sobre un mismo tema, procedentes de distintos registros o de otros estudios. Esta técnica se conoce como pooled-analysis (un tipo de meta-análisis) y está adquiriendo mucha importancia en los últimos años. Se ha demostrado que es una técnica muy potente, pero es también muy costosa, ya que exige un trabajo enorme de búsqueda e integración de datos, para el cual no se dispone todavía de las herramientas adecuadas. En definitiva, lo que se pretende es reunir datos de distintas fuentes, que pueden estar distribuidas geográficamente, para disponer de un mayor volumen de datos, y así poder realizar nuevos estudios. Para conseguir esto, algunos autores proponen la creación de un repositorio centralizado. Sin embargo, trabajos más recientes demuestran que un enfoque distribuido, en el que las fuentes proporcionan acceso a sus datos, manteniendo su autonomía, es más adecuado para el caso de datos epidemiológicos. El problema se traduce entonces en integrar datos procedentes de distintas fuentes. La integración de datos de distintas fuentes no es un problema nuevo. Se trata de un problema complejo, que carece a día de hoy de una solución general. Son varios los autores que han tratado este problema, proponiendo distintos enfoques, normalmente vinculados a un problema específico. La mayor parte de las aproximaciones de integración de datos se basa en el desarrollo de un sistema, que implementa mecanismos de interacción (e.g. traducción de consultas, traducción de datos, etc.) con las fuentes de datos. Este enfoque obtiene buenos resultados. Sin embargo, como se verá, no resulta adecuado al problema que aquí se plantea, ya que, entre otras cosas, las fuentes de datos no se conocen de antemano. En este trabajo se plantea una nueva aproximación que combina ideas de las aproximaciones de integración de información existentes con ideas de la Web Semántica, para conseguir una integración automática de datos epidemiológicos distribuidos. La Web Semántica es una extensión de la Web existente, en la que la información se ofrece con un significado bien definido, permitiendo a computadoras y personas trabajar de forma cooperativa. Para añadir significado bien definido a la información, se utilizan "ontologías". Una ontología es una descripción de conocimiento compartido, utilizando un lenguaje formal. Así, la aproximación que se plantea en esta tesis se basa en describir semánticamente los datos epidemiológicos utilizando ontologías, de forma que agentes software puedan comprenderlos y realizar las operaciones necesarias para integrarlos, de forma similar a como operaría un humano. Se proponen también mecanismos de búsqueda y acceso semántico a las fuentes de datos. A diferencia de otras aproximaciones, la que aquí se propone no incluye como parte del propio sistema la lógica para realizar las transformaciones necesarias. En lugar de eso, propone el desarrollo de agentes capaces de interpretar el conocimiento existente en ontologías compartidas (shared ontologies) y utilizar tal conocimiento para realizar las trasformaciones. Esta aproximación permite incrementar o corregir la capacidad de integración de forma automática, al tiempo que se incrementa o corrige el conocimiento existente en las ontologías. Además, la capacidad de integración puede mejorarse mediante la inclusión de nuevos agentes, siguiendo así un paradigma de inteligencia colectiva. La aproximación propuesta no es dependiente de ninguna tecnología. Además, puede ser generalizada para otros campos de aplicación. Para validar la aproximación propuesta se han seleccionado varias fuentes de datos reales, se ha tomado su estructura y se ha simulado su adaptación a la aproximación propuesta. A continuación se ha desarrollado un prototipo que sirve como "prueba de concepto" de la aproximación propuesta. El prototipo permite buscar y recuperar datos epidemiológicos de una temática concreta a través de Internet. Seguidamente, detecta las variables susceptibles de ser integradas (aquéllas que hacen referencia al mismo concepto) y permite seleccionar qué variables y qué fuentes de datos se desea integrar. Finalmente, los datos integrados se pueden exportar a un formato interpretable por herramientas de análisis tradicionales. En definitiva, este trabajo constituye un nuevo enfoque de integración de información, que se basa en ideas de la Web Semántica para permitir una integración basada en el significado de los datos.