Redes neuronales artificiales como modelo predictivo en un programa de cribado de cáncer de mama poblacional

  1. ALVAREZ MENENDEZ, LETICIA
Dirixida por:
  1. Jose Antonio Alvarez Riesgo Director
  2. Javier Ferrer Barriendos Director

Universidade de defensa: Universidad de Oviedo

Fecha de defensa: 25 de marzo de 2010

Tribunal:
  1. Juan Luis Lanchares Pérez Presidente/a
  2. Ángel Plácido LLaneza Coto Secretario/a
  3. Celestino Ordóñez Galán Vogal
  4. Angel A. Garcia Iglesias Vogal
  5. Serafín Costilla García Vogal

Tipo: Tese

Teseo: 289217 DIALNET lock_openTESEO editor

Resumo

El cáncer de mama es una enfermedad con amplia variabilidad mundial, alcanzando sus tasas de incidencia más elevadas en USA y en los países del norte de Europa. Por otro lado es la primera causa de muerte entre mujeres y responsable del 30% de los fallecimientos; no obstante desde la instauración de las políticas de cribado, la evolución tecnológica y la instauración de terapias adyuvantes la tasa de mortalidad descendió hasta niveles en torno al 3 por mil. Entre las estrategias de Salud Publica en prevención secundaria para prevenir el cáncer de mama se encuentra el cribado poblacional por mamografía cuya efectividad no está exenta de controversia aunque si parece comportarse como variable pronostica en la elaboración de un modelo pronostico/predictivo. Estos modelos pronósticos/predictivos ayudan a la toma de decisiones clínicas por cuanto persigue la identificación de factores relevantes y su concurrencia con la enfermedad con el objeto de establecer grupos de riesgo diferenciados. Para el cáncer de mama hay descritos muchos modelos pronósticos (Claus, Gail, Tyrer-CuzicK, NPI, etc.) sin que ninguno logre un optimo rendimiento. En esta línea las redes neuronales artificiales (RNA) pueden desempeñar un papel importante en este proceso de predicción y clasificación pues son excelentes como clasificadoras y reconocedoras de patrones pudiendo usarse allí donde las técnicas tradicionales no funcionan y la mama por la diversidad e importancia de sus lesiones, por la interpretación clínica de los métodos de imagen disponibles y por la efectividad de los métodos preventivos, parece un terreno propicio para la aplicación de las RNA. Además muestran una mejor exactitud predictiva cuando se comparan con técnicas tradicionales estadísticas de predicción y supervivencia. HIPOTESIS Y OBJETIVOS. En base a lo relatado la hipótesis de trabajo es: Las redes neuronales artificiales permiten plantear seguimientos clínicos a la carta en función de predictores relevantes mejorando la calidad de la investigación, minimizando las acciones clínicas sobre las enfermas y optimizando la gestión de los recursos, y los objetivos a conseguir: 1. Generar e identificar el mejor modelo basado en Redes Neuronales Artificiales capaz de diferenciar a las mujeres participantes en un programa de cribado de cancer de mama. 2.- Elaborar un perfil de pruebas que permita identificar grupos de riesgo de padecer cáncer de mama y establecer aquellos de riesgo creciente. 3. Estimar el rendimiento predictivo de las Redes neuronales Artificiales en un contexto de cribado de cáncer de mama. MATERIAL Y METODOLOGIA. Para dar respuesta a la hipotesis y objetivos planteados se diseña un estudio de prevalencia y prospectivo de cohortes. La muestra está formada por el colectivo de mujeres del Area Sanitaria de Aviles de edad entre 50 y 70 años, derivadas a la Unidad de Cribado de Cancer de Mama de Avilés (Asturias) ubicada en el Hospital San Agustin y en funcionamiento desde 1999. Las mujeres son invitadas a participar mediante carta personalizada cuando cumplen 50 años y la revisión cada dos años. El protocolo de recogida de datos incluye datos relevantes de la Historia Clinica, de la mamografia y de otras exploraciones si se hicieran, que pòsteriormente se incorporan al programa de cribado de cáncer de mama, el cual dispone de un software específico para la gestión y el seguimiento de los casos que incluye a todas las mujeres participantes, así como sus resultados de despistaje. El analisis estadistico incluye estadistica descriptiva y analitica bivariante aplicando las pruebas parametricas que procedian, test Anova para variables cuantitativas y chi cuadrado y test exacto de Fisher para cualitativas. Para las RNA, n el proceso de modelización, entrenamiento y validación del programa de cribado de cáncer de mama se ha recurrido sucesivamente a un proceso de clusterización mediante redes SOM (Self-Organizing Map), la elaboración de algoritmos MARS (multivariate adaptative regression splines) y finalmente a la aplicación de funciones NEURO SV (máquinas de soporte vectorial), destinadas a la definición topológica y tipológica de la función. RESULTADOS. Participaron 16.854 mujeres durante el periodo de estudio de 2000 a 2008 con una tasa de participación del 73,88% sin que se hallaran diferencias estadísticamente significativas entre mujeres sanas y enfermas con cáncer de mama en ninguna de las variables del perfil ginecológico (edad de menarquia y menopausia, años baño estrogenito, años tratamiento hormonal sustitutivo, años anticonceptivos orales, etc) y del perfil obstétrico (edad primer embarazo, nº embarazos, meses lactancia, etc). Aunque para algunas variables ginecológicas (edad menopausia y años baño estrogenito) y obstetricias (edad primer embarazo y nº embarazos) si había diferencias significativas entre las sanas y las diagnosticadas de cáncer en la ronda incidente. La tasa global de cáncer fue del 2,01¿, con menor valor en el grupo de 50-54 años(1,33¿) e incrementándose a medida que aumentaba la edad hasta 3,46¿ en el grupo de 65-69 años; en cualquier caso en la ronda prevalente siempre se encontró mayor tasa de cáncer que en la incidente (2,6¿ por 1,70¿). La aplicación de RNA como técnica clasificatoria en grandes bases de datos se ha efectuado con una estrategia de modelos híbrido, redes SOM y máquinas de soporte vectorial (SVM). Las redes SOM empleadas en el proceso de aprendizaje nos ha permitido establecer diversos vectores directores, cada uno de los cuales representa a una mujer prototipo en función de sus características particulares (variables de estudio). A partir de los citados vectores, la estrategia de algoritmos MARS fue capaz de identificar a las 100 mujeres con cáncer de mama diagnosticadas en el programa. En este proceso de selección, tres han sido los modelos manejados (denominados 5,6 y 7) en función de los rendimientos en términos de sensibilidad y especificidad. En la validación interna del modelo mediante técnicas SVM, se han observado diferencias significativas en la construcción de curvas Roc (p= 0,000) maximizando el área bajo la curva el modelo 7 (que integra 196 vectores directores o mujeres prototipo). Este último modelo presentó una sensibilidad del 100% y una especificidad del 69%.A partir del modelo 7 hemos construido un score en función del peso intrínseco de las variables componentes del mismo. El citado score o puntuación ha permitido la generación de una clasificación funcional en riesgo creciente de identificar cáncer de mama en el programa de cribado, así como la posibilidad de crear un grupo que aglutine a las mujeres enfermas CONCLUSIONES. 1. Se ha identificado un modelo de Redes Neuronales Artificiales con funciones de entrenamiento tipo Kernel capaz de identificar y diferenciar las mujeres que se someten al cribado de cáncer de mama. 2. La validación efectuada sobre el conjunto de las mujeres participantes en el programa a partir de un modelo con 196 mujeres patrón, permite obtener estadísticos con una sensibilidad del 100% y una especificidad del 68,9%. 3. La identificación de factores de riesgo que hace eficiente el modelo de Redes Neuronales identificado, permite la clasificación de mujeres participantes en el programa de cribado en grupos de riesgo creciente de desarrollo de cáncer de mama.