Implementación y optimización de algoritmos para aprendizaje automático con teoría de perturbaciones

Ortega Tenezaca, Delfín Bernabé

Implementación y optimización de algoritmos para aprendizaje automático con teoría de perturbaciones

Ortega Tenezaca, Delfín Bernabé

Supervised by:

Cristian-Robert Munteanu Director
Aliuska Duardo Sánchez Director

Defence university: Universidade da Coruña

Fecha de defensa: 31 March 2023

Committee:

Enrique Onieva Caracuel Chair
A. Pazos Secretary
Miren Josune Pérez Estrada Committee member

Type: Thesis

Teseo: 801195 DIALNET RUC editor

Abstract

Na actualidade acumulanse unha inxente cantidade de datos relacionados con sistemas complexos de moi variada natureza: biomoleculares, economicos, sociais, etc. Estes sistemas son de gran relevancia en diferentes areas como as ciencias biomoleculares, a enxenaria biomedica e as ciencias sociais e xuridicas. As tecnicas de Intelixencia Artificial (IA) e/ou Machine Learning (ML) poden ser utiles para predicir propiedades de interese nestes sistemas. Para iso, son necesarios polo menos dous pasos principais. O primeiro refirese a recoller informacion similar de moitos casos de sistemas conecidos para poder adestrar modelos de IA/ML. O segundo paso indispensable esta relacionado coa cuantificacion numerica da informacion estrutural, as condicions externas ao sistema e as propiedades do mesmo a predicir. Neste segundo paso, definense as variables numericas de entrada e saida para adestrar os algoritmos AI/ML. Desafortunadamente, os sistemas complexos estan formados xeralmente por varios subsistemas, e a informacion sobre o sistema no seu conxunto ou as suas partes non se pode atopar na mesma fonte. Non obstante, e habitual atopar informacion sobre cada un dos subsistemas e as suas propiedades en diversas fontes dispersas. Para resolver este problema, desenvolveuse o algoritmo NIFPTML = NI + IF + PT + ML. Estes algoritmos implican as seguintes etapas. Na etapa NI (Network Invariant) utilizanse redes complexas para representar diferentes sistemas e/ou os seus subsistemas e calculanse os invariantes destas redes para cuantificar a sua estrutura. Na seguinte etapa, e necesario utilizar tecnicas de fusion de informacion (IF) de diversas fontes para obter un conxunto de datos enriquecido. Posteriormente, os operadores da Teoria da Perturbacion (PT) procesan a informacion cuantificando as perturbacions/desviacions nas variables estruturais con respecto aos valores esperados para diferentes subconxuntos de variables categoricas. Finalmente, en Machine Learning (ML), adestran diferentes algoritmos de IA/ML, que permiten atopar modelos preditivos. Ali aplicaronse os algoritmos NIFPTML e os resultados publicaronse na literatura. Desafortunadamente, non hai unha aplicacion de software amigable para os usuarios habituais destes algoritmos. Polo tanto, os desenvolvedores de algoritmos NIFPTML necesitan utilizar varias ferramentas diferentes para cada unha das etapas. Por outra banda, hai un desconecemento das implicacions legais do desenvolvemento de algoritmos computacionais como o NIFPTML na investigacion cientifica nestas areas. Nesta tese proponemos desenvolver (programar) unha version beta dun software, SOFT.PTML, no que se implementan por primeira vez os algoritmos NIFPTML nunha mesma aplicacion. Ademais, demostrarase a utilidade deste programa aplicado a diferentes problemas practicos dos ambitos mencionados, como son: o deseno de farmacos, o descubrimento de nanomateriais, o estudo dos ordenamentos xuridicos. Por ultimo, realizarase unha analise das implicacions legais do desenvolvemento e aplicación deste tipo de algoritmos na investigacion.