Selection of models of genomic evolution in High Performance Computing Environments

Darriba, Diego

Selection of models of genomic evolution in High Performance Computing Environments

Darriba, Diego

Dirixida por:

Ramón Doallo Director
David Posada González Director
Guillermo L. Taboada Director

Universidade de defensa: Universidade da Coruña

Fecha de defensa: 04 de abril de 2016

Tribunal:

Alexandros Stamatakis Presidente/a
Patricia González Secretario/a
Sara Rocha Vogal

Tipo: Tese

Teseo: 413274 DIALNET RUC editor

Resumo

La introducción de las tecnologías de secuenciación de nueva generación, o "Next Genemtion Sequencingn (NGS), ha representado un notable cambio en el campo de la filogenética. La cantidad de ilÚormación molecular disponible está creciendo cada vez más rápido, propiciando el desarrollo de métodos y herramientas de análisis más eficientm. así como el uso de técnicas de computación de altas prestaciones (HPC) para acelerar los análisis. El campo e5tá cambiando rápidamente del análisis filogenético (i.e., estudio de uno o un conjunto reducido de genes) al filogenómico (i,e., estudio de cientos O núles de genes de genomas completos o incompletos). Muchos métodos filogenéticos requieren utilizar modelos probabilísticos de evolución molecular, y es sabido que el USO de un modelo u otro puede derivar en diferentes estimaciones filogenéticas. Tanto modelos sub- como sobreparametrizados presentan desventajas en términos de precisión. Por lo t6llto, existen herramientas populares que hacen uso de marcos estadísticos para seleccionar el modelo que mejor se ajuste a los datos, buscando el mejor compromiso entre likelihood (verosimilitud) y parametrización. Esta tesis doctoral presenta el diseño, implementación y evaluación de métodos HPC para seleccionar el modelo de evolución más adecuado, conjwltamente con el desarrollo de nuevas funciones orientadas a facilitar el análisis de datos filogenéticos. En concreto, hemos extendido y generado versiones paralelas de las dos herramientas más populares para selección de modelos de ADN y proteínas, jModelTest y ProtTest. Además, esta tesis presenta el diseño, implementación y evaluación de algoritmos para el análisis rápido y preciso de datos genómicos. Hemos creado una herramienta incorporando todas estas técnicas, denominada PartitionTest, delegando la computación principal en la librería de análisis filogenético PLL. Finalmente, hemos hecho un estudio de simulaciones sobre la importancia del uso de técnicas de selección de modelos en datos genómicos, y su impacto en la precisión al recuperar los modelos generadores y, más importante, el árbol de evolución verdadero.