Whole-genome amplification of cancer and healthy human single cells

  1. ESTÉVEZ GÓMEZ, NURIA
Dirixida por:
  1. David Posada González Director
  2. Sonia Prado López Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 21 de decembro de 2018

Tribunal:
  1. Ángel Carracedo Álvarez Presidente
  2. Diana Valverde Pérez Secretaria
  3. Javier Herrero Sánchez Vogal

Tipo: Tese

Resumo

1. Introducción La célula es la unidad básica de la vida. Los sistemas biológicos complejos como los organismos multicelulares están organizados en grupos de células individuales, formando tejidos donde cada célula es única y ocupa una posición exclusiva en el espacio. En concreto, el cuerpo humano adulto está formado por aproximadamente 30×1018 células. La posibilidad de estudiar el comportamiento de los tejidos al nivel más básico, esto es, al nivel celular, nos ayuda a descifrar sus funciones e interacciones con las áreas colindantes y así entender la dinámica de los organismos completos. La diversidad funcional de las células está favorecida por la variabilidad del fenotipo que a su vez, está influenciado por cambios a nivel genómico, transcriptómico, proteómico, epigenómico y metabolómico. Los cambios genómicos, que incluyen sustituciones, inserciones, deleciones, alteraciones en el número de copia, variantes estructurales y otros reordenamientos, se acumulan durante el desarrollo del individuo y generan distintos linajes celulares o clones que dan lugar a tejidos heterogéneos. Esta falta de homogeneidad es conocida como “mosaicismo genético”. En los tejidos tumorales este mosaicismo se hace todavía más evidente, y recibe el nombre de heterogeneidad intratumoral (en inglés “intratumor heterogeneity”; ITH). En cáncer, el estudio del comportamiento y la dinámica de los clones tumorales es fundamental debido a su papel en la formación y desarrollo del tumor, la aparición de metástasis y la resistencia al tratamiento. En el pasado, se usaban técnicas citogenéticas como cariotipado e hibridación fluorescente in situ para la visualización de las aberraciones cromosómicas, pero dichas técnicas solamente proporcionan datos cualitativos. Actualmente, el desarrollo de tecnologías de secuenciación de alto rendimiento (en inglés denominadas “high-throughput sequencing”, HTS) permiten el análisis estadístico y computacional de grandes grupos de datos cuantitativos. Sin embargo, a partir de la secuenciación de tejidos, o de lo que es lo mismo, de grandes grupos de células (en inglés “bulk”) no es sencillo determinar la diversidad clonal, la ITH (a nivel detallado), el trazado de linajes celulares, las poblaciones de células escasas o raras (aquellas presentes a frecuencias bajas < 1%) ni las tasas de mutación debido a que la información proporcionada es una media de todas las células. Realmente, el máximo nivel de resolución para el entendimiento de las variaciones fenotípicas y genotípicas dentro de los tejidos lo proporciona el estudio de células individuales o únicas (en inglés “single-cell”). Además, el análisis de célula única es fundamental para el estudio de organismos unicelulares, particularmente aquellos que no se pueden cultivar en el laboratorio. El desarrollo de distintas técnicas ómicas ha permitido recientemente empezar a entender los perfiles moleculares de células individuales a nivel del genoma, transcriptoma, proteoma, epigenoma y metaboloma, siendo también posible la aplicación en paralelo de combinaciones de estas técnicas en la misma célula. Estos estudios multi-ómicos han proporcionando nuevos e importantes conocimientos en biomedicina y biología fundamental. Así, en los últimos años, las técnicas de célula única se han aplicado ampliamente en distintos ámbitos de la biología, demostrando su extraordinario potencial. Por ello, no ha sido una sorpresa que la secuenciación de célula única fuera galardonada con el premio “Método del año 2013” por la revista Nature Methods. La estrategia de célula única ha tenido un fuerte impacto particularmente en cáncer, inmunología, microbiología, neurobiología, diagnóstico prenatal y desarrollo. Esta tesis se centra en las técnicas de célula única desarrolladas para el estudio del genoma. Para ello, es necesaria la obtención de datos genómicos de célula única de alta calidad, lo que conlleva la superación de diferentes dificultades técnicas, incluyendo un adecuado aislamiento de las células individuales, la amplificación de su genoma completo, la construcción de librerías genómicas y la secuenciación. Existen distintas técnicas para el aislamiento de células individuales. La gran mayoría necesitan la preparación previa de una suspensión celular a partir de la muestra siendo este paso especialmente delicado cuando se trabaja con tejidos sólidos debido a que implica la necesidad de disgregar la muestra pudiendo dañar las células. Todas ellas deben mantener la viabilidad y la función biológica de las células tras la separación. Una vez que la célula ha sido aislada, para la caracterización de su genoma o de una región del mismo, es necesario un paso de amplificación del genoma completo (en inglés “whole-genome amplification”, WGA). De este modo, se obtiene la cantidad de material genético necesario para llevar a cabo los posteriores análisis. Sobre todo en los últimos 5 años, estas técnicas han ido evolucionando y mejorando para su aplicación en el análisis de células individuales, esto es, para la amplificación del genoma completo de célula única (en inglés “single-cell whole-genome amplification”, scWGA). Las técnicas de scWGA se podrían clasificar, en base a la aproximación que utilizan, en técnicas basadas en PCR, en amplificación por desplazamiento múltiple (en inglés “multiple displacement amplification”; MDA) o en una combinación de las dos técnicas (aproximaciones híbridas). Por otro lado, las plataformas de microfluídica también han supuesto un avance en scWGA además de en el aislamiento de células individuales. Estos equipos reducen los volúmenes de trabajo y los costes a la vez que aumentan el rendimiento del proceso permitiendo procesar una gran cantidad de células a la vez. La mayoría de estos sistemas son de fabricación propia aunque algunos son ya comercializados como es el caso del sistema automatizado de microfluídica C1TM (Fluidigm). A pesar de que este equipo cuenta con distintos protocolos adaptados para la secuenciación de ADN y ARN, su mayor impacto está siendo en el ámbito de la transcriptómica. Además de la amplificación del genoma, es necesaria la preparación de una librería genómica antes de la secuenciación. A continuación, el siguiente paso para el estudio de la secuencia de ADN es el uso de tecnologías HTS. Estas tecnologías permiten evaluar los diferentes tipos de variantes presentes en el genoma incluyendo variantes estructurales como variaciones en el número de copia (en inglés “copy number variants”; CNVs), traslocaciones e inversiones, así como variantes de un único nucleótido (en inglés “single nucleotide variants”; SNVs), deleciones e inserciones. Una vez generados los datos, se requiere el análisis computacional de los mismos para su interpretación. Tras el mapeo de las lecturas, la profundidad de cobertura por base se utiliza para obtener información de la uniformidad y la cobertura física del genoma. Sin embargo, cuando se hacen experimentos a pases bajos, los valores de cobertura observados pueden verse fuertemente afectados por el muestreo aleatorio ya que no se secuencian todas las moléculas generadas durante la construcción de la biblioteca. Finalmente, la detección de variantes en datos de célula única es una de las partes más delicadas del análisis. Mientras en línea germinal las variantes pueden sufrir ligeras desviaciones de las frecuencias alélicas debido al muestreo aleatorio de las librerías, en célula única, el desequilibrio alélico, el ADO, la cobertura no uniforme y los errores introducidos por la polimerasa distorsionan por completo las frecuencias alélicas originales. Existen varios programas desarrollados específicamente para tratar estos errores. 2. Motivación y objetivos A pesar de todos estos avances, actualmente las estrategias de scWGA todavía conllevan varios errores técnicos como: (1) desequilibrio alélico o pérdida completa de un alelo (en inglés “allelic dropout”; ADO) cuando se amplifica en mayor medida uno de los dos alelos o solamente se amplifica uno de ellos, (2) amplificación no uniforme generalmente atribuida a la presencia de regiones ricas en GC en el genoma que afectan a la eficiencia de los procesos de desnaturalización y unión de los cebadores, (3) la generación de quimeras debido principalmente a la actividad de desplazamiento de hebra de la polimerasa y (4) los errores de amplificación como resultado de la falta de fidelidad de la ADN polimerasa. Estos errores originan respectivos sesgos en los datos de secuenciación de célula única que interfieren en su interpretación: (1) una distorsión en las proporciones de lecturas del alelo materno y el paterno (desequilibrio alélico) o en su caso extremo lecturas de uno solo de los alelos (ADO) haciendo que un heterocigoto pueda aparecer como homocigoto, (2) una cobertura no uniforme de las lecturas a lo largo del genoma que complica la detección de variantes estructurales y no estructurales causando principalmente falsos negativos, (3) el mapeo de lecturas a regiones no contiguas del genoma (quimeras) lo que complica la detección de variantes estructurales generando falsos positivos y (4) la aparición de bases en las lecturas que no se corresponden con la molécula original provocando la aparición de SNVs erróneas que ocasionan falsos positivos y en menor medida falsos negativos. Todos estos errores tiene un gran impacto en la cantidad, distribución y frecuencia de las lecturas observadas. Nuevas estrategias de scWGA surgen de manera constante para tratar de mitigar estos sesgos de amplificación, mejorar el rendimiento y/o reducir el tiempo y los costes experimentales. Y aunque es posible la preparación de librerías genómicas sin un paso previo de amplificación, este tipo de técnicas siguen incluyendo ciclos de PCR y suelen requerir el uso de dispositivos de microfluídica generalmente construidos en el propio laboratorio. Este hecho, hace que su implementación en los laboratorios estándar sea complicada. Por lo tanto, scWGA es todavía un requisito en la mayoría de aplicaciones de las técnicas de genómica de célula única. Aunque existen estudios comparando diferentes métodos de scWGA ninguno ha comparado un elevado número de métodos de scWGA en secuencias de genomas completos de un gran número de células. Por todo esto, la principal motivación de esta tesis es la necesidad de una comparativa extensa y minuciosa para la identificación del mejor método de scWGA para la secuenciación del genoma de célula única. Acorde a ello, he identificado los siguientes objetivos específicos: Evaluar el comportamiento de distintos kits comerciales de scWGA para la secuenciación de células únicas sanas y tumorales. Describir el impacto de los protocolos de librerías genómicas y plataformas de secuenciación en la genómica de célula única. Comparar el comportamiento de los métodos estándar de scWGA con una plataforma de microfluídica. Evaluar el efecto de diferentes condiciones de lisis y volúmenes de reacción en la cobertura física de amplificación. Para poder alcanzar estos objetivos, empecé caracterizando las líneas celulares empleadas en los diferentes experimentos para un mejor conocimiento de sus características (abordado en el Capítulo 2). Luego, llevé a cabo una comparación exhaustiva de seis kits de scWGA con 230 células en base a la cantidad de ADN generada, tamaño de amplicón, cobertura física del genoma, uniformidad, formación de quimeras, detección del número de copia, desequilibrio alélico, ADO y falsos SNVs usando líneas celulares como modelos in vitro (abordado en Capítulo 3). Por último, realicé tres pequeños experimentos para comparar protocolos estándar de scWGA usando la clasificación de células activada por fluorescencia (en inglés “fluorescence-activated cell-sorting”; FACS) y MDA con la plataforma de microfluídica C1, y el efecto de diferentes condiciones de lisis y volúmenes de reacción en la cobertura física de amplificación (abordado en el Capítulo 4). 3. Metodología Para la consecución de esta tesis he tenido que familiarizarme con diversas técnicas de biología celular y molecular. Primeramente, con las técnicas de cultivos celulares para el mantenimiento, manejo y caracterización de las tres líneas celulares utilizadas en este trabajo como son HDF (fibroblastos), Caco-2 (cáncer colorrectal) y Z-138 (linfoma de células del manto), y con la tecnología de citometría de flujo para el aislamiento de las células individuales como paso previo a su amplificación. También me he familiarizado con técnicas de biología molecular para la scWGA, los controles de calidad de los genomas generados y los protocolos de construcción de librerías genómicas. En concreto, para la scWGA comparé seis kits comerciales distintos basados en diferentes aproximaciones que he clasificado en MDA y no-MDA para facilitar su comparativa. Dentro de los MDA incluí GenomiPhi (GE Healthcare), REPLIg (Qiagen) y TruePrime (SYGNIS) y en el grupo de los no-MDA evalué Ampli1 (Silicon Biosystems), Multiple Annealing and Looping Based Amplification Cycles (MALBAC; Yikon Genomics), y PicoPLEX (Rubicon Genomics). Para los controles de calidad empleé técnicas de determinación fluorimétrica para la cuantificación del ADN y técnicas de electroforesis capilar en chip para medir el tamaño del amplicón generado así como su integridad. Una vez confirmada la calidad de los genomas obtenidos procedí a la construcción de las librerías genómicas. Para ello, comparé cinco kits diferentes, incluyendo SureSelectQXT (Agilent Technologies), NxSeq AmpFREE Low DNA (Lucigen), Ion Plus Fragment library (ThermoFisher Scientific), Nextera DNA (Illumina) and KAPA (Kapa Biosystems). Construí 176 librerías de genoma completo de célula única, de un total de 230 que se secuenciaron a baja cobertura (0.07 – 1.76X) en Ion Torrent (Ion Proton) e Illumina (HiSeq 2000 y HiSeq 4000), en función del kit utilizado para la generación de las librerías. Con la ayuda de mi compañera Tamara Prieto, realicé un análisis exhaustivo de los datos para conocer el efecto de los diferentes kits de amplificación, de librerías genómicas y plataformas de secuenciación utilizados en los datos HTS de célula única en términos de cobertura física del genoma, uniformidad, formación de quimeras, detección del número de copia, desequilibrio alélico, ADO y falsos SNVs. Los análisis estadísticos en su mayoría y la representación gráfica de los datos los realicé con el software libre R. Además, completé otros pequeños experimentos para evaluar el efecto de plataformas de microfluídica, como el sistema C1, en la cobertura de amplificación comparado con métodos estándar de scWGA (FACS + TruePrime) y contrasté también tres condiciones de lisis diferentes (A: 30 min a 55 ºC, 5 min a 95 ºC y 2 min a 98 ºC; B: 60 min a 55 ºC, 5 min a 95 ºC y 2 min a 98 ºC; C: 60 min a 55 ºC, 5 min a 95 ºC y 2 min a 98 ºC (incluye un paso de congelación a -80 ºC entre el FACS y la lisis)) y determiné el efecto de la reducción del volumen de reacción (5 µl) sobre la cobertura de amplificación en comparación a los volúmenes de reacción estándar (50 µl). 4. Resultados El estudio y la caracterización de las líneas celulares empleadas HDF, Caco-2 y Z-138 me ha permitido conocer mejor su biología y para la realización de los experimentos de scWGA de esta tesis (presentado en el Capítulo 2). En la comparativa llevada a cabo con seis kits de scWGA en la mayoría de los parámetros analizados (cantidad de ADN generada, tamaño de amplicón, cobertura física del genoma, uniformidad, formación de quimeras, detección del número de copia, desequilibrio alélico, ADO y falsos SNVs), REPLIg superó o igualó a los demás métodos, excepto en el desequilibrio alélico, el ADO y la detección del número de copia, donde las estrategias no-MDA, y en particular Ampli1, fueron superiores. Relacionado con la formación de quimeras, fueron MALBAC y Ampli1 los que mostraron las tasas más bajas. Además, comprobé todos los métodos scWGA tienden a amplificar las mismas regiones genómicas, a excepción de REPLIg. Por otro lado, con los datos de HTS también evalué el efecto del kit de librerías genómicas y de las dos tecnologías de secuenciación sobre la cobertura física del genoma y la uniformidad, y aunque el efecto de los kits de librerías fue menor que el de los kits de scWGA, observé una mayor cobertura física del genoma con el uso del protocolo de KAPA modificado. Como cabía esperar, las dos tecnologías de secuenciación utilizadas, Illumina e Ion Torrent, no afectaron de forma significativa a la uniformidad de la amplificación (presentado en el Capítulo 3). Por otro lado, en el estudio preliminar de comparación de un protocolo estándar de scWGA con el sistema de microfluídica C1 observé que usando el C1 la cantidad de ADN generada es mucho menor que la obtenida con el protocolo estándar, pero los amplicones son más largos. En cuanto a la cobertura de amplificación los valores más altos los obtuve con el protocolo estándar, aunque las diferencias no fueron significativas (p=0.056). En relación a las diferentes condiciones de lisis celular, las condiciones B y C generaron resultados más homogéneos y con una cobertura de amplificación mayor que la lisis de 30 min, viéndose además que el paso de congelación a -80ºC previo a la lisis no afecta a la amplificación. Finalmente, en la comparativa preliminar entre volúmenes de amplificación observé amplicones significativamente más largos en las reacciones de 5 µl que en las de 50 µl. Mientras que los valores de rendimiento y cobertura de la amplificación fueron significativamente mayores en las reacciones de 50 µl. 5. Conclusiones El trabajo presentado en esta tesis engloba mis esfuerzos en proporcionar un mayor entendimiento de los diferentes métodos disponibles en el mercado para scWGA, en un contexto biomédico. Las conclusiones que he extraído de este trabajo son : - Las estrategias de scWGA de amplificación por desplazamiento múltiple (MDA; GenomiPhi, REPLIg, TruePrime) y las no-MDA (Ampli1, MALBAC, PicoPLEX) se comportan de forma diferente. - Las estrategias MDA producen mayores cantidades de ADN y amplicones más largos. - Uno de los métodos de MDA, REPLIg, proporcionó la mejor cobertura de amplificación y uniformidad, aunque con una gran variabilidad entre las muestras, y fue el único método que mostró un sesgo de amplificación totalmente al azar. - Las estrategias MDA permitieron en general una detección más precisa de las variantes polimórficas puntuales (SNVs). - Las estrategias no-MDA generaron menos desequilibrio alélico y por tanto menos pérdida completa de un alelo (ADO), formaron menos quimeras y proporcionaron perfiles de número de copia menos dispersos. - La estrategia de amplificación parece mucho más relevante que la biblioteca genómica o la plataforma de HTS. - El sistema de microfluídica C1 proporcionó mucha menos cantidad de ADN pero amplicones más largos que los protocolos estándar usando TruePrime con un efecto marginal en la cobertura de amplificación. - El almacenaje de las células a -80ºC entre el aislamiento y la lisis no afecta al paso posterior de amplificación. El tiempo de lisis recomendado es de 1 h. - Los volúmenes de amplificación estándar (50 µl) resultaron en amplificaciones más homogéneas que los volúmenes más bajos (5 µl). Espero que esta tesis suponga una contribución significativa al campo de la genómica de célula única, proporcionando a la comunidad investigadora con datos útiles para seleccionar el protocolo de scWGA que mejor se adapte al propósito buscado.