Estudios de asociación de genoma completo. Durante la última década, los estudios de asociación de genoma completo (GWAS) identificaron con éxito cientos de loci genéticos que influyen en el riesgo de una variedad de enfermedades autoinmunes e inflamatorias. A diferencia de los estudios previos que emplean genes candidatos, la GWAS evalúa las variantes genéticas para la asociación con la enfermedad de forma sistemática en todo el genoma sin hipótesis previas para genes específicos. Al explotar la correlación entre variantes vecinas que surge mediante la ascendencia compartida (“desequilibrio de enlace”), de forma esencial todas las variantes comunes pueden evaluarse para determinar su asociación con la enfermedad. Para enfermedades autoinmunes individuales con GWAS de buena potencia, se identificaron y validaron decenas a cientos de loci de susceptibilidad. Aparte de los alelos HLA clásicos, la mayor parte del riesgo identificado de enfermedad autoinmune está mediado por variantes comunes con tamaños de efecto individuales pequeños. Tomadas de forma individual, las asociaciones genéticas de las enfermedades autoinmunes aún no influyen en la práctica médica de rutina, pero en conjunto brindan una ventana imparcial a los procesos patológicos fundamentales.
De acuerdo con las nociones de mecanismos patogénicos comunes, parece haber muchos loci de riesgo genético que se comparten entre las enfermedades autoinmunes. La GWAS inicial para la esclerosis múltiple (EM) y la diabetes tipo 1 identificó una asociación con el locus IL2RA. A medida que aumenta el número de loci GWAS de enfermedades autoinmunes, el intercambio de enfermedades cruzadas se convirtió en un tema recurrente: se estima que al menos 44% de los loci de riesgo autoinmunitario se superponen con al menos otra enfermedad autoinmune.
Dado que la variación genética de la línea germinal no se altera por los procesos subsiguientes de la enfermedad, los loci de riesgo genético pueden proporcionar información sobre la patogénesis de la enfermedad autoinmune que no se puede obtener mediante el perfil de pacientes con enfermedad establecida. De forma lamentable, la traducción de loci de susceptibilidad a enfermedades autoinmunes individuales en mecanismos patogénicos específicos resulta difícil por varias razones. Primero, a diferencia de la mayoría de las enfermedades mendelianas, la gran mayoría de los loci de riesgo genético para enfermedades autoinmunes ocurren en regiones no codificantes. En contraste con las variantes codificantes, que producen alteraciones predecibles en la secuencia de la proteína, las consecuencias funcionales de las variantes no codificantes son innumerables y difíciles de anticipar a priori. Como una clase, se supone que actúan al alterar la expresión génica, en particular de genes importantes en la función inmunológica en enfermedades autoinmunes, los loci GWAS se enriquecen en potenciadores específicos de células inmunes, muchos de los cuales responden a la activación inmunitaria. Para la mayoría de los loci, no se identificaron genes diana específicos posteriores ni tipos de células patógenas primarias. Para complicar aún más el problema, la alteración de la expresión génica puede depender de estímulos ambientales particulares o del contexto celular funcional.
Un desafío adicional en la identificación de los mecanismos causales de la enfermedad surge de la limitación fundamental de la resolución de la GWAS. La GWAS es posible gracias a una correlación amplia entre las variantes comunes. Esto tiene el efecto de reducir el número de variantes que necesitan interrogarse para obtener una cobertura amplia del genoma, pero también limita la resolución de las señales genéticas resultantes. Las señales de GWAS tienden a ser amplias, con variantes asociadas que abarcan múltiples genes y elementos funcionales (Figura 1). Aunque la resolución de la GWAS puede mejorar con el aumento del tamaño de la muestra, la identificación de variantes causales específicas por motivos estadísticos de forma pura aún es difícil.
Las técnicas de mapeo estadístico fino integran la evidencia de asociación en un locus con el patrón local de desequilibrio de enlace para asignar una probabilidad causal para cada variante. Los primeros métodos requerían datos a nivel de genotipo, pero los algoritmos modernos pueden utilizar estadísticas resumidas con paneles de desequilibrio de enlace (DE) de referencia y hacerlo con mayor eficiencia. El mapeo estadístico fino es ahora un componente estándar del flujo de trabajo de la GWAS.
Identificación de variantes causales: mapeo epigenético fino
De manera reciente, se desarrollaron una variedad de métodos de mapeo epigenético fino para priorizar las variantes de acuerdo con las anotaciones epigenéticas. Las variantes no codificantes pueden ejercer sus efectos patogénicos mediante una variedad de mecanismos potenciales. Estas variantes pueden alterar los motivos de unión del factor de transcripción (FT) en los elementos reguladores, al alterar de forma directa el proceso de transcripción en sí. También pueden influir en la transcripción mediante varios mecanismos indirectos, incluso alteran la metilación del ADN en los sitios CpG o al influir en la conformación tridimensional o la accesibilidad de la cromatina. Además, estos procesos pueden ser de tipo celular o específicos de estímulo, lo que complica aún más la identificación de los mecanismos causales de la enfermedad. Como primer paso importante para comprender estos procesos, varios grandes consorcios produjeron perfiles epigenéticos de todo el genoma para una variedad de tipos y linajes celulares.
Es más probable que las variantes genéticas en regiones abiertas de la cromatina que son accesibles a factores de transcripción influyan en la expresión génica. Las regiones abiertas de cromatina pueden identificarse con ensayos como el ensayo de cromatina accesible a la transposasa al utilizar la secuenciación (ATAC-seq) o mapeo de hipersensibilidad a ADNasa. Este enfoque se utiliza para demostrar el enriquecimiento de la cromatina abierta en los picos de GWAS en 32 tipos de células inmunitarias, en reposo y enriquecidas después de la activación. De manera interesante, los autores observan un enriquecimiento en los elementos que responden a la estimulación, donde la cromatina se abre o los potenciadores equilibrados se activan con la estimulación. Por tanto, las variantes de riesgo genético pueden alterar el programa de activación de las células inmunes. Esto ayuda a priorizar qué variantes genéticas podrían desempeñar un papel activo en un tipo de célula y un contexto determinado.
La secuenciación de inmunoprecipitación de cromatina (ChIP-seq) puede identificar elementos funcionales y estados de actividad mediante el ensayo de modificaciones postraduccionales de histonas. Hnisz y colaboradores utilizaron esta tecnología para caracterizar superpotenciadores en una variedad de tipos de células y tejidos. Se demuestró que la variación genética asociada con la diabetes tipo 1, la esclerosis múltiple (EM) y la artritis reumatoide (AR) se enriquece con superpotenciadores activos en las células inmunitarias en comparación con los potenciadores habituales. Los superpotenciadores se impulsan por un conjunto pequeño de factores de transcripción que se cree que definen y controlan la identidad celular mediante la regulación de programas amplios de transcripción. Las variantes genéticas pueden alterar la expresión génica al interrumpir la unión del factor de transcripción en los sitios promotores o potenciadores. La predicción de la actividad del FT en sitios individuales es un desafío, ya que es probable que la unión dependa del tipo de célula y del contexto. El factor de transcripción ChIP-seq puede usarse para medir la unión de un solo factor de transcripción en todo el genoma; para los TF sin anticuerpos confiables, la unión puede inferirse de forma indirecta mediante el análisis de “huellas” de los conjuntos de datos de ATAC-seq (técnica utilizada en biología molecular para evaluar la accesibilidad a la cromatina en todo el genoma) o DNase-seq (método en biología molecular utilizado para identificar la ubicación de regiones reguladoras, basado en la secuenciación del genoma de regiones sensibles a la escisión por DNasa I). Fahr y colaboradores utilizaron datos ENCODE TF ChIP-seq para inferir la actividad del FT en loci GWAS mapeados en líneas de células linfoblastoides. Es importante señalar que los experimentos ChIP-seq convencionales requieren un gran número de células, por lo que se realizan en líneas celulares; la unión del factor de transcripción puede diferir en los tipos de células primarias de interés para la enfermedad, al limitar la aplicabilidad de estos resultados. El Mint-ChIP se introdujo de manera reciente para permitir que la inmunoprecipitación cuantitativa de la cromatina se realice con un aporte bajo de células. Esta tecnología se utiliza para perfilar modificaciones de histonas en una variedad de células inmunes primarias y podría obtener un uso más generalizado mientras los ensayos de epigenética se dirijan a subtipos celulares relevantes para la enfermedad.
Además de mapear los estados de cromatina y la unión del FT mediante tipos de células y condiciones de estimulación, el conocimiento puede obtenerse al examinar los mecanismos moleculares específicos por los cuales las variantes de la enfermedad interrumpen elementos funcionales. Cuestionar el efecto independiente de un polimorfismo de nucleótido único (SNP) dado de forma independiente a su origen genético es un desafío en las células primarias de los donantes, por lo tanto se desarrollaron técnicas moleculares para medir este efecto en un sistema aislado como los ensayos informadores paralelos masivos (MPRA). Mediante la comparación de la actividad informadora de constructos que llevan variantes de riesgo con aquellos sin tales variantes, se puede inferir el impacto de las variantes autoinmunes asociadas en la secuencia nativa. El SNP-seq es otro enfoque de reporte similar desarrollado para medir la unión del TF en sitios variantes. Esta técnica presenta un enfoque elegante que se basa en el uso de construcciones informadoras incubadas con extractos nucleares de tipos de células patógenas de interés, y así evitar las advertencias de los sistemas basados en líneas celulares. Sin embargo, estos enfoques no logran identificar el FT específico que impulsa el efecto. Butter y colaboradores desarrollaron un ensayo basado en proteómica para capturar e identificar los FT ligados a los alelos de riesgo por espectrometría de masas. Los ensayos de reporte ofrecen ventaja de ir más allá de la actividad y predicción de unión del FT y proporcionar una medición funcional en un sistema controlado. Las limitaciones incluyen el aislamiento de elementos funcionales de su contexto genómico más amplio, y el uso de líneas celulares donde es probable que la maquinaria transcripcional sea diferente de las de las células primarias.
A medida que se amplía la comprensión de la regulación de genes epigenéticos, la configuración tridimensional (3D) de la cromatina surge como un tema importante en la regulación genética. Los elementos cisreguladores (cRE) interactúan con los promotores de genes mediante un bucle de ADN, y estas interacciones pueden restringirse a dominios asociados de manera topológica. Las técnicas de elaboración de perfiles epigenéticos convencionales como las descritas de forma previa fallan en capturar estas interacciones ya que tratan el genoma como lineal, de forma esencial. Varios nuevos métodos como Hi-C (cuantifica interacciones entre todos los pares posibles de fragmentos de forma simultánea) y hiChIP (método de conformación de cromatina centrado en proteínas) se desarrollaron para evaluar de manera directa tales interacciones de cromatina 3D. Jung y colaboradores demostraron de manera reciente que la captura de promotor Hi-C permite una eficiente y escalable identificación de interacciones entre el promotor y los cRE en varios tipos de células y tejidos humanos. Esta técnica queda por aplicarse a subconjuntos inmunes purificados para comprender mejor la regulación génica del tipo específico de célula. El mapeo de dominios asociados de forma topológica se puede usar para vincular la señal genética en los cRE con genes diana relevantes.
Incluso después de delinear los dominios asociados de forma topológica relevantes, la interpretación de la variación genética en esas regiones no codificantes es aún un desafío. Al entrenar un modelo de aprendizaje automático en múltiples métricas de esencialidad del genoma junto con nuevos datos de organización del genoma en 3D, Wells y colaboradores intentaron anotar regiones no codificantes para predecir la nocividad de las variantes asociadas a la enfermedad. Este enfoque mejora la priorización de variantes sin codificación comparado con otras herramientas disponibles, pero aún funciona mal en variantes comunes, quizás debido al hecho de que los conjuntos de datos de entrenamiento contenían variantes mendelianas de penetrancia alta. Por tanto, es aún difícil predecir las consecuencias funcionales de tal variación genética. Puede ser más alcanzable caracterizar cambios asociados a variantes en los portadores sanos a nivel poblacional. Un enfoque es definir dominios asociados de manera topológica (TAD) de loci de rasgos cuantitativos (QTL): Gorkin y colaboradores demostraron una asociación entre la variación genética y la conformación de cromatina 3D evaluada por Hi-C en líneas celulares linfoblastoides, un sistema relevante para enfermedades autoinmunes. Observaron enriquecimiento en las “Regiones que interactúan con frecuencia” caracterizadas en los SNP del catálogo de la GWAS para la enfermedad de Crohn, la colitis ulcerosa y la enfermedad inflamatoria intestinal, y detectaron 3D-QTL impulsado por SNP asociados a la enfermedad.
Estas nuevas anotaciones genómicas ayudarán a mapear señales GWAS a los circuitos reguladores relevantes. Esto puede a su vez proporcionar la interpretación para señales GWAS. Una limitación esencial de estos enfoques es la limitada disponibilidad de datos para ciertos tipos de células y específicos contextos de estimulación.
Identificación del mecanismo regulador negativo: fenotipos intermedios
Las técnicas epigenéticas de mapeo fino descritas de manera previa intentan identificar variantes causales y tejidos mediante la integración de datos genéticos con perfiles epigenéticos. Esto funciona bien cuando se puede priorizar una cantidad pequeña de variantes como casuales de forma probable. Para los loci más complejos donde múltiples variantes asociadas se correlacionan de manera estrecha, puede que no sea posible identificar un número pequeño de variantes que sean causales de manera probable. Se requerirán enfoques alternativos para estos loci. Uno de estos enfoques se basa en la identificación de factores genéticos compartidos que influyen tanto en el riesgo de enfermedad como en los fenotipos moleculares o celulares intermedios.
Los estudios de loci de rasgos cuantitativos de expresión (eQTL) identifican variantes genéticas que influyen en la expresión de genes en determinados tipos de células. Los consorcios internacionales tienen conjuntos de datos eQTL ensamblados para una variedad de tipos de células inmunes y tejidos diana. Varios métodos recientes identifican la susceptibilidad a la enfermedad superpuesta y loci eQTL que compartan de manera probable, una variante causal subyacente común (Figura 2), incluso si esta variante causal no puede identificarse de manera específica. Al usar un enfoque muy específico basado en el modelado conjunto de susceptibilidad a enfermedades y las señales eQTL, Chun y colaboradores muestran que menos loci de GWAS de lo esperado se colocalizan con eQTL en las células inmunes.
La relativa escasez de superposiciones GWAS-eQTL tiene varias interpretaciones posibles. Si bien estas superposiciones pueden no existir, es más probable que estos sean dependientes del tipo de célula o del contexto. Se demostró que los subconjuntos de datos de eQTL específicos del tipo celular tienen un mayor rendimiento para identificar posibles mecanismos causales en comparación con estudios de eQTL de sangre completa y eQTLs pueden ser específicos para subtipos celulares, por ejemplo subconjuntos de células T CD4 frente a CD8. En algunos casos pueden ser específico al estímulo. Para abordar estas posibilidades, se necesitan conjuntos más grandes de datos eQTL, obtenidos de tipos celulares patogénicos bajo condiciones con estímulos ambientales relevantes. Con este fin, estudios recientes de eQTL emplearon subtipos de células inmunes más específicos, y examinaron la expresión génica bajo una variedad de estímulos fisiológicos.
A medida que aumenta la complejidad de los conjuntos de datos de células inmunitarias, es importante considerar si una proporción de GWAS de enfermedades autoinmunes puede encontrarse activa en los tejidos diana. Con este fin, el proyecto de Expresión Tisular del Genotipo produjo cis-eQTL y trans-eQTL a granel para 44 tejidos humanos. Aunque estos tendrán una sensibilidad y especificidad limitada en comparación con conjuntos de datos específicos del tipo de célula, estos estudios permiten el examen de los tejidos diana que son más difíciles de obtener o procesar. Los EQTLs específicos de tejido también permiten estimar las probabilidades relativas de que un locus GWAS determinado esté activo en una variedad de tejidos. La regresión de la puntuación DE también se utiliza para evaluar enriquecimiento de la heredabilidad de la enfermedad en la vecindad de los genes con una expresión muy específica de tejido.
Al generalizar el marco de superposición de GWAS-eQTL para fenotipos moleculares y celulares cuantitativos de nivel superior, se pueden obtener conocimientos adicionales sobre mecanismos patogénicos finales de los loci GWAS. Con este fin, el consorcio de Expresión Tisular del Genotipo reúne de forma actual una variedad de ensayos epigenéticos que incluyen hipersensibilidad a la ADNasa, modificaciones de histonas y metilación del ADN, junto con datos proteómicos. Los niveles de inmunoglobulina sérica y proporciones de subconjuntos de células inmunitarias se analizaron como QTLs. Comienza a surgir un paradigma en el que las señales de la GWAS de enfermedades autoinmunes pueden traducirse en mecanismos moleculares específicos, mediante la identificación de fenotipos moleculares y celulares superpuestos que comparten la misma base genética. Si bien los resultados son limitados hasta la fecha, esto refleja limitaciones en los datos disponibles: en un sentido muy real, se buscaron debajo de un poste de luz. Mientras los conjuntos de datos públicos se expanden en alcance y complejidad, una visión mecanicista más amplia surgirá.
Debido a que la identificación de la enfermedad superpuesta y los fenotipos intermedios es correlativa de manera fundamental, será importante emparejarlos con técnicas modernas de inferencia de causalidad. La aleatorización mendeliana se utiliza para establecer el papel causal de los factores ambientales en la enfermedad, sobre todo el índice de masa corporal y el nivel bajo de vitamina D en la EM. La pleiotropía constituye una limitación significativa de la aleatorización mendeliana para el estudio de variantes genéticas. Esta limitación puede abordarse mediante el estudio de fenotipos intermedios que reducirán las funciones biológicas de las variantes genéticas a posibles candidatos causales. Los conjuntos grandes de datos que incorporan varios rasgos permitirán a la comunidad abordar estas preguntas.
Estudios futuros
La creciente resolución aportada por los estudios computacionales abrirá la puerta a experimentos de perturbación al utilizar modelos in vitro e in vivo. El objetivo será alterar variantes genéticas causales y sus elementos reguladores asociados. La medida conjunta de los cambios funcionales asociados en contextos relevantes permitirá una mayor validación de las redes de causalidad para los rasgos a nivel de población. Es probable que esto se logre al utilizar tecnologías CrispR-Cas9 (repeticiones palindrómicas cortas agrupadas e interespaciadas de manera regular-caspasa 9) para incorporar variantes de interés o para modular la actividad potenciadora. En última instancia, esto permitirá la priorización de las alteraciones causales proximales sobre la miríada de señales distales y no causales impulsadas por la pleiotropía.
Epigenetic fine-mapping: identification of causal mechanisms for autoimmunity
Centro Regional de Alergia e Inmunología Clínica CRAIC
Hospital Universitario “Dr. José Eleuterio González” UANL
Monterrey, México
Dra. Med. Sandra Nora González Díaz Jefe y Profesor
Dra. Rosa Ivett Guzmán Avilán Profesor
Dra. Wendy Jarely Santos Fernández Residente 1er Año
Dra. Alejandra Macías Weinmann Profesor
No hay comentarios:
Publicar un comentario
Nota: solo los miembros de este blog pueden publicar comentarios.