Un metaanálisis de estudios de asociación de genoma ampliado (GWAS) sobre el inicio del asma en la niñez arrojó valores predictivos bajos con un área bastante baja bajo la curva de característica operativa del receptor (ROC) de 0.58. Este resultado modesto entró en conflicto con el fuerte trasfondo hereditario postulado a partir de estudios de gemelos. Los gemelos no sólo comparten sus antecedentes genéticos, sino también su entorno, y las interacciones genético-ambientales, en particular con el entorno agrícola, parecen desempeñar un papel importante en el asma infantil. Esto puede sugerir que la predicción del asma mediante factores genéticos podría mejorarse al considerar las influencias ambientales.
Por otro lado, el poder estadístico general de predicción se reduce mucho por la multiplicidad de las pruebas univariadas aplicadas de forma común, que evalúan de 0.6 a 0.7 millones de loci independientes en el genoma humano por separado.
Ésta es una limitación conceptual de la teoría clásica de las pruebas y de manera difícil puede superarse al incrementarse el número de casos. Además, los modelos univariados ignoran las dependencias potenciales importantes entre los loci.El objetivo del presente estudio fue probar si la predicción del asma infantil por determinantes genéticos varía con el entorno ambiental, de forma particular la exposición de la granja. Para ello, se aplicaron las herramientas estadísticas de última generación que consideran las variables predictoras de manera integradora y brindan un poder estadístico alto.
2 | MÉTODOS
2.1 | Población y cuestionarios
Los Estudios Avanzados GABRIEL(GABRIELA) transversales se diseñaron para estudiar las interacciones genético-ambientales. De las ramas austriaca, suiza y alemana de GABRIELA, se seleccionaron al azar 1,707 escolares de los 34,491 niños elegibles para la genotipificación en un diseño estratificado. Este enfoque se eligió para realizar un estudio de casos y controles con enriquecimiento simultáneo de la exposición a granja. El resultado del asma infantil se definió como un diagnóstico médico de asma al menos una vez o de bronquitis asmática al menos dos veces. Los cuestionarios contenían elementos sobre salud individual y familiar, antecedentes socioeconómicos y exposiciones relacionadas con la granja. Si un niño vivía en una granja administrada por la familia, el niño se denominaba “niño de la granja” (n = 483) y “niño que no vivían en granjas” (n = 1224) cuando no vivía en una granja. Otras exposiciones relacionadas con la granja se relacionaron con el consumo de leche bronca o el contacto con animales o alimentos para animales. Estas variables se incluyeron como exposición en los primeros años de vida o como exposición durante los últimos 12 meses.
El modelo final se validó de forma externa en 928 niños de la cohorte de nacimiento prospectiva PASTURE. Ambos estudios se aprobaron por los respectivos comités de ética locales. Se obtuvo el consentimiento informado por escrito de los padres o tutores.
2.2 | Genotipificación
La genotipificación se realizó con la matriz cuádruple Illumina Human610 (Illumina Inc, San Diego, California, http://www.illumina.com), y la calidad se evaluó como se describió antes. Los polimorfismos de nucleótidos sencillos (SNP) se imputaron mediante el haplotyper basado en cadenas de Markov donde se utilizó la Versión piloto 1,000 de genomas 1. Se filtraron SNP para determinar la calidad de imputación (Rsq ≥ 0.30) y la frecuencia de alelos menores (MAF ≥ 0.05) y se podaron para detectar el desequilibrio de ligamiento mediante la eliminación de los SNP dentro de una ventana de 5 × 105 SNP que tenía r2 > 0.95, lo que resultó en 744,908 SNP.
Los SNP candidatos se definieron como los SNP incluidos en el catálogo de GWAS para el asma de inicio en la niñez.
2.3 | Análisis estadístico y computacional
Todos los análisis estadísticos se realizaron con el software R. Los detalles se proporcionan en el Repositorio en línea de este artículo. El código R está disponible en https://github.com/fuchslab/gabriela.
Las variables ambientales tienen <25% de valores perdidos. Los valores faltantes de las variables se imputaron mediante imputación múltiple, lo que dio como resultado cinco conjuntos de datos de imputación, lo que significa que los análisis posteriores se realizaron cinco veces y se promediaron.
La predicción se realizó en todo el conjunto de datos y, además, en los dos estratos de niños de granjas y los que no vivían en granjas. Además del GWAS clásico que realiza una prueba de asociación univariante para cada SNP individual, se incorporaron todas las variables a la vez en modelos de aprendizaje estadístico multivariable con los siguientes métodos de regularización: el operador de selección y contracción mínima absoluta (LASSO), red elástica, y la regresión integrativa penalizada L1 con factores de penalización (IPF-LASSO). Además, se construyeron bosques aleatorios sobre 20,000 árboles.
La selección del modelo y la validación cruzada de 5 veces se realizaron en los 1410 participantes suizos y alemanes. Los mejores modelos se validaron de forma externa en los 297 participantes austriacos (el centro más pequeño) y de manera adicional en PASTURE.
Como métrica para la comparación del modelo, se aplicó el área bajo la curva de ROC (AUC) con un 95% de arranque (intervalo de confianza). La curva ROC traza la sensibilidad frente a 1: especificidad; por lo tanto, las AUC integran medidas de predicción de calidad. Un AUC de 1.0 significa una predicción perfecta, mientras que un AUC de 0.5 no refleja ninguna predicción. Si no se indica lo contrario, los valores de AUC se refieren a modelos forestales aleatorios.
3 | RESULTADOS
Los n = 850 casos y n = 857 controles incluidos en el presente análisis difirieron con respecto al sexo, los antecedentes familiares de asma y atopia, y diversas exposiciones relacionadas con la granja.
Al predecir el asma por grupos de variables por separado, es decir, antecedentes familiares, datos demográficos (sexo, edad e IMC), entorno y genética, los enfoques de aprendizaje multivariable explorados no difirieron con respecto a la calidad de la predicción. Los antecedentes familiares fueron el mejor predictor de asma infantil con un valor de AUC de 0.62 [0.57-0.66] en el modelo de bosque aleatorio. Todos los demás grupos de variables no predijeron mejor que por casualidad, excepto las variables ambientales en el modelo forestal aleatorio (AUC = 0.55 [0.51-0.59]). Los resultados fueron similares al restringir el modelo a los niños que no vivían en granjas. Para los niños de granjas, sin embargo, surgió un modelo de predicción diferente: en lugar de variables ambientales, la demografía y los SNP de todo el genoma (AUC = 0.61 [0.51-0.70]) predijeron de forma significativa.
Al complementar los modelos de predicción del asma por historia familiar con los otros grupos de variables, el bosque aleatorio y la IPF-LASSO se desempeñaron mucho mejor que el LASSO simple y las otras técnicas. La predicción por antecedentes familiares mejoró de forma significativa por las variables demográficas y ambientales (AUC = 0.65 [0.61-0.70]) o, en el caso de los niños de granja, por la demografía y los SNP candidatos (AUC = 0-70 [0.62-0.78]), mientras que los SNP de GWAS y los términos de interacción no mejoraron más la calidad de la predicción.
Además de los antecedentes familiares de asma y atopia, edad y sexo, 26 variables de exposición ambiental como el contacto con gatos, perros, vacas, paja y heno contribuyeron de manera importante al modelo de predicción forestal aleatoria para todos los niños (AUC = 0.64 [0.54 -0.73]) y niños que no vivían en granjas (AUC = 0.63 [0.53-0.72]). Para los niños de granjas, se encontraron, más allá de los antecedentes familiares y el sexo, tres SNP candidatos, uno de ellos intergénico. Se sabe que los otros dos SNP se relacionan con IL33 y RAD50. Los análisis de sensibilidad que utilizaron IPF-LASSO confirmaron los SNP de IL33 del modelo de predicción de bosque aleatorio con un AUC de 0.86 [0.59-0.99] promediada sobre las puntuaciones de predicción de bosque aleatorio y IPF-LASSO. Un análisis de sensibilidad reveló AUC de 0.57 [0.51-0.64] y 0.55 [0.51-0.58] para la predicción por SNP candidatos y datos demográficos en todos los niños con y sin antecedentes familiares de asma, de manera respectiva.
La validación externa en el brazo austríaco GABRIELA y la cohorte de nacimiento PASTURE confirmó los valores de AUC del modelo de predicción forestal aleatorio de asma antes validado de forma cruzada basado en antecedentes familiares, demografía y medio ambiente. Los análisis de sensibilidad arrojaron una mejor calidad de predicción para un modelo que excluía a los individuos con sibilancias actuales o medicación para el asma del grupo de referencia y un modelo que asignaba a los niños con bronquitis obstructiva recurrente, pero sin un diagnóstico establecido de asma al grupo de control.
4 | DISCUSIÓN
Con el uso de métodos estadísticos avanzados del área de aprendizaje automático, que permite la consideración multivariable de predictores sin susceptibilidad a múltiples problemas de prueba, el rendimiento de la predicción mejoró de forma notable más allá del enfoque clásico de regresión logística. En modelos combinados, la predicción del asma se impulsó por varias variables ambientales además de la historia familiar y el sexo, mientras que los SNP candidatos y de todo el genoma no mejoraron la predicción. Sólo en los niños de granjas, la información genética contribuyó de manera significativa al modelo de predicción, mientras que la exposición ambiental no contribuyó a los modelos de predicción en este grupo de niños.
Los GWAS de las últimas dos décadas fueron de forma definitiva un éxito al considerar el descubrimiento de nuevos loci y la confirmación o invalidación de genes candidatos. Sin embargo, la predicción de enfermedades poligénicas como el asma es difícil a nivel individual. Moffatt y sus colegas ya reportaron un AUC bajo de 0.58 para los siete principales SNP identificados por el metaanálisis del asma infantil. Sin embargo, el modelo de predicción se ajustó a todo el conjunto de datos sin dejar una muestra independiente para la validación, lo que puede resultar en un AUC demasiado optimista. En esta población, tal enfoque resultaría en un AUC de 0.60 para los SNP de GWAS, en lugar de 0.54. De lo contrario, Moffatt y sus colegas integraron sólo los siete SNP principales, que son los que alcanzan la significancia de todo genoma. Por lo tanto, ignoraron la información transmitida por SNP adicionales y, por lo tanto, no explotaron por completo el poder predictivo del enfoque de todo el genoma.
Por lo tanto, se integró toda la información genética disponible mediante modelos multivariables y la complementamos con datos de cuestionarios sobre predisposición familiar y fuertes determinantes ambientales. Además, se aplicaron bosque aleatorio y varias formas de regresión logística multivariable penalizada como LASSO, red elástica y IPF-LASSO. Estos modelos encuentran un equilibrio óptimo entre la complejidad del modelo y el riesgo de sobreajuste; este último podría tener un impacto negativo en la validez externa y, por lo tanto, en el poder predictivo. A modo de comparación, los autores también aplicaron un enfoque de dos pasos y crearon una puntuación de predicción basada en los 100 resultados principales de una regresión logística simple anterior. Ya se demostró que la calidad de la predicción para el asma disminuye más allá de los 100 SNP.
Dados los efectos genéticos bastante débiles en las enfermedades poligénicas, el modelo de predicción forestal aleatoria por SNP de todo el genoma con sus AUC de 0.61 [0.51-0.70] en niños de granja es notable. Puede reflejar una predicción mejorada mediante la inclusión de SNP más allá del umbral de significancia de todo el genoma. Estos SNP no significativos aún podrían ser relevantes para las enfermedades poligénicas y, al final, pueden ayudar a explicar la heredabilidad faltante. Por otro lado, 99.5% de los SNP de todo el genoma no contribuyeron de forma significativa al modelo de predicción y pueden incrementar el ruido. Esto también puede aplicarse a los SNP candidatos del catálogo de GWAS, ya que algunos de ellos perdieron la importancia de todo el genoma.
Cuando se establecieron modelos de predicción combinados basados en varios grupos de variables, los SNP de todo el genoma se reemplazaron por SNP candidatos que no se encuentran entre los mejores SNP de todo el genoma y antecedentes familiares de asma u otras enfermedades atópicas, que podrían ser mejores sustitutos de factores predictivos hereditarios que la gran mayoría de los SNP de todo el genoma. Aunque los datos de todo el genoma incluyen mucho ruido, la historia familiar y su efecto en el niño índice no están libres de clasificación errónea y también se afectan por el ruido.
La idea de que el asma es hereditaria no es trivial. La historia familiar integra una gran cantidad de información hereditaria, aunque con una resolución mucho más baja en comparación con los SNP de todo el genoma. De forma obvia, los antecedentes familiares pueden reflejar entornos compartidos como el microbioma, que se transmite de manera clara de madre a hijo. Asimismo, los antecedentes familiares pueden representar condiciones durante el embarazo, por ejemplo, mecanismos epigenéticos o un estado inflamatorio de la madre, dan forma al sistema inmunológico fetal y contribuyen así a la transmisión de enfermedades. En conclusión, la simple pregunta sobre antecedentes familiares de asma y atopia integra de manera simple información multifacética sobre varios predictores ambientales y genéticos conocidos y la complementa con toda la complejidad de la vida familiar, lo que no se capturó ni por registros de cuestionarios ni por datos de todo el genoma.
Los modelos de predicción variaron por completo entre niños de granja y los que no vivían en granjas con respecto a la genética. La exposición en granjas puede prevenir muchos casos de asma, por lo que los niños de la granja pueden afectarse principalmente por formas de asma determinadas por genética, lo que los convierte en una población interesante para la investigación genética. En términos más generales, esta noción puede cuestionar la utilidad de las poblaciones con exposiciones ambientales heterogéneas para los análisis de GWAS.
Dos de los SNP contenidos en el modelo de predicción forestal aleatoria para niños de granjas se relacionan con los genes IL33 (rs928413) y RAD50 (rs6871536), por lo que representan dos loci principales de riesgo de asma. La IL-33 se implica en alergias y trastornos autoinmunes, y se discute un papel en las respuestas inmunes exuberantes relacionadas con el número reducido de células T reguladoras. El otro SNP se sitúa en un intrón de RAD50 en el locus de citocinas TH2 en el cromosoma 5 y se reportó que se asocia con asma, eccema atópico y niveles totales de IgE.
Aunque carecen de significancia estadística de forma marginal, otros dos SNP candidatos (rs9815663, rs6967330) también pueden ser de interés ya que se relacionan con CDHR3 e IL5RA. Al igual que otros miembros de la familia de cadherinas de proteínas transmembrana, CDHR3 se asocia con rasgos relacionados con el asma y, por lo tanto, se sugirió una función en la polaridad epitelial, interacción y diferenciación. La cadena alfa del receptor de la IL-5 es esencial para la diferenciación y la maduración de los eosinófilos y la inactivación de la IL-5 reduce la eosinofilia de las vías respiratorias. En conjunto, los genes detectados se relacionan de manera principal con los aspectos alérgicos del asma; el asma alérgica, a su vez, se relaciona de manera específica con el deterioro de la función pulmonar y la necesidad de corticoesteroides inhalados. Por el contrario, los SNP del locus de riesgo de asma en el cromosoma 17q21 no contribuyeron de manera relevante a los modelos de predicción en niños de granjas. Se sugirió que este locus codifique susceptibilidad a las señales ambientales que podrían no ser relevantes para la predicción del tipo de asma que padecen los niños de granja.
Seis variables ambientales, todas relacionadas con la exposición a las mascotas en la infancia, se afectaron por más de 6% de valores faltantes y se imputaron. Aunque la imputación múltiple se diseñó para reducir el sesgo de imputación sistemático, los resultados correspondientes deben interpretarse con cautela. El predictor más relevante entre la exposición a las mascotas fue el contacto con un gato durante el último año, que sólo tuvo 6% de valores perdidos. En consecuencia, parece posible una contribución relevante a la predicción del asma por la exposición a las mascotas.
De forma esencial, el asma es un término genérico para varias entidades de enfermedad que se manifiestan con síntomas similares. Los niños cuyos padres no conocen un diagnóstico de asma pueden clasificarse como controles incluso si reciben tratamiento con medicamentos para el asma o experimentan síntomas actuales de asma. Al excluir a estos niños del grupo de referencia, la predicción funcionó mejor de forma significativa, lo que implica casos reales de asma cubiertos por esta zona gris. El rendimiento de la predicción también mejoró cuando el asma se definió de forma independiente de los diagnósticos recurrentes de bronquitis obstructiva, que pueden incluir formas de asma menos graves.
De manera técnica, los autores aprovecharon los instrumentos para predecir el asma infantil con métodos modernos de aprendizaje automático. De manera consistente, la calidad de predicción más alta se logró mediante bosque aleatorio. A diferencia de los modelos de regresión, se basa en árboles de decisión y puede manejar de manera eficiente los datos de dimensión alta. El bosque aleatorio no se afecta por variables muy correlacionadas y, por lo tanto, es robusto de manera intrínseca. Durante el proceso de construcción del árbol, el bosque aleatorio se estratifica de manera esencial en función de las variables, por lo que considera de forma automática las interacciones entre las variables predictoras. Una interpretación de la calidad de predicción buena en los niños de la granja podría encontrarse en las interacciones gen-gen, que se ignoran por todos los demás métodos. En conjunto, se aplicaron métodos computacionales eficientes, estables y robustos, que corren un riesgo bajo de sobreajuste del modelo y pueden manejar una gran cantidad de variables de forma simultánea y, por lo tanto, de manera más apropiada. Estas propiedades los convierten en herramientas ideales para la predicción, aunque pueden ser exigentes en computación y requieren una infraestructura informática poderosa.
En conclusión, el asma en los niños de granjas parece ser diferente del asma en los niños que no vivían en granjas, al menos con respecto a los predictores genéticos y ambientales. El denominador común es la historia familiar, que puede integrar el genotipo y el grado de penetrancia condicionante del entorno ambiental. De forma retrospectiva, el potencial de los datos de todo el genoma para la predicción de enfermedades poligénicas podría sobrevalorarse, mientras que el poder del medio ambiente merece una segunda mirada.
Asthma in farm children is more determined by genetic polymorphisms and in non-farm children by environmental factors
Centro Regional de Alergia e Inmunología Clínica CRAIC, Hospital Universitario “Dr. José Eleuterio González” UANL, Monterrey, México
Dra. Med. Sandra Nora González Díaz Jefe y Profesor
Dra. Cindy Elizabeth de Lira Quezada Profesor
Dra. Daniela Robles Rodríguez Residente 1er Año
Dra. Alejandra Macías Weinmann Profesor
No hay comentarios:
Publicar un comentario
Nota: solo los miembros de este blog pueden publicar comentarios.