No ignore los datos genéticos de las poblaciones minoritarias


Clientes del Mercado de Flores de Columbia Road, Reino Unido. Crédito: Alamy


POR JEFE BEN-EGHAN, ROSIE SUN, JOSÉ SERGIO HLEAP, ALEX DIAZ-PAPKOVICH,

HANS MARKUS MUNTER, AUDREY V. GRANT, CHARLES DUPRAS Y SIMON GRAVEL

Fuente: Nature / 08/09/2020

Fotografía: Alamy



Los esfuerzos por construir estudios representativos se ven frustrados cuando los científicos descartan los datos de ciertos grupos. En su lugar, los investigadores deben trabajar para equilibrar las necesidades estadísticas con la equidad.


Los genetistas saben desde hace más de un decenio, que el hecho de centrarse en las personas de ascendencia europea agrava las disparidades en materia de salud (1). Un análisis realizado en 2018 de estudios que buscaban variantes genéticas asociadas a enfermedades encontró que persiste la infrarrepresentación: el 78% de los participantes en el estudio eran de ascendencia europea, en comparación con el 10% de ascendencia asiática y el 2% de ascendencia africana. Las demás ascendencias representaban cada una menos del 1% del total (2). Varios proyectos, como H3Africa (3), están empezando a aumentar la participación de los grupos insuficientemente representados, tanto entre los participantes como entre los investigadores. Los grandes biobancos reunidos en Europa y América del Norte, que combinan muestras biológicas con datos relacionados con la salud, también establecen objetivos de muestreo para aumentar la diversidad (4-6).

Pero incluso cuando se dispone de datos de grupos minoritarios, muchos investigadores los descartan (7). Aunque puede haber razones válidas para restringir los análisis a una población determinada, el descarte de esos datos por defecto es problemático desde el punto de vista ético: empeora la infrarrepresentación y anula los esfuerzos de los participantes por contribuir a la investigación.

Los organismos de financiación han adoptado medidas para mejorar la diversidad de los participantes que se reclutan para los estudios, lo que ha dado lugar, en particular, a una mejor representación de las mujeres en los ensayos clínicos desde el decenio de 1990. Sin embargo, los organismos tienen menos control sobre las decisiones de los investigadores acerca de lo que deben analizar. Los científicos se sienten atraídos por la conveniencia estadística y los incentivos de publicación, lo que puede entrar en conflicto con el objetivo colectivo de una mayor equidad.

Aquí sugerimos que un enfoque utilizado en la atención de salud puede ayudar a los investigadores a tomar decisiones de análisis que sean éticamente y científicamente sólidas.

Se descarta...

Para estimar con qué frecuencia se excluyen los datos de las minorías, examinamos las publicaciones que utilizaron datos del Biobanco del Reino Unido (UKB; que contiene material de 502.655 personas) o del Estudio de Salud y Jubilación de los Estados Unidos (HRS; 12.454 personas). Ambos biobancos apoyan los estudios de asociación genómica (GWAS). Estos escanean los datos de miles de participantes para encontrar variantes genéticas asociadas a enfermedades.

Para comparar los criterios que los investigadores utilizaron para incluir o excluir tipos de datos en los estudios, se distinguió entre los participantes de los grupos mayoritarios (MAJ) y minoritarios (MIN) en los Estados Unidos y el Reino Unido. Utilizamos la MAJ independientemente de si un estudio se centró en la etnia autodeclarada, como la "blanca", o en la ubicación de los ancestros de un individuo, como la "ascendencia europea". Usamos MIN para referirnos a todos los demás individuos, incluyendo los de ascendencia o etnia mixta. Esta etiqueta gruesa ayuda a describir cómo se utilizaron los datos en los análisis estadísticos, y no implica que ninguno de los dos grupos sea uniforme. Contábamos los datos del MIN como "incluidos" si algún análisis informaba de la vinculación de rasgos o enfermedades con genotipos en las muestras pertinentes.

En primer lugar, revisamos 21 artículos del catálogo de GWAS (www.ebi.ac.uk/gwas) que contenían las palabras clave "biobanco del Reino Unido" (véase la información complementaria). Veinte de ellos limitaron su análisis a sólo los individuos MAJ de la base de datos del UKB (dos de ellos también analizaron datos de una gama más amplia de ancestros en otras bases de datos). También consultamos los repositorios en línea y tomamos muestras aleatorias de otros 20 GWAS que utilizaban datos del UKB. Sólo uno utilizó datos del MIN. Finalmente, revisamos 17 GWAS que figuran en la lista de publicaciones online del HRS. Aquí, sólo seis estudios limitaron el análisis a las poblaciones MAJ, quizás porque la proporción de participantes MIN en el biobanco de EE.UU. (24%) fue mayor que en el del Reino Unido (5%).

En general, 45 de los 58 estudios de nuestra muestra excluyeron los datos del MIN. Si ponderamos la representación por el número de veces que se analizaron realmente los datos de un individuo, la representación del MIN en el UKB cae al 0,06% (véase "Omitido"; los detalles se encuentran en Información adicional). Esta problemática situación sorprenderá a pocos investigadores en genética (6,7).

Fuente: Análisis de C. Ben-Eghan et al.

¿Por qué excluir?

De los 45 estudios que excluyeron datos, 31 no dieron ninguna razón. Los 14 estudios restantes proporcionaron 15 explicaciones para la exclusión.

La explicación más común fue el temor a la confusión (11/15). Si una variante genética resulta ser más común en un grupo de ascendencia, y ese grupo resulta tener una tasa más alta de un rasgo particular, habrá una correlación entre tener la variante y tener el rasgo. Un ejemplo es el asma infantil, en el que influyen tanto factores genéticos como ambientales. Los investigadores podrían confundir la correlación como evidencia de que esta variante causa el asma infantil. Aunque existen métodos estadísticos para evitar confusiones, no son infalibles, y la confusión es una preocupación legítima (7).

No es necesario excluir los datos para reducir el riesgo de confusión. Los datos de los diferentes grupos pueden analizarse simplemente por separado. Sin embargo, como las muestras de las poblaciones minoritarias son mucho más pequeñas, tienen menos poder estadístico y, por lo tanto, es menos probable que revelen nuevas asociaciones genéticas.

Esta falta de poder fue la segunda razón más citada para la exclusión (3/15). Un estudio con poco poder puede considerarse una pérdida de tiempo porque podría no dar resultados estadísticamente significativos. Dado que encontrar una asociación genética puede ser suficiente para obtener una publicación, añadir análisis de otras poblaciones tiene un costo. Lleva tiempo, complica el manuscrito, da a los revisores una cosa más que criticar y, por lo tanto, podría retrasar la publicación.

Sólo un estudio mencionó explícitamente los métodos de seguimiento de publicaciones anteriores como motivo de exclusión (1/15), pero sospechamos que esto es común. Hay buenas razones para seguir los precedentes: el uso de conductos analíticos estándar reduce el costo de desarrollo y la necesidad de una amplia validación y explicación.

Juntas, estas tres razones llevan a los investigadores a descartar los datos de las poblaciones del MIN.

Pérdida de oportunidad

Al omitir datos, los científicos desperdician una oportunidad de construir un conocimiento útil sobre las poblaciones minoritarias. Si los investigadores realizan GWAS sobre poblaciones de ascendencia europea, a menudo pueden utilizar los resultados previamente publicados en forma de estadísticas resumidas para reforzar sus hallazgos. Dado que las estadísticas resumidas presentan poco riesgo para la privacidad de los participantes, por lo general pueden descargarse libremente en unos pocos minutos. Para hacer la misma comparación con los datos de la población del MIN que no se han comunicado anteriormente es necesario acceder a la información a nivel individual. Esto implica obtener la aprobación ética institucional, solicitar el acceso a los datos de la cohorte, además de limpiar y procesar los datos, todo ello antes de realizar finalmente el GWAS. Esto puede llevar meses. Si los datos del MIN no se analizan junto con los del MAJ, puede que nunca se utilicen.

Cuando se hace como parte del estudio primario, por el contrario, los análisis del MIN agregan poco costo y pueden ser informativos (ver "Motivos de inclusión").

MOTIVOS DE INCLUSIÓN

Como parte de un estudio sobre el asma, realizamos un estudio de asociación genómica para el recuento de células eosinófilas. (Los eosinófilos son un subconjunto de glóbulos blancos y a menudo están elevados en los individuos con asma). Hicimos tres análisis separados. Uno fue de la población mayoritaria (MAJ); dos fueron de la población minoritaria (MIN) definida utilizando las categorías de etnicidad autoinformadas por el Biobanco del Reino Unido (participantes que se identificaron como negros o negros británicos, y los que se identificaron como asiáticos, asiáticos británicos o chinos).

Los análisis de la MAJ identificaron 432 loci genéticos (1.510 variantes genéticas independientes). Los dos análisis del MIN identificaron independientemente 3 loci (a nivel de todo el genoma, P ≤ 5 × 108), todos los cuales fueron identificados en el análisis del MAJ. El análisis del MIN permitió la validación de más de una cuarta parte de las variantes identificadas en la población de MAJ con una significación nominal (P = 0,05). También mostró resultados generales coherentes entre los distintos grupos étnicos, salvo una variante que mostró una significación nominal, pero efectos opuestos en las poblaciones asiática, asiática británica y china, en relación con el análisis de MAJ. Sin más pruebas, esta variante probablemente no debería utilizarse para predecir el riesgo genético fuera de Europa. (Véase la información complementaria para más detalles).

Estos análisis llevaron 10 horas de tiempo de computación, así como algunas previsiones. Esto es insignificante comparado con el costo de acceso a los datos. La evidencia de asociación para los millones de variantes que probamos puede ahora compararse entre poblaciones y puede estar disponible para los meta-análisis. Esos datos son particularmente importantes para estudiar las poblaciones minoritarias, cuando las muestras de las cohortes individuales podrían carecer de poder estadístico.

Cuatro criterios

El análisis de los datos del MIN es importante para la equidad y el descubrimiento. ¿Pero cómo deberíamos sopesar eso contra la carga inmediata e individual del análisis estadístico y la publicación tardía? Las reglas generales que se aplican a todos los estudios son difíciles de definir, pero hay un enfoque que debería ayudar.

En los dos últimos decenios, los gobiernos y los especialistas en ética se han apoyado en un marco denominado responsabilidad por lo razonable (A4R) para ayudar a asignar los escasos recursos de la atención de la salud, como los tratamientos nuevos o costosos. El A4R reconoce que los individuos en una sociedad pluralista y democrática dan un peso diferente a las diferentes consideraciones, por lo que es posible que nunca se pongan de acuerdo sobre los principios generales. En cambio, A4R se centra en el proceso de adopción de decisiones propiamente dicho, y establece criterios que fomentan la equidad y la legitimidad (8). En resumen, las razones de las decisiones deben ser transparentes y pertinentes. La adhesión a esos criterios debe hacerse cumplir y medirse de manera que se adapte a la nueva información.

Los criterios A4R sugieren pequeños cambios en las convenciones de análisis y publicación que mejorarían la equidad y la rendición de cuentas.

Transparencia. En sus publicaciones, los investigadores deben exponer las razones de la exclusión de los datos de los participantes. En términos más generales, deben explicar las opciones de diseño y análisis que tienen el potencial de empeorar las desigualdades.

Relevancia. Los motivos de exclusión enunciados deben explicar cómo la decisión trató de servir mejor a la sociedad, dadas las limitaciones del mundo real de la investigación. Razones como el temor a la confusión, el poder limitado y el precedente podrían no cumplir este requisito si se pueden eludir mediante un método de análisis particular (utilizando el estratificado o el meta-análisis, por ejemplo). Salvo que existan razones más convincentes, recomendamos que los investigadores calculen las estadísticas de asociación de las poblaciones de MIN y las comuniquen como parte del estudio primario.

Cumplimiento de la ley. Proponemos que las revistas manden que los manuscritos presentados justifiquen cualquier exclusión de los datos de los participantes en los análisis. En los formularios se debería preguntar a los revisores si se han dado las razones pertinentes.

El objetivo no es convertir a los revisores en árbitros morales. Más bien, deberían simplemente evaluar si las razones proporcionadas son pertinentes para los análisis que se están examinando. Este modesto requisito alentaría a los análisis a ser más inclusivos, fomentaría un debate más amplio sobre los motivos legítimos de exclusión y aclararía las expectativas de los autores.

Es importante que los revisores no exijan que los resultados de los análisis de las poblaciones de MIN y MAJ sean coherentes. Las discrepancias deberían discutirse, pero obligar a los investigadores a explicar todas las observaciones impediría compartir resultados útiles.

Revisiones. La forma en que los investigadores evalúan la transparencia y la relevancia debe cambiar con la sociedad y la metodología. Nuestras recomendaciones de que los datos de las poblaciones del MIN se analicen por defecto podrían ser discutibles si se dispone de datos suficientes en las cohortes que se centran en los grupos subrepresentados (9). El campo también podría pasar a un modelo en el que equipos especializados analicen los datos del MIN a través de múltiples fenotipos (véase, por ejemplo, https://pan.ukbb.broadinstitute.org). Esto modificaría tanto los costos como los beneficios de la realización de análisis posteriores de los datos del MIN. Podría reducir el ímpetu de los análisis de los estudios individuales y, al mismo tiempo, proporcionar herramientas que reduzcan la carga de análisis y el riesgo de confusión para los investigadores posteriores.

Los análisis estadísticos más inclusivos no pueden superar las desigualdades fundamentales de representación entre los participantes en el estudio, y mucho menos resolver las cuestiones más amplias de la equidad y la soberanía de los datos (10). Pero son un paso en la dirección correcta. Al reconocer la tensión entre las consideraciones éticas y las prácticas, los investigadores en genética y otros campos pueden hacerse responsables de que los avances científicos sean más eficientes y más justos.

Nature 585, 184-186 (2020)

doi: 10.1038/d41586-020-02547-3

Referencias

1. Bustamante, C. D., De La Vega, F. M. & Burchard, E. G. Nature 475, 163–165 (2011). 2. Sirugo, G., Williams, S. M. & Tishkoff, S. A. Cell 177, 26–31 (2019). 3. Mulder, N. et al. Pharmacogenomics Pers. Med. 11, 59–66 (2018). 4. Ollier, W., Sprosen, T. & Peakman, T. Pharmacogenomics 6, 639–646 (2005). 5. Sonnega, A. et al. Int. J. Epidemiol. 43, 576–585 (2014). 6. Tutton, R. Race/Ethnicity: Multidiscip. Glob. Contexts 3, 75–95 (2009). 7. Peterson, R. E. et al. Cell 179, 589–603 (2019). 8. Daniels, N. & Sabin, J. E. Br. Med. J. 337, a1850 (2008). 9. Wojcik, G. L. et al. Nature 570, 514–518 (2019). 10. Fox, K. N. Engl. J. Med. 383, 411–413 (2020). 11. Fry, A. et al. Am. J. Epidemiol. 186, 1026–1034 (2017).

INFORMACIÓN SUPLEMENTARIA / SUPPLEMENTARY INFORMATION

1. Supplementary methods, analysis, results and references

2. Supplementary data tables 1–4


8 vistas0 comentarios