Cómo los científicos aseguran los datos que impulsan la investigación sobre el autismo




POR JEREMY HSU

Fuente: Spectrum / 30/09/2020

Ilustración: Alexander Glandien


La protección de la privacidad de los autistas y sus familias se enfrenta a nuevos retos en la era de los grandes datos.


La caja de cartón ha estado en la casa de Maya en Ohio durante meses. La caja, no más grande que una novela de tapa dura, contiene seis tubos de plástico, uno para Maya, uno para su marido, Mark, y uno para cada uno de sus cuatro hijos, dos de los cuales tienen autismo. También contiene etiquetas con el nombre de cada persona, la fecha de nacimiento y un código de barras impreso en ellos, listo para ser pegado a los tubos una vez que la familia los haya llenado de saliva. (Maya pidió que sólo se utilizara su nombre de pila en este artículo, para proteger su privacidad).

La caja vino de SPARK, el mayor estudio genético del autismo hasta la fecha. Para participar, Maya tendrá que enviar las muestras de la familia a un laboratorio de pruebas de ADN en Wisconsin. Pero ella sigue dudando.

Por un lado, Maya aplaude la misión de SPARK de acelerar la investigación del autismo mediante la recogida de datos genéticos de más de 50.000 familias afectadas por la enfermedad. (SPARK está financiado por la Fundación Simons, la organización matriz de Spectrum.) Ella espera que el esfuerzo pueda conducir a mejores medios de diagnóstico y tratamiento temprano. Mark no supo hasta la universidad que tenía autismo; por el contrario, sus hijos, diagnosticados a los 23 y 32 meses, se beneficiaron de una terapia temprana.

Pero Maya también se preocupa por dar el ADN y la información sobre la salud de su familia a un tercero. Cuando estaba en la escuela de posgrado, al principio se le negó un trabajo después de que un posible empleador encontrara un artículo sobre su síndrome de Marfan, una condición genética que afecta al tejido conectivo.

Los datos de SPARK son despojados de identificadores, como el nombre y la fecha de nacimiento de una persona. Y con raras excepciones, ninguno de los datos de ADN se comparten sin el consentimiento del participante. Pero Maya se cuestiona lo bien que funcionan esas protecciones. ¿Podrían individuos no autorizados tener acceso a los datos y encontrar una forma de identificarla a ella y a su familia? ¿Podría eso afectar al futuro de sus hijos? La mayoría de las bases de datos de investigación sobre el autismo permiten a los participantes retirar sus datos más tarde. Pero si esos datos ya han sido usados en un estudio, generalmente no pueden ser extraídos porque hacerlo podría cambiar los resultados del estudio, dicen los expertos.

"Quiero estar realmente seguro de que los datos serán anónimos", dice Maya. "No quiero que mis decisiones ahora afecten a la empleabilidad de mi hijo dentro de 10 o 20 años."

Maya no está sola en su malestar. Muchas familias que se entusiasman por participar en la investigación sobre el autismo también temen que su información personal de salud pueda filtrarse en línea o caer en manos equivocadas, exponiéndolos al estigma o la discriminación. Su preocupación no es del todo injustificada: Las leyes de privacidad en los Estados Unidos no hacen nada para impedir que un pequeño empleador o una compañía de seguros de vida discrimine a alguien en base a su información genética. E incluso cuando los datos son anónimos, los científicos han demostrado cómo los hackers pueden hacer coincidir los nombres con los genomas y los escáneres cerebrales almacenados en las bases de datos.

Pero compartir datos con una institución de investigación es menos arriesgado que compartirlos con proveedores de atención médica o con muchas compañías comerciales de pruebas genéticas, dicen los expertos. Las bases de datos de investigación tienen más medidas de seguridad, como la encriptación de datos y la restricción del acceso a los datos a investigadores de confianza, medidas que hasta ahora han disuadido en gran medida a los hackers. "Los investigadores son definitivamente los mejores y las empresas directas al consumidor en general son definitivamente las peores, porque hay docenas de estas empresas, y muchas o no tienen una política de privacidad o no la siguen", dice Mark Rothstein, director del Instituto de Bioética, Política y Derecho de la Salud de la Universidad de Louisville en Kentucky.

No importa a dónde vayan los datos de ADN o de imágenes cerebrales, nunca son completamente seguros, lo que hace que personas como Maya tengan que tomar una decisión difícil. Por ahora, la mayoría de los participantes deberían sentirse tranquilos. "Si las bases de datos científicas están debidamente protegidas, el riesgo de robo de datos es relativamente bajo", dice Jean-Pierre Hubaux, que dirige el laboratorio de seguridad de datos de la Escuela Politécnica Federal de Lausana en Suiza. Pero los investigadores deben mantenerse a la vanguardia si quieren preservar la confianza de los participantes en el estudio.

Crisis de identidad

La investigación sobre el autismo se basa cada vez más en grandes datos, y a medida que más estudios comparten datos, algunas preocupaciones sobre la privacidad sólo se hacen más apremiantes. Las bases de datos más grandes pueden convertirse en objetivos más grandes, especialmente en combinación con la información digital que está disponible públicamente.

El proyecto MSSNG, dirigido conjuntamente por cuatro grupos, incluido el grupo de defensa Autism Speaks and Verily (antes Google Life Sciences), ha secuenciado más de 10.000 genomas completos de personas autistas y sus familiares. La Base de Datos Nacional para la Investigación del Autismo de los Institutos Nacionales de Salud de los Estados Unidos (NIH) almacena información sobre más de 100.000 personas autistas y sus familiares, incluyendo secuencias de sus exomas (regiones del genoma que codifican las proteínas), exploraciones cerebrales y perfiles de comportamiento. La Colección Simons Simplex contiene genomas enteros de 2.600 tríos, o familias con un niño autista. Y a finales de 2019, SPARK - el estudio en el que Maya podría participar - tenía secuencias de exomas y datos de genotipado de más de 27.000 participantes, 5.279 de ellos con autismo. El estudio también tiene datos de salud, rasgos y comportamiento de más de 150.000 personas, 59.000 de ellas en el espectro.

Otros servidores albergan colecciones de escáneres cerebrales. El Intercambio de Datos de Imágenes Cerebrales de Autismo (ABIDE), por ejemplo, empareja los escaneos cerebrales con datos clínicos de más de 1.000 personas autistas y un número similar de controles. Entre 2012 y 2018, un proyecto llamado EU-AIMS recolectó escaneos cerebrales y secuencias del genoma completo de 450 personas con autismo y 300 "hermanos menores" - hermanos menores de personas con autismo, que tienen elevadas probabilidades de ser diagnosticados con la condición ellos mismos.

Todos los participantes en estos proyectos de investigación firman documentos que describen cómo se recogerán, desidentificarán y compartirán sus datos. Se supone que este proceso de "consentimiento informado" les permite sopesar la privacidad y otros riesgos antes de firmar, y es requerido por la ley en los EE.UU. y en la mayoría de los otros lugares. Pero estos documentos pueden ser difíciles de analizar. "Incluso si uno está muy bien educado, [el lenguaje] probablemente no sea tan claro como podría ser", dice Kevin Pelphrey, neurocientífico e investigador sobre el autismo de la Universidad de Virginia en Charlottesville.

Los documentos de consentimiento informado tampoco proporcionan el cuadro completo. Por ejemplo, la mayoría de los estudios especifican que los datos serán despojados de información de identificación como nombres, fechas de nacimiento y ciudades de nacimiento. Los estudios sustituyen habitualmente esos hechos por códigos alfanuméricos, como los identificadores únicos mundiales. Los códigos proporcionan una forma anónima de seguir a las personas a través de los estudios, pero no hacen que los datos sean seguros. De hecho, a medida que aumenta la cantidad de datos digitales de cada persona, se hace más fácil para las personas ajenas a la investigación reconstruir la identidad y los antecedentes de salud de una persona a partir de diferentes fuentes.

"No quiero que mis decisiones ahora afecten la empleabilidad de mi hijo dentro de 10, 20 años." Maya

Una persona que tiene acceso al genoma de una persona desde una fuente puede determinar fácilmente si ese genoma está presente en otra base de datos, según mostraron los investigadores en 2008. El equipo utilizó marcadores genéticos llamados polimorfismos de un solo nucleótido (SNP) como puntos de referencia. Compararon la frecuencia con que miles de SNP aparecen en el genoma de una persona con la frecuencia con que esos mismos SNP aparecen tanto en la base de datos como en una población de ascendencia similar. Si las frecuencias del genoma de la persona se acercan más a las de la base de datos que a las de la población de referencia, es probable que el genoma de la persona esté en la base de datos. Si la base de datos se centra en una condición particular, el individuo identificado estaría asociado con esa condición.

Incluso sin acceso al genoma de un participante, puede ser posible identificar a la persona. Otro equipo de investigadores utilizó un programa informático que extrae secuencias de marcadores genéticos repetidos a partir de datos genómicos anónimos para crear perfiles genéticos del cromosoma Y de 50 hombres cuyos genomas fueron secuenciados en el Proyecto 1000 Genomas, un estudio de la variación genética humana. Los mismos perfiles existen en una base de datos de genealogía pública, vinculándolos a los nombres de los familiares. El equipo reunió los nombres con la edad, la ciudad natal y el árbol genealógico de cada hombre, tal como aparecen en el sitio web del Proyecto 1000 Genomas, para identificarlos en los registros públicos.

Los depósitos de los escáneres cerebrales tienen vulnerabilidades similares. El software de reconocimiento facial, por ejemplo, se puede utilizar para hacer coincidir las fotos disponibles públicamente de personas con características que aparecen incidentalmente en algunos escáneres cerebrales, según muestra un estudio de 2019.

Otras innumerables estrategias que no requieren un alto nivel de destreza en la piratería informática pueden fijar nombres y otra información en los datos genéticos y de salud. "Cualquier persona que tenga conocimientos de genómica o de estadística puede hacer este tipo de cosas", dice Erman Ayday, investigador de seguridad y privacidad de la Universidad Case Western Reserve en Cleveland, Ohio.

Dejando a un lado las brechas de seguridad, los datos de salud pueden filtrarse de maneras menos siniestras: Millones de veces al año, las personas firman formularios de autorización que dan a los empleadores y a los proveedores de seguros permiso para acceder a sus registros de salud cuando solicitan ciertos trabajos, como un oficial de policía, o cuando solicitan un seguro de vida, una indemnización por accidentes de trabajo o beneficios de discapacidad del Seguro Social.

Y más de 30 millones de personas han enviado su ADN a compañías de pruebas genéticas como 23andMe. Esa empresa, junto con otras seis similares, ha acordado seguir directrices voluntarias para proteger la privacidad, incluyendo la promesa de no compartir datos genéticos con empleadores o compañías de seguros sin permiso. Sin embargo, una encuesta realizada en 2018 entre 55 empresas de pruebas similares de los Estados Unidos reveló que muchas carecen de protecciones básicas de la privacidad o no las explican; 40 empresas no indicaron en su documentación quién es el propietario del material o los datos genéticos, y sólo un tercio describió adecuadamente las medidas de seguridad utilizadas para proteger esos datos.

Protecciones de parches

Hasta ahora, las principales bases de datos de investigación han escapado a la atención de los actores deshonestos, dicen los expertos. "No hay realmente casos en los que fuerzas malévolas hayan hackeado estas bases de datos de investigación y causado algún daño real", dice Benjamin Berkman, un bioeticista del NIH en Bethesda, Maryland. Pero eso puede ser, en parte, debido a que los proveedores de servicios de salud con una seguridad mediocre son objetivos más tentadores. Los proveedores de salud representan más del 36 por ciento de todas las violaciones de seguridad conocidas públicamente - la mayor parte de cualquier tipo de organización - de acuerdo con un análisis de más de 9.000 violaciones de datos desde 2005 hasta 2018.

Después de que aparecieran las primeras demostraciones de alto perfil de datos de desidentificación, los NIH y algunas instituciones de investigación reforzaron las protecciones de la privacidad - eliminando las frecuencias de SNP de los sitios web a los que el público puede acceder, por ejemplo, o eliminando alguna información de identificación, como la edad, del sitio de 1000 Genomas. Pero en 2018, cuando se hizo evidente que prácticamente no se estaban produciendo violaciones de datos, el NIH aflojó sus reglas de nuevo, proporcionando acceso público a los datos genómicos que había retirado de los sitios públicos una década antes. (Los investigadores que dirigen los estudios genéticos de grupos específicos todavía pueden solicitar que el NIH limite el acceso público).

"A veces la ciencia cambia y nosotros, es decir, las personas encargadas de proteger al público, reaccionamos de forma exagerada", dice Thomas Lehner, un director científico del Centro del Genoma de Nueva York que solía coordinar la investigación genómica en el Instituto Nacional de Salud Mental.

Los datos de los escáneres cerebrales también pueden ser menos vulnerables de lo que sugiere el experimento del año pasado. Los expertos dicen que identificar a los miembros del público en general en una gran base de datos de escaneos cerebrales es mucho más difícil que hacer coincidir los escaneos con unas pocas docenas de fotos que fueron diseñadas para ser similares en luminancia, tamaño y otras características, como sucedió en ese estudio. Además, los investigadores del autismo pueden usar software para eliminar rasgos faciales de las imágenes del cerebro en las bases de datos - y algunas de estas herramientas vienen incluidas con programas de análisis de imágenes. "Es fácil quitar la cara - nadie nunca reconstruirá quién es quién", dice Martin Styner, un científico informático de la Universidad de Carolina del Norte en Chapel Hill.

"No hay realmente casos en los que fuerzas malignas hayan hackeado estas bases de datos de investigación y causado algún daño real." Benjamin Berkman

Muchas universidades protegen activamente el ADN y los datos de los escáneres cerebrales restringiendo el acceso a ellos: Los investigadores deben solicitar el acceso a través de un comité de ética de la universidad y explicar cómo piensan utilizar los datos. Y muchos estudios, como ABIDE, tienen protocolos para asegurarse de que los datos que recogen de varios grupos de investigación son desidentificados o "desfigurados". "Les damos guiones para desfigurar", dice Michael Milham, que dirige la Iniciativa Internacional de Intercambio de Datos de Neuroimágenes, que apoya a ABIDE. "Antes de compartir los datos, los revisamos para asegurarnos de que la desfiguración es como debe ser".

Más allá de los desafíos técnicos, la decodificación de identidades a partir de datos anónimos también rompe la ley federal. "Si alguno de mis colegas tratara de hacer algo como identificar a una persona en particular, esperaría que perdiera su trabajo, pagara una enorme multa y probablemente fuera a la cárcel", dice Pelphrey. En 2010, un investigador médico de la Universidad de California en Los Ángeles pasó cuatro meses en prisión por investigar los registros médicos confidenciales de su jefe, sus compañeros de trabajo y clientes famosos como Tom Hanks, Drew Barrymore y Arnold Schwarzenegger. El año anterior, en 2009, la Universidad de Carolina del Norte degradó a una investigadora de cáncer por negligencia y redujo su salario casi a la mitad cuando una base de datos de imágenes de mama que ella supervisaba fue hackeada, poniendo en peligro los datos personales de 100.000 mujeres. "El lapso tuvo consecuencias bastante fuertes, que la llevaron a jubilarse", dice Styner.

Los investigadores a los que se les concede acceso a grandes bases de datos de investigación sobre el autismo, como MSSNG, también firman acuerdos que especifican duras penalizaciones. "Además de las acciones legales, Autism Speaks revocaría los privilegios a los investigadores y a la institución a través de nuestro punto de acceso controlado a la base de datos", dice Dean Hartley, director principal de descubrimiento y ciencia translacional de Autism Speaks.

Algunas leyes federales de privacidad de datos de los Estados Unidos pueden proteger a las personas de los daños si sus datos personales caen en las manos equivocadas. La Ley de no discriminación en materia de información genética de los Estados Unidos (GINA), por ejemplo, impide que los proveedores de seguros de salud y los grandes empleadores discriminen a las personas por su predisposición genética a una determinada enfermedad. Pero la ley no se aplica a las pequeñas empresas, a los proveedores de seguros de vida o de discapacidad, o a las personas que ya tienen una condición de salud. La Ley de Atención Asequible de 2010 proporciona una protección de la privacidad más completa que la GINA al extender la protección a las personas con un diagnóstico confirmado y no sólo a las que tienen una predisposición genética.

Algunos estados han aprobado leyes para llenar los vacíos de las leyes federales y dar a las personas el derecho a buscar reparación por violaciones de su privacidad. No obstante, muchos expertos en privacidad y seguridad siguen preocupados por el hecho de que cada vez se comparten más datos personales sobre la salud en más bases de datos. "Hay varias personas que han estado hablando sobre [si] realmente necesitamos mirar a la GINA en el contexto de los grandes datos y la fusión de estas bases de datos", dice Karen Maschke, investigadora del Hastings Center, un instituto de investigación en bioética sin fines de lucro en Garrison, Nueva York.

Incluso con protecciones legales más fuertes, las fuerzas del orden o los tribunales pueden exigir el acceso a una base de datos de investigación. Para proteger los datos de tales solicitudes, las instituciones de investigación pueden obtener un "certificado de confidencialidad" del Departamento de Salud y Servicios Humanos de los Estados Unidos. Sin embargo, esta protección no está blindada. Las pruebas de su eficacia se basan en un pequeño número de casos legales, y si los investigadores no son conscientes de que tienen el certificado, como muchos lo son, no lo invocarán, dicen los expertos. Es más, el certificado se vuelve discutible cuando las leyes exigen la comunicación de información sobre enfermedades infecciosas, como COVID-19, por el bien de la salud pública.

Guardando una sonrisa

Como investigador del autismo y padre de dos niños autistas, Pelphrey entiende ambos lados del dilema de la privacidad. Pelphrey y sus hijos autistas han contribuido con su ADN a través de cinco estudios separados a bases de datos como la Base de Datos Nacional para la Investigación del Autismo, y permanecen abiertos a futuras contribuciones. Pero entiende por qué algunas personas dudan en involucrarse. "Creo que una forma inteligente de que los científicos procedan es pensar en lo que les gustaría que su familia hiciera", dice Pelphrey.

Como parte de ello, los investigadores tienen la responsabilidad de explicar las protecciones de privacidad que ponen en práctica, y de proporcionar ejemplos de cómo se podrían utilizar los datos de salud de un participante, dice. "Nos esforzaremos por revisar el formulario de consentimiento y decir: 'En esta sección sobre el intercambio de datos, esto podría significar que los datos se comparten con otros investigadores, y que esos investigadores pueden estar colaborando con empresas'", dice Pelphrey. "No pondremos su nombre e información de identificación, pero son sus datos los que tienen imágenes de su cerebro e información sobre su genoma".

Las instituciones científicas suelen proteger los datos que almacenan con múltiples capas de seguridad. Muchas bases de datos sobre autismo se almacenan en plataformas de nube que utilizan chips y claves de seguridad junto con herramientas de cifrado de datos, mientras que también permiten a los investigadores examinados copiar y descargar datos en servidores locales. Y los expertos están investigando formas aún más seguras de almacenar y compartir datos sensibles, dice Adrian Thorogood, un experto legal y en privacidad de la Alianza Global para la Genómica y la Salud. Uno de los enfoques consiste en permitir el acceso sólo a través de la nube, bloqueando a los investigadores para que no copien o descarguen ningún dato. Otra estrategia es utilizar 'administradores de datos' para proporcionar información a los investigadores, que no podrían acceder directamente a los datos pero podrían presentar consultas o modelos.

Las herramientas de privacidad de datos también están apareciendo en las aplicaciones de software que utilizan los investigadores del autismo. Los creadores de una aplicación de proyección, que marca los comportamientos clave en los vídeos capturados por las cámaras de los teléfonos inteligentes, están desarrollando un filtro de privacidad para ocultar la información sensible de los vídeos. El filtro puede, por ejemplo, ocultar el género o incluso el origen étnico de una persona mientras captura expresiones faciales útiles para analizar el comportamiento. "Si quiero detectar una sonrisa, podría filtrar la imagen de manera que sólo se conserven los puntos correspondientes a las regiones del rostro relevantes para una sonrisa, cada uno de esos puntos simplemente representados por un punto en movimiento", dice Guillermo Sapiro, profesor de ingeniería de la Universidad de Duke en Durham, Carolina del Norte, que dirige el proyecto.

A pesar de estos progresos, los participantes en los estudios genéticos siguen cargando con un cierto grado de riesgo para su privacidad. A cambio, algunos esperan obtener conocimientos sobre su propia composición genética, aunque muchos grandes proyectos de investigación sobre el autismo no están diseñados para obtener resultados individuales.

En 2011, Maya y su familia se inscribieron en el estudio sobre los genes relacionados con los trastornos del espectro autista, destinado a identificar las diferencias genéticas entre los niños y las niñas con autismo. Esperaban que su participación en el estudio permitiera al marido y al hijo autista de Maya obtener la secuenciación del genoma recomendada por el médico de su hijo. Pero los participantes en ese estudio sólo podían solicitar que los investigadores contactaran con un médico de su elección para realizar pruebas de seguimiento si aparecía una variante genética clínicamente relevante - no hay opción de obtener resultados directamente, dice la investigadora principal Lauren Weiss, una genetista humana de la Universidad de California en San Francisco.

A veces los participantes están dispuestos a asumir los riesgos de privacidad involucrados sólo para ayudar a que la ciencia avance. Si Maya decide participar en SPARK, no espera beneficiarse directamente, dice, pero espera que dicha investigación impulse el progreso en el área del diagnóstico temprano del autismo. "No creo que espere que la investigación en la que participamos ayude a mi familia - la investigación es un proceso largo", dice Maya. "Pero si podemos ayudar a las familias que aún no han tenido un hijo autista, entonces vale la pena".

Mientras tanto, la caja de tubos está sin abrir.

TAGS: autismo, bebés, bioinformática, procesamiento facial, pruebas genéticas, cuidado de la salud, política, secuenciación, Colección Simons Simplex, tecnología

https://www.spectrumnews.org/features/deep-dive/how-scientists-secure-the-data-driving-autism-research/?utm_source=Spectrum+Newsletters&utm_campaign=4311a7ed0e-EMAIL_CAMPAIGN_2020_09_29_03_18&utm_medium=email&utm_term=0_529db1161f-4311a7ed0e-168813249

12 vistas0 comentarios

Buzón de preferencias

Al suscribirte estás aceptando nuestra política de privacidad

Al rellenar formularios estás aceptando nuestra política de privacidad

  • Instagram
  • White Facebook Icon

© 2023 by TheHours. Proudly created with Wix.com