Ilustración de Glen Harvey
POR ISABEL RUEHL
Fuente: Spectrum | 10/01/2023
Fotografía: Glen Harvey
El estudio describe un modelo de aprendizaje automático que podría identificar a los que tienen un diagnóstico de autismo con una precisión del 80 al 86 por ciento
Como todos los científicos, Eric Courchesne está acostumbrado a que sus investigaciones sean revisadas por expertos antes de ser publicadas. Pero en su estudio más reciente, que apareció en octubre en Molecular Psychiatry, la revisión por pares no se detuvo ahí. Poco después de la publicación, los investigadores acudieron a foros en línea para criticar el trabajo, en tiempo real y en público.
"Fue realmente valioso porque ayuda a establecer una comunicación que puede disipar rápidamente los malentendidos de los compañeros", dice Courchesne, profesor de neurociencias de la Universidad de California en San Diego.
En el estudio, Courchesne y sus colegas describen un modelo de aprendizaje automático que, basándose en los niveles de expresión génica de muestras de sangre de 240 niños de 1 a 4 años, podría identificar a los que tienen un diagnóstico de autismo con una precisión del 80 al 86 por ciento. El equipo entrenó decenas de miles de modelos distintos en el 73% de las muestras, probó los mejores en el 27% restante y utilizó el promedio bayesiano para agrupar los 742 mejores modelos en una versión final "ensemble".
Días después de la publicación del artículo, un comentarista anónimo cuestionó la metodología del estudio en un post en PubPeer, una plataforma en línea para que los investigadores discutan las publicaciones de las revistas. "El uso de los mismos datos para el entrenamiento y la evaluación (prueba) no es una buena práctica y está casi garantizado que dé lugar a un ajuste excesivo y a estimaciones infladas del rendimiento", afirmaba el comentarista, bajo el alias de Cynanchum itremense.
Spectrum se puso en contacto con expertos independientes para que comentaran el estudio y el comentario anónimo, tras lo cual una de esos expertos, Dorothy Bishop, profesora emérita de neuropsicología del desarrollo en la Universidad de Oxford (Reino Unido), planteó más preguntas sobre el estudio en su página web personal y en PubPeer. Sus comentarios suscitaron respuestas de Courchesne y Cynanchum itremense.
"La ciencia funciona como debe", declaró Bishop a Spectrum, refiriéndose al debate abierto en la revisión por pares posterior a la publicación. "La gente puede plantear preguntas sobre la investigación, y los investigadores se comprometen con los comentarios, que es lo que ocurrió aquí".
"No me pareció que las respuestas abordaran todo", añadió, "pero me alegró que el Dr. Courchesne contestara, y sus respuestas aclararon algunos puntos".
"Disfruté con los comentarios posteriores a la publicación y el debate de ida y vuelta", dice Courchesne. "Me hubiera gustado que Dorothy hubiera sido una de las revisoras desde el principio".
Varios expertos independientes señalaron a Spectrum que la cuestión metodológica planteada por el crítico anónimo puede limitar la generalizabilidad de las conclusiones del estudio.
"Eligieron los modelos [para el conjunto] basándose en el rendimiento del conjunto de pruebas, así que sin duda es una advertencia de que hay algún tipo de análisis circular", afirma Yanli Zhang-James, profesora asociada de psiquiatría y ciencias del comportamiento en la SUNY Upstate Medical University de Syracuse, Nueva York.
La aplicación de promedios bayesianos perpetúa el problema, ya que el conjunto de datos de prueba informa a los modelos en lugar de ser "mantenido" como una muestra realmente independiente, un problema común en los análisis de aprendizaje automático, afirma Zhang-James.
Pero Courchesne insiste en que no hubo circularidad. "El entrenamiento original se mantuvo separado del conjunto de pruebas externas de validación", afirma. "Eso nos permitió identificar 742 modelos de alto rendimiento que demostraron serlo en el conjunto de pruebas".
Esa parte del análisis "fue muy sólida y exhaustiva, y los resultados de esos modelos individuales ya eran realmente buenos", afirma Zhang-James.
Según Courchesne, centrarse en el rendimiento del modelo de conjunto final no es el objetivo del estudio. "En mi opinión, el objetivo era comprobar si, con los mismos sujetos, se obtenía una mejora cuando se utilizaba el conjunto".
Y efectivamente se encontró una mejora: El modelo de conjunto fue más preciso que la mayoría de los modelos individuales. El siguiente paso del equipo es comprobar si el conjunto resulta eficaz para identificar a niños autistas en una muestra independiente, afirma Courchesne.
Los artículos de Bishop también abrieron un debate sobre la fiabilidad y reproducibilidad de las propias muestras de sangre.
"Los niveles de expresión génica podrían variar de una ocasión a otra en función de la hora del día o de lo que se hubiera comido", escribió en su blog. "No tengo ni idea de lo importante que podría ser esto, pero no es posible evaluarlo en este trabajo, en el que las medidas proceden de una única muestra de sangre".
Courchesne dice que su equipo sí recogió muestras longitudinales de unos 30 niños individuales de la muestra de entrenamiento, separadas entre 9 y 24 meses. Alrededor del 91% de los 1.822 modelos predictivos descubiertos mediante el conjunto completo de entrenamiento funcionaron al mismo alto nivel en este subconjunto longitudinal, afirma Courchesne.
Aunque el equipo incluyó estos resultados en una versión anterior no publicada del trabajo, no se incluyó en la publicación final.
"No era una cifra enorme", dice Courchesne. "Es caro y difícil que los niños vuelvan". Aun así, el hallazgo no publicado sugiere que las mediciones en sangre son reproducibles, afirma.
Además, añade, su equipo tomó otras precauciones: El mismo flebotomista extrajo la sangre de cada niño y pospuso la extracción si el niño tenía fiebre, ya que la activación inmunológica podría alterar potencialmente los niveles de expresión génica, dice Courchesne. También la misma persona extrajo el ARN de esas muestras exactamente de la misma forma.
"Fuimos realmente uniformes", afirma.
Teniendo en cuenta estas precauciones, Sek Won Kong, profesor asociado de pediatría en la Facultad de Medicina de Harvard y miembro de la facultad en el Programa de Informática de la Salud Computacional en el Hospital Infantil de Boston, dice que está menos preocupado por cuestiones de fluctuación de los niveles de expresión génica debido a la hora del día o la dieta - "aunque debe haber algunos genes que se correlacionan con la edad, fluctúan con el tiempo y responden a factores ambientales", dice.
El equipo de Courchesne ya ha creado un conjunto de datos de más de 2.000 niños pequeños y, para su próximo estudio, están probando la capacidad del modelo de conjunto para discriminar entre autismo y retraso del lenguaje, dice.
Cite este artículo: https://doi.org/10.53053/PHME4244
コメント