Los investigadores están explorando formas de usar la voz de las personas para diagnosticar infecciones por coronavirus, demencia, depresión y mucho más.
POR EMILY ANTHES
Fuente: Nature / 30/09/2020
Ilustración de Rune Fisker
En marzo, a medida que el asombroso alcance de la pandemia de coronavirus comenzó a ser evidente, los funcionarios de todo el mundo comenzaron a reclutar al público para que se uniera a la lucha. Los hospitales pidieron a las empresas locales que donaran máscaras faciales. Los investigadores pidieron a las personas que se habían recuperado de COVID-19 que donaran su plasma sanguíneo. Y en Israel, el Ministerio de Defensa y una empresa emergente llamada Vocalis Health pidieron a la gente que donara sus voces.
Vocalis, una empresa de análisis de voz con oficinas en Israel y en los Estados Unidos, había construido previamente, una aplicación para teléfonos inteligentes que podía detectar brotes de enfermedad pulmonar obstructiva crónica, escuchando las señales de los usuarios que estaban sin aliento al hablar. La empresa quería hacer lo mismo con COVID-19. Las personas que habían dado positivo en las pruebas del coronavirus, podían participar simplemente descargando una aplicación de investigación de Vocalis. Una vez al día, encendían la aplicación y hablaban por teléfono, describiendo una imagen en voz alta y contando de 50 a 70.
Entonces Vocalis comenzó a procesar estas grabaciones con su sistema de aprendizaje automático, junto con las voces de las personas que habían dado negativo para la enfermedad, en un intento de identificar una huella de voz para la enfermedad. A mediados del verano, la empresa tenía más de 1.500 muestras de voz y una versión piloto de una herramienta de detección digital COVID-19. La herramienta, que la empresa está probando actualmente en todo el mundo, no tiene por objeto proporcionar un diagnóstico definitivo, sino ayudar a los médicos a clasificar los posibles casos, identificando a las personas que podrían necesitar más pruebas, cuarentena o atención médica en persona. "¿Podemos ayudar con nuestro algoritmo de IA?" pregunta Tal Wenderow, el presidente y director ejecutivo de Vocalis. "Esto no es invasivo, no es una droga, no estamos cambiando nada. Todo lo que necesitas hacer es hablar".
No son los únicos que se apresuran a encontrar biomarcadores vocales de COVID-19, al menos otros tres grupos de investigación están trabajando en proyectos similares. Otros equipos están analizando grabaciones de audio de la tos de COVID-19 y desarrollando algoritmos de análisis de voz, diseñados para detectar cuando alguien está usando una máscara facial.
Es una señal de lo hambriento que está el joven campo de los diagnósticos vocales de dejar su huella. En la última década, los científicos han utilizado la inteligencia artificial (IA) y los sistemas de aprendizaje automático para identificar posibles biomarcadores vocales de una amplia variedad de afecciones, entre ellas la demencia, la depresión, el trastorno del espectro autista e incluso las enfermedades cardíacas. Las tecnologías que han desarrollado son capaces de detectar sutiles diferencias en la forma de hablar de las personas con determinadas afecciones, y empresas de todo el mundo están empezando a comercializarlas.
Por ahora, la mayoría de los equipos están adoptando un enfoque lento y gradual, diseñando herramientas adaptadas para su uso en los consultorios médicos o en los ensayos clínicos. Pero muchos sueñan con desplegar esta tecnología más ampliamente, aprovechando los micrófonos que son omnipresentes en los productos de consumo para identificar enfermedades y trastornos. Estos sistemas podrían algún día permitir a los epidemiólogos utilizar los teléfonos inteligentes para rastrear la propagación de las enfermedades, y convertir los altavoces inteligentes en dispositivos médicos para el hogar. "En el futuro, su robot, su Siri, su Alexa simplemente dirá: 'Oh, está resfriado'", dice Björn Schuller, especialista en reconocimiento del habla y de las emociones con un cargo conjunto en la Universidad de Augsburgo en Alemania y en el Imperial College London, que dirige uno de los estudios de COVID-19.
Pero el análisis vocal automatizado es todavía un campo nuevo, y tiene una serie de posibles escollos, desde diagnósticos erróneos hasta la invasión de la privacidad personal y médica. Muchos estudios siguen siendo pequeños y preliminares, y pasar de la prueba de concepto al producto no será fácil. "Estamos en la primera hora de esto", dice Schuller.
Algunas dolencias causan distorsiones vocales obvias; considere la congestión reveladora de alguien que sufre de alergias. Pero muchos científicos piensan que el análisis vocal podría ayudar a identificar una enorme gama de trastornos, gracias a la complejidad del habla humana.
Las señales del habla
Hablar requiere la coordinación de numerosas estructuras y sistemas anatómicos. Los pulmones envían aire a través de las cuerdas vocales, que producen sonidos que son formados por la lengua, los labios y las cavidades nasales, entre otras estructuras. El cerebro, junto con otras partes del sistema nervioso, ayuda a regular todos estos procesos y a determinar las palabras que alguien está diciendo. Una enfermedad que afecte a cualquiera de estos sistemas puede dejar pistas de diagnóstico en el habla de una persona.
El aprendizaje por máquina ha dado a los científicos una forma de detectar aberraciones, rápidamente y a escala. Los investigadores pueden ahora introducir cientos o miles de muestras de voz en una computadora para buscar características que distingan a las personas con diversas condiciones médicas de las que no las tienen.
Gran parte del trabajo inicial en este campo se centró en la enfermedad de Parkinson, que tiene efectos bien conocidos sobre el habla, y para la que no existe una prueba de diagnóstico definitiva. El trastorno causa una variedad de síntomas motores, incluyendo temblores, rigidez muscular y problemas de equilibrio y coordinación. La pérdida de control se extiende a los músculos que intervienen en el habla; como resultado, muchas personas con Parkinson tienen voces débiles y suaves. "Es una de esas cosas que se pueden escuchar con el oído humano", dice Reza Hosseini Ghomi, un neuropsiquiatra de EvergreenHealth en Kirkland, Washington, quien ha identificado características vocales asociadas con varias enfermedades neurodegenerativas.
"Pero si puedes obtener 10.000 muestras y una computadora, puedes obtener mucha más precisión".
Hace más de una década, Max Little, un investigador en aprendizaje automático y procesamiento de señales ahora en la Universidad de Birmingham, Reino Unido, comenzó a investigar si el análisis de voz podría ayudar a los médicos a hacer diagnósticos difíciles. En un estudio, Little y sus colegas utilizaron grabaciones de audio de 43 adultos, 33 de los cuales tenían la enfermedad de Parkinson, diciendo la sílaba "ahhh". Utilizaron algoritmos de procesamiento del habla para analizar 132 características acústicas de cada grabación, identificando finalmente 10 -incluidas características como la respiración y las oscilaciones trémulas de tono y timbre- que parecían ser las más predictivas del Parkinson. Utilizando sólo estas 10 características, el sistema pudo identificar las muestras de habla que provenían de personas con la enfermedad con una precisión de casi el 99% (1).
Poco y otros en el campo también han demostrado que ciertas características vocales se correlacionan con la gravedad de los síntomas del Parkinson. Los sistemas aún no son lo suficientemente robustos para su uso rutinario en la práctica clínica, dice Little, pero hay muchas aplicaciones potenciales. El análisis vocal podría proveer una manera rápida y de bajo costo para monitorear a los individuos que están en alto riesgo de contraer la enfermedad; para examinar grandes poblaciones; o posiblemente incluso para crear un servicio telefónico que pudiera diagnosticar remotamente a las personas que no tienen acceso a un neurólogo. Los pacientes podrían usar la tecnología en casa - en forma de una aplicación para teléfonos inteligentes, por ejemplo - para rastrear sus propios síntomas y monitorear su respuesta a la medicación.
"Este tipo de tecnología puede permitir una instantánea de alta velocidad, una instantánea casi continua de cómo están cambiando los síntomas de alguien", dice Little.
Un anciano con la enfermedad de Parkinson realiza ejercicios vocales para ayudar con el temblor de su voz
Los investigadores están trabajando ahora en la identificación de biomarcadores basados en el habla para otros tipos de enfermedades neurodegenerativas. Por ejemplo, un trío de científicos de Toronto (Canadá) utilizó muestras de voz y transcripciones de más de 250 personas para identificar docenas de diferencias entre el habla de personas con posible o probable enfermedad de Alzheimer y el de personas sin ella (2). Entre los participantes, los que tenían Alzheimer tendían a usar palabras más cortas, vocabularios más pequeños y más fragmentos de oraciones. También se repitieron y usaron una mayor proporción de pronombres, como "esto" o "esto", con respecto a los nombres propios. "Puede ser una señal de que no recuerdan los nombres de las cosas, por lo que tienen que usar pronombres en su lugar", dice Frank Rudzicz, un informático de la Universidad de Toronto, que dirigió el estudio.
Cuando el sistema consideró 35 de estas características vocales juntas, fue capaz de identificar a las personas con Alzheimer con un 82% de precisión. (Desde entonces, esto ha mejorado hasta aproximadamente el 92%, dice Rudzicz, señalando que los errores tienden a dividirse más o menos equitativamente entre los falsos negativos y los falsos positivos). "Esas características se suman a una especie de huella dactilar de la demencia", dice Rudzicz. "Es un patrón oculto muy intrincado que es difícil de ver en la superficie, pero la máquina de aprendizaje puede detectarlo, si se le dan suficientes datos."
Debido a que algunos de estos cambios vocales ocurren en las primeras etapas de las enfermedades neurodegenerativas, los investigadores esperan que las herramientas de análisis de voz puedan eventualmente ayudar a los clínicos a diagnosticar tales condiciones más temprano y potencialmente intervenir antes de que otros síntomas se vuelvan obvios.
Sin embargo, por ahora esta idea sigue siendo en gran medida teórica; los científicos todavía tienen que hacer grandes ensayos longitudinales a largo plazo para demostrar que el análisis de la voz puede realmente detectar la enfermedad antes de lo que pueden hacerlo los métodos de diagnóstico estándar.
Y algunos clínicos señalan que el análisis de la voz por sí solo rara vez dará lugar a diagnósticos definitivos. "Aprendo mucho escuchando la voz de alguien", dice Norman Hogikyan, un laringologo de la Universidad de Michigan en Ann Arbor. "Lo hago para ganarme la vida. Pero lo junto con una historia y luego mi examen. Las tres partes de esa evaluación son importantes".
Los investigadores en este campo destacan que el objetivo no es reemplazar a los médicos o crear dispositivos de diagnóstico independientes. En su lugar, ven el análisis de voz como una herramienta que los médicos pueden usar para informar sus decisiones, como otro "signo vital" que pueden monitorear o probar que pueden ordenar. "Mi visión es que la recogida de muestras de voz se convierta en algo tan común como un análisis de sangre", dice Isabel Trancoso, investigadora en procesamiento del lenguaje hablado en la Universidad de Lisboa.
Expandiendo las aplicaciones
Varias empresas de reciente creación dedicadas al análisis de voz, entre ellas Winterlight Labs, una empresa de Toronto cofundada por Rudzicz, y Aural Analytics de Scottsdale (Arizona), están proporcionando sus programas informáticos a las empresas farmacéuticas. Muchas de ellas están utilizando la tecnología para ayudar a evaluar si las personas inscritas en sus ensayos clínicos están respondiendo a los tratamientos experimentales. "Usando el habla como un indicador más sutil de los cambios en la salud neurológica, se puede ayudar a empujar los medicamentos a través de la línea de meta o, al menos, identificar aquellos que no son prometedores desde el principio", dice Visar Berisha, el cofundador y director de análisis de Aural Analytics.
Los trastornos neurodegenerativos son sólo el comienzo. Los científicos han identificado distintos patrones de habla en niños con trastornos del desarrollo neurológico. En un pequeño estudio realizado en 2017, Schuller y sus colegas determinaron que los algoritmos que analizaban el balbuceo de los bebés de diez meses podían identificar con cierta precisión qué niños serían diagnosticados con el trastorno del espectro autista (3). El sistema clasificó correctamente a aproximadamente el 80% de los niños con autismo y el 70% de los niños neurotípicos.
Los investigadores también han encontrado que muchos niños con el trastorno por déficit de atención e hiperactividad hablan más alto y más rápido que sus pares neurotípicos, y muestran más signos de tensión vocal. La empresa PeakProfiling de Berlín está desarrollando una herramienta de análisis clínico del habla que espera pueda ayudar a los médicos a diagnosticar la enfermedad.
Pero algunos clínicos son escépticos sobre cuánta información útil proporcionarán realmente estos sistemas. "Parte de ella es un poco exagerada", dice Rhea Paul, especialista en trastornos de la comunicación de la Universidad del Sagrado Corazón en Fairfield, Connecticut. Los niños con trastornos del desarrollo neurológico a menudo tienen muchos síntomas de comportamiento fácilmente observables, señala.
Además, todavía no está claro si los algoritmos están realmente identificando marcadores específicos para, por ejemplo, el trastorno del espectro autista, o si sólo están detectando signos generales de desarrollo cerebral atípico, o incluso sólo aberraciones transitorias en el habla. "El desarrollo es un camino sinuoso y no todos los niños que empiezan a parecer que tienen autismo crecen para ser adultos con autismo", dice Paul. Incluso si los científicos identifican un biomarcador vocal específico y altamente fiable, añade, sólo debería utilizarse para identificar a los niños que podrían beneficiarse de una evaluación más exhaustiva. "No debería ser suficiente en sí mismo para etiquetar a un niño, especialmente tan temprano en la vida".
Los científicos también están convirtiendo la tecnología a las enfermedades mentales. Numerosos equipos de todo el mundo han desarrollado sistemas que pueden captar el habla lenta, pausada y monótona que tiende a caracterizar la depresión, y otros han identificado biomarcadores vocales asociados con la psicosis, la tendencia al suicidio y el trastorno bipolar.
"La voz es enormemente rica en términos de llevar nuestras señales emocionales", dice Charles Marmar, un psiquiatra de la Universidad de Nueva York. "El ritmo, el ritmo, el volumen, el tono, la prosodia [el estrés y la entonación] - esas características, te dicen si un paciente está deprimido y desanimado, si está agitado y ansioso, o si es disfórico y maníaco".
En su propio trabajo, Marmar ha utilizado el aprendizaje por máquina para identificar 18 características vocales asociadas con el trastorno de estrés postraumático (TEPT) en 129 veteranos militares masculinos. Analizando estos rasgos - que eran principalmente indicadores de un habla lenta, plana y monótona - el sistema pudo identificar, con casi un 90% de precisión, cuáles de los veteranos tenían PTSD (4).
Marmar y sus colegas están ampliando su investigación a las mujeres y los civiles; si el equipo puede generalizar los hallazgos, Marmar cree que la tecnología podría ser una forma útil de identificar rápidamente a las personas que podrían necesitar una evaluación psiquiátrica más exhaustiva. "La primera aplicación en el mundo real sería para la detección de alto rendimiento del TEPT", dice. "Puedes hacer 4.000 pantallas de voz en cuestión de horas".
Aplicaciones similares para el consumidor ya están empezando a abrirse camino en el mundo. El Departamento de Asuntos de Veteranos de EE.UU. está estudiando si una aplicación que monitorea la salud mental puede identificar a los miembros del servicio que experimentan problemas psicológicos. La aplicación para teléfonos inteligentes, desarrollada por Cogito, una empresa de orientación y análisis de la conversación en Boston, Massachusetts, recopila metadatos sobre los hábitos de los usuarios -como la frecuencia con la que llaman o envían mensajes de texto a otras personas- y analiza las notas de voz que dejan en sus teléfonos.
Incluso podría haber biomarcadores vocales para condiciones que parecen no tener nada que ver con el habla. En un estudio de 2018, los científicos que analizaron muestras de habla de 101 personas que estaban programadas para someterse a angiogramas coronarios descubrieron que ciertos patrones de frecuencia vocal estaban asociados con enfermedades más graves de las arterias coronarias (5).
No está claro qué explica estas diferencias. "Luchamos con el mecanismo porque no es obvio", dice Amir Lerman, cardiólogo de la Clínica Mayo de Rochester, Minnesota, que dirigió la investigación. La enfermedad de las arterias coronarias podría teóricamente cambiar la voz al reducir el flujo sanguíneo, dice. Pero también es posible que no sea la enfermedad en sí misma la que cause los cambios vocales, sino otros factores de riesgo asociados, como el estrés o la depresión.
Traducción difícil
Ese estudio demuestra tanto la promesa como las limitaciones de esta tecnología. Una cosa es que una computadora escoja patrones vocales, pero otra cosa es que sea más difícil entender lo que significan y si son clínicamente significativos. ¿Son características fundamentales de la enfermedad en cuestión? ¿O simplemente marcadores de alguna otra diferencia entre grupos, como la edad, el sexo, el tamaño del cuerpo, la educación o la fatiga, cualquiera de las cuales podría ser un factor de confusión? "Estamos tratando de dejar de empujar los datos en un algoritmo y de sumergirnos realmente en los conjuntos de datos, para llegar primero a un modelo de la enfermedad y luego probarlo con el aprendizaje automático", dice Ghomi.
La mayoría de los estudios realizados hasta ahora han identificado posibles biomarcadores en sólo una pequeña y única población de pacientes. "La reproducibilidad sigue siendo una cuestión", dice Lerman. "¿Es mi voz hoy y mañana y pasado mañana la misma?" Para asegurar que los resultados puedan ser generalizados -y para reducir la posibilidad de sesgo, un problema conocido por plagar los algoritmos médicos- los investigadores tendrán que probar sus sistemas de clasificación en muestras más grandes, más diversas y en una variedad de idiomas. "No queremos validar un modelo de habla sólo con 300 pacientes", dice Jim Schwoebel, vicepresidente de datos e investigación de Sonde Health, una empresa de análisis de voz con sede en Boston. "Creemos que necesitamos 10.000 o más”.
La empresa dirige SurveyLex, una plataforma en línea que permite a los investigadores crear y distribuir fácilmente encuestas de voz, así como el proyecto Voiceome, un esfuerzo por reunir muestras de voz e información sobre la salud de hasta 100.000 personas, a través de una amplia variedad de tareas de habla, lugares y acentos. "Puedes estar deprimido en Nueva York, y sonar de forma diferente a deprimido en Houston, Texas", dice Schwoebel.
Para muchas de las aplicaciones que los investigadores tienen en mente, los sistemas de análisis de voz no sólo tendrán que distinguir a las personas enfermas de los controles sanos, sino también diferenciar entre una variedad de enfermedades y afecciones. Y tendrán que hacerlo fuera del laboratorio, en situaciones cotidianas no controladas y en una amplia variedad de dispositivos de consumo. "Hay teléfonos inteligentes que tienen un rango limitado de sensores, y la gente los está usando en todas partes en ambientes muy incontrolados", dice Julien Epps, un investigador que estudia el procesamiento de la señal del habla en la Universidad de Nueva Gales del Sur en Sydney, Australia.
Cuando Epps y sus colegas, entre ellos un investigador de Sonde Health, analizaron muestras de voz grabadas con micrófonos de alta calidad en un laboratorio, pudieron detectar la depresión con una precisión de aproximadamente el 94% (véase "Tonos de depresión"). Cuando se utilizaron muestras de voz que las personas grabaron en sus propios entornos en sus teléfonos inteligentes, la precisión cayó a menos del 75%, según informaron los investigadores en un documento de 2019 (6).
Y sólo porque la tecnología no sea invasiva no significa que no tenga riesgos. Plantea serias preocupaciones de privacidad, incluyendo la posibilidad de que los individuos puedan ser identificados a partir de muestras de habla anónimas, que los sistemas puedan captar inadvertidamente conversaciones privadas, y que la información médica sensible pueda ser vendida, compartida, hackeada o mal utilizada.
Si la tecnología no está debidamente regulada, existe el peligro de que las aseguradoras o los empleadores puedan utilizar esos sistemas para analizar muestras de habla sin consentimiento explícito o para obtener información personal sobre la salud, y que puedan discriminar a sus clientes o empleados.
Y luego está el riesgo perenne de falsos positivos y sobrediagnóstico. "Tenemos que ser realistas y darnos cuenta de que mucho de esto todavía es investigación", dice Rudzicz. "Y tenemos que empezar a pensar en lo que va a pasar cuando lo pongamos en práctica."
Nature 586, 22-25 (2020)
doi: 10.1038/d41586-020-02732-4
Referencias
1. Tsanas, T., Little, M. A., McSharry, P. E., Spielman, J. & Ramig, L. O. IEEE Trans Biomed. Eng. 59, 1264–1271 (2012).
2. Fraser, K. C., Meltzer, J. A. & Rudzicz, F. J. Alzheimers Dis. 49, 407–422 (2016).
3. Pokorny, F. B. y otros. Proc. 18º Annu. Conf. Int. Discurso Comun. Assoc. (INTERSPEECH) 2017, 309-313 (2017).
4. Marmar, C. R. y otros. Depress. Ansiedad 36, 607-616 (2019).
5. Maor, E. y otros. Mayo Clin. Proc. 93, 840-847 (2018).
6. Huang, Z., Epps, J. & Joachim, D. IEEE Trans. Afecta. Comput. https://doi.org/10.1109/taffc.2019.2944380 (2019).
Comments