Un estudio no respalda la teoría de exceso de boca o disminución de la atención ocular en el autismo

La combinación de medidas de EEG y de seguimiento ocular no respalda la hipótesis de "exceso de boca o disminución de la atención ocular" en el autismo. Pixabay
POR SOFIE VETTORI, STEPHANIE VAN DER DONCK, JANNES NYS, PIETER MOORS, TIM VAN WESEMAEL, JEAN STEYAERT, BRUNO ROSSION, MILENA DZHELYOVA & BART BOETS
Fuente: Molecular Autism / 23/10/2020
Fotografía: de los autores
Vettori, S., Van der Donck, S., Nys, J. et al. Combined frequency-tagging EEG and eye-tracking measures provide no support for the “excess mouth/diminished eye attention” hypothesis in autism. Molecular Autism 11, 94 (2020). https://doi.org/10.1186/s13229-020-00396-5
Resumen
Antecedentes
Escanear las caras es importante para las interacciones sociales. La dificultad en el uso social del contacto visual constituye uno de los síntomas clínicos del trastorno del espectro autista (TEA). Se ha sugerido que los individuos con TEA miran menos a los ojos y más a la boca que los individuos con desarrollo típico (TDE), posiblemente debido a la aversión o indiferencia a la mirada. Sin embargo, las pruebas de seguimiento ocular de esta hipótesis son contradictorias. Mientras que los patrones de la mirada transmiten información sobre los procesos de orientación abierta, no está claro cómo se manifiesta esto a nivel neural y cómo la atención encubierta relativa a los ojos y la boca de las caras podría verse afectada en los TEA.
Métodos
Usamos un EEG de marcado de frecuencia en combinación con el seguimiento ocular, mientras que los participantes observaban los rápidos parpadeos de las caras para las secuencias de estimulación de 1 min. Las mitades superior e inferior de los rostros se presentaron a 6 Hz y 7,5 Hz o viceversa en diferentes secuencias de estimulación, lo que permitió desentrañar objetivamente la saliencia neural de la región de los ojos frente a la de la boca de un rostro percibido. Probamos 21 niños con TEA (8-12 años) y 21 niños de control de TD, emparejados por edad y coeficiente intelectual.
Resultados
Ambos grupos miraron más tiempo a los ojos que a la boca, sin ninguna diferencia de grupo en cuanto a la duración de la fijación relativa a estos rasgos. Los chicos con TD miraban significativamente más a la nariz, mientras que los chicos con TEA miraban más al exterior de la cara. Los datos de saliencia neural del EEG siguieron en parte este patrón: las respuestas neurales a la mitad superior o inferior de la cara no fueron diferentes entre los grupos, pero en el grupo de TD, las respuestas neurales a las mitades inferiores de la cara fueron mayores que las respuestas a la parte superior. La dinámica de la exploración de la cara mostró que los individuos con TD mantenían en su mayoría fijaciones dentro de la misma región facial, mientras que los individuos con TEA cambiaban más a menudo entre las partes de la cara.
Limitaciones
Puede ser necesaria la replicación en muestras grandes e independientes para validar los resultados de la exploración.
Conclusiones
Las respuestas neurales combinadas de rastreo ocular y marcadas con frecuencia no muestran ningún apoyo a la hipótesis del exceso de boca y la disminución de la mirada en los TEA. El estilo de exploración facial más exploratorio observado en los TEA podría estar relacionado con su mayor estilo de procesamiento facial basado en los rasgos.
Introducción
El dominio de la fijación de la mirada en los ojos de los rostros
Escanear las caras de los coespecíficos con movimientos oculares es importante para las interacciones sociales de nuestra especie. Un importante portador de información socialmente relevante es la boca, que es la principal fuente de información visual relevante para el habla [35]. Cuando las señales auditivas son menos informativas (por ejemplo, cuando aumenta el ruido ambiental), la proporción de fijaciones de la mirada en la boca aumenta [10, 95]. El trabajo de desarrollo de Lewkowicz y Hansen-Tift [51] ha demostrado que cuando aprenden el lenguaje, alrededor de los 4-8 meses de edad, los bebés miran temporalmente más a la boca de los rostros grabados en vídeo, presumiblemente para recoger información audiovisual (redundante). Sin embargo, la abrumadora mayoría de los estudios han demostrado que cuando se escanean los rostros, las personas suelen mirar primero y principalmente a los ojos [6, 34, 66, 100, 107]. La fijación preferente a los ojos de los rostros de los coespecíficos es importante, ya que mantener un buen contacto visual tiene un valor social significativo [35]. Además, las personas mueven la mirada para fijar en el rostro lugares que maximicen su reconocimiento de, por ejemplo, la identidad, el género o el estado emocional de las personas. En los observadores neurotípicos, el lugar de fijación óptimo para una variedad de funciones de reconocimiento/categorización de rostros se ha identificado como un punto central particular (sin rasgos) justo debajo de los ojos, en la nasion [40, 67, 105], que se hipotetiza como el "centro de masa del rostro" que permite captar todos sus rasgos diagnósticos a la vez ("percepción holística/configural del rostro" [77, 105]. A nivel de grupo, las desviaciones de este punto de fijación óptimo se han asociado con un detrimento sustancial del rendimiento del procesamiento facial [67]. No obstante, hay una variabilidad tanto cultural [7] como interindividual en la posición exacta de este punto de fijación óptimo [53, 68, 87], y la preferencia de aspecto de cada individuo corresponde a un punto de fijación idiosincrásico que maximiza el rendimiento.
La hipótesis del "exceso de boca y disminución de la mirada" en el autismo
Los individuos con TEA se caracterizan por sus deficiencias en la comunicación e interacción social, combinadas con un patrón de comportamiento e intereses restringidos y repetitivos [2]. Las anomalías en el uso social del contacto visual constituyen uno de los síntomas del dominio de los síntomas sociocomunicativos del DSM-5 [2]. Un estudio seminal de seguimiento ocular reportó que los adolescentes y adultos con TEA miran relativamente menos a los ojos y más a la boca que los individuos con desarrollo típico (TDA) [48]. Además, los individuos del grupo de TEA que sí atendían más a la región de la boca tenían mejores habilidades sociales que los que no atendían a la cara en absoluto, lo que sugiere que la atención a la boca podría verse como un mecanismo compensatorio. Este estudio pionero atrajo mucha atención y dio lugar a la denominada hipótesis del exceso de boca/disminución de la mirada en los TEA [48], que fue apoyada indirectamente por la literatura de procesamiento facial que muestra que los individuos con TEA tienen dificultades particulares para discriminar los ojos y, por lo tanto, dependen preferentemente de la información de la boca para individualizar los rostros [44, 81, 86, 104]. Investigaciones posteriores mostraron que la cantidad de tiempo que se pasa mirando la región ocular se correlaciona con la activación cerebral en la región selectiva de la cara del giro fusiforme en los individuos con TEA [22], lo que sugiere que la disminución de la fijación en la región ocular puede explicar la hipoactivación del giro fusiforme reportada en la TEA [21, 63, 70].
Sin embargo, mientras que algunos estudios confirmaron que los adultos con TEA miran menos a la región ocular de los rostros (por ejemplo, [17, pág. 200, 58, 85]), otros no lo hicieron (por ejemplo, [28, 82]). En conjunto, si bien la hipótesis del "exceso de boca/mirada reducida" ha tenido una gran influencia en el campo clínico y científico de los TEA, una serie de metaanálisis formales de estudios empíricos de todas las edades han encontrado pocas pruebas de ello [27, 30, 31, 64], y se ha propuesto una serie de factores para explicar las discrepancias en las observaciones entre los estudios: grado de gravedad de los síntomas, muestras pequeñas y heterogéneas, diferencias en las medidas de resultados y diferencias en el contenido de los estímulos aplicados (por ejemplo los estímulos faciales dinámicos que implican interacciones sociales frente a los estímulos faciales estáticos). Para reducir al mínimo esas confusiones, Kwon y otros realizaron recientemente un estudio de seguimiento ocular en una gran muestra de niños pequeños con y sin TEA (N = 385) [50]. En dos experimentos se encontraron niveles típicos de seguimiento ocular y bucal en niños pequeños con TEA en comparación con el grupo de control, de acuerdo con los resultados de los meta-análisis. En general, y particularmente cuando un distractor geométrico estaba presente, los niños con TEA mostraron una disminución del tiempo de fijación en la cara en general.
Otra cuestión importante es que los patrones de exploración visual probablemente cambien con la edad. Como resultado, las diferencias de grupo en los patrones de exploración facial pueden depender de la edad. De hecho, entre los estudios que investigan la exploración facial en niños con TEA menores de 12 años, sólo uno ha encontrado evidencia de la hipótesis del "exceso de boca/ojos disminuidos" [42]. Otros estudios no encontraron ninguna diferencia entre las partes de la cara escaneadas en los TEA y los observadores neurotípicos [23, 26, 50, 94], y algunos estudios incluso informaron de tiempos de búsqueda más largos en la boca en el grupo de control que en el grupo de TEA [14, 58].
En lugar de investigar los tiempos de búsqueda de determinadas partes de la cara o de la escena visual, estudios más recientes comenzaron a analizar y modelar las trayectorias de exploración temporal a fin de obtener una medida más completa de la dinámica de la exploración de la cara (por ejemplo, [19, 20]), por ejemplo, utilizando modelos de Markov. En este sentido, Vabalas y Freeth [91] mostraron que los adultos con rasgos autistas elevados exhiben una exploración visual reducida durante las interacciones cara a cara. Asimismo, Heaton y Freeth [32] mostraron que los adolescentes con trastornos del espectro autista mostraban una menor exploración de las escenas fotográficas, tanto cuando la escena contenía una cara central como cuando no. Además, los participantes con TEA mostraron una mayor tendencia a explorar áreas cercanas a la fijación actual. Estos estudios subrayan la importancia de analizar los datos más allá de la mera duración de la fijación para señalar también la dinámica de exploración de la cara más sutil.
Evitación de la mirada versus indiferencia de la mirada
A menudo se plantean dos hipótesis para explicar por qué los individuos con trastornos del espectro autista pueden prestar menos atención a los ojos: evitar la mirada por un lado y mirar con indiferencia por el otro. La hipótesis de la evitación de la mirada propone que la región de los ojos es percibida como repugnante y socialmente amenazante por los individuos con TEA, como lo indica el aumento de la conductancia de la piel y la reactividad de la amígdala en respuesta a los estímulos faciales [88]. La hipótesis de la indiferencia de la mirada, por otra parte, debe situarse en el contexto de la teoría de la motivación social del autismo e implica que la región ocular no es tan socialmente relevante para los individuos con TEA como lo es para los controles neurotípicos [15]. Sin embargo, ambas explicaciones no son necesariamente contradictorias y podrían estar inscritas en una trayectoria de desarrollo común. Una falta de interés temprana en el contacto visual puede hacer que los niños con autismo pierdan las señales sociales, lo que lleva a una baja motivación e interés social más adelante [55]. En consecuencia, tener que entablar contacto visual sin estar motivado socialmente puede resultar desagradable y repugnante para ellos, lo que puede dar lugar a que algunos individuos mayores con trastornos del espectro autista eviten activamente el contacto visual [47]. Por otra parte, la evitación de la mirada puede preceder a la indiferencia de la mirada: Los estímulos sociales pueden ser intrínsecamente menos gratificantes porque se experimentan como un exceso de ansiedad.
El EEG con marcación de frecuencia como medida complementaria para evaluar la hipótesis del "exceso de boca/boca de mirada disminuida"
Una posibilidad intrigante es que los individuos con TEA no difieren de manera confiable en su atención abierta a los ojos y la boca de una cara en comparación con los individuos neurotípicos, pero estos dos grupos, sin embargo, difieren en la cantidad de atención encubierta dedicada a estas partes de la cara. Desafortunadamente, mientras que el seguimiento de los ojos informa sobre el comportamiento de orientación abierta, impide medir el procesamiento de los estímulos fuera del foco de atención abierta. Sin embargo, la intensidad neural del procesamiento de los estímulos, tanto dentro como fuera del foco de atención, puede captarse mediante electroencefalografía (EEG), si estos estímulos están "etiquetados" (es decir, disociados en el tiempo, el espacio o la frecuencia) de manera adecuada [38, 39]. En el presente estudio, combinamos el rastreo ocular simultáneo y el etiquetado de la frecuencia del EEG para capturar tanto el procesamiento abierto como el encubierto de la región ocular y bucal de los rostros neutros en niños con TEA y controles de desarrollo típico. La técnica del EEG con marcado de frecuencia se basa en la observación bastante antigua de que un estímulo visual presentado a una tasa fija, por ejemplo, una luz que se enciende y se apaga 17 veces por segundo (17 Hz), genera una onda cerebral eléctrica exactamente a la frecuencia de estimulación (es decir, 17 Hz en este ejemplo), que puede registrarse en la corteza visual [1]. Transformando los datos en el dominio de la frecuencia mediante análisis de Fourier [72], se obtiene un marcador cuantificable altamente sensible (es decir, una alta relación señal/ruido, SNR) [73] y objetivo (es decir, a una frecuencia predeterminada) de los procesos visuales automáticos sin demandas de tareas explícitas. Además, al asignar diferentes marcadores (frecuencias) a diferentes estímulos en una estimulación multientrada, se pueden desenmarañar las respuestas respectivas correspondientes a cada una de las frecuencias de estimulación ("frequency-tagging", [74]). De este modo, se pueden extraer y cuantificar las respuestas evocadas de poblaciones de células que son selectivas a cada uno de los estímulos de entrada únicos, incluso si los estímulos de entrada se superponen espacialmente, están incrustados en el mismo evento de estímulo o están fuera del foco de atención [60].
Es importante señalar que los cambios de amplitud de las respuestas neuronales representan cambios neuronales dinámicos relacionados con el procesamiento de los estímulos de conducción y son modulados por la atención [3, 54, 56, 90, 99], la memoria o la emoción [89]. En un estudio reciente [24], la región de los ojos y la boca de los rostros fue marcada con una frecuencia, mientras que las señales de EEG y MEG fueron registradas. Combinando las respuestas del MEG marcadas con frecuencia con las ROI funcionales definidas a partir de la IRMf, los investigadores encontraron que los cambios en ambas partes de la cara (ojos y boca) daban como resultado respuestas mejoradas en una región selectiva de la cara del giro occipital inferior, mientras que el surco temporal superior (STS) respondía mayormente a los cambios en la región de los ojos. Además, la atención de arriba hacia abajo a los ojos frente a la boca (manteniendo la fijación central) dio lugar a un mayor procesamiento neural en la respectiva zona del cerebro.
Recientemente evaluamos la preferencia social en niños con y sin TEA midiendo simultáneamente las respuestas del EEG y buscando en los tiempos las corrientes de estímulos sociales (rostros) marcados con frecuencia versus los no sociales (casas). En particular, demostramos un sesgo social reducido en los niños con TEA, y encontramos que las diferencias de grupo en la preferencia relativa por la información social eran mucho más pronunciadas en las respuestas neuronales marcadas con frecuencia que en los tiempos de búsqueda evaluados por el seguimiento ocular [98].
En este contexto, el presente estudio fue diseñado para comparar la atención abierta y encubierta en niños con autismo (TEA) y un grupo de control (GT) de desarrollo típico, presentando los estímulos faciales que se subdividieron horizontalmente a lo largo de la nasion, mostrando las regiones de estímulo de los ojos frente a las de la boca a diferentes tasas de presentación. Por lo tanto, fuimos capaces de desenmarañar objetivamente las respuestas neuronales marcadas con frecuencia en la región de los ojos frente a la de la boca.
Los objetivos del presente estudio son cuatro. Primero, la prominencia neural del procesamiento de la región de los ojos frente a la boca puede ser cuantificada objetivamente a través del marcado de la frecuencia del EEG. En segundo lugar, las medidas de seguimiento ocular permiten investigar las posibles diferencias entre grupos en cuanto a los tiempos de observación de la región de los ojos, la boca y la nariz. Tercero, las sutiles dinámicas de exploración facial se capturan mediante el modelado de las trayectorias de exploración de fijación temporal. Cuarto, se investigará la relación entre la atención abierta a partes faciales particulares (según se mide con el rastreo ocular) y las respuestas encubiertas del cerebro a estos rasgos faciales (según se mide con el EEG). Esta integración de medidas abiertas y encubiertas puede permitir determinar si los ojos se perciben como demasiado repugnantes, o si más bien son percibidos como menos relevantes por los individuos con TEA. En particular, se espera que los estímulos aversivos provoquen grandes respuestas neuronales, incluso si pueden ser desatendidos o evitados activamente, mientras que se espera que los estímulos menos relevantes estén menos fijados y provoquen respuestas marcadas con una frecuencia neuronal más baja.
Material y métodos
Reclutamos a 47 niños, de 8 a 12 años de edad. Este rango de edad fue elegido para capturar una gran ventana de desarrollo en edad escolar. Los datos de un participante se perdieron por problemas técnicos durante la grabación del EEG. Para emparejar los grupos sobre el coeficiente intelectual verbal y de desempeño (VIQ, PIQ), cuatro participantes (dos del grupo de TD y dos del grupo de TEA) fueron excluidos de los análisis reportados, resultando en una muestra de 21 niños con desarrollo típico (TD) (edad media = 10.2 años ± SD = 1.3) y 21 niños con TEA (edad media = 10.6 ± 1.3, Tabla 1). Sin embargo, la inclusión de estos cuatro participantes no modificó ninguno de los resultados reportados de los análisis. La muestra de este estudio es idéntica a la de los estudios anteriores [97, 98] donde se presentaron estímulos sociales y no sociales etiquetados con frecuencia. Todos los participantes tenían una visión normal o corregida a la normal y tenían un coeficiente intelectual verbal y de rendimiento superior a 80. Treinta y nueve participantes eran diestros. Los participantes con TEA fueron reclutados a través del Centro de Experiencia en Autismo de los Hospitales Universitarios de Lovaina, Bélgica. Los participantes con TDA fueron reclutados a través de escuelas primarias y clubes deportivos.
Tabla 1. Características de los participantes
(veáse en inglés en el siguiente enlace)
https://molecularautism.biomedcentral.com/articles/10.1186/s13229-020-00396-5/tables/1
Los criterios de exclusión de los participantes fueron la presencia o la sospecha de un trastorno psiquiátrico, neurológico, del aprendizaje o del desarrollo (distinto del TEA o del TDAH comórbido en los participantes con TEA, que fue el caso en 5 participantes) en el participante o en un pariente de primer o segundo grado. La exclusión de estos participantes con TDAH comórbido no alteró las conclusiones de ninguna manera. Los criterios de inclusión del grupo de TEA fueron un diagnóstico formal de TEA realizado por un equipo multidisciplinario de manera estandarizada según los criterios del DSM-IV-TR o del DSM-5 [2] y una puntuación total en la T superior a 60 en la Escala de Respuesta Social (versión para padres de la SRS [16]). Siete participantes con TEA tomaron medicamentos para reducir los síntomas relacionados con la TEA y/o el TDAH (Rilatine, Concerta, Aripiprazol). La muestra de TD comprendía voluntarios sanos, emparejados en edad, verbal y coeficiente intelectual de desempeño. Los padres de los niños con TD también completaron el cuestionario SRS para excluir la presencia de síntomas sustanciales de TEA. Las estadísticas descriptivas de ambos grupos se muestran en la Tabla 1, mostrando que no difirieron en cuanto a la edad y el coeficiente intelectual. Evidentemente, ambos grupos difirieron de manera muy significativa en las puntuaciones del SRS.
Procedimiento general
El Comité de Ética Médica del hospital universitario aprobó el estudio, y los participantes, así como sus padres, dieron su consentimiento informado de acuerdo con la Declaración de Helsinki. Todos los participantes recibieron una recompensa monetaria y un pequeño regalo de su elección. El experimento se enmarcó en un proyecto de investigación más amplio que consistió en tres sesiones de pruebas. Las habilidades intelectuales se evaluaron en una sesión separada. El actual experimento de etiquetado de frecuencia se incluyó en la tercera sesión.
Las medidas del coeficiente intelectual
Se administró una versión abreviada de la Escala de Inteligencia Wechsler para Niños de Holanda, Tercera Edición (WISC-III-NL; [49, 102]). El CI de rendimiento fue estimado por las subpruebas Diseño de Bloques y Terminación de Imágenes, el CI verbal por las subpruebas Vocabulario y Similitudes [83].
Estímulos
Se utilizaron doce fotos de rostros a todo color (estímulos de [52]). Los estímulos se dividieron en una parte superior e inferior de la cara cortando cada cara horizontalmente por la mitad (Fig. 1). Mostradas a una distancia de 60 cm y con una resolución de 1920 × 1200, cada cara subtendió un ángulo visual de aproximadamente 13° de altura y 6,5° de anchura. Todas las caras estaban alineadas en la nasion. Un contorno rectangular negro rodeaba toda la imagen de la cara.
Fig. 1

a Ilustración de una secuencia. El experimento total consistió en 4 secuencias de 60 s. En cada secuencia, la parte superior e inferior de las caras se presentaron a través de la modulación de contraste sinusoidal (0-100%). En el ejemplo ilustrado, la parte superior de las caras se presentó a 7,5 Hz, mientras que la parte inferior de las caras se presentó a 6 Hz. Se contrarrestaron las frecuencias (6 y 7,5 Hz). b Ilustración de las dos condiciones presentadas con sus respectivos espectros SNR, promediados entre todos los participantes de ambos grupos. En la primera condición (púrpura), la parte superior de la cara provoca una respuesta neuronal a 7,5 Hz y la parte inferior de la cara a 6 Hz. En la segunda condición (verde), la parte superior de la cara provoca una respuesta neuronal a 6 Hz y la parte inferior una respuesta neuronal a 7,5 Hz. Para simplificar, aquí sólo se muestran las frecuencias fundamentales. Para las respuestas neuronales en los armónicos, véase la Fig. 2. Se muestra la SNR para la región occipital de interés
Procedimiento
Después de la colocación de los electrodos, los participantes se sentaron en una silla cómoda a una distancia de visión de 60 cm y se les instruyó para que mantuvieran una distancia constante. Los estímulos se mostraban en la pantalla (monitor LCD retroiluminado por LED de 24 pulgadas) a través de la modulación de contraste sinusoidal sobre un fondo gris claro utilizando Java. Se utilizó una pantalla con una frecuencia de refresco de 60 Hz, asegurando que la frecuencia de refresco fuera un múltiplo entero de las frecuencias de presentación. Una secuencia duró 64 s, incluyendo 60 s de estimulación a pleno contraste, flanqueada por 2 s de fade-in y fade-out, con el contraste aumentando y disminuyendo gradualmente entre 0 y 100%. Los fade-in y fade-out se utilizaron para evitar los movimientos bruscos de los ojos y los parpadeos debido a la aparición o desaparición repentina de los estímulos parpadeantes. En total, había cuatro secuencias; por lo tanto, la duración total de la presentación de los estímulos era de unos 4 minutos. En dos secuencias se mostraron imágenes de rostros femeninos y en las otras dos se mostraron rostros masculinos. Se presentaron seis rostros diferentes a lo largo de una secuencia, cambiando la identidad de un rostro después de una ventana de presentación variable de 8 a 12 s.
La figura 1 ilustra una secuencia de estimulación, que consiste en la presentación simultánea de las mitades superior e inferior de un rostro. En cada secuencia, las mitades superior e inferior de los estímulos de la cara parpadeaban a diferentes frecuencias. Concretamente, las dos partes de la cara estaban moduladas por contraste sinusoidal, una a 6 Hz y la otra a 7,5 Hz. Se inició un ensayo con ambas partes de la cara, superior e inferior, con contraste cero (es decir, invisible). Las frecuencias de parpadeo se contrarrestaron a lo largo de los ensayos y se seleccionaron de manera que estuvieran cerca una de la otra y que no pudieran asociarse con grandes diferencias en la respuesta absoluta del EEG [9, 60, 73].
Se instruyó a los participantes para que miraran libremente las imágenes en la pantalla y para que pulsaran una tecla siempre que detectaran cambios breves (300 ms) en el color del contorno rectangular que rodea las imágenes de la cara entera. Estos cambios de color ocurrieron al azar, 15 veces por secuencia. Esta tarea era ortogonal al efecto/manipulación de interés y aseguraba que los participantes mantuvieran un nivel de atención constante durante todo el experimento.
Grabación del EEG
El EEG se grabó usando un sistema de amplificación BioSemi Active-Two con 64 electrodos de Ag/AgCl. Durante la grabación, el sistema utiliza dos electrodos adicionales para referencia y tierra (CMS, common mode sense, y DRL, driven right leg). Los movimientos horizontales y verticales de los ojos se registraron utilizando cuatro electrodos colocados en el canto exterior de los ojos y por encima y por debajo de la órbita derecha. El EEG se muestreó a 512 Hz.
Análisis del EEG
Preprocesamiento
Todo el procesamiento del EEG se realizó utilizando Letswave 6 (https://www.letswave.org/) y Matlab 2017 (The Mathworks). Los datos del EEG fueron segmentados en segmentos de 67-s (2 s antes y 5 s después de cada secuencia), filtrados por paso de banda (0,1-100 Hz) usando un filtro Butterworth de cuarto orden, y muestreados hacia abajo hasta 256 Hz. A continuación, se inspeccionaron visualmente los electrodos y se interpolaron linealmente los electrodos más ruidosos a partir de los 3 electrodos más cercanos espacialmente (no se interpoló más del 5% de los electrodos, es decir, 3 electrodos). Todos los segmentos de datos se volvieron a referenciar a una referencia media común. Mientras que en los estudios de marcado de frecuencias normalmente aplicamos la corrección del parpadeo (utilizando ICA) para cualquier participante que parpadee más de 2 desviaciones estándar por encima de la media (por ejemplo, [25, 92], [96]), en el presente estudio no realizamos ninguna corrección del parpadeo ya que ninguno de los participantes parpadeó excesivamente, es decir, más de dos desviaciones estándar por encima de la media en todos los participantes (0,36 veces por segundo). Obsérvese que el EEG con marcación de frecuencia produce respuestas con una alta TNS en intervalos de frecuencia específicos, mientras que los artefactos de parpadeo son de banda ancha y, por lo tanto, no interfieren generalmente con las respuestas a la frecuencia predefinida [73]. Por lo tanto, la corrección del parpadeo (o la eliminación de los ensayos con muchos parpadeos) no se realiza sistemáticamente en esos estudios (por ejemplo, [33, 78, 108]).
Análisis del dominio de la frecuencia
Los segmentos preprocesados se recortaron aún más para contener un número entero de ciclos de 1,5 Hz (es decir, el mayor divisor común de 6 y 7,5 Hz), comenzando después del desvanecimiento y hasta los 59,38 s (15.203 intervalos de tiempo). Los segmentos resultantes se promediaron por condición (es decir, segmentos con la misma combinación de categoría de estímulo y tasa de presentación) en el dominio del tiempo para preservar la fase compleja de la respuesta y reducir la actividad del EEG desfasada con la estimulación (es decir, el ruido). Las formas de onda promediadas se transformaron en el dominio de la frecuencia mediante una rápida transformación de Fourier (FFT), y el espectro de amplitud se calculó con una alta resolución espectral (0,017 Hz, 1/59,38 s), lo que dio lugar a una relación señal/ruido (SNR) muy alta [60, 73].
El EEG registrado contiene una señal a frecuencias que son múltiplos enteros (armónicos) de las frecuencias a las que se presentan las imágenes (6 Hz y 7,5 Hz) (por ejemplo, 6 Hz, 12 Hz, 18 Hz; 7,5 Hz, 15 Hz, 22,5 Hz, etc.). Utilizamos dos medidas para describir la respuesta en relación con el nivel de ruido: la relación señal-ruido (SNR) para visualizar mejor los datos (por ejemplo, [52]) y las amplitudes con corrección de base [75] para cuantificarla. Los espectros de la SNR se calcularon para cada electrodo dividiendo el valor de cada intervalo de frecuencias por el valor medio de los 20 intervalos de frecuencias vecinos (12 intervalos a cada lado, es decir, 24 intervalos, pero excluyendo los 2 intervalos directamente adyacentes y los 2 intervalos con los valores más extremos). Calculamos las amplitudes corregidas en la línea de base de una manera similar restando la amplitud media de los 20 bines vecinos. Para la visualización en grupo de los mapas topográficos (Fig. 3), calculamos los promedios de las amplitudes corregidas en la línea de base para cada condición y electrodo por separado.
Dado que la respuesta neuronal está típicamente distribuida en múltiples armónicos, y todas las frecuencias armónicas representan algún aspecto de la respuesta periódica, combinamos las amplitudes de respuesta a través de todos aquellos armónicos cuya amplitud de respuesta es significativamente más alta que la amplitud de los cubos de ruido circundantes (como se recomienda en Retter y Rossion [75]; ver también Rossion et al. [79]). Para definir los armónicos que estaban significativamente por encima del nivel de ruido, calculamos los espectros de puntaje Z en datos a nivel de grupo para cada frecuencia de estimulación [25, 41, 52, 80]. Promediamos los espectros de amplitud de la FFT a través de los electrodos en las regiones de interés (ROI) pertinentes sobre la base de los mapas topográficos y transformamos estos valores en Z-scores (es decir, la diferencia entre la amplitud en cada intervalo de frecuencias y la amplitud media de los 20 intervalos correspondientes, dividida por la DE de las amplitudes en estos 20 intervalos circundantes). Para 6 Hz, las puntuaciones Z eran significativas (es decir, Z > 2,32 o p < 0,01) hasta el quinto armónico (30 Hz), y para 7,5 Hz, las puntuaciones Z hasta el cuarto armónico (30 Hz) eran significativas. Excluimos el armónico compartido de 30 Hz y sumamos las amplitudes corregidas de base de los armónicos significativos para cada frecuencia y cada condición por separado. Por lo tanto, cuantificamos las respuestas neuronales de las partes superior e inferior a 6 Hz y a 7,5 Hz sumando las respuestas corregidas en la línea de base para los armónicos significativos: 6 Hz, 12 Hz, 18 y 24 Hz para la frecuencia de estimulación de 6 Hz; y 7,5 Hz, 15 Hz y 22,5 Hz para la frecuencia de estimulación de 7,5 Hz. Por lo tanto, se obtuvo un índice de saliencia neural por tipo de estímulo (es decir, parte superior frente a parte inferior) y por tasa de presentación.
Basándonos en la inspección visual de los mapas topográficos de ambos grupos (Fig. 3), identificamos una región de interés (ROI) en la que la señal era máxima y promediamos la señal en estos electrodos cercanos. El análisis de la respuesta a ambos tipos de estímulos se centró en una ROI occipital media que incluía Oz, Iz, O1 y O2 (Fig. 3).
Análisis estadístico
Analizamos las amplitudes corregidas en la línea base en el ROI en cada frecuencia de presentación para cada parte de la cara a nivel de grupo utilizando un modelo mixto lineal general bayesiano, basándonos en el paquete R (v 4.0.2, [18]) brms [11]. brms es un paquete de software que proporciona un cómodo frontal para STAN donde se ajustan los modelos bayesianos utilizando los métodos MCMC hamiltonianos [13]. En los modelos mixtos lineales generales bayesianos, hay que poner explícitamente distribuciones previas en los parámetros del modelo. Para los parámetros asociados a los efectos fijos, usamos una distribución normal previa con media 0 y desviación estándar 1. Para los parámetros de desviación estándar asociados a los efectos aleatorios, utilizamos una distribución seminormal previa con la media 0 y la desviación estándar 2. Para la desviación estándar residual, utilizamos una distribución seminormal previa con la media 0 y la desviación estándar 2. Utilizamos 4 cadenas de MCMC, cada una de las cuales incluía 8000 iteraciones, de las cuales 4000 se consideraron de calentamiento, lo que dio lugar a 16.000 muestras posteriores en las 4 cadenas. El algoritmo de muestreo fue NUTS (la variante No-U-Turn Sampler del Montecarlo Hamiltoniano). En comparación con los modelos de efectos mixtos de los frecuentadores, estas muestras anteriores actúan efectivamente como una forma de regularización que asegura que las estimaciones de los parámetros se mantengan dentro de límites razonables. Los datos se analizaron con un modelo mixto lineal general bayesiano utilizando las respuestas neuronales (es decir, las amplitudes sustraídas de la línea de base) como variables dependientes. La parte de la cara (superior vs. inferior) como un factor dentro de la materia y el grupo (ASD vs. TD) como un factor entre materias. Incluimos una intercepción aleatoria y una pendiente aleatoria para la parte de la cara por participante en el modelo. El modelo que ajustamos puede considerarse como un modelo "completo" (que incluye dos efectos principales y una interacción) que (en un marco ANOVA) se compararía con modelos "reducidos" para evaluar la presencia/ausencia de efectos principales y/o de interacción (mediante pruebas de proporción de probabilidad o comparando AIC/BIC). Como la comparación de los modelos bayesianos es una empresa compleja y no existe una aplicación sencilla para evaluar los efectos principales y de interacción, nos basamos aquí en las estimaciones de los parámetros del modelo completo para responder a nuestras preguntas de interés. Es decir, resumimos las distribuciones posteriores a través de varias comparaciones por pares, comparando, por ejemplo, si el tiempo de observación proporcional era mayor para la TD frente a la TEA (para el efecto principal del grupo), o si difería entre las partes de la cara superior e inferior (para el efecto principal de la parte de la cara), etc. De este modo, se evalúa la presencia de efectos principales y/o un efecto de interacción. Informamos de intervalos creíbles posteriores del 95% en estas comparaciones por pares para evaluar la presencia o la ausencia de un efecto.
Además, determinamos para cada participante si la respuesta a cada parte de la cara era significativamente mayor que el ruido circundante. El procedimiento fue el siguiente (por ejemplo, [25, 75, 96]): (1) se promedió el espectro de amplitud de la FFT bruta a través de los electrodos en el ROI, (2) se cortó en segmentos centrados en el bin de frecuencia objetivo y armónicos (es decir, 6, 12, 18 y 24 Hz o 7,5, 15, 22,5 Hz), rodeados por 20 bines vecinos a cada lado, (3) se sumaron los valores de amplitud a través de los segmentos de los espectros FFT, (4) el espectro FFT sumado se transformó en un z-score utilizando los 20 bines vecinos (ver arriba). Las respuestas de un participante determinado se consideraron significativas si la puntuación z en el binomio de frecuencia objetivo superaba 1,64 (es decir, p < 0,05 un-cola: señal > ruido).
Registro de seguimiento ocular
Los datos de seguimiento ocular se recogieron utilizando un rastreador ocular remoto basado en una pantalla Tobii X3-120 y el software Tobii Pro. La frecuencia de muestreo fue de 120 Hz. La precisión de la mirada binocular en condiciones ideales se estima en 0,24° de ángulo visual y la precisión de la mirada binocular en 0,4°. Sin embargo, para muchos experimentos estas condiciones ideales no se cumplen [59]. Con un rastreador ocular remoto, los participantes son libres de mover su cabeza dentro de la "caja de cabeza" que permite el rastreo ocular [59]. Debido a esta libertad de movimiento, así como al uso de poblaciones pediátricas y/o de pacientes, la precisión y la exactitud de los datos reales pueden diferir de los comercializados por los fabricantes. En el procedimiento de calibración estándar del Tobii X3-120, los participantes deben seguir un punto rojo que se desplaza por la pantalla, lo que produce un índice meramente cualitativo de la calidad de la calibración basada en la inspección visual. Para obtener una medida cuantitativa específica de la calidad de los datos de seguimiento ocular, se implementó un paradigma adicional de validación de la calibración, que precede al registro de los datos. En este procedimiento de calibración adicional, los participantes tenían que fijarse en el centro de nueve cruces de fijación consecutivos que aparecían en diferentes lugares de la pantalla. El cálculo del ángulo entre los vectores de la cruz de fijación mostrada frente al punto de mirada real produce un índice cuantitativo del ángulo de error (media y varianza) y la precisión resultante. Estos valores se utilizaron en el análisis para atribuir los puntos de mirada con mayor precisión a determinadas áreas de interés (AOI). En el caso de dos participantes (uno del grupo de TEA y otro del grupo de TD), no se registraron datos de seguimiento de la mirada debido a un fallo técnico.
Análisis de seguimiento ocular
En resumen, el análisis de seguimiento ocular implicó la asignación de fijaciones a áreas de interés predefinidas (AOI), el cálculo de los tiempos de búsqueda proporcional para cada una de las AOI, y la modelización de la dinámica de exploración de la cara temporal a lo largo de estas AOI.
Filtro de fijación, definición de áreas de interés (AOI), atribución de la mirada
Los datos de seguimiento ocular se analizaron mediante una serie de guiones MATLAB (Matlab 2019b, The Mathworks) hechos a medida (véase https://osf.io/mv45x/). Utilizamos el algoritmo I2MC (identificación por agrupación de 2 medios [37]), para filtrar los datos brutos de seguimiento ocular (es decir, eliminar el ruido aleatorio, interpolar los datos que faltan, identificar las fijaciones). En el presente estudio, los tres AOI (ojos, boca y nariz) se definieron utilizando el teselado de Voronoi de radio limitado (LRVT), ya que se ha demostrado que es el método más robusto en cuanto al ruido y más objetivo para definir los AOI para los estímulos faciales [36]. Además, definimos el área "fuera de los AOI" para que comprenda todos los puntos de fijación que no se asignaron a ninguno de los AOI.
Las fijaciones se atribuyen a los AOI mediante una ponderación de probabilidad, teniendo en cuenta la calidad de los datos específicos del sujeto, obtenida mediante el procedimiento adicional de validación de la calibración. Por cada punto de mirada, se atribuye una puntuación proporcional entre cero y uno a cada AOI (es decir, "ojos", "boca", "nariz" y "cara exterior"), de manera que la suma acumulativa de estas puntuaciones es igual a uno. El tamaño de esta puntuación indica la probabilidad de que el correspondiente AOI contenga efectivamente el punto de mirada registrado, teniendo en cuenta la calidad de los datos específicos del sujeto. La asignación de las puntuaciones proporcionales depende de una curva de campana bidimensional alrededor del punto de mirada con una desviación estándar igual al cuadrado medio de la raíz (RMS) registrada durante la validación de la calibración. Por consiguiente, la validación de la calibración determina la ponderación de la probabilidad de los AOI: una mejor calidad de los datos da lugar a puntos de muestra más concentrados alrededor del punto de mirada, y una calidad de datos más deficiente da lugar a puntos de muestra más dispersos. Dado que el algoritmo tiene en cuenta cada punto de mirada, así como la calidad de los datos, resulta ser un método fiable. Utilizamos el mismo método en [98]. Para cada AOI, se promedió la duración relativa de todos los puntos de fijación en los cuatro ensayos.
Análisis estadístico
Analizamos los datos de seguimiento ocular utilizando un modelo mixto lineal general bayesiano, basado en el paquete R brms [11]. De forma similar al análisis estadístico de los datos del EEG, utilizamos una distribución normal previa con una media 0 y una desviación estándar 1 para los parámetros asociados a los efectos fijos. Para los parámetros de desviación estándar asociados a los efectos aleatorios, utilizamos una distribución seminormal previa con la media 0 y la desviación estándar 2. Para la desviación estándar residual, utilizamos una distribución seminormal previa con la media 0 y la desviación estándar 2. Utilizamos 4 cadenas de MCMC, cada una de las cuales incluía 8000 iteraciones, de las cuales 4000 se consideraron de calentamiento, lo que dio lugar a 16.000 muestras posteriores en las 4 cadenas. El algoritmo de muestreo fue NUTS (la variante No-U-Turn Sampler del Montecarlo Hamiltoniano). El tiempo de observación proporcional se examinó con un modelo mixto lineal general bayesiano utilizando el área de interés (ojos, boca, nariz) como un factor dentro del sujeto, y el grupo (TEA vs. TD) como un factor entre sujetos. Incluimos una intercepción aleatoria y una pendiente aleatoria para la parte de la cara por participante en el modelo. Además, el enfoque del análisis fue idéntico al aplicado para los datos del EEG. Nos basamos en las estimaciones de los parámetros del modelo completo para responder a nuestras preguntas de interés. Resumimos las distribuciones posteriores mediante varias comparaciones por pares, comparando, por ejemplo, si el tiempo de observación proporcional era mayor para la TD frente al TEA (para el efecto principal del grupo), o si difería entre los ojos, la boca y la nariz (para el efecto principal del área de interés), etc. De esta manera, se evalúa la presencia de efectos principales y/o un efecto de interacción. Informamos de intervalos creíbles posteriores del 95% en estas comparaciones por pares para evaluar la presencia o la ausencia de un efecto.
Correlaciones entre el EEG, el seguimiento ocular y las Escalas de Respuesta Social
Para investigar la relación entre el EEG de marcado de frecuencia, las respuestas de seguimiento ocular y las Escalas de Respuesta Social, calculamos los coeficientes de correlación de rango de Spearman (paquete Corrplot en R [103]. Los valores de P fueron corregidos por FDR para múltiples comparaciones.
La dinámica de la exploración de la cara
Modelamos la dinámica temporal del comportamiento de la mirada usando los Modelos Observables de Markov (OMM), usando una implementación de pitón personalizada. Los OMM consisten en una matriz de transición T, donde el elemento Tij representa la probabilidad de encontrar un punto de fijación en AOI j en el tiempo t + 1, dado que el punto de fijación en t se encuentra dentro de AOI i. La propiedad Markov asume que esta probabilidad de transición es independiente de los estados anteriores. Para estimar los elementos de la matriz de transición T, contamos todas las transiciones de AOI i a AOI j para cada participante. En un paso de preprocesamiento, interpolamos los datos usando un ajuste de spline de segundo orden. Para cada participante, construimos una única matriz de transición.
Retuvimos los datos de fijación que estaban dentro de los cuatro AOI (ojo izquierdo, ojo derecho, nariz, boca) y eliminamos las fijaciones fuera de estos AOI construyendo un teselado Voronoi de radio limitado (con un radio máximo equivalente a 100 píxeles, véase el archivo adicional 1: Figura S1). Además, para eliminar los datos de los participantes que miran al borde de la imagen o fuera de ella, limitamos el conjunto de datos a los datos de fijación que caen dentro de la imagen de la cara, aplicando un margen de 50 píxeles desde el punto medio de la AOI (véase el corte vertical en Archivo adicional 1: Figura S1).
Para caracterizar completamente la dinámica de exploración de la cara, además de las probabilidades de transición del OMM, calculamos la duración media de la fijación, la amplitud sacádica media y la dispersión media intraparticipante [20]. La duración media de la fijación y la amplitud sacádica media se obtienen promediando las duraciones de fijación y las amplitudes sacádicas, respectivamente, que se dan en la salida de Tobii Pro, para los datos que caen dentro de los cuatro AOI. La dispersión intraparticipante se define como la distancia euclidiana media entre todos los datos de un ensayo.
La significación estadística de la diferencia en los patrones de exploración dinámica entre el grupo de TEA y TD se calcula utilizando una prueba de MANOVA en los elementos de la matriz de transición del OMM y las tres características adicionales de exploración facial. Eliminamos la última columna de la matriz de transición, ya que estos elementos inducen la multicolinealidad debido a la condición de normalización (cada fila suma a 1). Por lo tanto, construimos un vector de propiedad para cada participante que contiene las 12 entradas de la matriz de transición, la duración media de fijación, la amplitud sacádica media y la dispersión media intraparticipante. En consecuencia, cada uno de los vectores resultantes contenía 15 rasgos que caracterizaban el comportamiento dinámico de la mirada de un participante. A continuación, las 15 entradas se normalizaron de forma independiente del grupo (entre los participantes) en una distribución con una media 0 y una desviación estándar de 1, para eliminar cualquier dependencia de las escalas elegidas. Como resultado, los vectores de propiedad reales contenían los z-scores de las características respectivas. Por último, para tener en cuenta la fuerte correlación entre estas 12 características, llevamos a cabo un análisis de componentes principales (PCA) independiente del grupo, con un corte de la razón de varianza explicada de 0,98. Este último corresponde a la retención de 13 componentes principales, utilizando los valores por defecto del paquete scikit-learn (v 0.22.1, [65]), lo que resulta en la retención de 13 componentes principales ortogonales. Sobre la base del método del factor atípico local, se detectaron dos participantes (del grupo TEA) como valores atípicos y, por consiguiente, se eliminaron del análisis de comparación del grupo MANOVA.
Para el análisis de clasificación a nivel individual, optamos por un análisis discriminante lineal (LDA), aplicado a las 15 características de los datos. Elegimos LDA ya que el modelo es simple y da una estimación robusta incluso sin ajustar ningún hiperparámetro.
Resultados
No hay diferencia de grupo en el desempeño de las tareas ortogonales
No observamos diferencias de grupo en la tarea de detección de cambios de color en el comportamiento, lo que sugiere un nivel de atención similar a lo largo de los experimentos. Este resultado está en línea con estudios previos de marcado de frecuencia que comparan niños en edad escolar con TEA y niños con desarrollo típico [93, 96, 98]. Ambos grupos mostraron precisiones entre 95 (SD = 0,6%) y 97,7% (SD = 0,1%) con tiempos de respuesta medios entre 0,49 (SD = 0,008) y 0,46 (SD = 0,002) segundos, para TEA y TD, respectivamente. Los análisis estadísticos (pruebas t de dos caras) no mostraron diferencias significativas entre el grupo de TEA y el grupo de TD (precisión: t(38) = - 1,25, p = 0,11; tiempos de respuesta t(38) = 1,32, p = 0,097).
No hay reducción de la salinidad de los ojos o aumento de la salinidad de la boca en las respuestas neuronales en TEA
Observamos respuestas de EEG marcadas con frecuencia para las dos mitades de la cara en la región occipital media de interés (ROI) (véase la Fig. 2 para el SNR, la Fig. 3 para las distribuciones del cuero cabelludo y las amplitudes de respuesta promediadas y la Fig. 4 para las diferencias posteriores de los efectos). Los análisis a nivel individual indicaron que, a pesar del breve tiempo de registro, todos los participantes mostraron respuestas significativas en las mitades superior e inferior de la cara.
Fig. 2

Relación señal-ruido (SNR) Espectros EEG de las diferentes condiciones, promediados sobre los electrodos de la región occipital de interés (O1, O2, Iz, Oz). En a, la parte inferior de la cara se presentó a 6 Hz (círculos rellenos) y la parte superior a 7,5 Hz (círculos abiertos), mientras que en b la parte inferior de la cara se presentó a 7,5 Hz (círculos abiertos) y la parte superior a 6 Hz (círculos rellenos). Las frecuencias se contrarrestaron. Se pueden observar picos claros de SNR en las frecuencias de interés (y armónicos)
Fig. 3

a Distribución en el cuero cabelludo de la señal del EEG durante el marcado de frecuencias (amplitudes de la línea de base sustraídas en µV). Para cada grupo se muestran las respuestas neuronales marcadas en frecuencia a las partes de la cara que se presentan periódicamente, así como la respuesta diferencial para la parte de la cara "superior" menos la "inferior". El análisis de la respuesta a ambos tipos de estímulos se centró en una región occipital de interés (O1, O2, Iz, Oz), indicada con los círculos abiertos en la topografía de la parte superior del cuero cabelludo izquierdo. b Promedio de las amplitudes sustraídas de la línea de base para cada condición de estímulo (parte superior de la cara frente a la parte inferior de la cara) para cada grupo. La media, SEM y los datos de cada sujeto se muestran en negro y naranja para el grupo ASD y TD, respectivamente. En azul, los boxplots representan las medias y los rangos intercuantiales de las estimaciones posteriores del modelo bayesiano
Fig. 4
