Científicos de la Universidad de California en San Francisco han entrenado un algoritmo que puede traducir directamente las ondas cerebrales de un sujeto en oraciones en tiempo real, con una tasa de error de solo el 3%.
Este estudio fue publicado en la revista Nature Neuroscience. Reclutaron a 4 voluntarios. A estos voluntarios se les pidió que leyeran entre 30 y 50 oraciones fijas varias veces, mientras los electrodos registraban su actividad cerebral. [1]
Estos datos luego se introducen en un algoritmo de aprendizaje automático, que convierte los datos de actividad cerebral para cada oración en una cadena de números y cadenas.
Luego, el sistema deriva sonidos a partir de estos datos de actividad cerebral y los compara con el audio grabado real. Los números y las cadenas se devuelven al sistema y se convierten en una secuencia de palabras.
Al principio, el sistema escupe frases sin sentido. Pero el sistema mejoró cuando comparó cada secuencia de palabras con oraciones habladas reales, aprendiendo cómo las cadenas de números se relacionaban con las palabras y qué palabras eran relevantes en el contexto.
El algoritmo se entrena continuamente hasta que produce texto escrito a partir de la actividad cerebral mientras se habla, similar a la traducción automática.
El nuevo sistema es mucho más preciso que los métodos anteriores. Si bien la precisión varió de persona a persona, para uno de los voluntarios, en promedio solo el 3% de cada oración requirió corrección, una tasa superior al 5% de error de palabras de los taquígrafos.
Por supuesto, el sistema actual todavía tiene grandes limitaciones y el algoritmo solo puede manejar una pequeña cantidad de oraciones. El sistema tampoco se puede utilizar en pacientes con discapacidades graves que han perdido la capacidad de hablar, porque se basa en registrar la actividad cerebral de las personas que pronuncian frases en voz alta.
Sin embargo, cada voluntario tardó menos de 40 minutos en entrenarse, logrando la mayor precisión aún con conjuntos de datos pequeños y limitados.
Interfaz cerebro-computadora
Establecer una ruta de conexión desde señales similares al cerebro hasta dispositivos externos no es nuevo, y la investigación sobre interfaces cerebro-computadora ha continuado durante 30 años.
En los últimos diez años hemos podido decodificar señales del habla, pero nos hemos limitado a fonemas aislados o palabras monosilábicas. En el caso de un discurso continuo de 100 palabras, menos del 40% de ellas. las palabras se pueden decodificar correctamente.
Lo que los científicos han encontrado esta vez es un método más directo, que consiste en utilizar un algoritmo similar a la traducción automática. La traducción automática es la traducción algorítmica de texto de un idioma a otro, excepto que esta vez el texto de entrada se convierte en señales de ondas cerebrales. El artículo publicado esta vez, "Uso del marco codificador-decodificador: traducción automática de la actividad cortical cerebral a texto", describe este proceso en detalle.
Después de que el sistema se entrenó con un voluntario, los resultados de decodificación mejoraron cuando se entrenó con otro voluntario, lo que indica que la tecnología se puede transferir entre personas.
En GitHub se coloca el código correspondiente al artículo.
Módulo ecog2txt para decodificar voz en texto a partir de datos neuronales. Implementa funciones avanzadas de aprendizaje por transferencia entre temas utilizando código Python. [2]
La capacitación en sí se realiza a través de otro paquete de software de aprendizaje automático, que implementa una red de secuencia a secuencia en TensorFlow. [3]
El autor de estos paquetes y coautor del artículo es el Dr. Joseph Makin, quien actualmente es científico investigador en el Centro de Neurociencia Integrativa de la Universidad de California, San Francisco. Se especializó en ingeniería eléctrica e informática, especializándose en teoría de control, incluido el desarrollo de algoritmos para interfaces cerebro-computadora. [4]
Otro coautor del artículo es el Dr. Edward Chang, médico y neurocirujano que se especializa en el tratamiento de pacientes con epilepsia, tumores cerebrales, neuralgia del trigémino, espasmo hemifacial y tratamiento proporcionado a adultos con trastornos del movimiento. Actualmente es profesor de neurocirugía en el Instituto de Neurociencia Weill de la UCSF, donde también dirige un centro de neuroingeniería y prótesis para restaurar la función en pacientes con afecciones neurológicas como parálisis y problemas del habla.