Nuevo avance en el reconocimiento de voz: la IA de Microsoft supera a los expertos humanos.

Transcribir conversaciones humanas a texto siempre ha sido una pesadilla para las máquinas. Incluso si el archivo de voz es de alta calidad y está libre de ruido de fondo, el algoritmo sigue intentando distinguir entre diferentes voces, interrupciones, vacilaciones, correcciones y diferencias sutiles en conversaciones largas.

Un nuevo artículo de Microsoft Research afirma que su tecnología de transcripción de voz ya supera a los transcriptores de conversaciones humanas, incluso si su texto ha sido revisado por otra persona. El equipo de investigación no atribuye este logro a avances en algoritmos o datos, sino a ajustes en la arquitectura de IA existente.

Para probar si su algoritmo podía competir con los humanos, los investigadores primero tuvieron que determinar una línea de base. Microsoft encontró un tercero que confirmó que el 100% del audio se transcribió correctamente. La prueba se divide en dos fases: una persona dicta el audio y la segunda persona escucha el audio y corrige los errores de transcripción. Tras comparar el texto correcto, las tasas de error de los profesionales fueron de 5,9 y 11,3 respectivamente.

Después de aprender 2.000 horas de habla humana, el sistema de Microsoft también dictó el mismo audio, con tasas de error de 5,9 y 11,1 respectivamente. La diferencia de 0,2 es 12 errores menos.

El próximo desafío de Microsoft es hacer que este nivel de reconocimiento de voz funcione en entornos más ruidosos, como en automóviles o en fiestas. La vista es extremadamente importante para Microsoft y va mucho más allá de la propia transcripción.

Esta investigación es un paso importante para que Microsoft haga que las conversaciones entre humanos y máquinas sean más fluidas y sencillas. Si una computadora no puede entender los dibujos de una persona, le resultará más difícil completar instrucciones o responder preguntas. Ésta es la base de otros avances de Microsoft. A principios de este año, el director ejecutivo de Microsoft, Satya? Nadella dijo que la inteligencia artificial es el futuro de la empresa y las capacidades de conversación son su piedra angular.

A pesar de su éxito, todavía existe una gran diferencia entre el sistema de inteligencia artificial y los transcriptores humanos: no puede comprender cambios sutiles en la conversación, como "um". Cuando aparece "Ajá", suele ser cuando una persona está pensando en una conversación o le pide a la otra persona que continúe hablando, como "Ajá". Los transcriptores humanos expertos pueden notar si se trata de una vacilación o una certeza, pero las máquinas pasan por alto estas pequeñas pistas. No entendieron el significado y no sabían por qué emitieron ese sonido.

Texto: Uncle Xu/Omelette.com

Acerca de Omelette: Pollo Push para personas mayores. Sitio web jandancom, cuenta oficial de WeChat: Omelette (ID de cuenta oficial de WeChat: jandancom, sin mí)

上篇: Haga una pregunta sobre la revisión del periódico. 下篇: ¿Cuáles son las figuras axialmente simétricas?