¿Se puede utilizar la IA para descifrar el llanto de un bebé?

Accidentalmente pensé en un escenario: usar el aprendizaje automático para identificar con precisión la causa del llanto de un bebé. Es interesante cuando lo piensas. El autor no tiene experiencia ni base algorítmica en AIPM y espera utilizar la descripción vernácula como punto de partida. Todos son bienvenidos a discutir y hacer sugerencias.

El llanto es la principal forma que tienen los bebés de expresar emociones y buscar ayuda, y también es una señal saludable. Esto es como decirles a los padres: "¡Los necesito!". Si los padres pueden comprender las necesidades del bebé y resolverlas a tiempo, será muy beneficioso para el crecimiento y desarrollo del bebé.

¿Los padres jóvenes en la vida real necesitan ayuda para descifrar los llantos? Busqué en varias comunidades de padres y recorté algunas fotografías para que puedas ponerte en su lugar y experimentarlo por ti mismo.

Primero, una encuesta sencilla

1.1 Encuesta de usuario

Para obtener más información rápidamente y sacrificar la precisión, se realizó una ronda de cuatro preguntas de opción múltiple miniencuesta. El grupo objetivo son los padres que han cuidado a bebés de 0 a 6 meses y no existen requisitos estrictos para "mediados de los 6 meses". * * * Se recogieron 176 muestras de la siguiente manera:

a) Precisión de los padres al juzgar la causa del llanto

Todo correcto (22%): Estos padres tienen absoluta confianza y casi ninguna Necesito herramienta. A través de entrevistas, aprendí que hay dos razones principales por las que pueden emitir juicios precisos. Tener experiencia + tener un bebé te libera de preocupaciones. Deles una etiqueta llamada "Tener respuestas" que se utilizará más adelante.

La mayoría tiene razón (64,2%): la mayoría de los padres se encuentran en este estado, y se necesitan ciertas condiciones para impresionarlos. Una excelente experiencia de usuario es un requisito previo y también debe ayudarlos a mejorar la eficiencia y precisión del diagnóstico. Deles una etiqueta llamada "Encuentre siempre el tipo correcto".

Difícil de encontrar (13,5%): con tantos padres abrumados cuando su bebé llora, hay toneladas de oportunidades para explorar. Piénselo. China tiene una base de población tan grande, ¿es realmente pequeña la cifra del 13,5%? Su etiqueta dice "desconcertado".

b) ¿Cuáles son los motivos habituales para llorar?

Cobertura: El 95% de los casos han sido cubiertos por las nueve causas principales establecidas en la encuesta. Las seis causas principales son hambre, sed, pañales, abrazos, somnolencia, enfermedad y dolor. Otro 5% de los padres seleccionó otras razones, como estar asustado y presionado, lo que podría complementarse con encuestas progresivas.

Conciencia: Los motivos de llanto identificados por los padres pueden no coincidir con la situación real. Por ejemplo, sólo el 17% de los padres marcó la opción "movimiento instintivo". La investigación científica muestra que cualquier bebé ha llorado debido a "acciones instintivas", lo que es útil para el desarrollo físico y mental del bebé y también es esclarecedor para el desarrollo futuro del lenguaje. Las soluciones para "movimiento instintivo" y "pedir un abrazo a mamá" son similares pero no idénticas. Uno pidió una broma, el otro pidió un abrazo. Las características acústicas de ambos están llenas de ritmo, el primero es ruidoso y el segundo es pacífico. Se puede ver que ayudar a los padres a mejorar su conciencia parental también puede ser uno de los puntos potenciales de la decodificación de la IA.

c) Interés de los padres en la “APLICACIÓN Decrypt Crying”

La condición para esta pregunta es que la APLICACIÓN sea gratuita. Los comentarios de la muestra superaron por completo las expectativas: solo el 6%. de los padres dijeron que no lo usarán, el 53% de los padres están dispuestos a probarlo y el 41% de los padres dicen que definitivamente lo usarán.

Compara varios tipos de padres: no sólo "confundidos", sino también "confiados", "siempre buscando el tipo adecuado" y tienen un gran interés en esta tecnología. Sí, ¿la tecnología no ayuda a la gente a ser perezosa? ¿Por qué tomar curvas si puedes ahorrar algo de esfuerzo? "Gratis" aquí puede tener cierta letalidad, y las necesidades prácticas de los padres + la curiosidad por las nuevas tecnologías también juegan un papel poderoso.

Debido a las dimensiones limitadas de la investigación, la granularidad fina y el pequeño número de muestras, no se pueden extraer conclusiones más valiosas. Sin embargo, podemos ver ciertas necesidades y oportunidades y seguir buscando productos competitivos similares con este impulso.

1.2 Encuesta de producto competitivo

a) Categoría de sonido simulado

Conforta al bebé simulando los sonidos que escucha el feto en el cuerpo de la madre. La función principal de este tipo de productos es calmar el estado de ánimo, pero no puede solucionar los problemas de "enfermedad", "dolor", "incontinencia del pañal", etc. Trata los síntomas pero no la causa raíz.

b) Traductor de idiomas para bebés

Equipos de Estados Unidos, China, la provincia de Taiwán, España y Japón han realizado investigaciones relevantes. El programa puede analizar el llanto para dar motivos de dolor de estómago, dermatitis del pañal, somnolencia, etc.

Cada equipo afirma poder cubrir más del 95% de las razones por las que los bebés lloran, con una tasa de precisión tres veces mayor que la de los humanos, pero las razones encontradas por cada equipo son inconsistentes. Actualmente, este producto no se vende en China continental y no existe una aplicación para ello. Hay dispositivos separados. Si está interesado, puede buscar "Analizador de llanto de bebé Becolay". Este tipo de producto ya es el predecesor del debate sobre la IA y hay margen de mejora en cuanto a precisión, facilidad de uso y comerciabilidad.

Inteligencia artificial

En 2016, la empresa japonesa First-Ascent afirmó haber lanzado una tecnología basada en inteligencia artificial que puede analizar las causas del llanto de los bebés y planea utilizar esta tecnología para Únase a la APLICACIÓN. No vi esta noticia hasta el 90% del tiempo que estuve escribiendo este artículo. Cuando continué buscando, descubrí que no tenía datos experimentales, ni productos disponibles ni localización.

Lo que es aún más interesante es que a muchos productos de la competencia se les ocurrieron ideas para soluciones tecnológicas porque al padre de Cheng le resultaba difícil cuidar al bebé. Analicémoslo brevemente desde los aspectos de racionalidad científica, posicionamiento de herramientas, reconocimiento de voz, preparación de datos y modelos de aprendizaje.

2. Racionalidad científica

Deje de lado la interferencia de productos competidores y considere: ¿Es confiable la correlación entre las características del llanto y las causas del llanto? Si realmente existe una correlación entre ellos, ¿significa que no importa cuán compleja sea la lógica del mapeo, es posible que utilicemos el aprendizaje automático para ajustar un modelo predictivo?

2.1 Experiencia y sentido común

Babytree y otras comunidades de padres enumeran una gran cantidad de ejemplos de escucha de sonidos para solucionar el llanto. La experiencia de Baidu enumera en detalle las características y motivos de 15 tipos. de llanto y soluciones. El experimentado Yue Yue puede deshacerse rápidamente del bebé llorando, lo que demuestra que probablemente sea posible juzgar por las características del sonido.

2.2 Investigación profesional

Existen muchos estudios sobre el significado del llanto de un bebé en el ámbito académico, y los más avanzados incluso afirman poder diagnosticar si los bebés tienen autismo, daño cerebral, enfermedades neurológicas, y Enfermedades asociadas al parto prematuro. Creo que esta dirección sigue siendo muy prometedora y digna de un estudio en profundidad. Si está interesado, puede buscar varios enlaces relacionados:

El instrumento de diagnóstico del llanto de bebés estadounidense puede detectar enfermedades neurológicas.

El llanto del bebé representa cinco emociones

El llanto del bebé esconde pistas de enfermedades

Analizador del llanto, detección temprana de trastornos del desarrollo infantil

2.3 Integral juicio

El llanto no es la única señal para clasificar la causa de la enfermedad. Primero podemos utilizar las características del sonido como pista principal para predecir una onda y luego utilizar otros métodos para ayudarnos a juzgar. Depender de la IA para resolver el 100% de los problemas no es muy exigente. Siempre que se pueda resolver parte del problema y se mejore la eficiencia de la solución, se podrá ejercer el valor de la aplicación.

Esto es similar al principio de medición de la frecuencia cardíaca con luz verde de una pulsera inteligente. La precisión del método fotoeléctrico no es tan buena como la del método de señal electrocardiográfica (grado médico) y es difícil predecir enfermedades cardiovasculares y cerebrovasculares únicamente mediante la frecuencia cardíaca. Pero las ventajas naturales de la pulsera son su facilidad de uso + monitoreo en tiempo real + recordatorios activos. Si los usuarios hacen juicios integrales basados ​​en la experiencia, la presión arterial y otros indicadores, es posible mejorar los hábitos de vida y predecir riesgos. Estos productos se ajustan al concepto de prevención y tratamiento tempranos y, a menudo, reciben buena respuesta del mercado.

De acuerdo con la idea integral, se ha compilado la siguiente tabla. El modelo de entrenamiento sirve para predecir las "razones del llanto" destacadas.

Según la información consultada, la clasificación de las nueve causas del llanto que aparecen en la imagen puede no ser exacta, pero al menos los humanos podemos percibir diferencias sutiles.

La imagen de arriba describe un escenario de simulación: los padres primero bloquean el alcance de la causa a través de la aplicación, luego observan al bebé y hacen un juicio de acuerdo con las indicaciones de la aplicación. Para casos especiales como la otitis media, los padres han realizado la operación una vez y básicamente recuerdan el método de identificación. Esto me lleva a mi posicionamiento de la herramienta: a través de un juicio correcto y consejos efectivos, ayuda a los padres a dominar las habilidades de lectura y escritura de su bebé lo antes posible, no es pegajoso y se puede dejar después de escribir.

3. Posicionamiento de herramientas

3.1 Gadgets

"Decryption Cry" aún no ha llegado a la etapa de diseño del producto y se parece más a una herramienta auxiliar que a un producto. . En la actualidad, las principales aplicaciones para padres están bastante maduras y ofrecen una gran cantidad de contenidos y servicios, pero algunos servicios rara vez se utilizan. Si además se integra "decodificar el llanto" no será demasiado difícil y puede ser la guinda del pastel. Por ejemplo, estas son buenas entradas. La frecuencia de llanto de los bebés es mucho mayor que la de las vacunas y los nombres, ¿verdad?

3.2 Grupo objetivo

Los padres sin experiencia serán útiles cuando los bebés de 0 a 6 meses lloran durante mucho tiempo.

Después de 6 meses, el bebé se adapta al entorno que lo rodea y las predicciones del modelo gradualmente dejan de ser válidas. En este momento, los padres han acumulado suficiente experiencia. Occidente anima a los padres a comunicarse más con sus bebés y a aprender a leer la mente, lo que se parece más a la metafísica. La capacidad de “leer” es el vínculo entre padres e hijos y afectará la comunicación emocional entre ambas partes a lo largo de sus vidas. Por lo tanto, no se anima a los padres a depender de herramientas, pero también se les debe ayudar a dominar las habilidades de lectura y escritura de sus bebés.

3.3 Escalabilidad

Aunque la herramienta es pequeña, todavía tiene un poco de margen para la imaginación. Por ejemplo, cree un archivo de llanto para su bebé y registre cada "llanto + motivo + solución". Cuando su bebé crezca y vea su registro de crecimiento, comprenderá que no es fácil para los padres levantarlo.

3.4 Formulario de producto

Se entrevistó a varios padres que dijeron que no querían usarlo y les preguntaron por qué no querían usar dicha aplicación.

Un padre expresó que no tenía tiempo y quería entender a su bebé comunicándole sus sentimientos. Otro padre dijo que no se le ocurría utilizar una aplicación. Su bebé estaba muy avergonzado y hacía mucho tiempo que no lloraba. Se trata de conceptos, hábitos y diferencias individuales de los usuarios, que realmente no se pueden explicar claramente en pocas palabras.

Aquí pondré sólo un ejemplo: la cámara inteligente Xiaoyi de Xiaomi ya puede monitorizar el llanto del bebé, recordando a los padres que si se añade la función de analizar la causa y dar sugerencias, no será brusco, pero sí Muy fácil de usar y preciso. En resumen, la forma del producto no se limita a la aplicación. Siempre que la lógica interna sea científica y razonable, debe haber algunas soluciones interactivas que los usuarios puedan aceptar.

4. Reconocimiento de voz

Teniendo en cuenta el coste y otros factores, insertar dispositivos en la aplicación es muy adecuado para la creación rápida de prototipos y la prueba y error. Se trata de reconocimiento de voz de campo cercano, con una alta relación señal-ruido, pero todavía hay ruido en el entorno. El proceso de reconocimiento se divide a grandes rasgos en los siguientes pasos:

4.1 Reducción de ruido

Realizar un procesamiento de reducción de ruido en las señales de ondas sonoras recopiladas para eliminar ruidos como las conversaciones de los padres, las colisiones de objetos, flujo de aire, etc Actualmente, ya existen en el mercado productos que monitorean con éxito el llanto de los bebés, como cámaras inteligentes y aplicaciones integradas en los teléfonos móviles Samsung S5. , y el proceso de identificación no será difícil. También hay algunas patentes relacionadas como referencia y busqué mucho en línea.

4.2 Filtrado

Para distinguir las señales del bebé objetivo de las de otros bebés, es necesario recopilar los datos del bebé objetivo y crear un modelo de aprendizaje independiente.

4.4 Funciones

La extracción de funciones acústicas de las señales para el aprendizaje automático queda en manos del equipo del algoritmo mágico.

5. Preparación de datos

5.1 Configuración de instancia

Cada ejemplo consta de dos partes: sonido de llanto + reconocimiento de resultados. El reconocimiento de resultados del aprendizaje supervisado es un conjunto cerrado y los datos de entrenamiento son similares a la figura siguiente.

5.2 Estándar de muestra

Señal de sonido: La intensidad del sonido grabado es superior a 40 decibeles y la duración es de 10-15 segundos. El sonido grabado sólo contiene el llanto de 1 bebé.

Identificación del resultado: Luego de escuchar el llanto, los padres toman medidas y el cobrador infiere la causa del llanto en base a las acciones efectivas y la registra.

Acción efectiva: Después de que los padres toman medidas, el bebé deja de llorar en 1 minuto. O se ha descubierto el motivo del llanto y necesita un tiempo para resolverse (por ejemplo, si la enfermedad no se puede curar rápidamente, el médico puede emitir un certificado de diagnóstico).

Edad del bebé: 0-6 meses

5.3 Recolección de muestras

Área de recolección: áreas con gran densidad de bebés, es decir, hospitales pediátricos, hospitales de salud maternoinfantil y centros de internamiento, hogares de asistencia social para niños, etc.

Coleccionistas: intentad ser lo más profesionales posibles. Si se registra una identificación incorrecta en el sitio, será muy difícil corregirla más adelante.

Considere la experiencia: el proceso de recolección es humano, no induce al bebé a llorar y no afecta la vida normal de la familia y del bebé.

Otras referencias: un equipo de la provincia de Taiwán afirma haber recolectado con éxito más de 6,5438 millones de muestras similares. Pueden aprender de métodos similares o cooperar.

6. Modelo de aprendizaje

Debemos predecir con precisión la clasificación en el conjunto de objetivos y utilizar el aprendizaje supervisado. No hablaré aquí sobre el modo de entrenamiento ni los indicadores de evaluación, solo haré dos preguntas simples:

6.1 ¿Debería el modelo generar “el motivo del llanto” o “la solución”?

Según el pensamiento común, utilizar el plan A, pero mi intuición me dice que el plan B puede ser factible. La idea de B es predecir primero la solución a los nuevos datos y luego inferir la causa del llanto en función de las acciones esperadas.

En realidad, "clamar" y "resolver" son una relación causal compuesta de muchos a muchos.

Si utiliza directamente llanto + soluciones efectivas que se ajusten al modelo, el efecto final puede ser el mismo o incluso mejor.

PD: Independientemente de A o B, es solo una cuestión de diseño del modelo y la experiencia del usuario final es la misma.

6.2 Modelo personalizado

El conjunto de entrenamiento es diferente de los datos reales. Puede haber muchos bebés llorando al mismo tiempo, por lo que es necesario crear un modelo personalizado para cada bebé. Cada modificación principal entrena el modelo para ayudar a mejorar el efecto de predicción.

Lo anterior es el contenido principal de este artículo, descartando la posibilidad de un escenario. Se pueden derivar muchos escenarios similares. La investigación científica futura sobre el sonido no se limitará a los bebés; puede haber avances para las mascotas y la vida silvestre. Quizás algún día podamos comunicarnos con animales más inteligentes, como orangutanes, delfines y elefantes, a través de traductores de inteligencia artificial.

Escrito al final

El autor mencionó esta idea a muchas personas y agradece a sus amigos por su apoyo y sugerencias. Dudé antes de escribir porque el autor no cuidó bien al bebé y no pudo experimentar el sentimiento personalmente. Más tarde, el responsable de la base de productos de IA @黄赵 me animó a intentar escribir una historia corta, así que decidí intentarlo.

Esto también me llevó a pensar repetidamente en una pregunta: ¿Cómo puede un PM sin experiencia profesional y sin experiencia en IA encontrar una salida? Antes que nada, atrévete a pensar, ¡este es el primer paso!

¡Buscando necesidades, buscando escenarios y buscando oportunidades! Simule escenarios para investigar, encontrar problemas y encontrar soluciones, en lugar de recurrir a los ingenieros para descubrir algoritmos. Cuando nos subamos a bordo y aprendamos a comprender el algoritmo en el combate real, obtendremos el doble de resultado con la mitad de esfuerzo.

Esta es una era que requiere imaginación. El uso de la IA puede ser capaz de resolver problemas que nunca se han resuelto en el pasado. En la era anterior a la aparición del big data, nadie hubiera pensado que existe un secreto sorprendente entre la cerveza y los pañales.

Hay demasiadas escenas por descubrir. No es la pobreza lo que limita nuestra imaginación, sino el coraje.

Una visión extraordinaria del mundo significa que los peligros a menudo están lejos y son difíciles de alcanzar, pero donde hay voluntad, hay un camino. Debe haber una solución para cada problema, y ​​nuestro trabajo es encontrarla, ¡sin importar cuán escasas sean las probabilidades!