1. Dificultades en la recopilación y procesamiento de datos: El estudio de datos multimodales involucra una variedad de datos multimedia, como texto, imágenes, audio, video, etc. Cada dato tiene sus propias características y el procesamiento. Los métodos también son muy complejos.
2. Dificultad en el diseño y entrenamiento de modelos: es muy difícil diseñar modelos y algoritmos correspondientes para estudiar el procesamiento de datos multimodales, como modelos de aprendizaje profundo, algoritmos de extracción de características, algoritmos de fusión, etc. .