Según las restricciones del usuario, los chips de reconocimiento de voz se pueden dividir en chips de reconocimiento de voz de personas específicas y chips de reconocimiento de voz de personas no específicas. El reconocimiento de voz no específico es una tecnología de reconocimiento que no se dirige a personas específicas, independientemente de su edad o género, siempre que hablen el mismo idioma. El modelo de aplicación consiste en recopilar unas 200 personas según la docena de entradas de interacción de voz determinadas. antes de finalizar el producto, las muestras de sonido se procesan mediante algoritmos de PC para obtener el modelo de voz y la base de datos de características de los términos interactivos y luego se graban en el chip. Las máquinas (muñecas inteligentes, mascotas electrónicas, ordenadores para niños) que utilicen este chip tendrán funciones interactivas.
Algunas aplicaciones de reconocimiento de voz no específicas de personas son algoritmos basados en fonemas. En este modo, el reconocimiento interactivo se puede realizar sin recopilar muestras de voz de muchas personas. Sin embargo, la desventaja es que la tasa de reconocimiento no es alta. y el rendimiento del reconocimiento es inestable.
Según la continuidad de los métodos de habla, los chips de reconocimiento de voz se pueden dividir en reconocimiento de voz discontinuo y reconocimiento de voz continuo. El reconocimiento de voz continuo puede realizar un reconocimiento de voz humanizado de una manera generalmente natural y fluida, pero debido al problema de los sonidos conectados, es difícil lograr buenos resultados de reconocimiento.