El problema dual de la máquina de vectores de soporte es intercambiar la minimización y maximización del problema original para obtener un nuevo problema de optimización. La solución al problema original se puede encontrar resolviendo el problema dual y la función del núcleo. Se introduce Hacer que el algoritmo sea más flexible y eficiente.
Desde un punto de vista matemático, el problema dual consiste en intercambiar la minimización y maximización del problema original para obtener un nuevo problema de optimización. Específicamente, el problema original de la máquina de vectores de soporte es encontrar un hiperplano óptimo para maximizar el margen.
Eso es minimizar ∣∣w∣∣2||w||^2∣∣w∣∣2. Al aplicar el método del multiplicador de Lagrange al problema original, podemos obtener el problema dual. es decir, el valor de la función lagrangiana se maximiza cumpliendo las restricciones. La solución al problema dual puede ayudarnos a encontrar la solución al problema original, porque los dos son equivalentes bajo ciertas condiciones.
Desde una perspectiva algorítmica, la introducción de problemas duales puede aportar muchos beneficios. Primero, el problema dual puede transformar el problema de clasificación no lineal del problema original en un problema de clasificación lineal, que puede resolverse mediante clasificación lineal.
Los problemas duales pueden introducir funciones del kernel para hacer que el algoritmo sea más flexible y eficiente. Las funciones del kernel pueden transformar problemas no lineales en un espacio de baja dimensión en problemas lineales en un espacio de alta dimensión, resolviendo así mejor los problemas de clasificación.
La solución al problema dual es escasa, es decir, el multiplicador de Lagrange de solo unos pocos puntos de muestra no es cero y estos puntos son vectores de soporte. Esta característica puede reducir la complejidad del modelo y mejorar la capacidad de generalización del modelo.
Principios básicos de la máquina de vectores de soporte (SVM):
1. La máquina de vectores de soporte es un algoritmo de aprendizaje automático basado en la teoría del aprendizaje estadístico. Su modelo básico se define como el intervalo máximo en. el espacio de características. La separación máxima lo diferencia del perceptrón.
El hiperplano aprendido por el perceptrón divide correctamente todos los puntos de muestra y el intervalo máximo lo diferencia de otros clasificadores lineales como la regresión logística. El hiperplano aprendido por la regresión logística es lo más preciso posible. los puntos se mantienen alejados del hiperplano.
2. La estrategia de aprendizaje de la máquina de vectores de soporte es resolver el problema de optimización que maximiza el intervalo, obteniendo así un hiperplano de segmentación. El hiperplano divisor obtenido se puede expresar como w?x b=0w\cdot x b=0w?x b=0.
Donde www y bbb son parámetros del modelo. El hiperplano de segmentación divide el espacio de características en dos partes, una es la clase positiva y la otra es la clase negativa. El vector normal www es perpendicular al hiperplano de división.
3. Las máquinas de vectores de soporte también incluyen técnicas de kernel. Cuando el espacio de entrada es un espacio euclidiano o un conjunto discreto y el espacio de características es un espacio de Hilbert, la función central representa el producto interno entre los vectores de características obtenidos al mapear la entrada del espacio de entrada al espacio de características.
Las máquinas de vectores de soporte no lineales se pueden aprender mediante el uso de funciones del núcleo, lo que equivale a aprender implícitamente máquinas de vectores de soporte lineales en un espacio de características de alta dimensión. Estas técnicas se denominan técnicas básicas.