Optimización bayesiana

Optimización bayesiana

Primero, ¿qué puede hacer la optimización bayesiana? Me da la sensación de que puedo hacer cualquier cosa, aunque algunos de sus efectos puedan no ser satisfactorios. La optimización bayesiana puede realizar regresión (aunque siempre siento que esto es solo un accesorio), pero resuelve principalmente un "problema de optimización".

La optimización bayesiana resuelve los siguientes tipos de problemas:

Nota: No existe una diferencia real al usar "argmin". De hecho, "argmin" se utiliza en [1].

A menudo no lo sabemos, por lo que es difícil resolver este tipo de problemas con el clásico ascenso de gradiente ("argmin" significa descenso de gradiente). La optimización bayesiana se maneja mediante modelos sustitutos probabilísticos. Es la toma de decisiones, lo que a menudo se denomina espacio de toma de decisiones. La fórmula del fármaco es una decisión, y el tamaño del núcleo de convolución de la red neuronal también puede considerarse una decisión. Además, suele ser difícil conocer la relación entre esta decisión y el resultado final. Éste es también el punto fuerte de la optimización bayesiana.

Las dos imágenes de arriba son de [2] y [1] respectivamente. Debido a diferencias en algunos símbolos, se utilizan los símbolos en [2].

En la optimización bayesiana, en cada iteración, primero se maximiza la función establecida bajo el "prior" del modelo de agente (esta función es a menudo una compensación entre la distribución de puntos de evaluación y la generalización). Se introducen nuevos puntos de evaluación en el sistema como entradas y se obtienen nuevas salidas para actualizar el modelo sustituto probabilístico.

En...

La figura anterior es una demostración simple de la optimización bayesiana. La línea discontinua negra representa la función objetivo y la línea continua negra representa nuestra curva ajustada (obtenida por el modelo sustituto probabilístico en el gráfico promedio). El área azul-violeta es. La curva verde a continuación representa cada iteración. Se puede observar que el punto de evaluación seleccionado en cada iteración corresponde al valor máximo.

A continuación, analizaremos los modelos sustitutos probabilísticos y las funciones de adquisición por separado.

El modelo probabilístico de agentes, como su nombre indica, es un modelo probabilístico para agentes.

El modelo paramétrico se puede determinar mediante parámetros. Si damos una distribución previa. Luego, mediante la fórmula de Bayes, podemos obtener la distribución posterior:

El problema ahora es que no sabemos y ah. es una distribución de probabilidad que normalmente tenemos que conocer. En cuanto a él, es más difícil de calcular, pero aquí solo juega el papel de un coeficiente, por lo que se puede resolver utilizando el método del kernel. De hecho, a menudo elegimos la distribución previa del *yugo como distribución previa.

Aquí hay un ejemplo: hay k tipos de drogas en el laboratorio, y necesitamos descubrir qué droga tiene el mejor efecto a través de experimentos con drogas. Suponiendo que un fármaco sólo puede curar o hacer fracasar con éxito a un paciente, el efecto de un fármaco no puede utilizarse para juzgar la eficacia de otro. Este tipo de pregunta parece denominarse prueba A/B y se utiliza a menudo para recomendar noticias.

Lo usamos para representar fármacos, la probabilidad de que el primer fármaco cure con éxito al paciente y el estado del tratamiento del paciente (0 fracaso, 1 curación). Una función es un mapeo complejo. Dejemos los parámetros. Entonces el modelo sustituto probabilístico que elegimos es.

Elegimos esta distribución como distribución previa porque es la distribución previa de su yugo.

Definición:

Indica el número de medicamentos seleccionados y tratamientos fallidos en la evaluación secundaria y viceversa. Sólo si es 1, en caso contrario es 0.

Entonces, la probabilidad posterior de es:

Consulte el apéndice para obtener la derivación anterior.

De lo anterior también podemos encontrar el número de curas y fallas representadas por los hiperparámetros. La siguiente figura es un ejemplo de a priori.

Thompson Sampling-Wiki

Entonces, en base a ello, ¿qué pasa si se encuentra? El muestreo de Thompson (o muestreo posterior) se utiliza de la siguiente manera:

, es decir, muestreo de la distribución posterior.

Los beneficios de este modelo son:

El siguiente es el algoritmo para este modelo:

El modelo anterior se ampliará cuando se trate de tipos combinados. Por ejemplo, buscamos una combinación de cada elemento. Cada elemento tiene dos estados, por lo que siempre hay una combinación. Evidentemente no es realista establecer uno para cada combinación.

Es más, el supuesto del modelo anterior (que la eficacia de una combinación no puede inferirse de otra) parece insostenible. Porque las diferentes combinaciones suelen tener correlaciones sutiles.

Usar un modelo lineal puede resolver bien este problema.

Establecimos cada política como y el modelo de agente probabilístico es, que ahora es un vector de ponderación. Esto es sólo una parte del modelo de agencia ya que no refleja la parte "probabilística".

Los valores observados combinados siguen una distribución normal. Naturalmente, también elegimos la distribución previa *yoke como distribución previa: normal_inverse_gamma-wiki.

Esta distribución tiene cuatro hiperparámetros, y la distribución posterior satisface:

El primer comportamiento entre ellos.

Ver el apéndice para la derivación.

En cuanto a la elección, también se puede utilizar el muestreo de Thompson:

En...

Hay muchas extensiones de modelos lineales:

Entre ellos, A menudo:

y

Aquí, están todos los hiperparámetros. En cuanto a cómo actualizar estos hiperparámetros, no estoy seguro.

El modelo no paramétrico no significa que no haya parámetros, sino que los parámetros (cantidades) son inciertos.

Veamos primero cómo convertir el modelo lineal anterior en un modelo no paramétrico.

Nuestra suposición es fija y sigue una distribución normal multidimensional con matriz de media y covarianza. Luego podemos integrar para obtener una distribución marginal:

Consulte el apéndice para obtener la derivación.

Como se mencionó anteriormente, podemos introducir,

mapear la matriz de datos (diseño) de tal manera que sea necesario cambiar la distribución marginal correspondiente:

Tenga en cuenta que De hecho, no necesitamos especificarlo, simplemente pasarlo por el kernel.

Es la nueva posición, no la predicción correspondiente, ambos pueden ser vectores.

La parte del numerador es una distribución gaussiana conjunta. Hasta ahora, hemos completado un proceso gaussiano simple. Introduzcamos formalmente el proceso gaussiano.

Proceso gaussiano - Wiki

Proceso gaussiano - Mars Shishiro

El núcleo del proceso gaussiano es la función media (en la optimización bayesiana, a menudo elegimos que sea 0 ) y la función de covarianza, mientras que los valores observados. Todas las secuencias y observaciones obtenidas mediante el proceso gaussiano obedecen a la distribución normal conjunta:

Método del kernel - wiki

Función de covarianza matricial - wiki

Archivo[1] Se da la siguiente forma (en realidad este es el caso):

Entre ellos, se encuentran el parámetro de suavizado, el parámetro de proporción y el segundo tipo de función de Bessel deformada.

Al mismo tiempo, se proporcionan varias funciones de covarianza matricial de uso común.

El documento [2] da otra expresión:

Donde, es una matriz diagonal con elementos diagonales.

Estos parámetros se pueden entender de la siguiente manera:

Algunos de los parámetros anteriores proporcionarán algunos métodos actualizados a continuación.

La función de verosimilitud marginal logarítmica se puede expresar como:

Como se puede ver en la figura, el lado derecho de la ecuación se divide en tres partes, y estas tres partes tienen diferentes significados:

Una idea natural es realizar una estimación de máxima verosimilitud en la función de verosimilitud anterior para obtener una estimación.

La complejidad de cada proceso gaussiano está en torno al nivel, que se produce al calcular la matriz inversa de la matriz. Por descomposición de Choleski, se puede reducir a .

Por ello, se han desarrollado algunos algoritmos para intentar superar esta dificultad.

SPGP selecciona M pseudoentradas de N entradas para reemplazarlas, logrando así el propósito de reducir la clasificación. Al mismo tiempo, las posiciones de estas pseudo entradas M también se utilizan como parámetros (aunque no sé cómo actualizarlas). La ventaja natural es que

la complejidad se puede reducir a . La desventaja es que hay relativamente muchos parámetros y es fácil provocar un "sobreajuste".

Según el teorema de Bochner, cualquier núcleo estable tiene una representación espectral de Fourier definida positiva:

Luego, mediante el método de Monte Carlo, se muestrea la frecuencia de m muestras para estimar aproximadamente la integral de apelación. para obtener una función de covarianza aproximada. SSGP también es propenso a "sobreajustarse" cuando el conjunto de datos es pequeño.

Notas de Random Forest-Bohr

Random Forest se puede utilizar como una alternativa al proceso gaussiano. La desventaja es que en el caso de datos faltantes, la estimación es inexacta (la diferencia es constante). Además, dado que los bosques aleatorios son discontinuos y no diferenciables, los parámetros no se pueden actualizar mediante el descenso (o ascenso) del gradiente. Además, resulta desconcertante que incluso si se nos da la distribución previa de los parámetros aleatorios del bosque, ¿cómo encontramos la distribución posterior?

Primero, tenemos una función de utilidad. Como sugiere el nombre, la función de utilidad es un indicador que refleja la evaluación y el valor de la función correspondiente (bajo condiciones). El artículo [1] no presenta esta función de utilidad, el artículo [2] introduce este concepto para una mejor explicación.

La elección de obtener la función es la utilidad esperada:

De hecho, es bastante extraño, porque es solo una expectativa, y esta función agregada también la espera. Tengo entendido que esto es relativamente "confuso". Si el resultado es "preciso" mediante la máxima verosimilitud, es posible que los puntos de evaluación no estén lo suficientemente dispersos y caigan en la optimización local. Además, parece que no es necesario estimar parámetros, aunque se esperan precios.

Podemos ver en el siguiente algoritmo que este paso a menudo no está disponible.

Finalmente, nuevamente, el diseño de funciones agregadas es a menudo una compensación entre exploración y explotación. Es decir, esperamos que los nuevos puntos de evaluación estén alejados de los puntos de datos originales (exploración de áreas desconocidas) y puedan mejorarse (exploraciones de áreas actuales).

La idea de diseño de la función de adquisición de PI es muy simple, es decir, necesitamos encontrar un punto de evaluación para dar a conocer el mayor (si es argmin al principio, es el más pequeño) y hazlo. Normalmente,

la función de adquisición es:

Tenga en cuenta que aquí está la función de probabilidad de la distribución normal estándar.

La función de utilidad en esta función de recopilación es:

Entre ellas, la función indicadora.

PI funciona muy bien cuando es el valor mínimo de .

Una desventaja de PI es que solo se preocupa por la probabilidad de promoción, pero no por el grado de promoción. EI cubre estos dos aspectos.

Por lo general, su función de elevación se expresa mediante la siguiente fórmula:

La función de adquisición correspondiente es:

¿dónde está la función de densidad de probabilidad de la distribución normal estándar? . La fórmula se puede derivar sustituyendo las variables de integración.

En realidad es una función de utilidad.

La función de adquisición es:

Esta función de adquisición se puede entender así: para cualquiera, tiene una media y una desviación estándar (que refleja la amplitud y el grado de fluctuación), Creemos que es un límite más confiable y creemos que tiene un valor más probable. Entonces, maximizar la función de adquisición es maximizar nuestra esperanza.

La elección mencionada en la literatura [2] es a menudo la frontera Chernov-Heftin. Suena misterioso, pero la UCB parece estar muy de moda en este momento. Además, existe un conjunto de teorías que pueden guiar y planificar hiperparámetros para lograr resultados óptimos.

A diferencia de las estrategias anteriores, las estrategias basadas en información se basan en la distribución posterior de la solución óptima global. Esta distribución está implícita en la distribución posterior de la función (diferente

ript>