Lea el artículo "Algoritmo de agrupamiento de distancia STS de ventana deslizante para series temporales desiguales"

Desventajas de la agrupación de series de tiempo tradicional:

1) La investigación sobre la agrupación de series de tiempo generalmente utiliza divisiones de igual longitud, lo que perderá puntos característicos importantes y tendrá un impacto negativo en los resultados de la agrupación.

2) La similitud no se puede medir con precisión mediante mediciones de series de tiempo.

Los siguientes valores de la fiebre hemorrágica del Ébola y el Ministerio de Salud son similares, pero las formas del Ministerio de Educación y el Ministerio de Salud son más similares. Si utiliza la distancia euclidiana tradicional para medir la forma, puede que no sea apropiada.

Algoritmo de agrupamiento STS de ventana deslizante para series temporales desiguales:

1) El preprocesamiento de puntuación estándar z_score se utiliza para eliminar el impacto de las diferencias de magnitud en las observaciones de series temporales.

2) Se cambia el método de cálculo de similitud y la distancia de secuencias de longitud desigual se calcula en función de la ventana deslizante.

3) Método de cálculo de la curva central basado en el algoritmo de agrupamiento de k-medias.

Los datos de series de tiempo se utilizan ampliamente en redes sociales, búsquedas en Internet y análisis de datos de medios de noticias debido a su presentación intuitiva de información de tendencias. Por ejemplo, Google predice las tendencias de los brotes de gripe buscando series temporales de información relacionada con la gripe. Según la regularidad de la tendencia de los datos de series temporales candentes de un tema, se distinguen diferentes tipos de datos de series temporales mediante la agrupación. Los temas de Twitter en el mismo grupo tienen tendencias de desarrollo iguales o similares, que luego se utilizan para predecir las tendencias de desarrollo de los temas.

Los algoritmos de agrupamiento de series temporales se pueden dividir en dos categorías.

1) Algoritmo de agrupamiento de series temporales basado en datos originales.

2) Algoritmo de agrupamiento de series temporales basado en características.

El algoritmo de agrupamiento de series temporales basado en características se refiere a la extracción de características morfológicas (posiciones de puntos extremos, pendientes de segmentos), características estructurales (características estadísticas como media, varianza, etc.) y modelos de series temporales basadas en originales. datos Características (valores predichos del modelo), agrupando así en función de estos valores de características. La ventaja de este método es que resuelve el problema de agrupación de series temporales desiguales. La desventaja es que los datos originales están debilitados y la información de tendencia de forma del grupo suele ser aproximada.

3. Cómo

1. Fórmula de medición de distancia

La distancia STS se calcula como el cuadrado de la diferencia de pendiente de cada intervalo de tiempo entre series de tiempo acumuladas, el la fórmula es

Como se muestra en la figura anterior, el valor de la distancia euclidiana de g1 y g2 está más cerca del valor de la distancia euclidiana de g2 y g3. La distancia STS entre g1 y g2 es mayor que g2 y g3. En términos de distancia de forma, el método de cálculo de distancia STS tiene un mejor rendimiento. Puede resolver hasta cierto punto el problema de que la información de características locales de la serie temporal de medición de distancia euclidiana se ve afectada por la diferencia en el tamaño del valor de observación. todavía es incapaz de medir la distancia de series desiguales de largo plazo.

Fórmula de distancia STS basada en ventana deslizante.

Como se muestra en la figura anterior, al calcular la distancia entre S y R de series de tiempo de diferentes longitudes, primero cambie continuamente la serie de tiempo S y luego encuentre el campo con la distancia más cercana entre S y R , al igual que la posición entre las líneas de puntos en la figura anterior. En este momento, la distancia entre S y R es la más corta, y esta distancia más corta se utiliza como la distancia entre S y R.

2. Proceso de preprocesamiento

La puntuación estándar de puntuación Z reemplaza el valor de observación original con la distancia entre los datos de observación y el valor promedio de los datos de observación. El valor medio de los datos procesados ​​con puntuación z es 0 y la desviación estándar es 1. La función de la desviación estándar es unificar dimensiones y eliminar la influencia de las diferencias numéricas.

Resumen

Se propone un método de agrupamiento para series desiguales de largo plazo basado en la distancia de forma. Lo que podemos aprender es que

1) el puntaje z unifica las dimensiones, elimina las diferencias de magnitud numérica y logra mejores resultados de agrupación.

2) Al calcular la distancia STS de las series de tiempo X e Y, se puede desplazar una de las series de tiempo y encontrar el valor mínimo como valor de distancia STS, eliminando la influencia de diferentes puntos de partida de la misma serie temporal.