¿Cuál es la esencia de la conducción sin conductor? ¿Cómo funciona?

Es difícil tener un estándar claro para definir la conducción autónoma de nivel 4 o 5, y la conducción autónoma no debería ser complicada. La conducción autónoma en realidad implica tres cuestiones: 1. ¿Dónde estoy? Segundo, ¿adónde voy? El tercero es cómo llegar. La solución completa a estos tres problemas es la verdadera conducción autónoma. Por lo tanto, el Autopilot 2.0 actualizado de Tesla, de 8.000 dólares, solo tiene funciones parciales de control por cable y no es una verdadera conducción autónoma. Ford, Baidu y Google están trabajando en una verdadera conducción autónoma, superando con creces a Tesla. Existe una enorme brecha entre los dos.

El primer problema es el posicionamiento. La conducción autónoma requiere un posicionamiento a nivel de centímetros.

El segundo problema es la planificación de rutas. La primera capa es la planificación de rutas topológicas independiente del tiempo punto a punto, y la segunda capa es la planificación para evitar obstáculos a nivel de milisegundos en tiempo real. El tercer nivel consiste en descomponer la planificación en planificación longitudinal (aceleración) y transversal (velocidad angular).

El tercer problema es que el actuador del vehículo realiza una planificación vertical y horizontal, es decir, el sistema de control por cable.

La tecnología de conducción autónoma actual proviene básicamente de los robots. La conducción autónoma puede verse como un robot con ruedas más un cómodo sofá. La localización y la planificación de rutas son un problema en los sistemas robóticos. Sin localización, no hay forma de planificar un camino. El posicionamiento en tiempo real a nivel de centímetros es uno de los mayores desafíos a los que se enfrenta actualmente la conducción autónoma. Para los sistemas robóticos, la localización se basa principalmente en la comparación cruzada de SLAM y mapas anteriores. SLAM es la abreviatura de posicionamiento y mapeo simultáneos, que significa "posicionamiento y mapeo simultáneos". Se refiere al proceso de construir un mapa ambiental y calcular su propia posición basándose en la información del sensor. Actualmente, SLAM se utiliza principalmente en robots, realidad virtual y realidad aumentada. Sus aplicaciones incluyen el posicionamiento del propio sensor, así como la posterior planificación de rutas y comprensión de la escena.

Con diferentes tipos de sensores y métodos de instalación, la implementación y dificultad de SLAM variarán mucho. Según el sensor, SLAM se divide principalmente en dos categorías: láser y visión. Entre ellos, la investigación sobre SLAM láser es anterior y la teoría y la ingeniería son relativamente maduras. En la actualidad (2016), la solución de visión aún se encuentra en la etapa de investigación de laboratorio y los productos comerciales son inútiles para aplicaciones en interiores y de baja velocidad, sin mencionar que el entorno exterior de movimiento de alta velocidad es mucho más complicado que el interior. Solo desde esta perspectiva, lidar es un sensor esencial para la conducción autónoma.

Han pasado casi treinta años desde que en 1988 se propuso la investigación SLAM. Las primeras investigaciones de SLAM se centraron en el uso de la teoría del filtrado. Después del siglo XXI, los académicos comenzaron a aprender de SfM (del movimiento a la estructura) y a resolver problemas SLAM basados ​​​​en la teoría de optimización. Este método ha logrado ciertos resultados y ha logrado una posición dominante en el campo del SLAM visual. La gente a veces confunde los conceptos de SLAM y odometría visual. Cabe decir que la odometría visual es un módulo de SLAM visual, cuyo objetivo es estimar incrementalmente el movimiento de la cámara. Sin embargo, un SLAM completo también incluye agregar detección de bucles y optimización global para obtener mapas precisos y globalmente consistentes. Actualmente, los algoritmos SLAM de código abierto para sensores visuales se dividen principalmente en tres categorías, a saber, métodos dispersos, también conocidos como métodos de puntos característicos. Los métodos densos, principalmente RGB-D, y los métodos semidensos son actualmente los campos más populares y se utilizan ampliamente en monoculares y binoculares. Los principales métodos de SLAM láser son Hector, Gmapping y Tiny.

Existen tres tipos comunes de posicionamiento de robots: posicionamiento relativo, posicionamiento absoluto y posicionamiento combinado. El piloto automático generalmente utiliza posicionamiento combinado. Primero, los sensores propioceptivos como la odometría y los giroscopios miden la distancia y la dirección relativa a la postura inicial del robot para determinar la postura actual del robot, también conocida como estimación de trayectoria. Luego, el entorno se detecta mediante lidar o visión y se posiciona mediante identificación activa o pasiva, comparación de mapas, GPS o balizas de navegación. Los métodos de cálculo de posición incluyen algoritmos de triangulación, trilateración y coincidencia de modelos. Desde esta perspectiva, la IMU también es una parte integral de la conducción autónoma.

Al mismo tiempo, el posicionamiento de robots es en realidad un problema de probabilidad, por lo que existen dos escuelas de algoritmos de posicionamiento de robots, una es el filtrado de Kalman y la otra es la inferencia bayesiana. Hay filtro Kalman extendido (EKF), filtro Kalman (KF) y filtro Kalman sin perfume (UKF). El otro es un método de posicionamiento basado en la inferencia bayesiana. Se utilizan cuadrículas y partículas para describir el espacio de posición del robot y calcular de forma recursiva distribuciones de probabilidad en el espacio de estados, como la localización de Markov (MKV) y la localización de Monte Carlo (MCL).

En la comparación de mapas, debe haber un mapa prioritario con el que comparar. Este mapa no es necesariamente un mapa de alta precisión a nivel de centímetros. Es necesario hablar de mapas. Los mapas se pueden dividir en cuatro categorías: métricas, topológicas, sensoriales y semánticas. Nuestro mapa más común es un mapa semántico. Los coches sin conductor no son misiles. En general, los destinos de entrada deben ser semánticos. Después de todo, el transporte humano se basa en la semántica, no en las coordenadas geográficas. Ésta es una de las diferencias entre robots y coches sin conductor. Los robots generalmente no consideran la semántica y solo necesitan conocer su posición en el sistema de coordenadas. El Sistema de Posicionamiento Global proporciona mediciones del sistema de coordenadas global. En el futuro, V2X proporcionará mapas de objetos específicos (peatones y automóviles en movimiento) más allá del radar y el rango de detección visual (NLOS), o mapas V2X. En la actualidad, la mayoría de los vehículos no tripulados en China se posicionan mediante GPS RTK, que debe combinarse con mapas de alta precisión de centímetros para obtener información semántica, por lo que es imposible ser verdaderamente no tripulado.