(1), modelo de aprendizaje profundo de visión por computadora.
Debido a la visión por computadora, todos los datos que procesamos son imágenes, por lo que existen dos tipos principales de modelos de aprendizaje profundo, uno es la red neuronal convolucional CNN y el otro es un transformador como el transformador swin. Los modelos de aprendizaje recomendados son los siguientes: Alexnet, Googlenet, Resnet,
Unet (segmentación de imágenes), CycleGAN (transferencia de estilo de imagen), Vit (modelo de transformación visual), swin transformador (artículo del premio Mar).
(2), Conceptos básicos de Inteligencia Artificial
Comprensión y análisis de escenas, reconocimiento de patrones, búsqueda de imágenes, minería de datos, aprendizaje profundo, etc.
(3) Código
Para la visión por computadora, es un tema que presta igual atención a la teoría y la práctica. Solo en el proceso de escribir código usted mismo podrá comprender mejor el proceso de capacitación del modelo.
(4) Conocimiento de procesamiento de imágenes
El procesamiento de imágenes generalmente incluye: conceptos básicos de imágenes ópticas, color, filtros, características locales de la imagen, textura de la imagen, coincidencia de imágenes, etc.
(5), disciplinas relacionadas
Otras disciplinas relacionadas con la visión por computadora incluyen visión artificial, procesamiento de imágenes digitales, imágenes médicas, fotogrametría, sensores, etc.