DIFusio@

2023-06-12 ;11:00 THESIS DOCTORAL DEFENCE NEREA ARANJUELO ANSA

Image

Nerea Aranjuelo Ansa:  “Data – centric Design and Training of Deep Neural Networks with Multiple Data Modalities for Vision – based Perception Systems”.

Zuzendariak_Directores: Luis Unzueta Irurtia/ Ignacio Arganda Carreras

2023_06_12, 11:00  Sala Ada Lovelace aretoa.

Abstract:

"Los avances en visión artificial y aprendizaje automático han revolucionado la capacidad de construir sistemas que procesen e interpreten datos digitales, permitiéndoles imitar la percepción humana y abriendo el camino a un amplio rango de aplicaciones. En los últimos años, ambas disciplinas han logrado avances significativos, impulsadas por los progresos en las técnicas de aprendizaje profundo (\textit{deep learning}). El aprendizaje profundo es una disciplina que utiliza redes neuronales profundas (DNNs, por sus siglas en inglés) para enseñar a las máquinas a reconocer patrones y hacer predicciones basadas en datos. Los sistemas de percepción basados en el aprendizaje profundo son cada vez más frecuentes en diversos campos, donde humanos y máquinas colaboran para combinar sus fortalezas. Estos campos incluyen la automoción, la industria o la medicina, donde mejorar la seguridad, apoyar el diagnóstico y automatizar tareas repetitivas son algunos de los objetivos perseguidos.

Sin embargo, los datos son uno de los factores clave detrás del éxito de los algoritmos de aprendizaje profundo. La dependencia de datos limita fuertemente la creación y el éxito de nuevas DNN.

La disponibilidad de datos de calidad para resolver un problema específico es esencial pero difícil de obtener, incluso impracticable, en la mayoría de los desarrollos. La inteligencia artificial centrada en datos enfatiza la importancia de usar datos de alta calidad que transmitan de manera efectiva lo que un modelo debe aprender.

Motivada por los desafíos y la necesidad de los datos, esta tesis formula y valida cinco hipótesis sobre la adquisición y el impacto de los datos en el diseño y entrenamiento de las DNNs.

Específicamente, investigamos y proponemos diferentes metodologías para obtener datos adecuados para entrenar DNNs en problemas con acceso limitado a fuentes de datos de gran escala.

Exploramos dos posibles soluciones para la obtención de datos de entrenamiento, basadas en la generación de datos sintéticos. En primer lugar, investigamos la generación de datos sintéticos utilizando gráficos 3D y el impacto de diferentes opciones de diseño en la precisión de los DNN obtenidos. Además, proponemos una metodología para automatizar el proceso de generación de datos y producir datos anotados variados, mediante la replicación de un entorno 3D personalizado a partir de un archivo de configuración de entrada.

En segundo lugar, proponemos una red neuronal generativa (GAN) que genera imágenes anotadas utilizando conjuntos de datos anotados limitados y datos sin anotaciones capturados en entornos no controlados. Por lo general, el primer conjunto de datos suele tener anotaciones precisas pero carecen de realismo y variabilidad, lo que compensamos con los datos de entornos no controlados. Analizamos la idoneidad de los datos generados con nuestro método para el entrenamiento de DNNs.

Esta tesis también presenta un diseño de DNNs orientado a datos, ya que los datos pueden presentar propiedades muy diferentes dependiendo de su fuente. Diferenciamos las fuentes según la modalidad de sensor utilizada para obtener los datos (p. ej., cámara, LiDAR) o el dominio de generación de datos (p. ej., real, sintético). Por un lado, rediseñamos una arquitectura DNN orientada a imágenes para detección de objetos en nubes de puntos del sensor LiDAR y, opcionalmente, incorporar información de imágenes RGB. Por otro lado, adaptamos una DNN para aprender de imágenes reales y sintéticas mientras minimizamos la brecha de dominio que ambos dominios presentan.

Hemos validado nuestras hipótesis formuladas en varios problemas de visión artificial no resueltos, que son críticos para numerosos sistemas basados en visión del mundo real.

Nuestros hallazgos demuestran que los datos sintéticos generados utilizando modelos y entornos 3D son adecuados para el entrenamiento de DNNs. Sin embargo, también destacamos que las elecciones de diseño durante el proceso de generación, como la iluminación y la distorsión de la cámara, afectan significativamente la precisión del DNN final. Además, mostramos que un entorno de simulación 3D puede ayudar a diseñar mejores configuraciones de sensores para una tarea objetivo.

Adicionalmente, demostramos que las GAN ofrecen un medio alternativo para generar datos de entrenamiento mediante la explotación de datos existentes, etiquetados y no etiquetados, para generar nuevas muestras que sean adecuadas para el entrenamiento de DNNs, sin necesidad de un entorno de simulación.

Finalmente, mostramos que adaptar el diseño y entrenamiento de DNNs a la modalidad y fuente de datos puede aumentar la precisión del modelo. Más específicamente, demostramos que la modificación de una arquitectura predefinida diseñada para imágenes para adaptarse a las peculiaridades de las nubes de puntos da como resultado un rendimiento de vanguardia en la detección de objetos 3D. La DNN se puede diseñar para procesar datos de una sola modalidad o aprovechar datos de diferentes fuentes. También demostramos, que al entrenar con datos reales y sintéticos, considerar su brecha de dominio, diseñando una arquitectura de DNN acorde, mejora la precisión del modelo."


Filtro por temas