Ruta de navegación

DIFusio@

Defensa de tesis doctoral: Towards scalable sermi-supervised learning on graphs

Autor: Zoulfikar Ibrahim

Tesis: Towards scalable sermi-supervised learning on graphs

Directores: Fadi Dornaika eta Alireza Bosaghzadeh

Día: 29 de abril de 2025
Hora: 10:30h
Lugar: sala Ada Lovelace (Facutad de Informática)

Abstract:

"El aprendizaje semi-supervisado basado en grafos (GSSL, de sus siglas en inglés) ha emergido debido a su capacidad para mejorar el rendimiento de la clasificación mediante el uso tanto de datos etiquetados como no etiquetados para mejorar el rendimiento de la clasificación. Esta tesis aborda las limitaciones de los métodos tradicionales de GSSL, tales como: la dependencia sobre los grafos predefinidos, la ineficiencia computacional sobre conjuntos de datos grandes, el tratamiento igualitario de los datos y la gestión deficiente de los datos no etiquetados. Así, la presente tesis propone un marco unificado y escalable para abordar las limitaciones mencionadas. Los avances recientes en GSSL se han centrado principalmente en estructuras de grafos predefinidas, que a menudo no son lo suficientemente precisos representando la topología de los datos, además de presentar problemas de escalabilidad. Para superar estos desafíos, esta investigación introduce varios enfoques innovadores, incluyendo la construcción de grafos basados en anclas (anchor-based graph), la ponderación adaptativa de las muestras y el auto-entrenamiento (self-trainning) dinámico, diseñados específicamente para conjuntos de datos de gran escala.

El algoritmo denominado Joint Graph and Reduced Flexible Manifold Embedding (SGRFME) integra el cálculo del anchor-graph en el modelo de aprendizaje. Este enfoque no sólo permite la escala eficientemente a grandes bases de datos de manera eficiente, además también mejora la precisión de las predicciones realizadas mediante transformación lineal para las etiquetas de las muestras de test. Los resultados experimentales en conjuntos de datos como NORB, RCV1 y Covtype demuestran la efectividad y escalabilidad del método. Para abordar el desequilibrio en la topología del grafo, el algoritmo Weighted Simultaneous Graph Construction and Reduced Flexible Manifold Embedding (W-SGRFME) extiende el concepto de desequilibrio de la topología del grafo a grandes conjuntos de datos e incorpora los pesos calculados de las muestras etiquetadas en el modelo. La fusión de etiquetas y características de las anclas permite la construcción adaptativa de los anchor-graph grafos, resultando en un rendimiento superior en grandes conjuntos de datos. Un clasificador semi-supervisado escalable e inductivo con ponderación de muestras basado en la topología del grafo, llamado Weighted Joint Graph Construction and reduced Flexible Manifold embedding (W-JGRFME), emplea los pesos calculados de las muestras etiquetadas para la el emparejamiento de etiquetas, lo que lleva a un modelo unificado y escalable que simultáneamente etiqueta datos no etiquetados y construye un anchor-graphadaptativo. Los resultados experimentales en conjuntos de datos extensos, incluyendo MNIST, validan la robustez y superioridad del método.

Un marco unificado para GSSL inductivo y escalable usando ponderación adaptiva de muestras, denominado AdaptiveWeighted Simultaneous Graph Construction and Reduced Flexible Manifold Embedding (AW-SGRFME), asigna pesos adaptativos a las muestras etiquetadas en función de sus etiquetas estimadas y construye un anchor-to-anchor graph de afinidad incorporando tanto información de características como de etiquetas. La eficaciade este método se ilustra a través de experimentos en conjuntos de datos a gran escala. Finalmente, el marco de self-training el agoritmo denominado Self-Trainning Simulatenous Graph Construction and Reduced Flexible Manifold embedding (SSGRFME), adaptado para conjuntos de datos muy grandes, utiliza pseudo-etiquetado para mejorar la precisión del modelo al incorporar etiquetas predichas con confianza de lotes aleatorios de muestras no etiquetadas en el conjunto de entrenamiento. Los anchor-to-anchor graph facilitan un aprendizaje robusto, como se demuestra mediante experimentación exhaustiva en diversos conjuntos de datos grandes.

En general, esta tesis realiza contribuciones significativas al campo de GSSL al introducir la construcción automática de grafos, la ponderación de muestras etiquetadas y métodos de self-training que abordan eficazmente los desafíos del aprendizaje semi-supervisado a gran escala. Estos enfoques innovadores no solo mejoran el rendimiento de los modelos GSSL, sino que también amplían su aplicabilidad en diversos dominios, proporcionando una base sólida para futuras investigaciones.

Palabras clave:
Aprendizaje Semisupervisado Basado en Grafos, Aprendizaje Escalable, Modelos Inductivos, Ponderación Adaptativa de Muestras, Self-training Dinámico, Construcción de anchor-graph, Conjuntos de Datos a Gran Escala."


Filtro por temas