Learning Robust Reward Machines from Noisy Labels
Il lavoro studia come apprendere reward machines robuste in presenza di etichette rumorose, un problema importante quando gli agenti devono inferire obiettivi e segnali di ricompensa da dati non perfetti.
In ottica cyber questo è rilevante per sistemi autonomi o semi-autonomi che devono adattarsi in ambienti dinamici senza fare affidamento su dati di addestramento puliti o completamente affidabili.