Domain invariant Q-learning for model-free robust continuous control under visual distractions

Tom Dupuis; Jaonary Rabarisoa; Quoc-Cuong Pham; David Filliat

Communication Dans Un Congrès Année : 2022

Domain invariant Q-learning for model-free robust continuous control under visual distractions

(1, 2) , (2) , (2) , (1, 3)

1
2
3

Tom Dupuis

Fonction : Auteur

Unité d'Informatique et d'Ingénierie des Systèmes

Département Intelligence Ambiante et Systèmes Interactifs

Jaonary Rabarisoa

Fonction : Auteur
PersonId : 966958

Département Intelligence Ambiante et Systèmes Interactifs

Quoc-Cuong Pham

Fonction : Auteur
PersonId : 855568
IdHAL : quoc-cuong-pham

Département Intelligence Ambiante et Systèmes Interactifs

David Filliat

Fonction : Auteur
PersonId : 45
IdHAL : david-filliat
ORCID : 0000-0002-5739-1618
IdRef : 070072337

Unité d'Informatique et d'Ingénierie des Systèmes

Flowing Epigenetic Robots and Systems

Résumé

End-to-end reinforcement learning on images showed significant performance progress in the recent years, especially with regularization to value estimation brought by data augmentation (Yarats et al., 2020). At the same time, domain randomization and representation learning helped push the limits of these algorithms in visually diverse environments, full of distractors and spurious noise, making RL more robust to unrelated visual features. We present DIQL, a method that combines risk invariant regularization and domain randomization to reduce out-of-distribution (OOD) generalization gap for temporal-difference learning. In this work, we draw a link by framing domain randomization as a richer extension of data augmentation to RL and support its generalized use. Our model-free approach improve baselines performances without the need of additional representation learning objectives and with limited additional computational cost. We show that DIQL outperforms existing methods on complex visuo-motor control environment with high visual perturbation. In particular, our approach achieves state-of the-art performance on the Distracting Control Suite benchmark, where we evaluate the robustness to a number of visual perturbators, as well as OOD generalization and extrapolation capabilities.

Mots clés

reinforcement learning robotics

Domaines

Informatique [cs]

Fichier principal

132_domain_invariant_q_learning_fo.pdf (2.55 Mo)

Origine	Fichiers produits par l'(les) auteur(s)

David Filliat : Connectez-vous pour contacter le contributeur

https://hal.ip-paris.fr/hal-04135292

Soumis le : mardi 20 juin 2023-17:40:45

Dernière modification le : mercredi 13 novembre 2024-10:26:03

Dates et versions

hal-04135292 , version 1 (20-06-2023)

Identifiants

HAL Id : hal-04135292 , version 1

Citer

Tom Dupuis, Jaonary Rabarisoa, Quoc-Cuong Pham, David Filliat. Domain invariant Q-learning for model-free robust continuous control under visual distractions. NeurIPS 2022 - Deep Reinforcement Learning Workshop, Dec 2022, Virtual, United States. ⟨hal-04135292⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CEA ENSTA INRIA ENSTA_U2IS DRT INRIA2 CEA-UPSAY UNIV-PARIS-SACLAY LIST IP_PARIS GS-COMPUTER-SCIENCE GS-SPORT-HUMAN-MOVEMENT

85 Consultations

46 Téléchargements

Domain invariant Q-learning for model-free robust continuous control under visual distractions

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager