← Retour aux offres

Apprentissage de représentation et apprentissage par renforcement pour la navigation autonome (H/F)

Postée le 15 oct.

Lieu : Palaiseau, France · Contrat : Stage · Rémunération : A négocier

Société : CEA List

Basé à Paris-Saclay, le CEA List est l’un des quatre instituts de recherche technologique de CEA Tech, direction
de la recherche technologique du CEA. Dédié aux systèmes numériques intelligents, il contribue au développement
de la compétitivité des entreprises par le développement et le transfert de technologies.
L’expertise et les compétences développées par les 800 ingénieurs-chercheurs et techniciens du CEA List
permettent à l’Institut d’accompagner chaque année plus de 200 entreprises françaises et étrangères sur des
projets de recherche appliquée s’appuyant sur 4 programmes et 9 plateformes technologiques. 21 start-ups ont
été créées depuis 2003.
Labellisé Institut Carnot depuis 2006, le CEA List est aujourd’hui l’institut Carnot Technologies Numériques.
Le Laboratoire de Vision et Apprentissage pour l’analyse de scène (LVA) mène ses recherches dans le domaine
de la Vision par Ordinateur (Computer Vision) selon quatre axes principaux :
- La reconnaissance visuelle (détection et/ou segmentation d’objets, de personnes, de patterns ; détection
d’anomalies ; caractérisation)
- L’analyse du comportement (reconnaissance de gestes, d’actions, d’activités, de comportements
anormaux ou spécifiques pour des individus, un groupe, une foule)
- Annotation intelligente (annotation à grande échelle de données visuelles 2D/3D de manière semiautomatique)
- Perception et décision (processus de décision markovien, navigation)

Description du poste

L’apprentissage par renforcement a permis de développer des algorithmes capables de battre les humains dans
différentes tâches de contrôle et prise de décision comme les jeux Atari ou les jeux de plateau (Go, Echecs). Son
utilisation pour la conduite autonome est prometteur mais souffre de plusieurs problèmes :
- Il est difficile de résoudre le problème d’optimisation associé à ces algorithmes quand les espaces d’état
et d’action sont de très grande dimension.
- La phase d’apprentissage nécessite beaucoup d’interaction entre l’agent et l’environnement. C’est un
processus difficile à mettre en œuvre dans le cas de la conduite autonome.
- Les algorithmes d’apprentissage par renforcement sont souvent perçus comme une boite noire. Or les
notions d’explicabilité et d’interprétabilité sont primordiales pour faire accepter ces solutions dans le
monde de l’automobile et par les usagers.
Ce stage a pour objectif d’apporter des solutions à ces problèmes. Notamment, en étudiant les méthodes
d’apprentissage de représentation pour réduire la dimensionnalité des espaces d’état et d’action. Pour limiter
l’interaction avec l’environnement il est possible de s’appuyer sur les techniques d’apprentissage hors-ligne (offline
reinforcement learning). Finalement, la notion d’interprétabilité peut être introduite dans ces algorithmes en
ajoutant des tâches à niveau sémantique élevé dans ces algorithmes (prédiction de trajectoire, segmentation de la
scène, … ). Il sera demandé au stagiaire de faire une étude bibliographique, de proposer et d’implémenter une
solution aux différents problèmes soulevés et finalement procéder à une validation expérimentale.
Keywords : computer vision, deep learning, reinforcement learning, off-line reinforcement learning, selfsupervised learning, interpretability.

Références
[1] Learning by cheating. Dian Chen et al. https://arxiv.org/abs/1912.12294.
[2] Interpretable End-to-end Urban Autonomous Driving with Latent Deep Reinforcement Learning. Jianyu Chen et al.
https://arxiv.org/abs/2001.08726.
[3] An Optimistic Perspective on Offline Reinforcement Learning. Rishabh Agarwal et al. https://arxiv.org/abs/1907.04543.

Profil recherché

Niveau demandé : Ingénieur, Master 2
Ce stage ouvre la possibilité de poursuite en thèse et ingénieur R&D dans notre laboratoire.
Durée : 6 mois
Rémunération : entre 700 € et 1300 € suivant la formation.
Compétences requises :
- Vision par ordinateur
- Apprentissage automatique (deep learning)
- Reconnaissance de formes
- C/C++, Python
- La maîtrise d’un framework d’apprentissage profond (en particulier Tensorflow ou PyTorch) est un plus.

Voir le fichier joint

Pour postuler :

Jaonary Rabarisoa
Jaonary.rabarisoa@cea.fr
+33 (0)1 69 08 01 29