Cet article est la traduction française de l'article original "Why deep learning won't give us level 5 self-driving cars" avec l'aimable accord de son auteur Ben Dickson
Elon Musk, CEO de Tesla, est convaincu que les fonctionnalités de base pour créer des voitures autonomes de niveau 5 seront disponibles d'ici la fin de 2020. (Crédits: Depositphotos)
Cet article fait parti de "Demystifier l'IA", une série d'articles qui (essaient) de lever les ambiguïtés de jargon et des mythes entourant l'IA.
«Je suis extrêmement convaincu que le niveau 5 [voitures autonomes] ou l'autonomie complète se produira, et je pense que cela se produira très rapidement», a déclaré le PDG de Tesla, Elon Musk, dans un message vidéo à la Conférence mondiale sur l'intelligence artificielle à Shanghai. ce mois-ci. «Je reste convaincu que nous aurons terminé cette année les fonctionnalités de base pour l'autonomie de niveau 5.»
Les remarques de Musk ont déclenché de nombreuses discussions dans les médias pour savoir si nous sommes sur le point d’avoir des voitures autonomes sur nos routes. Comme beaucoup d'autres ingénieurs en logiciel, Ben Dickson ne pense pas que nous verrons de sitôt des voitures sans conducteur (c'est à dire des voitures sans conducteur humain), encore moins à la fin de cette année.
Ben a écrit une chronique à ce sujet sur PCMag et il a reçu beaucoup de commentaires (positifs et négatifs). Ben a donc décidé d'écrire une version plus technique et détaillée de son point de vue sur l'état des voitures autonomes. Ben nous explique pourquoi, dans son état actuel, le deep learning, la technologie utilisée dans le pilote automatique de Tesla, ne pourra pas résoudre les défis de la conduite autonome de niveau 5. Ben explique également les chemins qui, selon lui, mèneront au déploiement de voitures sans conducteur sur les routes.
Voitures autonomes de niveau 5
C'est ainsi que le "National Highway Traffic Safety Administration" aux États-Unis définit les voitures autonomes de niveau 5: «Le véhicule peut faire toute la conduite en toutes circonstances, [et] les occupants [humains] ne sont que des passagers et ils n'ont jamais besoin d'être impliqués dans la conduite.»
En gros, une voiture entièrement autonome n’a même pas besoin d’un volant et d’un siège conducteur. Les passagers devraient pouvoir passer leur temps dans la voiture à faire un voyage plus productif.
Autonomie de niveau 5: les voitures entièrement autonomes n’ont pas besoin de siège conducteur. Tout le monde est passager. (Crédits: Depositphotos)
La technologie actuelle de conduite autonome se situe au niveau 2, ou automatisation partielle. Le pilote automatique de Tesla peut exécuter certaines fonctions telles que l’accélération, la direction et le freinage dans des conditions spécifiques. Et les conducteurs doivent toujours garder le contrôle de la voiture et garder les mains sur le volant lorsque le pilote automatique est activé.
D'autres entreprises qui testent la technologie de conduite autonome ont encore des conducteurs au volant pour intervenir lorsque l'IA fait des erreurs (ainsi que pour des raisons juridiques).
Le matériel et les logiciels des voitures autonomes
Un autre point important soulevé par Musk dans ses remarques est qu'il pense que les voitures Tesla atteindront l'autonomie de niveau 5 «simplement en apportant des améliorations logicielles».
D'autres constructeurs de voitures autonomes, notamment Waymo et Uber, utilisent des lidars, du matériel qui projette un laser pour créer des cartes en trois dimensions de l'environnement de la voiture. Tesla, d'autre part, s'appuie principalement sur des caméras alimentées par un logiciel de vision par ordinateur pour naviguer sur les routes et les rues. Tesla utilise des réseaux neuronaux profonds pour détecter les routes, les voitures, les objets et les personnes dans les flux vidéo de huit caméras installées autour du véhicule. (Tesla a également un radar orienté vers l'avant et des détecteurs d'objets à ultrasons, mais ceux-ci ont un rôle mineur.)
Il y a une logique à l'approche de la vision par ordinateur de Tesla: nous, les humains, aussi, nous utilisons principalement notre système de vision pour conduire. Nous n'avons pas de matériel de cartographie 3D câblé à notre cerveau pour détecter les objets et éviter les collisions.
Mais c’est là que sa théorie s’effondre. Les réseaux de neurones actuels peuvent au mieux reproduire une imitation approximative du système de vision humain. L'apprentissage profond a des limites distinctes qui l'empêchent de donner un sens au monde, comme nous, humains, le faisons. Les réseaux de neurones nécessitent d'énormes quantités de données d'entraînement pour fonctionner de manière fiable, et ils n'ont pas la flexibilité des humains face à une nouvelle situation qui n'aurait pas fait parti de leurs données d'entraînement.
C'est quelque chose que Musk a tacitement reconnu dans ses remarques. «[Tesla Autopilot] ne fonctionne pas aussi bien en Chine qu'aux États-Unis, car la plupart de notre ingénierie se trouve aux États-Unis.» C'est de là que proviennent la plupart des données d'entraînement pour les algorithmes de vision par ordinateur de Tesla.
Problème de l'apprentissage profond dit de longue traîne
Les conducteurs humains doivent également s'adapter à de nouveaux contextes et environnements, comme une nouvelle ville, ou à des conditions météorologiques qu'ils n'ont pas connues auparavant (routes couvertes de neige ou de glace, pistes de terre, brouillard épais). Cependant, nous utilisons la physique, nos intuitions, le bon sens et notre connaissance du fonctionnement du monde pour prendre des décisions rationnelles lorsque nous traitons de nouvelles situations.
Nous comprenons la causalité et pouvons déterminer quels événements peuvent en causer d'autres. Nous comprenons également les objectifs et les intentions des autres acteurs rationnels dans nos environnements et prédisons de manière fiable quel pourrait être leur prochain mouvement. Par exemple, si c’est la première fois que vous voyez un enfant sans surveillance sur le trottoir, vous savez automatiquement que vous devez faire très attention et être prudent. Et si vous rencontriez un éléphant errant dans la rue pour la première fois? Auriez-vous besoin d'exemples préalable d'entraînement pour savoir que vous devriez probablement faire un détour?
Mais pour le moment, les algorithmes d'apprentissage profond n'ont pas de telles capacités, ils doivent donc être pré-entrainés pour chaque situation possible qu'ils vont rencontrer.
Il existe déjà un corpus de preuves qui montre que les algorithmes d'apprentissage profond de Tesla ne sont pas très bons pour gérer des paysages inattendus, même dans les environnements auxquels ils sont adaptés. En 2016, une Tesla s'est écrasée dans un camion semi-remorque parce que son algorithme d'intelligence artificielle n'a pas réussi à détecter le véhicule face à un ciel éclairé. Dans un autre incident, une Tesla s'est auto-conduite dans une barrière en béton, tuant le conducteur. Et il y a eu plusieurs incidents de véhicules Tesla sur pilote automatique qui se sont écrasés contre des camions de pompiers garés et des véhicules renversés. Dans tous les cas, les réseaux de neurones voyaient une scène qui n'avait pas été incluse dans ses données d'entraînement ou était trop différente de ce sur quoi il avait été entraîné.
Tesla met constamment à jour ses modèles d'apprentissage profond pour faire face aux «cas extrêmes», c'est comme cela qu'on appelle ces nouvelles situations. Mais le problème est que nous ne savons pas combien il exist de ces cas extrêmes. Ils sont pratiquement illimités, ce que l’on appelle souvent la «longue traîne» des problèmes que l’apprentissage profond doit résoudre.
Musk l'a également souligné dans ses remarques à la conférence de Shanghai sur l'IA: «Je pense qu'il n'y a plus de défis fondamentaux pour l'autonomie de niveau 5. Il y a beaucoup de petits problèmes, puis il y a le défi de résoudre tous ces petits problèmes, puis de rassembler tout le système, et de continuer à s'attaquer à cette longue liste de problèmes. "
Je pense que la clé ici est le fait que Musk pense qu '«il n'y a pas de défis fondamentaux». Cela implique que la technologie actuelle de l'IA doit simplement être formée sur de plus en plus d'exemples et peut-être recevoir des mises à jour architecturales mineures. Il a également déclaré que ce n’était pas un problème qui pouvait être simulé dans des environnements virtuels.
«Vous avez besoin d'une sorte de situation réelle. Rien n'est plus complexe et plus étrange que le monde réel », a déclaré Musk. «Toute simulation que nous créons est nécessairement un sous-ensemble de la complexité du monde réel.»
S'il existe une entreprise capable de résoudre le problème de la conduite automatique grâce à des données du monde réel, c'est probablement Tesla. La société dispose d'un programme de collecte de données très complet - mieux que tout autre constructeur automobile créant des logiciels de conduite autonome ou entreprise de logiciel travaillant sur les voitures autonomes. Ils collectent constamment de nouvelles données sur les centaines de milliers de voitures vendues à travers le monde et les utilise pour affiner leurs algorithmes.
Mais est-ce que plus de données va pour autant garantir la résolution du problème?
Interpolation ou extrapolation
La communauté de l'IA est divisée sur la façon de résoudre le problème de la «longue traîne». Un point de vue, principalement partagé par les chercheurs en apprentissage profond, est que les réseaux de neurones plus grands et plus complexes entrainés sur des ensembles de données plus volumineux finiront par atteindre des performances comparable à l'humain sur les tâches cognitives spécifiques. L'argument principal ici est que l'histoire de l'intelligence artificielle a démontré que les solutions qui peuvent évoluer avec les progrès du matériel informatique et la disponibilité de plus de données sont les mieux placées pour résoudre les problèmes du futur.
Ce point de vue vient étayer l'approche de Musk pour solutionner les problèmes des voitures autonomes grâce à des améliorations progressives des algorithmes et des modèles d'apprentissage profond de Tesla. Un autre argument qui va aussi dans le sens de l'approche du big data est le point de vue de «l'ajustement direct». Certains neuroscientifiques pensent que le cerveau humain est une machine à interpolation, ce qui signifie qu'il remplit l'espace entre les points de données qu'il a précédemment vus. La clé ici est de trouver la bonne distribution des données qui peuvent couvrir une vaste zone de l'espace du problème.
Si ces hypothèses sont correctes, Tesla finira par atteindre une autonomie complète simplement en collectant de plus en plus de données sur ses voitures. Mais il doit encore comprendre comment utiliser efficacement son vaste stock de données.
L'extrapolation (à gauche) tente d'extraire des règles du Big Data et de les appliquer à l'ensemble de l'espace des problèmes. L'interpolation (à droite) repose sur un échantillonnage riche de l'espace du problème pour calculer les points entre les échantillons.
Face à lui, il y a ceux qui croient que l'apprentissage profond est fondamentalement déficient car il ne peut qu'interpoler. Les réseaux de neurones profonds extraient des modèles à partir de données, mais ils ne développent pas de modèles causaux de leur environnement. C'est pourquoi ils doivent être précisément formés aux différentes nuances du problème qu'ils souhaitent résoudre. Quelle que soit la quantité de données sur laquelle vous entraînez un algorithme d'apprentissage profond, vous ne pourrez pas lui faire confiance, car il y aura toujours de nombreuses situations nouvelles pour lesquelles il échouera dangereusement.
L'esprit humain, quant à lui, extrait des règles de haut niveau, des symboles et des abstractions de chaque environnement, et les utilise pour extrapoler de nouveaux paramètres et scénarios sans avoir besoin d'un entraînement explicite.
Ben est en accord avec ce dernier point de vue. Ben pense que sans une sorte de capacité d'abstraction et de manipulation de symboles, les algorithmes d'apprentissage profond ne pourront pas atteindre les aptitudes de conduite du niveau de l'humain.
Il existe de nombreux efforts pour améliorer les systèmes d'apprentissage profond. Un exemple est l'intelligence artificielle hybride, qui combine les réseaux de neurones et l'IA symbolique pour donner à l'apprentissage profond la capacité de gérer les abstractions.
Un autre domaine de recherche important est «le système 2 d'apprentissage profond». Cette approche, soutenue par le pionnier du deep learning, Yoshua Bengio, utilise une approche basée sur un réseau neuronal pur pour donner des capacités de manipulation de symboles à l'apprentissage en profondeur. Yann LeCun, un collègue de longue date de Bengio, travaille sur «l'apprentissage auto-supervisé», des systèmes d'apprentissage profond qui, comme les enfants, peuvent apprendre en explorant le monde par eux-mêmes et sans avoir besoin de beaucoup d'aide ni d'instructions de la part des humains. Et Geoffrey Hinton, mentor de Bengio et de LeCun, travaille sur des «réseaux capsule», une autre architecture de réseau neuronal qui peut créer une représentation quasi-tridimensionnelle du monde en observant des pixels.
Ce sont toutes des directions prometteuses qui, espérons-le, intégreront le bon sens, la causalité et la physique intuitive indispensables dans des algorithmes d'apprentissage profond. Mais ils en sont encore au début de la phase de recherche et ne sont pas encore prêts à être déployés dans des voitures autonomes et d'autres applications d'IA. Je suppose donc qu’ils seront exclus pour la période «fin 2020» de Musk.
Comparaison des pilotes humains et IA
L'un des arguments qu'on entend souvent est que les conducteurs humains font aussi beaucoup d'erreurs. Les humains sont fatigués, distraits, imprudents, ivres et causent plus d'accidents que les voitures autonomes. La première partie sur l'erreur humaine est vraie. Mais je ne sais pas si la comparaison de la fréquence des accidents entre conducteurs humains et IA est correcte. Je pense que la taille de l'échantillon et la distribution des données ne donnent pas encore une image précise.
Mais plus important encore, Ben pense que la comparaison des chiffres est trompeuse à ce stade. Ce qui est plus important, c'est la différence fondamentale entre la façon dont les humains et l'IA perçoivent le monde.
Nos yeux reçoivent beaucoup d'informations, mais notre cortex visuel est sensible à des choses spécifiques, telles que le mouvement, les formes, les couleurs et les textures spécifiques. Au cours de milliards d'années d'évolution, notre vision a été affinée pour atteindre différents objectifs essentiels à notre survie, tels que repérer la nourriture et éviter le danger.
Mais peut-être plus important encore, nos voitures, routes, trottoirs, panneaux de signalisation et bâtiments ont évolué pour s'adapter à nos propres préférences visuelles. Pensez à la couleur et à la forme des panneaux stop, des séparateurs de voies, des clignotants, etc. Nous avons fait tous ces choix - consciemment ou non - en nous basant sur les préférences et les sensibilités générales du système de vision humain.
Par conséquent, même si nous faisons beaucoup d'erreurs, nos erreurs sont moins étranges et plus prévisibles que les algorithmes d'IA qui conduisent les voitures autonomes. Exemple concret: aucun conducteur humain sain d'esprit ne conduirait directement dans une voiture renversée ou un camion de pompier garé.
Dans ses remarques, Musk a déclaré: «Ce qu'il faut apprécier à propos de l'autonomie de niveau cinq, c'est quel niveau de sécurité est acceptable pour les rues publiques par rapport à la sécurité humaine? Il suffit donc d'être deux fois plus sûr que les humains. Je ne pense pas que les régulateurs accepteront une sécurité équivalente à celle des humains. La question est donc de savoir si ce sera deux fois plus sûr, cinq fois plus sûr, 10 fois plus sûr? »
Mais Ben pense qu’il n’est pas suffisant qu’un algorithme d’apprentissage profond produise des résultats comparables ou même meilleurs que ceux de l’humain moyen. Il est également important que le processus par lequel il passe pour atteindre ces résultats reflète celui de l'esprit humain, en particulier s'il est utilisé sur une route conçue pour les conducteurs humains.
Autres problèmes à résoudre
Compte tenu des différences entre l'homme et le flic, nous devons soit attendre des algorithmes d'IA qui reproduisent exactement le système de vision humaine (ce qui est peu probable de sitôt d'après Ben), ou nous pouvons emprunter d'autres chemins pour nous assurer que les algorithmes et le matériel d'IA actuels peuvent fonctionner de manière fiable.
L'une de ces voies consiste à modifier les routes et les infrastructures pour accueillir le matériel et les logiciels présents dans les voitures. Par exemple, nous pouvons intégrer des capteurs intelligents dans les routes, les séparateurs de voies, les voitures, les panneaux de signalisation, les ponts, les bâtiments et les objets. Cela permettra à tous ces objets de s'identifier et de communiquer via des signaux radio. La vision par ordinateur jouera toujours un rôle important dans la conduite autonome, mais elle sera complémentaire de toutes les autres technologies intelligentes présentes dans la voiture et son environnement. C'est un scénario qui devient de plus en plus possible car les réseaux 5G deviennent lentement une réalité et le prix des capteurs intelligents et de la connectivité Internet diminue.
Tout comme nos routes ont évolué avec la transition des chevaux et des charrettes vers les automobiles, elles connaîtront probablement davantage de changements technologiques avec l'arrivée de voitures autonomes, conduites par des logiciels. Mais de tels changements nécessitent du temps et d'énormes investissements de la part des gouvernements, des constructeurs automobiles et des fabricants de tous les autres objets qui partageront des routes avec des voitures autonomes. Au passage, nous explorons encore les menaces de confidentialité et de sécurité liées à l’installation d’une puce connectée à Internet.
Un scénario intermédiaire est l'approche «géo-repérage». La technologie de conduite autonome ne sera autorisée à fonctionner que dans des zones où sa fonctionnalité a été entièrement testée et approuvée, où il existe une infrastructure intelligente et où la réglementation a été adaptée aux véhicules autonomes (par exemple, les piétons ne sont pas autorisés sur les routes, les conducteurs humains limités, etc.). Certains experts décrivent ces approches comme «déplacer les objectifs» ou redéfinir le problème, ce qui est en partie correct. Mais étant donné l'état actuel de l'apprentissage profond, la perspective d'un déploiement du jour au lendemain de la technologie de conduite autonome n'est pas très prometteuse. De telles mesures pourraient contribuer à une transition douce et progressive vers les véhicules autonomes à mesure que la technologie s'améliore, que l'infrastructure évolue et que les réglementations s'adaptent.
Il existe également des obstacles juridiques. Nous avons des normes et des règlements clairs qui déterminent qui est responsable lorsque les voitures conduites par les humains causent des accidents. Mais les voitures autonomes sont encore dans une zone grise. Pour l'instant, les conducteurs sont responsables des actions de leur Tesla, même lorsqu'il est en mode pilote automatique. Mais dans un véhicule autonome de niveau 5, il n’y a pas de conducteur à blâmer pour les accidents. Et je ne pense pas qu’un constructeur automobile serait disposé à déployer des véhicules entièrement autonomes s’il était tenu responsable de chaque accident causé par ses voitures.
De nombreuses échappatoires pour l'échéance 2020
Cela dit, Ben pense que les commentaires de Musk contiennent de nombreuses excuses au cas où il ne rendrait pas la Tesla totalement autonome d'ici la fin de 2020.
Premièrement, il a dit: «Nous sommes très proches du niveau cinq d’autonomie.» Ce qui est vrai. Dans de nombreux problèmes d'ingénierie, en particulier dans le domaine de l'intelligence artificielle, c'est le dernier kilomètre qui prend du temps à résoudre. Nous sommes donc sur le point d’atteindre des voitures entièrement autonomes, mais nous ne savons pas quand nous allons enfin combler l’écart.
Musk a également déclaré que Tesla aurait terminé cette année les fonctionnalités de base pour l'autonomie de niveau 5. Il n'est pas clair si basique signifie «complet et prêt à être déployé».
Et il n’a pas promis que si Teslas devenait totalement autonome d’ici la fin de l’année, les gouvernements et les régulateurs les autoriseraient sur leurs routes.
Musk est un génie et un entrepreneur accompli. Mais le problème des voitures autonomes est beaucoup trop vaste pour une seule personne ou une seule entreprise. Il se situe à l'intersection de nombreux domaines scientifiques, réglementaires, sociaux et philosophiques.
Pour sa part, Ben ne pense pas que nous verrons des Teslas sans conducteur sur nos routes à la fin de l’année, ni de si tôt.
Cet article est la traduction française de l'article original "Why deep learning won't give us level 5 self-driving cars" avec l'aimable accord de son auteur Ben Dickson
Comments