L'apprentissage automatique (machine learning en anglais), champ d'étude de l'intelligence artificielle, concerne la conception, l'analyse, le développement et l'implémentation de méthodes permettant à une machine (au sens large) d'évoluer par un processus systématique, et ainsi de remplir des tâches difficiles ou impossibles à remplir par des moyens algorithmiques plus classiques.

Ainsi, des systèmes complexes peuvent être analysés, y compris les systèmes utilisant des valeurs symboliques. L'analyse peut concerner des graphes, des arbres, des courbes… Un exemple possible d'apprentissage automatique est celui de la classification : étiqueter chaque donnée en l'associant à une classe.

 

Les algorithmes utilisés permettent, dans une certaine mesure, à un système piloté par ordinateur (un robot éventuellement), ou assisté par ordinateur, d'adapter ses analyses et ses comportements en se fondant sur l'analyse de données empiriques provenant d'une base de données ou de capteurs.

La difficulté réside dans le fait que l'ensemble de tous les comportements possibles compte tenu de toutes les entrées possibles devient rapidement trop complexe à décrire (on parle d'explosion combinatoire) dans les langages de programmation disponibles. On confie donc à des programmes le soin d'ajuster un modèle permettant de simplifier cette complexité et de l'utiliser de manière opérationnelle.

De plus, ce modèle est adaptatif, et prend en compte l'évolution de la base des informations pour lesquelles les comportements en réponse ont été validés, ce que l'on appelle apprendre ; ceci permet d'auto-améliorer le système d'analyse ou de réponse. Ces programmes, selon leur degré de perfectionnement, intègrent éventuellement des capacités de traitement probabiliste des données, d'analyse de données issues de capteurs, de reconnaissance (reconnaissance vocale, reconnaissance de forme, d'écriture, etc.), de data-mining, d'informatique théorique, etc.

Parmi ces algorithmes de classification on cite les random forests. C'est un algorithme d'apprentissage statistique très performant, à la fois pour des problèmes de classification et de régression, capable de gérer de grands volumes de données, ainsi qu’un grand nombre de variables sans en supprimer aucune. L’algorithme arrive aussi à estimer l'importance de chaque variable pour une application donnée.

Nos travaux ont permis d’adapter cet algorithme pour des applications de reconnaissance en traitement d’images satellitaires (images LIDAR, hyper-spectrales, THR,…)

 

                                                                                                                                                                                                                                                Elaboré par Karim GHIRIANI