Dans ce travail, j'ai entrepris d'appliquer des méthodes de machine learning à l'art préhistorique. Le matériel dont je disposais était un ensemble de figures gravées sur des armes ou outils en bois de renne il y a 14 000 - 15 500 ans, dont l'ornementation était constituée de chevaux affectés d'un style graphique très particulier, très homogène : des postures peu réalistes, des disproportions affectant la tête et certains détails la composant, et une simplification des contours de l'animal.
Après un travail de relevé et d'homogénéisation de toutes les figures afin de ne conserver que leur aspect formel, mon but était de produire une méthode capable d'analyser ces images afin de détecter des similarités entre ces figures de chevaux. Parmi toutes les possibilités qu'offrent le machine learning, je me suis focalisé sur les méthodes "non supervisées", car le but n'était pas de reproduire un comportement humain mais bien de fournir un outil affranchi des écoles de pensées qui peuvent orienter le regard des experts de la discipline.
Je me suis basé sur la méthode des K-means, permettant de faire K groupes à partir de N éléments (les 149 figures de chevaux complètes). Les données transmises à la méthode étaient constituées de vecteurs codant pour les niveaux de gris des pixels des dessins que j'avais produit. Les images étaient préalablement compressées à différents niveaux de résolution pour tester l'efficacité de la méthode et contourner les problèmes liés au fléau des hautes dimensions.
J'ai créé une fonction score permettant de contrôler la qualité des partitions que les différents K-means que j'ai testé produisaient en faisant varier K et la compression des images. Cette fonction score prenait en compte le fait que les figures de chevaux issues d'une même frise devaient se retrouver dans la même classe, car ces frises sont constitués quasiment du même motif reproduit entre deux et 7 fois, modulo la variabilité de la main du graveur. Des facteurs multiplicatifs permettent de prévenir des comportements de concentration de la majorité des figures dans la même classe, induisant ainsi un score artificiellement élevé.
En faisant varier K et le niveau de compression des images, j'ai isolé les 5 meilleures partitions qui maximisaient la fonction score. De ces cinq partitions, j'ai extrait le consensus (deux figures sont reliées par une arête si elles sont classées ensembles dans les 5 partitions, pas une de moins) et l'ait illustré par un graphe, reliant les figures des objets entre elles.
Les résultats recoupent en partie l'état de l'art sur le sujet, et proposent de nouveaux liens entre la forme des figures et les types de supports. J'aimerai discuter de l'amélioration de ce travail avec d'autres méthodes statistiques (cartes de Kohonen, classification hiérarchique, etc.) afin d'enrichir cet outil et l'étendre à d'autres sujets.