Quelles sont les 5 techniques de data mining les plus utilisés ?

Ce sont les années 90 qui ont vu naître la pratique du data mining. Depuis ce temps, le forage de données a fait beaucoup de chemin et est devenu un domaine bien distinct du monde des data sciences. Les premiers algorithmes et bases de données rationalisées des années 70 et 80 ont permis par la suite une utilisation massive de ces technologies à des fins économiques et commerciales, notamment en devenant moins élitistes et moins onéreuses à utiliser et à implémenter dans une entreprise. Cette technique est de nos jours utilisée dans presque tous les domaines, de la santé aux gouvernements en passant par les organismes financiers.

Comment fonctionne le data mining ?

Comme son nom le laisse deviner, le data mining consiste à « miner » des données et informations. Il faut entendre par là extraire à l'aide d'outils numériques des informations en masse de différentes sources. Pour continuer la comparaison avec le minage réel de minerai, le « forage » de données commence par l'extraction simple des données d'une source. Il faut ensuite les « dégraisser », en enlevant les informations inutiles qui ont été extraites dans le paquet. À ce stade, on retire aussi les nombreuses erreurs et données corrompues qui ne servent à rien. Les données brutes sont ensuite transformées et formatées en des paquets compréhensibles par des logiciels et des opérateurs qui vont en effectuer l'analyse et la mise en forme.

Plusieurs techniques et méthodes sont utilisées par les analystes et experts en data science. Classifications, clustering ou encore méthode de régression permettent de rendre les données lisibles et compréhensibles pour trouver un sens dans leur étude. Informatiquement, on appelle cela des insights. Ceux-ci peuvent, à l'aide d'un modèle algorithmique, être interprétés. Les analystes rédigent ensuite un rapport d'analyse à destination du commanditaire, ou de leur chef de service. Ce rapport servira à la prise de décisions commerciales ou économiques. Par exemple, en minant des données sur les marchés Forex, un expert peut facilement trouver dans ses données brutes une corrélation entre deux monnaies, entre une monnaie et une matière première, voire entre ces valeurs et des événements extérieurs, s'ils font partie des sources. Le modèle analytique pourra permettre en théorie de relier ces événements, pour prédire avec une plus grande précision les mouvements de ces valeurs à l'avenir en anticipant certains événements. La variation chaotique de certaines monnaies lorsque la FED se prépare à une annonce par exemple.

Toute donnée peut être identifiée lors de l'exploration de données

En théorie, tous les types de données peuvent être analysés et donc faire l'objet d'un data mining. En pratique, il faudra faire attention aux réglementations sur les données à caractère personnel, et aux informations classifiées, voire confidentielles. En dehors de cela, la mine d'informations est ouverte à tous.

Les données les plus analysées restent bien entendu les données transactionnelles. Par exemple, toutes les informations relatives aux achats que les clients font dans une boutique physique ou en ligne. Ces données peuvent concerner une incroyable variété de sources : le temps passé en boutique, devant un certain rayon ou une page web en particulier, le contenu du panier, le temps de validation de celui-ci… L'analyse de ces habitudes permet ensuite d'optimiser la disposition des rayons et produits en magasin, d'améliorer l'architecture et la présentation d'un site web, d'identifier les produits qui fonctionnent et ceux qui méritent des efforts de marketing, et même d'effectuer des opérations de promotions ciblées.

Le data mining peut être encore plus précis lorsque l'on extrait des données directement d'une source numérique comme la navigation web. Toutes les données sont ainsi virtuellement exploitables : les mouvements de curseur, les pages visitées, le temps passé sur chacune, le taux de rebond… Des valeurs bien connues des professionnels du web, qui sont ainsi extraites et utilisées pour faciliter leur métier par exemple.

Les données extraites des réseaux sociaux font beaucoup parler d'elles, surtout depuis les procès intentés à Facebook pour l'utilisation qu'ils en faisaient. Peu importe le réseau social étudié, ce sont ici les posts, les likes, les commentaires et les partages qui vont être analysés pour connaître la personnalité de l'utilisateur et son comportement. On peut ensuite en déduire des modes, des tendances, des personnalités influentes, qui pourront être exploitées lors de campagnes marketing ultérieures.

Hors du monde virtuel et informatique, de nombreux autres types de données sont extraites. De nombreuses usines de pointe extraient les données de nombreux capteurs, de température, humidité, pression ou mouvements pour optimiser le fonctionnement des machines et en améliorer la rentabilité et la sécurité. Une centrale nucléaire par exemple mine et exploite en temps réel des milliers de capteurs dont l'étude permet de connaître l'état de santé d'un réacteur et d'en prédire le comportement. Le data mining n'est donc pas uniquement destiné aux activités commerciales et financières, même si ces domaines en constituent la partie la plus visible. Les gouvernements collectent les données des administrés pour permettre un meilleur fonctionnement des structures démocratiques du pays. Ainsi de nombreuses informations sur le sexe, l'âge, l'adresse, les trajets effectués… peuvent à terme permettre d'optimiser l'accès aux services de l'État et faciliter la gestion des différents organes gouvernementaux.

Enfin, dans le milieu de la santé, ce sont aussi des techniques de data mining qui sont utilisées pour collecter et utiliser les données des dossiers médicaux électroniques, les résultats de tests, ou le suivi des patients à grande échelle. Certains modèles prédictifs visent même à prédire les épidémies grâce à l'étude des symptômes rapportés (et anonymisés).

Les 5 techniques de data mining les plus utilisées

Passons volontairement sur les méthodes de collecte de données brutes comme le web scraping, pour se concentrer sur l'extraction de sens des données. Comme nous l'avons dit, le data mining regroupe en vérité plusieurs techniques et méthodes. Les principales sont la classification, la régression, le clustering, l'association par règles et la détection des anomalies.

Classification

C'est le premier sens que l'on peut attribuer à des données brutes, et c'est probablement la première technique qui a été utilisée à grande échelle dans le forage de données. La classification affecte une étiquette, une catégorie ou un « tag » à chaque donnée. Pour faire cela automatiquement, on utilise un logiciel qui compare les données reçues à celles déjà étiquetées, ainsi que des algorithmes tels que des arbres de décision ou des SVM pour affiner la différenciation et la compréhension du logiciel de classification. De cette manière, la technique s'est répandue et permet de classer automatiquement les mails que vous recevez dans votre boîte mail. Un logiciel en analyse le contenu, la provenance… pour en déduire dans quelle catégorie les classer. Certains modèles peuvent même en prédire l'importance, et la plupart savent reconnaître un spam d'un mail légitime.

Régression

La régression permet de prédire une valeur en fonction de sa relation avec de nombreuses variables. Cette technique est surtout utilisée par les sociétés immobilières, par exemple pour prédire les variations d'un bien en fonction de sa localisation, de son âge, du nombre de pièces…

Clustering

En anglais, un cluster est un amas. Ainsi, le clustering permet de créer des groupes de données similaires, avec un degré de similitude adaptable. Il faut pour cela un algorithme de scan, qui pourra in fine segmenter une base de données de clients par exemple, pour regrouper les acheteurs selon leurs habitudes et ainsi personnaliser des offres.

Association par règles

Les règles d'association reposent sur un principe et des algorithmes simples, qui identifient des motifs fréquents entre les insights. Par exemple, avec cette technique de minage de données, il est facile de repérer les achats liés entre eux dans une boutique. Par exemple, les acheteurs de farine achètent souvent du sucre en même temps. Idem pour les couches pour bébé et les lingettes. Grâce à cette méthode, les données peuvent permettre d'optimiser la présentation d'un magasin pour faciliter les achats.

Détection des anomalies

Les algorithmes de détection des anomalies repèrent quant à eux les données contraires aux règles que l'on a établies comme référence. Ainsi, on peut repérer des comportements anormaux, et identifier des risques à venir en surveillant certains paramètres. Par exemple, une banque pourrait repérer un risque élevé de fraude en fonction du comportement inhabituel d'un client.

Comment devenir un expert en data mining

Être expert en data mining ne s'improvise pas. En effet, la fouille de données requiert des compétences solides et il faut suivre un cursus spécifique. Une licence en informatique et statistiques par exemple, pour acquérir les bases en maths et en programmation ainsi que sur les procédés algorithmiques et l'analyse des données. Une licence se fait en 3 ans. Elle peut être suivie d'un Master en data science, durant lequel on étudiera les principes de l'intelligence artificielle et des big data, concepts fondamentaux en minage de données. C'est à ce stade que l'on prendra généralement les premiers contacts avec les entreprises susceptibles d'embaucher par la suite. Le doctorat est réservé à ceux qui souhaitent faire de la recherche théorique et œuvrer à l'amélioration des procédés généraux. Il n'est pas nécessaire pour être expert en data mining en entreprise. En revanche, une formation certifiante en data science peut être un atout dans un CV, surtout si elle est accompagnée d'une certaine expérience dans le domaine.