Le profilage de données est une étape nécessaire à tout travail statistique. Méthode bien connue des datas scientists et des analystes professionnels, il permet de nettoyer et d'organiser des données brutes en vue de s'en servir pour prendre des décisions importantes. Qu'est-ce donc que le profilage de données, en quoi est-il si important, et quelles en sont les finalités concrètes ?
C'est quoi le profilage
Le terme profilage définit assez précisément ce dont il est question ici. Il s'agit d'effectuer le même travail sur des données commerciales et économiques que sur une personne, lorsque l'on veut établir son profil. Le mot anglais profiling est d'ailleurs souvent utilisé par les analystes en criminologie pour décrire cette méthode de recoupement des données collectées lors de leur enquête sur un individu. Dans le cadre économique qui nous intéresse, il s'agit de la même chose, dans un contexte tout à fait différent. Il s'agira de définir un profil de comportement, de tendances, de relations… pour être capable d'anticiper des événements économiques futurs.
Le profilage est la deuxième étape de toute analyse statistique cohérente. Il intervient en effet après la collecte de données, qui peut intervenir sur plusieurs années, des centaines de paramètres, et des millions de personnes. Cette montagne considérable de data doit être profilée pour devenir exploitable. Elles doivent être dégraissées, classées, et relues par un analyste expérimenté formé à cette routine un peu abstraite. Ce n'est qu'une fois le profilage effectué qu'elles seront exploitables par l'entreprise ou l'organisation qui les a collectées.
Elles pourront enfin être incorporées dans des modèles prédictifs ou des logiciels d'analyse.
Le profilage est en général effectué par des experts analystes, car de sa qualité vont dépendre toute la cohérence et la fiabilité des modèles qui utiliseront ces données, et donc les décisions prises selon elles. Les algorithmes et les logiciels de régression logistiques sont certes redoutablement efficaces, mais leur pertinence repose sur une base de données de qualité, exempte d'incohérences et de paradoxes, qui ne sauraient être interprétés par un ordinateur.
Le profilage est donc une technique complexe qui rassemble plusieurs disciplines : collecte de données pertinentes, nettoyage et organisation des datas, études mathématiques et empiriques des relations entre elles, et intégration numérique dans un modèle logiciel.
Quel est le but du profilage ?
Le but du profilage en lui-même est simple. Il s'agit d'épurer une base de données brutes et de la structurer. Ses applications sont cela dit nombreuses.
Il peut s'agir en premier lieu d'améliorer la qualité des données collectées. En effet, lors de la collecte, certaines erreurs peuvent se glisser. Des adresses et numéros de téléphone ou de références peuvent être incomplets ou ne pas respecter la structure demandée. Le profilage a pour but de détecter ces erreurs et d'y remédier.
Dans le milieu bancaire, le profilage servira généralement à mettre en évidence la fraude ou les activités suspectes. Seul l'œil avisé de l'analyste saura, à partir de données brutes comme des relevés de transaction, pointer du doigt une anomalie ou une incohérence, qui pourra ensuite être prise en compte par les services bancaires.
Le profilage dans le domaine commercial est beaucoup plus répandu. Il permet de mettre en évidence les comportements des clients, les habitudes d'achat, les paramètres d'incitation au passage à l'action…. ce qui au final mènera l'entreprise à adapter ses méthodes de vente, de marketing ou de recommandations pour améliorer ses performances. Les données brutes ne suffisent pas pour cela, et un bon profilage doit être réalisé en amont de toute prise de décision.
Le profilage peut être utilisé dans une logique d'optimisation. Par exemple dans le secteur logistique, les données une fois épurées et classées peuvent permettre d'optimiser les trajets des transports, les temps de récupération des chauffeurs, les tournées, les horaires de chargement et de livraison… Tout cela pour réduire les coûts de fonctionnement de l'entreprise et donc augmenter ses profits efficacement.
De manière purement statistique enfin, ce n'est qu'après profilage que les données peuvent être fournies à un modèle prédictif, comme un modèle de régression logistique. Ces logiciels permettent de calculer des probabilités d'occurrence en fonction des données qui lui sont soumises. Mais pour cela, elles doivent être classées et ordonnées. Par dessus tout, l'analyste devra avoir été capable de trouver des liens entre elles, d'identifier des tendances, des variables, des patterns et de les mettre en équation. En cela, le profilage est l'étape la plus importante de toute analyse de données.
Comment faire du profilage ?
Concrètement, quelle est donc la tâche de l'analyste chargé du profilage des données ? Elles sont en vérité nombreuses, et tout commence par la collecte des données brutes.
Identifier des sources fiables
Il faudra en premier identifier les sources de données pour en déterminer la provenance et donc la fiabilité. Par exemple, ce peut être des données personnelles des clients : âge, sexe, habitudes, évaluations, adresse… Mais aussi des données purement statistiques et anonymes provenant d'une boutique. Comme le nombre de transactions, les jours d'ouverture du magasin, les horaires d'ouverture, le nombre de clients sur place, le nombre d'achats, le chiffre d'affaires…
Certaines sources sont plus fiables que d'autres, et c'est à l'analyste de privilégier les bonnes et d'éliminer les autres, ou au moins d'en minimiser l'impact.
La collecte se fait par tout moyen, dans la mesure où elle respecte les règlements en vigueur. Par exemple elle devra suivre la politique RGPD en ce qui concerne les données personnelles des clients et utilisateurs. Ces données brutes devront ensuite être patiemment explorées. Une grande attention devra être portée sur la sensibilité de certaines données. Respecter la politique RGPD est une chose, mais certaines données peuvent revêtir un caractère secret ou confidentiel, qu'il faudra respecter avec tout autant de rigueur. Par exemple en économie boursière, la divulgation ou l'utilisation de certaines informations est illégale, alors que leur collecte en soi ne l'est pas. C'est ce que le législateur entend d'ailleurs par délit d'initié. Attention donc à la provenance et à la nature des données à traiter.
Utiliser les données collectées
L'analyste devra sélectionner les données à utiliser pour atteindre son objectif. Par exemple, s'il souhaite comprendre pourquoi le chiffre d'affaires d'une boutique est au plus haut un certain jour, il peut y arriver en choisissant consciencieusement les catégories à analyser. Le jour de la semaine, l'heure, la météo (elle peut jouer un rôle important sur les habitudes de consommation), le type de produits achetés… C'est à l'analyste d'avoir l'esprit ouvert sur les variables d'influence de son système.
Maintenant que les données ont été triées et que seules les catégories les plus pertinentes sont conservées pour la suite vient un travail d'épuration. L'expert devra éliminer les extrêmes qui mathématiquement peuvent fausser l'interprétation et les moyennes. C'est la dernière chance pour lui de repérer aussi les valeurs aberrantes, et d'en déterminer la cause si possible, et de supprimer les informations qui font doublon. L'élimination des valeurs extrêmes ou aberrantes est une étape à ne jamais négliger en sciences statistiques, que ce soit pour dresser une courbe de données gaussienne précise ou pour éviter les paradoxes et les incohérences entre réalité observée et résultats obtenus.
L'étape la plus difficile est enfin le profilage en lui-même. L'interprétation des résultats et la mise en évidence des tendances et des relations entre les différents paramètres et variables.
Ainsi le jour de la semaine peut avoir une influence sur l'affluence en boutique compte tenu des personnes en repos hebdomadaire ou en week-end. La catégorie de produits achetés pourra indiquer l'émergence d'une tendance de mode ou d'influence de certains événements extérieurs…
Le nombre de paramètres peut être considérable selon le domaine étudié. D'où la nécessité de faire appel à des analystes professionnels spécialisés dans le profilage et à des logiciels spécifiques.
L'importance du profiler
Dans la plupart des cas, le résultat du profilage fait l'objet d'un rapport en clair, entendez une version en mots plutôt qu'en chiffres, compréhensible par des non-initiés, en général les cadres et décisionnaires qui ont demandé le profilage. L'analyste devra donc savoir mettre en mots ses observations pour conseiller les décisionnaires en fonction des résultats de l'étude de données. En ce sens, comme en criminologie, le profiler est un appui indispensable et un intermédiaire entre la science statistique et la pratique de l'économie.
Devenir un expert dans le profilage de données nécessite un certain bagage en ce qui concerne l'éducation et la formation. Sans compter l'expérience, précieuse dans ce domaine. Il faudra donc préférer les licences et masters à dominante scientifique et informatique bien entendu, avec une option statistique et études de probabilités.
Il sera possible ensuite de se spécialiser dans l'analyse de données, qui de nos jours constitue une science à part entière, tellement ses applications sont courantes et de plus en plus pointues.
Pour vraiment parfaire le profil d'analyste expert en data, il sera aussi préférable d'étudier le génie logiciel et le développement d'application. Cela permettra de créer des modèles d'analyses pour faciliter le profilage, voire des modèles plus complets de prédiction et de prise de décision. C'est une compétence très recherchée de nos jours qui peut être obtenue lors d'une formation certifiante en data science dans plusieurs écoles et université.