Présentation générale du Data Mining

Définition

Historiquement, le Data Mining est très jeune. Le concept apparaît en 1989 sous un premier nom de KDD (Knowledge Discovery in Databases, en français ECD pour Extraction de Connaissances à partir des Données), avant qu’en 1991 apparaisse pour la première fois le terme de Data Mining. Forage de données, explorations de données ou fouilles de données, ce sont les traductions possibles du Data Mining en français. En règle générale, le terme Data Mining désigne l’analyse de données depuis différentes perspectives et le fait de transformer ces données en informations utiles, en établissant des relations entre les données ou en repérant des patterns. Ces informations peuvent ensuite être utilisées par les entreprises pour augmenter un chiffre d’affaires ou pour réduire des coûts. Elles peuvent également servir à mieux comprendre une clientèle afin d’établir de meilleures stratégies marketing [1]. Les logiciels Data Mining font partie des outils analytiques utilisés pour l’analyse de données. Ils permettent aux utilisateurs d’analyser des données sous différents angles, de les catégoriser, et de résumer les relations identifiées. Techniquement, le Data Mining est le procédé permettant de trouver des corrélations ou des patterns entre de nombreuses bases de données relationnelles. Le Data Mining repose sur des algorithmes complexes et sophistiqués permettant de segmenter les données et d’évaluer les probabilités futures.

Données, informations et savoir dans le Data Mining

Données

Les données sont des faits, des nombres, ou des textes pouvant être traités par un ordinateur. Aujourd’hui, les entreprises accumulent de vastes quantités de données sous différents formats, dans différentes quantités de données. Parmi ces données, on distingue :
  • Les données opérationnelles ou transactionnelles telles que les données de ventes, de coûts, d’inventaire, de tickets de caisse ou de comptabilité [1].
  • Les données non opérationnelles, telles que les ventes industrielles, les données prévisionnelles, les données macro-économiques [1].
  • Les métadonnées, à savoir les données concernant les données elles-mêmes, telles que les définitions d’un dictionnaire de données [1].

Informations

Les patterns, associations et relations entre toutes ces données permettent d’obtenir des informations [2]. Par exemple, l’analyse des données de transaction d’un point de vente permet de recueillir des informations sur les produits qui se vendent, et à quel moment ont lieu ces ventes.  

Savoir

Les informations peuvent être converties en savoir à propos de patterns historiques ou des tendances futures [2]. Par exemple, l’information sur les ventes au détail d’un supermarché peut être analysée dans le cadre d’efforts promotionnels, pour acquérir un savoir au sujet des comportements d’acheteurs. Ainsi, un producteur peut déterminer quels produits doivent faire l’objet d’une promotion à l’aide du Data Mining.

Data Warehouse

Les importantes avancées en termes de collecte de données, de puissance de calcul, de transmission de données, et de capacités de stockage permettent aux entreprises d’intégrer bases de données au sein de Data Warehouses. Le Data Warehousing est le procédé de centraliser la gestion et la recherche de données. Grâce à une Data Warehouse, les entreprises peuvent diviser les données en segments d’utilisateurs précis, afin de les analyser en détail. Les analystes peuvent également commencer par le type de données qu’ils souhaitent utiliser puis créer une warehouse à partir de ces données. Tout comme le Data Mining, le terme de Data Warehousing est relativement nouveau, tandis que le concept en lui-même existe depuis des années. Le Data Warehousing représente une vision idéale d’un répertoire central de données maintenu en permanence. Cette centralisation est nécessaire pour maximiser l’accès des utilisateurs et l’analyse. Grâce aux grandes avancées technologiques, cette vision utopique est devenue une réalité pour beaucoup d’entreprises. De même, les avancées dans le domaine des logiciels analytiques permettent aux utilisateurs d’accéder librement aux données. C’est sur ces logiciels analytiques que repose le Data Mining.

Infrastructure technologique requise

Aujourd’hui, les applications de Data Mining sont disponibles dans toutes les tailles pour serveur ou ordinateur personnel. Mais il existe deux principaux facteurs technologiques :
  • La taille de la base de données : plus le nombre de données à traiter et à maintenir est important, plus un système puissant est requis ;
  • La complexité des requêtes : plus les requêtes sont complexes et nombreuses, plus un système puissant est requis.
En général, le stockage de bases de données relationnelles et les technologies de gestion actuelles sont adéquats pour beaucoup d’applications de Data Mining. Cependant, cette infrastructure doit être largement augmentée pour prendre en charge des applications plus importantes.  

Propriétés principales du Data Mining

On dénombre 3 propriétés principales du Data Mining.

La découverte automatique de patterns

Le Data Mining repose sur le développement de modèles. Un modèle utilise un algorithme pour agir sur un ensemble de données. La notion de découverte automatique se réfère à l’exécution de modèles de Data Mining. Les modèles de Data Mining peuvent être utilisés pour miner les données sur lesquelles ils sont bâtis, mais la plupart des types de modèles peuvent être généralisés à de nouvelles données. Le processus permettant d’appliquer un modèle à de nouvelles données est appelé scoring.

La prédiction de résultats probables

De nombreuses formes de Data Mining sont prédictives. Par exemple, un modèle peut prédire un résultat basé sur l’éducation et d’autres facteurs démographiques. Les prédictions ont une probabilité associée. Certaines formes de Data Mining prédictif génèrent des règles, qui sont les conditions pour obtenir un résultat. Par exemple, une règle peut spécifier qu’une personne dotée d’un Master et vivant dans un quartier précis a une probabilité d’avoir un meilleur salaire que la moyenne régionale.

La création d’informations exploitables

Le Data Mining permet de dégager des informations exploitables de larges volumes de données. Par exemple, un planificateur urbain peut utiliser un modèle pour prédire le revenu en se basant sur les données démographiques pour développer un plan pour les ménages à bas revenu. Une agence de location de voiture peut utiliser un modèle pour identifier des segments de consommateurs afin de créer une promotion ciblant les clients à forte valeur.  

Les outils de Data Mining

Les logiciels de Data Mining analysent les relations entre les données et repèrent des patterns en fonction des requêtes des utilisateurs. Un restaurant peut, par exemple utiliser le Data Mining pour déterminer à quel moment proposer certaines offres. Il faudra alors chercher dans les informations collectées, et créer des classes en se basant sur les moments auxquels ont lieu les visites de clients et ce qu’ils commandent. Dans d’autres cas, les Data Miners trouvent des clusters d’informations en se basant sur des relations logiques, ou bien ils cherchent des associations et des patterns séquentiels pour tirer des conclusions sur le comportement des utilisateurs. Plusieurs outils de Data Mining existent. Orange, Weka, RapidMiner ou Xelopes sont quelques-uns des outils open source disponibles sur le Web. Des licences professionnelles pour le Data Mining sont également disponibles. Parmi les plus célèbres d’entre elles, SPSS distribué par IBM, Entreprise Miner de SAS, ou encore Microsoft Analysis Services.
  • [1] H. Witten, Eibe Frank, Mark A. Hall, and Chris J. Pal, 2016, “Data Mining : Practical Machine Learning Tools and Techniques”,Morgan Kaufmann Publishers, San Francisco.
  • [2] Han, J. and Kamber, M., 2006, “Data Mining : Concepts and Techniques. Second Edition”, Morgan Kaufmann Publishers, San Francisco
big data Data mining data Warehousing KDD