Conception avant-projet

Solution

L’explosion quantitative et la variété des données numériques obligent les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. En prenant en compte que cette situation correspond à de plus en plus d’entreprises actuelles, la possession de telles données ne présente aucun intérêt pour elles si ces données ne sont pas exploitées. La solution est donc l’utilisation d’outil de Data Mining à l’instar du logiciel Weka étudié dans ce présent document, pour extraire des connaissances depuis ces données afin de les exploiter en vue de remplacer ou d’aider les experts humains ou décideurs dans la prise de décision.

Processus de Data Mining

Des efforts ont été déployés pour utiliser des modèles de processus de Data Mining qui peuvent guider sa mise en œuvre sur une grande quantité de données. Dans notre projet, nous nous concentrons principalement sur trois processus les plus populaires qui sont :
  • KDD (Knowledge Discovery Databases) ;
  • CRISP-DM (CRoss-Industry Standard Process for Data Mining) ;
  • SEMMA (Sample, Explore, Modify, Model, and Access).
Ces trois processus sont utilisés par les experts en Data Mining et les chercheurs. Nous ferons une étude comparative des étapes de chaque méthode dans le tableau 1.   Tableau 1. Comparaison entre les modèles de processus de Data Mining
Méthode KDD CRISP-DM SEMMA
Nombre d’étapes 9 6 5
Nom des étapes Développer et comprendre le domaine de l’application Compréhension métier -
Sélection des données Compréhension des données Sample : Echantillon des données
Prétraitement et nettoyage des données Explore : Exploitation des données
Transformation des données Préparation des données Modify : Modification des données
Choix de la meilleure tâche pour le Data Mining Modélisation Model : Modélisation des données
Choix de l’algorithme de Data Mining
Implémentation de l’algorithme de Data Mining
Evaluation Evaluation Assessment : Evaluation des résultats
Utilisation des connaissances découvertes Déploiement/Implémentation -
 

Choix retenu

Comme le processus KDD est le plus utilisé et qu’il est le plus complet et précis, notre choix s’oriente vers ce processus.  

Présentation de la méthode KDD

KDD est un processus d’extraction des connaissances cachées dans les données. KDD nécessite des connaissances préalables et pertinentes, et une compréhension du domaine d’étude et des objectifs [3]. Cette méthode est itérative et interactive. Ainsi, il est peut-être nécessaire de faire un pas précédent. KDD comprend 9 étapes principales [4] :

Développement et compréhension le domaine de l’application

C’est le pas initial de ce processus. Il prépare la scène pour comprendre et développer les buts de l’application.

Sélection des données

Cette étape consiste à sélectionner et à créer un ensemble de données sur lequel va être appliqué le Data Mining.

Prétraitement et nettoyage des données

Cette étape inclut des opérations comme la suppression des valeurs aberrantes.

Transformation des données

Cette étape inclut la réduction des dimensions et la transformation des attributs

Choix de la meilleure tâche pour le Data Mining

Il faut choisir quel type de Data Mining sera utilisé, en décidant le but du modèle. Exemples : Classification, régression

Choix de l’algorithme de Data Mining

Cette étape permet de choisir l’algorithme spécifique pour le Data Mining

Implémentation de l’algorithme de Data Mining

Cette étape implémente les algorithmes de Data Mining choisis.

Evaluation

Il s’agit d’évaluer et d’interpréter les motifs (patterns) découverts

Utilisation des connaissances découvertes

Ici, on incorpore les connaissances découvertes dans d’autres systèmes pour d’autres actions  

Dataset

Etant donné que le format ARFF est le format par défaut supporté par l’outil Weka, il est tout à fait légitime d’orienter notre choix vers ce format.

Caractéristiques principales du format ARFF

  • Les commentaires sont précédés de %
  • Définition du nom de l’ensemble de données avec @relation
  • Définition des attributs avec @attribute
  • Le début des instances est signalé par @data
La figure 3 illustre un exemple de fichier ARFF
Figure 3. Fichier ARFF
  • [3] Brachman, R. J. & Anand, T., 1996, “The process of knowledge discovery in databases.”, AAAI Press/The MIT Press.
  • [4] Usama Fayyad et al., 1996, “From Data Mining to Knowledge Discovery in Databases”American Association for Artificial Intelligence.
Data mining KDD Weka