Conception avant-projet
Solution
L’explosion quantitative et la variété des données numériques obligent les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. En prenant en compte que cette situation correspond à de plus en plus d’entreprises actuelles, la possession de telles données ne présente aucun intérêt pour elles si ces données ne sont pas exploitées. La solution est donc l’utilisation d’ outil de Data Mining à l’instar du logiciel Weka étudié dans ce présent document, pour extraire des connaissances depuis ces données afin de les exploiter en vue de remplacer ou d’aider les experts humains ou décideurs dans la prise de décision.
Processus de Data Mining
Des efforts ont été déployés pour utiliser des modèles de processus de Data Mining qui peuvent guider sa mise en œuvre sur une grande quantité de données. Dans notre projet, nous nous concentrons principalement sur trois processus les plus populaires qui sont :
- KDD (Knowledge Discovery Databases) ;
- CRISP-DM (CRoss-Industry Standard Process for Data Mining) ;
- SEMMA (Sample, Explore, Modify, Model, and Access).
Ces trois processus sont utilisés par les experts en Data Mining et les chercheurs. Nous ferons une étude comparative des étapes de chaque méthode dans le tableau 1.
Tableau 1. Comparaison entre les modèles de processus de Data MiningMéthodeKDDCRISP-DMSEMMA****Nombre d’étapes965Nom des étapesDévelopper et comprendre le domaine de l’applicationCompréhension métier-Sélection des donnéesCompréhension des donnéesSample : Echantillon des donnéesPrétraitement et nettoyage des donnéesExplore : Exploitation des donnéesTransformation des donnéesPréparation des donnéesModify : Modification des donnéesChoix de la meilleure tâche pour le Data MiningModélisationModel : Modélisation des donnéesChoix de l’algorithme de Data MiningImplémentation de l’algorithme de Data MiningEvaluationEvaluationAssessment : Evaluation des résultatsUtilisation des connaissances découvertesDéploiement/Implémentation-
Choix retenu
Comme le processus KDD est le plus utilisé et qu’il est le plus complet et précis, notre choix s’oriente vers ce processus.
Présentation de la méthode KDD
KDD est un processus d’extraction des connaissances cachées dans les données. KDD nécessite des connaissances préalables et pertinentes, et une compréhension du domaine d’étude et des objectifs [3]. Cette méthode est itérative et interactive. Ainsi, il est peut-être nécessaire de faire un pas précédent. KDD comprend 9 étapes principales [4] :
Développement et compréhension le domaine de l’application
C’est le pas initial de ce processus. Il prépare la scène pour comprendre et développer les buts de l’application.
Sélection des données
Cette étape consiste à sélectionner et à créer un ensemble de données sur lequel va être appliqué le Data Mining.
Prétraitement et nettoyage des données
Cette étape inclut des opérations comme la suppression des valeurs aberrantes.
Transformation des données
Cette étape inclut la réduction des dimensions et la transformation des attributs
Choix de la meilleure tâche pour le Data Mining
Il faut choisir quel type de Data Mining sera utilisé, en décidant le but du modèle.
Exemples : Classification, régression
Choix de l’algorithme de Data Mining
Cette étape permet de choisir l’algorithme spécifique pour le Data Mining
Implémentation de l’algorithme de Data Mining
Cette étape implémente les algorithmes de Data Mining choisis.
Evaluation
Il s’agit d’évaluer et d’interpréter les motifs (patterns) découverts
Utilisation des connaissances découvertes
Ici, on incorpore les connaissances découvertes dans d’autres systèmes pour d’autres actions
Dataset
Etant donné que le format ARFF est le format par défaut supporté par l’outil Weka, il est tout à fait légitime d’orienter notre choix vers ce format.
Caractéristiques principales du format ARFF
-
Les commentaires sont précédés de %
-
Définition du nom de l’ensemble de données avec @relation
-
Définition des attributs avec @attribute
-
Le début des instances est signalé par @data
La figure 3 illustre un exemple de fichier ARFF
Figure 3. Fichier ARFF
- [3] Brachman, R. J. & Anand, T., 1996, “The process of knowledge discovery in databases.”, AAAI Press/The MIT Press.
- [4] Usama Fayyad et al., 1996, “From Data Mining to Knowledge Discovery in Databases” American Association for Artificial Intelligence.
Articles Similaires
Ubuntu 24.04 LTS - Une version qui fait débat entre déception et enthousiasme
Ubuntu 24.04 LTS, “Noble Numbat”, a récemment été déployée, apportant son lot de nouveautés et de changements. Cette version suscite à la fois de l’enthousiasme et de la déception au sein de la communauté des utilisateurs et des développeurs. Déception et colère face à la gestion des paquets DEB Plusieurs utilisateur d’Ubuntu ont exprimé leur déception et colère face à la décision de Canonical, la société mère d’ Ubuntu, de favoriser les paquets Snap au détriment des paquets DEB.
Lire la SuiteLe concours de beauté Miss AI : un cauchemar dystopique ou le futur de la beauté ?
Dans un monde où la technologie et la beauté fusionnent, le concours de beauté Miss AI fait son apparition. Ce concours, organisé par The World AI Creator Awards, récompense les créateurs d’images et d’influenceurs générés par intelligence artificielle (IA). Mais qu’est-ce que cela signifie pour les standards de beauté et les femmes ? Le concours Miss AI est ouvert aux créateurs d’images et d’influenceurs générés par IA qui souhaitent montrer leur charme et leur compétence technique.
Lire la SuiteLe gouvernement du Salvador prend un coup dur : les hackers divulguent le code source et les accès VPN du portefeuille bitcoin national Chivo !
Le programme bitcoin du gouvernement du Salvador, Chivo, a été victime d’une série d’attaques informatiques ces derniers jours. Les hackers ont déjà divulgué les données personnelles de plus de 5 millions de Salvadoriens. Maintenant, les mêmes pirates informatiques ont publié des extraits du code source et des informations d’accès VPN du portefeuille bitcoin national Chivo sur un forum de hacking en ligne, CiberInteligenciaSV. Ceci est un coup dur pour El Salvador, qui lutte pour être un pionnier dans l’adoption du bitcoin.
Lire la Suite