Data-Mining

Conception avant-projet

Geek Madagascar
August 11, 2018

Temps de lecture : 3 minutes

Solution

L’explosion quantitative et la variété des données numériques obligent les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. En prenant en compte que cette situation correspond à de plus en plus d’entreprises actuelles, la possession de telles données ne présente aucun intérêt pour elles si ces données ne sont pas exploitées. La solution est donc l’utilisation d’ outil de Data Mining à l’instar du logiciel Weka étudié dans ce présent document, pour extraire des connaissances depuis ces données afin de les exploiter en vue de remplacer ou d’aider les experts humains ou décideurs dans la prise de décision.

Processus de Data Mining

Des efforts ont été déployés pour utiliser des modèles de processus de Data Mining qui peuvent guider sa mise en œuvre sur une grande quantité de données. Dans notre projet, nous nous concentrons principalement sur trois processus les plus populaires qui sont :

KDD (Knowledge Discovery Databases) ;
CRISP-DM (CRoss-Industry Standard Process for Data Mining) ;
SEMMA (Sample, Explore, Modify, Model, and Access).

Ces trois processus sont utilisés par les experts en Data Mining et les chercheurs. Nous ferons une étude comparative des étapes de chaque méthode dans le tableau 1.

Tableau 1. Comparaison entre les modèles de processus de Data MiningMéthodeKDDCRISP-DMSEMMA****Nombre d’étapes965Nom des étapesDévelopper et comprendre le domaine de l’applicationCompréhension métier-Sélection des donnéesCompréhension des donnéesSample : Echantillon des donnéesPrétraitement et nettoyage des donnéesExplore : Exploitation des donnéesTransformation des donnéesPréparation des donnéesModify : Modification des donnéesChoix de la meilleure tâche pour le Data MiningModélisationModel : Modélisation des donnéesChoix de l’algorithme de Data MiningImplémentation de l’algorithme de Data MiningEvaluationEvaluationAssessment : Evaluation des résultatsUtilisation des connaissances découvertesDéploiement/Implémentation-

Choix retenu

Comme le processus KDD est le plus utilisé et qu’il est le plus complet et précis, notre choix s’oriente vers ce processus.

Présentation de la méthode KDD

KDD est un processus d’extraction des connaissances cachées dans les données. KDD nécessite des connaissances préalables et pertinentes, et une compréhension du domaine d’étude et des objectifs [3]. Cette méthode est itérative et interactive. Ainsi, il est peut-être nécessaire de faire un pas précédent. KDD comprend 9 étapes principales [4] :

Développement et compréhension le domaine de l’application

C’est le pas initial de ce processus. Il prépare la scène pour comprendre et développer les buts de l’application.

Sélection des données

Cette étape consiste à sélectionner et à créer un ensemble de données sur lequel va être appliqué le Data Mining.

Prétraitement et nettoyage des données

Cette étape inclut des opérations comme la suppression des valeurs aberrantes.

Transformation des données

Cette étape inclut la réduction des dimensions et la transformation des attributs

Choix de la meilleure tâche pour le Data Mining

Il faut choisir quel type de Data Mining sera utilisé, en décidant le but du modèle.

Exemples : Classification, régression

Choix de l’algorithme de Data Mining

Cette étape permet de choisir l’algorithme spécifique pour le Data Mining

Implémentation de l’algorithme de Data Mining

Cette étape implémente les algorithmes de Data Mining choisis.

Evaluation

Il s’agit d’évaluer et d’interpréter les motifs (patterns) découverts

Utilisation des connaissances découvertes

Ici, on incorpore les connaissances découvertes dans d’autres systèmes pour d’autres actions

Dataset

Etant donné que le format ARFF est le format par défaut supporté par l’outil Weka, il est tout à fait légitime d’orienter notre choix vers ce format.

Caractéristiques principales du format ARFF

Les commentaires sont précédés de %
Déﬁnition du nom de l’ensemble de données avec @relation
Déﬁnition des attributs avec @attribute
Le début des instances est signalé par @data

La figure 3 illustre un exemple de fichier ARFF

Figure 3. Fichier ARFF

[3] Brachman, R. J. & Anand, T., 1996, “The process of knowledge discovery in databases.”, AAAI Press/The MIT Press.
[4] Usama Fayyad et al., 1996, “From Data Mining to Knowledge Discovery in Databases” American Association for Artificial Intelligence.

comments powered by Disqus

Articles Similaires

Ubuntu 24.04 LTS - Une version qui fait débat entre déception et enthousiasme

Geek Madagascar
April 28, 2024

Ubuntu 24.04 LTS, “Noble Numbat”, a récemment été déployée, apportant son lot de nouveautés et de changements. Cette version suscite à la fois de l’enthousiasme et de la déception au sein de la communauté des utilisateurs et des développeurs. Déception et colère face à la gestion des paquets DEB Plusieurs utilisateur d’Ubuntu ont exprimé leur déception et colère face à la décision de Canonical, la société mère d’ Ubuntu, de favoriser les paquets Snap au détriment des paquets DEB.

Le concours de beauté Miss AI : un cauchemar dystopique ou le futur de la beauté ?

Geek Madagascar
April 28, 2024

Dans un monde où la technologie et la beauté fusionnent, le concours de beauté Miss AI fait son apparition. Ce concours, organisé par The World AI Creator Awards, récompense les créateurs d’images et d’influenceurs générés par intelligence artificielle (IA). Mais qu’est-ce que cela signifie pour les standards de beauté et les femmes ? Le concours Miss AI est ouvert aux créateurs d’images et d’influenceurs générés par IA qui souhaitent montrer leur charme et leur compétence technique.

Actus

Le gouvernement du Salvador prend un coup dur : les hackers divulguent le code source et les accès VPN du portefeuille bitcoin national Chivo !

Geek Madagascar
April 25, 2024

Le programme bitcoin du gouvernement du Salvador, Chivo, a été victime d’une série d’attaques informatiques ces derniers jours. Les hackers ont déjà divulgué les données personnelles de plus de 5 millions de Salvadoriens. Maintenant, les mêmes pirates informatiques ont publié des extraits du code source et des informations d’accès VPN du portefeuille bitcoin national Chivo sur un forum de hacking en ligne, CiberInteligenciaSV. Ceci est un coup dur pour El Salvador, qui lutte pour être un pionnier dans l’adoption du bitcoin.

Conception avant-projet

Solution

Processus de Data Mining

Choix retenu

Présentation de la méthode KDD

Développement et compréhension le domaine de l’application

Sélection des données

Prétraitement et nettoyage des données

Transformation des données

Choix de la meilleure tâche pour le Data Mining

Choix de l’algorithme de Data Mining

Implémentation de l’algorithme de Data Mining

Evaluation

Utilisation des connaissances découvertes

Dataset

Caractéristiques principales du format ARFF

0x01 - Le premier boot

Atags

IOHIDeous: Un exploit 0-Day sur macOS

Meltdown et Spectre: Une faille qui affecte les processeurs Intel, ARM et AMD

Ubuntu 24.04 LTS - Une version qui fait débat entre déception et enthousiasme

Le concours de beauté Miss AI : un cauchemar dystopique ou le futur de la beauté ?

Le gouvernement du Salvador prend un coup dur : les hackers divulguent le code source et les accès VPN du portefeuille bitcoin national Chivo !

Openload et Streamango fermés par l’ACE

Une introduction à l’apprentissage automatique

Articles Similaires

Ubuntu 24.04 LTS - Une version qui fait débat entre déception et enthousiasme

Le concours de beauté Miss AI : un cauchemar dystopique ou le futur de la beauté ?

Le gouvernement du Salvador prend un coup dur : les hackers divulguent le code source et les accès VPN du portefeuille bitcoin national Chivo !