Techniques de datamining, détection du signal faible, contexte d'intelligence économique, méthodes statistiques, méthodes probabilistes, analyse factorielle, méthodes symboliques, arbres de décision, perceptron multicouche.
Dans un cadre d'intelligence économique, il est nécessaire de pouvoir prendre des décisions à temps afin d'être à même de réagir face à un environnement. Le recueil de données (bibliographiques, numériques, formelles ou informelles) ne suffit pas pour la prise de décision de la part d'un décideur. L'étape d'exploitation et d'analyse des données est cruciale, et ces dernières années ont vu l'émergence d'outils et méthodes permettant une analyse plus fine des données.
C'est ce qu'on appelle le datamining (DM) qui consiste à explorer et analyser des données volumineuses afin d'en extraire de la connaissance cachée pour prédire et agir. Ainsi, la motivation principale de cette démarche est la valorisation d'une grande base ou entrepôt de données (data warehouse) par la recherche d'informations pertinentes pour le décideur afin de l'aider dans sa décision finale.
Schématiquement, quatre objectifs non exclusifs sont la cible d'une telle prospection :
- exploration pour une première approche des données, leur vérification par la recherche d'incohérences, de données atypiques, manquantes ou erronées, leur transformation préalable à d'autres traitements;
- Classification (clustering) pour exhiber une typologie ou une segmentation des observations;
- Modélisation par un ensemble de variables explicatives d'une variable cible quantitative ou qualitative. Il s'agit alors d'une régression ou d'une discrimination (ou classement);
- Recherche de forme sans apprentissage. Il s'agit de déceler une configuration originale se démarquant des données.
Les technologies du datamining s'appliquent à de nombreux domaines :
- La grande distribution avec analyse des comportements des consommateurs, recherche de similarités des consommateurs en fonction des critères géographiques, et prédiction des taux de réponse en marketing direct ;
- Les laboratoires pharmaceutiques avec identification des meilleures thérapies pour différentes maladies, optimisation des plans d'action des visiteurs médicaux pour le lancement de nouveaux produits ;
- Les banques avec recherche de forme d'utilisation de cartes caractéristiques d'une fraude et modélisations prédictives des clients partants ;
- Les assurances avec analyse des sinistres et recherche des critères explicatifs du risque ou de fraude ;
- L'aéronautique, l'automobile avec prévision des ventes et dépouillements d'enquête de satisfaction ;
- Les télécommunications, eau et énergie avec détection des formes de consommation frauduleuses, classification des clients selon la forme d'utilisation des services et prévision du départ des clients.
Ces applications sont loin d'être exhaustives puisque le datamining s'illustre dans les disciplines scientifiques confrontées à la détection de motifs ou formes (patterns) dans des volumes de données considérables : génomique, astrophysique.
La plupart des outils de datamining ont pour objectif premier de déterminer les relations qui existent entre variables. Ils s'apparentent à la statistique (inférence statistique) ou à l'intelligence artificielle (déduction de règles) et propose à l'utilisateur des hypothèses d'explication des données en faisant apparaître des corrélations cachées jusqu'alors.
Beaucoup de logiciels sont consacrés à la fouille de données, une bonne soixantaine sont répertoriés dans les sites consacrés au sujet et comparés. La plupart mettent en avant des interfaces graphiques sophistiquées, un accès intégré aux bases de données et insistent sur une automatisation poussée des traitements. Certains sont axés sur des familles de techniques (par exemple les réseaux neuronaux), d'autres sont plutôt généralistes en offrant un large choix de techniques, ou encore certains se spécialisent sur un domaine particulier comme l'analyse de texte appliquée à la veille technologique (ceux-ci sont des logiciels de text mining).
Toutes les approches de datamining ne sont pas développées dans la suite de cet état de l'art. En effet, mon objectif est d'identifier celles qui pourront être susceptibles de détecter des signaux faibles dans le cadre d'un besoin décisionnel.
[...] Si le poids de ces signaux est suffisant pour dépasser un certain seuil, la fonction d'activation est déclenchée, il se produit alors un signal de sortie. Image issue du mémoire de DEA de François Parmentier (Une approche algorithmique cellulaire parallèle du perceptron multicouche, 1993). Retour au texte p LE RESEAU DE NEURONE TYPE KOHONEN Légende : Après avoir présenté un motif au réseau, on détermine quel neurone de sortie est le plus proche de l'entrée, au sens d'une fonction de distance qui tient compte des poids des liaisons et de l'état des neurones de sortie, ce neurone est appelé neurone gagnant (en noir). [...]
[...] Dans le cadre d'une détection de signal faible, les règles d'associations me semblent intéressantes dans la mesure où il est possible de faire remonter ce qu'on appelle des pépites de connaissances (en anglais, nuggets). Les méthodes des règles d'associations sont essentiellement utilisées dans des bases de données dites transactionnelles ou relationnelles, c'est-à-dire pour des applications de type commercial. Le principe d'une règle d'association est le suivant : Si A est associé à alors C est associé à D : mathématiquement, on notera cette règle par si A C D. [...]
[...] Cependant ils sont utiles pour la prédiction de données. J'ai cependant trouvé un article utilisant ce type d'algorithme pour l'analyse de données de simulation de vols et capables de reconnaître en temps réel des changements discrets (ou cachés) dans les données au niveau de leur propriétés. Des changements de ce type (de nature discrète) interviennent toujours dans des domaines comme la prédiction boursière où des phénomènes comme l'inflation peuvent interagir, d'où l'intérêt de détecter de telles changements [19]. La détection de signaux discrets en temps réel me semble intéressante pour répondre à la problématique de mon sujet, puisque la discrétion est une caractéristique importante du signal faible. [...]
[...] in Proceedings of the seventh IFIP 2.6 Working Conference on Database Semantics K Satou, S.G., Ono Yamamura Furuichi Kuhara S et Takagi T. finding association rules on heterogeneous genome data. in Proc. Pacific Symposium on Biocomputing ' Michael Bonnell Harries, C.S., Extracting hidden contexts. Machine Learning p. 101-126. Hebb., D.O., The organisation of behavior., ed. Wiley Hopfield, J.J., Neural networks as physical systems with emergent collective computational abilities. Proc. National Academy of Sciences vol.72: p. [...]
[...] Les enjeux de l'information scientifique et technique à travers une analyse d'infométrie cognitive utilisant une méthode de classification automatique et de représentation conceptuelle (NEURODOC). in ORSTOM/UNESCO "Les sciences hors occident au XXe siècle Paris. Benzecri, J., Pratique de l'analyse des données, volume Tome analyse des correspondances. 1980: Dunod. M Kerbaol, A.M., JY Bansard. Etude des résumés en français des rapports de recherche d'un institut d'informatique publiés de 1989 à 1998. in JADT 2000: Journées Internationales d'Analyse Statistique des Données Textuelles Michel Kerbaol, J.-Y.B. Sélection de la bibliographie des maladies rares par la technique du Vocabulaire Commun Minimum. [...]
Référence bibliographique
Source fiable, format APALecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture