Maison / Skype / Méthodes d'exploration de données de classification et de prévision. Technologies d'exploration de données. Réseaux de neurones artificiels

Méthodes d'exploration de données de classification et de prévision. Technologies d'exploration de données. Réseaux de neurones artificiels

Le Data Mining est divisé en deux grands groupes selon le principe du travail avec les données de formation initiales. Dans cette classification, le niveau supérieur est déterminé selon que les données sont stockées après le Data Mining ou si elles sont distillées pour une utilisation ultérieure.

1. Utilisation directe des données, ou la sauvegarde des données.

Dans ce cas, les données sources sont stockées sous une forme explicitement détaillée et sont directement utilisées aux étapes et/ou analyse des exceptions. Le problème avec ce groupe de méthodes est que lors de leur utilisation, il peut être difficile d’analyser de très grandes bases de données.

Méthodes de ce groupe : analyse typologique, méthode du plus proche voisin, méthode des k-plus proches voisins, raisonnement par analogie.

2. Identification et utilisation des formalités motifs, ou distillation de modèle.

Avec la technologie modèles de distillation un échantillon (modèle) d'informations est extrait des données sources et converti en constructions formelles, dont la forme dépend de la méthode de Data Mining utilisée. Ce processus est effectué au stade recherche gratuite, le premier groupe de méthodes ne dispose pas en principe de cette étape. Sur scènes modélisation prédictive Et analyse des exceptions les résultats de l'étape sont utilisés recherche gratuite, elles sont beaucoup plus compactes que les bases de données elles-mêmes. Rappelons que les constructions de ces modèles peuvent être interprétables par l'analyste ou non interprétables (« boîtes noires »).

Méthodes de ce groupe : méthodes logiques ; méthodes de visualisation; méthodes de tableaux croisés ; méthodes basées sur des équations.

Les méthodes logiques, ou méthodes d'induction logique, comprennent : les requêtes et analyses floues ; règles symboliques ; arbres de décision; algorithmes génétiques.

Les méthodes de ce groupe sont peut-être les plus interprétables : elles établissent les modèles trouvés, dans la plupart des cas, sous une forme assez transparente du point de vue de l'utilisateur. Les règles résultantes peuvent inclure des variables continues et discrètes. Il convient de noter que les arbres de décision peuvent être facilement convertis en ensembles de règles symboliques en générant une règle le long du chemin allant de la racine de l'arbre à son emplacement. sommet terminal. Les arbres de décision et les règles sont en fait différentes façons solutions au même problème et ne diffèrent que par leurs capacités. De plus, la mise en œuvre des règles se fait par des algorithmes plus lents que l’induction d’arbres de décision.

Méthodes croisées : agents, réseaux bayésiens (de confiance), visualisation croisée. La dernière méthode ne correspond pas tout à fait à l'une des propriétés du Data Mining - recherche indépendante motifs système analytique. Cependant, la fourniture d'informations sous forme de tableaux croisés permet la mise en œuvre de la tâche principale du Data Mining - la recherche de modèles, cette méthode peut donc également être considérée comme l'une des méthodes de Data Mining.

Méthodes basées sur des équations.

Les méthodes de ce groupe expriment les modèles révélés sous forme d'expressions mathématiques - des équations. Par conséquent, ils ne peuvent fonctionner qu’avec des variables numériques et les variables d’autres types doivent être codées en conséquence. Cela limite quelque peu l'application des méthodes de ce groupe, néanmoins, elles sont largement utilisées pour résoudre divers problèmes, notamment les problèmes de prévision.

Les principales méthodes de ce groupe : méthodes statistiques et réseaux de neurones

Les méthodes statistiques sont le plus souvent utilisées pour résoudre des problèmes de prévision. Il existe de nombreuses méthodes d'analyse de données statistiques, parmi lesquelles, par exemple, l'analyse de corrélation et de régression, la corrélation de séries chronologiques, l'identification de tendances dans les séries chronologiques, l'analyse harmonique.

Une autre classification divise toute la variété des méthodes de Data Mining en deux groupes : les méthodes statistiques et cybernétiques. Ce schéma de séparation repose sur diverses approches d'enseignement de modèles mathématiques.

Il convient de noter qu'il existe deux approches pour classer les méthodes statistiques comme Data Mining. Le premier s'oppose aux méthodes statistiques et au Data Mining, ses partisans considèrent les méthodes statistiques classiques comme un domaine à part entière de l'analyse des données. Selon la deuxième approche, les méthodes d’analyse statistique font partie de la boîte à outils mathématique du Data Mining. La plupart des sources faisant autorité adoptent la deuxième approche.

Dans cette classification, on distingue deux groupes de méthodes :

  • des méthodes statistiques basées sur l'utilisation de l'expérience moyenne accumulée, qui se reflète dans des données rétrospectives ;
  • méthodes cybernétiques, incluant de nombreuses approches mathématiques hétérogènes.

L'inconvénient d'une telle classification est que les algorithmes statistiques et cybernétiques s'appuient d'une manière ou d'une autre sur une comparaison de l'expérience statistique avec les résultats de la surveillance de la situation actuelle.

L'avantage d'une telle classification est sa commodité d'interprétation - elle est utilisée dans la description des moyens mathématiques de l'approche moderne de extraire des connaissancesà partir de tableaux d'observations initiales (opérationnelles et rétrospectives), c'est-à-dire dans les tâches de Data Mining.

Examinons de plus près les groupes ci-dessus.

Méthodes statistiques Exploration de données

Ces méthodes comportent quatre sections interdépendantes :

  • analyse préliminaire de la nature des données statistiques (test des hypothèses de stationnarité, de normalité, d'indépendance, d'homogénéité, évaluation du type de fonction de distribution, de ses paramètres, etc.) ;
  • identifier les liens et motifs(analyse de régression linéaire et non linéaire, analyse de corrélation, etc.) ;
  • analyse statistique multivariée (analyse discriminante linéaire et non linéaire, analyse groupée, analyse en composantes, analyse factorielle et etc.);
  • modèles dynamiques et des prévisions basées sur des séries chronologiques.

L’arsenal des méthodes statistiques de Data Mining est classé en quatre groupes de méthodes :

  1. Analyse descriptive et description des données initiales.
  2. Analyse des relations (analyse de corrélation et de régression, analyse factorielle, analyse de variance).
  3. Analyse statistique multivariée (analyse en composantes, analyse discriminante, analyse de régression multivariée, corrélations canoniques, etc.).
  4. Analyse des séries chronologiques ( modèles dynamiques et prévision).

Méthodes d'exploration de données cybernétiques

La deuxième direction du Data Mining est un ensemble d'approches unies par l'idée des mathématiques informatiques et l'utilisation de la théorie intelligence artificielle.

Les systèmes OLAP fournissent à l'analyste un moyen de tester des hypothèses lors de l'analyse des données, c'est-à-dire que la tâche principale de l'analyste est de générer des hypothèses qu'il résout en fonction de ses connaissances et de son expérience. Cependant, non seulement une personne a des connaissances, mais aussi les données accumulées qui sont analysées . Ces connaissances sont contenues dans une énorme quantité d'informations qu'une personne n'est pas en mesure d'explorer par elle-même. À cet égard, il existe une possibilité de manquer des hypothèses qui peuvent apporter des avantages significatifs.

Pour découvrir des connaissances « cachées », on utilise méthodes spéciales analyse automatique, à l'aide de laquelle il faut pratiquement extraire des connaissances des « blocages » de l'information. Le terme « data mining (DataMining) » ou « data mining » a été attribué à cette direction.

Il existe de nombreuses définitions du DataMining qui se complètent. En voici quelques uns.

Le DataMining est le processus de découverte de modèles non triviaux et pratiquement utiles dans des bases de données. (groupe de base)

Le Data Mining est le processus d'extraction, d'exploration et de modélisation de grandes quantités de données pour découvrir des modèles (patters) jusqu'alors inconnus afin d'obtenir des avantages commerciaux (SAS Institute)

Le DataMining est un processus qui vise à découvrir de nouvelles corrélations, modèles et tendances significatifs en passant au crible de grandes quantités de données stockées à l'aide de techniques de reconnaissance de formes et de l'application de méthodes statistiques et mathématiques (GartnerGroup).

Le DataMining est l’étude et la découverte par une « machine » (algorithmes, outils d’intelligence artificielle) dans des données brutes de connaissances cachées quiinconnu auparavant, non trivial, utile dans la pratique, disponible pour interprétationhumain (A. Bargesyan "Technologies d'analyse des données")

Le DataMining est le processus de découverte de connaissances utiles sur les affaires (N.M. Abdikeev "KBA")

Propriétés des connaissances découvrables

Considérez les propriétés des connaissances à découvrir.

  • La connaissance doit être nouvelle, auparavant inconnue. L'effort consacré à la découverte de connaissances déjà connues de l'utilisateur n'est pas payant. Ce sont donc des connaissances nouvelles, jusqu’alors inconnues, qui ont de la valeur.
  • La connaissance doit être non triviale. Les résultats de l'analyse doivent refléter des situations non évidentes et inattendues.des modèles dans les données qui constituent ce que l’on appelle les connaissances cachées. Des résultats qui pourraient être obtenus davantage des moyens simples(par exemple, par inspection visuelle) ne justifient pas le recours à des méthodes de DataMining puissantes.
  • La connaissance doit être utile dans la pratique. Les connaissances acquises doivent être applicables, y compris sur de nouvelles données, avec un degré de fiabilité suffisamment élevé. L'utilité réside dans le fait que ces connaissances peuvent apporter certains avantages dans leur application.
  • La connaissance doit être accessible à la compréhension humaine. Les modèles trouvés doivent être logiquement explicables, sinon il est possible qu'ils soient aléatoires. De plus, les connaissances découvertes doivent être présentées sous une forme compréhensible par l'homme.

Dans DataMining, les modèles sont utilisés pour représenter les connaissances acquises. Les types de modèles dépendent des méthodes de leur création. Les plus courants sont : les règles, les arbres de décision, les clusters et fonctions mathématiques.

Tâches d'exploration de données

Rappelons que la technologie DataMining repose sur la notion de motifs, qui sont des régularités. Grâce à la découverte de ces régularités cachées à l’œil nu, les problèmes de DataMining sont résolus. différents types les modèles qui peuvent être exprimés sous une forme lisible par l’homme correspondent à certaines tâches de DataMining.

Il n'y a pas de consensus sur les tâches à attribuer au DataMining. La plupart des sources faisant autorité énumèrent les éléments suivants : classification,

clustering, prédiction, association, visualisation, analyse et découverte

écarts, évaluation, analyse des relations, synthèse.

Le but de la description qui suit est de donner un aperçu des problèmes du DataMining, d'en comparer certains, et également de présenter certaines des méthodes par lesquelles ces problèmes sont résolus. Les tâches de DataMining les plus courantes sont la classification, le clustering, l'association, la prédiction et la visualisation. Ainsi, les tâches sont subdivisées selon les types d'informations produites, c'est le plus classification générale tâches d'exploration de données.

Classification

Tâche consistant à diviser un ensemble d'objets ou d'observations en groupes donnés a priori, appelés classes, au sein desquels ils sont supposés être similaires les uns aux autres, ayant approximativement les mêmes propriétés et caractéristiques. Dans ce cas, la solution est obtenue sur la base de analyse valeurs d'attribut (caractéristique).

La classification est l'une des tâches les plus importantes exploration de données . Il est appliqué dans commercialisation lors de l'évaluation de la solvabilité des emprunteurs, déterminer fidélité du consommateur, la reconnaissance de formes , diagnostics médicaux et bien d’autres applications. Si l'analyste connaît les propriétés des objets de chaque classe, alors lorsqu'une nouvelle observation appartient à une certaine classe, ces propriétés s'y appliquent automatiquement.

Si le nombre de classes est limité à deux, alorsclassification binaire , auquel peuvent être réduits de nombreux problèmes plus complexes. Par exemple, au lieu de définir des degrés de risque de crédit comme « Élevé », « Moyen » ou « Faible », vous ne pouvez en utiliser que deux : « Problème » ou « Refus ».

Pour la classification dans DataMining, de nombreux modèles différents sont utilisés : réseaux de neurones, arbres de décision , prennent en charge les machines vectorielles, les k voisins les plus proches, les algorithmes de couverture, etc., qui sont construits à l'aide d'un apprentissage supervisé lorsquevariable de sortie(étiquette de classe ) est donné pour chaque observation. Formellement, la classification est basée sur la partitionespaces de fonctionnalités dans des zones, au sein de chacune desquellesvecteurs multidimensionnels sont considérés comme identiques. En d’autres termes, si un objet tombe dans une région de l’espace associée à une certaine classe, il en fait partie.

Regroupement

Brève description. Le clustering est une suite logique de l’idée

classification. Cette tâche est plus compliquée, la particularité du clustering est que les classes d'objets ne sont pas initialement prédéterminées. Le résultat du clustering est la division des objets en groupes.

Un exemple de méthode pour résoudre un problème de clustering : formation « sans professeur » d'un type particulier de réseaux de neurones - les cartes auto-organisatrices de Kohonen.

Association (Associations)

Brève description. Au cours de la résolution du problème de recherche de règles d'association, des modèles sont trouvés entre des événements liés dans un ensemble de données.

La différence entre l'association et les deux tâches DataMining précédentes est que la recherche de modèles ne se base pas sur les propriétés de l'objet analysé, mais entre plusieurs événements qui se produisent simultanément. L'algorithme le plus connu pour résoudre le problème de la recherche de règles d'association est l'algorithme Apriori.

Séquence ou association séquentielle

Brève description. La séquence vous permet de trouver des modèles temporels entre les transactions. La tâche d'une séquence est similaire à une association, mais son objectif est d'établir des modèles non pas entre des événements se produisant simultanément, mais entre des événements connectés dans le temps (c'est-à-dire se produisant à un intervalle de temps spécifique). En d’autres termes, la séquence est déterminée par la forte probabilité d’une chaîne d’événements liés dans le temps. En fait, une association est un cas particulier de séquence avec un décalage temporel nul. Ce problème de DataMining est également appelé problème de modèle séquentiel.

Règle de séquence : après l'événement X, l'événement Y se produira après un certain temps.

Exemple. Après avoir acheté un appartement, les locataires achètent dans 60 % des cas un réfrigérateur dans un délai de deux semaines et dans un délai de deux mois, dans 50 % des cas, un téléviseur. La solution à ce problème est largement utilisée en marketing et en gestion, par exemple dans la gestion du cycle de vie du client (CustomerLifecycleManagement).

Régression, prévision (Prévision)

Brève description. À la suite de la résolution du problème de prévision, sur la base des caractéristiques des données historiques, les valeurs manquantes ou futures des indicateurs numériques cibles sont estimées.

Pour résoudre de tels problèmes, les méthodes de statistiques mathématiques, les réseaux de neurones, etc. sont largement utilisés.

Des tâches supplémentaires

Détermination des écarts ou des valeurs aberrantes (DeviationDetection), analyse de variance ou de valeurs aberrantes

Brève description. Le but de résoudre ce problème est la détection et l'analyse des données qui diffèrent le plus de l'ensemble général de données, l'identification de modèles dits inhabituels.

Estimation

La tâche d'estimation se réduit à prédire les valeurs continues d'une caractéristique.

Analyse des liens (LinkAnalysis)

La tâche de trouver des dépendances dans un ensemble de données.

Visualisation (Visualisation, GraphMining)

À la suite de la visualisation, une image graphique des données analysées est créée. Pour résoudre le problème de visualisation, des méthodes graphiques sont utilisées pour montrer la présence de modèles dans les données.

Un exemple de techniques de visualisation est la présentation de données en dimensions 2D et 3D.

Récapitulation

Une tâche dont le but est la description de groupes spécifiques d'objets à partir de l'ensemble de données analysé.

Assez proche de la classification ci-dessus est la division des tâches de DataMining comme suit : recherche et découverte, prévision et classification, explication et description.

Recherche et découverte automatiques (recherche gratuite)

Exemple de tâche : découverte de nouveaux segments de marché.

Pour résoudre cette classe de problèmes, des méthodes d'analyse groupée sont utilisées.

Prédiction et classification

Exemple de problème : prédire la croissance des ventes en fonction des valeurs actuelles.

Méthodes : régression, réseaux de neurones, algorithmes génétiques, arbres de décision.

Les tâches de classification et de prévision constituent un groupe de modélisation dite inductive, qui aboutit à l'étude de l'objet ou du système analysé. Dans le processus de résolution de ces problèmes, sur la base d'un ensemble de données, un modèle général ou une hypothèse.

Explication et description

Exemple de problème : caractériser les clients en fonction de leurs données démographiques et de leurs historiques d'achat.

Méthodes : arbres de décision, systèmes de règles, règles d'association, analyse de liens.

Si le revenu du client est supérieur à 50 unités conventionnelles et que son âge est supérieur à 30 ans, alors la classe du client est la première.

Comparaison du regroupement et de la classification

Caractéristique

Classification

Regroupement

Contrôlabilité de l'apprentissage

contrôlé

incontrôlable

Stratégies

Apprendre avec un professeur

Apprendre sans professeur

Présence d'une étiquette de classe

Ensemble d'entraînement

accompagné d'une étiquette indiquant

la classe à laquelle il appartient

observation

Étiquettes de classe d’enseignement

ensembles inconnus

Base de classification

Les nouvelles données sont classées en fonction de l'ensemble d'entraînement

Étant donné beaucoup de données à cet effet

établir l'existence

classes ou clusters de données

Portées du DataMining

Il convient de noter qu'aujourd'hui, la technologie DataMining est la plus largement utilisée pour résoudre des problèmes commerciaux. La raison en est peut-être que c'est dans ce sens que le retour sur l'utilisation des outils de DataMining peut aller, selon certaines sources, jusqu'à 1 000 %, et que les coûts de sa mise en œuvre peuvent rapidement s'amortir.

Nous examinerons en détail les quatre principales applications de la technologie DataMining : la science, les affaires, la recherche gouvernementale et le Web.

tâches professionnelles. Principaux domaines : banque, finance, assurance, CRM, industrie manufacturière, télécommunications, e-commerce, marketing, bourse et autres.

    S'il faut accorder un prêt au client

    Segmentation du marché

    Attraction de nouveaux clients

    Fraude de carte de crédit

Application du DataMining pour résoudre les problèmes du niveau de l'État. Principales orientations : recherche des fraudeurs fiscaux ; moyens dans la lutte contre le terrorisme.

Application du DataMining pour recherche scientifique. Principaux domaines : médecine, biologie, génétique moléculaire et génie génétique, bioinformatique, astronomie, chimie appliquée, recherche sur la toxicomanie, etc.

Application du DataMining à une solution Tâches Web. Orientations principales : moteurs de recherche (searchengines), compteurs et autres.

Commerce électronique

Dans le domaine du e-commerce, le DataMining permet de générer

Cette classification permet aux entreprises d'identifier des groupes spécifiques de clients et de mener des politiques marketing en fonction des intérêts et des besoins identifiés des clients. La technologie DataMining pour le commerce électronique est étroitement liée à la technologie WebMining.

Les principales missions du DataMining en production industrielle :

analyse de système complexe des situations de production;

· prévision à court et à long terme de l'évolution des situations de production ;

développement d'options de solutions d'optimisation ;

Prédire la qualité d'un produit en fonction de certains paramètres

processus technologique;

détection des tendances cachées et des modèles de développement de la production

processus ;

prévoir les modèles de développement des processus de production ;

détection de facteurs d'influence cachés;

détection et identification de relations jusqu’alors inconnues entre

paramètres de production et facteurs d'influence ;

analyse de l'environnement d'interaction des processus de production et prévision

changements dans ses caractéristiques;

processus ;

visualisation des résultats d'analyses, préparation des rapports préliminaires et des projets

solutions réalisables avec des estimations de la fiabilité et de l’efficacité des mises en œuvre possibles.

Commercialisation

Dans le domaine du marketing, le DataMining est largement utilisé.

Questions marketing de base : « Qu'est-ce qui est à vendre ? », « Comment est-ce à vendre ? », « Qui est

consommateur?"

Dans le cours sur les problèmes de classification et de clustering, l'utilisation de l'analyse cluster pour résoudre des problèmes de marketing, tels que la segmentation des consommateurs, est décrite en détail.

Un autre ensemble courant de méthodes pour résoudre les problèmes de marketing sont les méthodes et les algorithmes de recherche de règles d'association.

La recherche de modèles temporels est également utilisée avec succès ici.

Vente au détail

Dans le commerce de détail, comme dans le marketing, appliquez :

Algorithmes de recherche de règles d'association (pour déterminer des ensembles fréquents

biens que les acheteurs achètent en même temps). L’identification de ces règles aide

placer des marchandises sur les étagères des salles de marché, développer des stratégies d'achat de marchandises

et leur placement dans des entrepôts, etc.

utilisation de séquences temporelles, par exemple, pour déterminer

la quantité requise d'inventaire dans l'entrepôt.

des méthodes de classification et de regroupement pour identifier des groupes ou catégories de clients,

dont la connaissance contribue à la promotion réussie des produits.

Bourse

Voici une liste de problèmes boursiers qui peuvent être résolus grâce à la technologie des données

Exploitation minière : prévoir les valeurs futures des instruments et indicateurs financiers

valeurs passées;

prévision de la tendance (direction future du mouvement - croissance, baisse, stagnation) de la situation financière

instrument et sa force (forte, moyennement forte, etc.) ;

répartition de la structure de cluster du marché, de l'industrie, du secteur selon un certain ensemble

caractéristiques;

· gestion de portefeuille dynamique;

prévision de volatilité ;

l'évaluation des risques;

prédiction de l'apparition de la crise et prévision de son évolution ;

sélection des actifs, etc.

En plus des domaines d'activité décrits ci-dessus, la technologie DataMining peut être appliquée dans une grande variété de domaines d'activité où il existe un besoin d'analyse de données et où une certaine quantité d'informations rétrospectives a été accumulée.

Application du DataMining dans le CRM

L'une des applications les plus prometteuses du DataMining est l'utilisation de cette technologie dans le CRM analytique.

CRM (Customer Relationship Management) - gestion de la relation client.

Lorsque ces technologies sont utilisées ensemble, l’exploration de connaissances est combinée avec l’exploration d’argent à partir des données clients.

Un aspect important du travail des services marketing et commerciaux est la préparationune vision holistique des clients, des informations sur leurs caractéristiques, leurs caractéristiques, la structure de la clientèle. CRM utilise ce qu'on appelle le profilageclients, donnant une vue complète de toutes les informations nécessaires sur les clients.

Le profilage des clients comprend les éléments suivants : segmentation de la clientèle, rentabilité des clients, fidélisation des clients, analyse de la réponse des clients. Chacun de ces composants peut être exploré à l'aide du DataMining, et leur analyse ensemble en tant que composants de profilage peut aboutir à des connaissances qui ne peuvent pas être obtenues à partir de chaque caractéristique individuelle.

webmining

WebMining peut être traduit par « data mining sur le Web ». WebIntelligence ou Web.

Le renseignement est prêt à « ouvrir un nouveau chapitre » dans le développement rapide du commerce électronique. La capacité de déterminer les intérêts et les préférences de chaque visiteur en observant son comportement constitue un avantage concurrentiel sérieux et essentiel sur le marché du commerce électronique.

Les systèmes WebMining peuvent répondre à de nombreuses questions, par exemple lequel des visiteurs est un client potentiel de la boutique Web, quel groupe de clients de la boutique Web apporte le plus de revenus, quels sont les intérêts d'un visiteur ou d'un groupe de visiteurs particulier.

Méthodes

Classification des méthodes

Il existe deux groupes de méthodes :

  • des méthodes statistiques basées sur l'utilisation de l'expérience moyenne accumulée, qui se reflète dans des données rétrospectives ;
  • méthodes cybernétiques, incluant de nombreuses approches mathématiques hétérogènes.

L'inconvénient d'une telle classification est que les algorithmes statistiques et cybernétiques s'appuient d'une manière ou d'une autre sur une comparaison de l'expérience statistique avec les résultats de la surveillance de la situation actuelle.

L'avantage d'une telle classification est sa commodité d'interprétation - elle est utilisée pour décrire les outils mathématiques de l'approche moderne pour extraire des connaissances à partir de tableaux d'observations initiales (opérationnelles et rétrospectives), c'est-à-dire dans les tâches de Data Mining.

Examinons de plus près les groupes ci-dessus.

Méthodes statistiques Exploration de données

Dans ces Les méthodes sont composées de quatre sections interdépendantes :

  • analyse préliminaire de la nature des données statistiques (test des hypothèses de stationnarité, de normalité, d'indépendance, d'homogénéité, évaluation du type de fonction de distribution, de ses paramètres, etc.) ;
  • identifier les liens et motifs(analyse de régression linéaire et non linéaire, analyse de corrélation, etc.) ;
  • analyse statistique multidimensionnelle (analyse discriminante linéaire et non linéaire, analyse groupée, analyse en composantes, analyse factorielle, etc.) ;
  • modèles dynamiques et prévisions basées sur des séries chronologiques.

L’arsenal des méthodes statistiques de Data Mining est classé en quatre groupes de méthodes :

  1. Analyse descriptive et description des données initiales.
  2. Analyse des relations (analyse de corrélation et de régression, analyse factorielle, analyse de variance).
  3. Analyse statistique multivariée (analyse en composantes, analyse discriminante, analyse de régression multivariée, corrélations canoniques, etc.).
  4. Analyse de séries chronologiques (modèles dynamiques et prévisions).

Méthodes d'exploration de données cybernétiques

La deuxième direction du Data Mining est un ensemble d'approches unies par l'idée des mathématiques informatiques et l'utilisation de la théorie de l'intelligence artificielle.

Ce groupe comprend les méthodes suivantes :

  • réseaux de neurones artificiels (reconnaissance, clustering, prévision) ;
  • programmation évolutive (y compris les algorithmes de la méthode de comptabilité de groupe des arguments) ;
  • algorithmes génétiques (optimisation);
  • mémoire associative (recherche d'analogues, de prototypes) ;
  • logique floue;
  • arbres de décision;
  • systèmes experts de traitement des connaissances.

l'analyse par grappes

Le but du clustering est de rechercher des structures existantes.

Le clustering est une procédure descriptive, elle ne tire aucune conclusion statistique, mais elle permet de mener une analyse exploratoire et d'étudier la « structure des données ».

La notion même de « cluster » est définie de manière ambiguë : chaque étude possède ses propres « clusters ». La notion de cluster (cluster) se traduit par « cluster », « bouquet ». Un cluster peut être décrit comme un groupe d’objets possédant des propriétés communes.

Il y a deux caractéristiques d'un cluster :

  • homogénéité interne;
  • isolement extérieur.

Une question que les analystes se posent dans de nombreux problèmes est de savoir comment organiser les données en structures visuelles, c'est-à-dire élargir les taxonomies.

Initialement, le clustering était plus largement utilisé dans des sciences telles que la biologie, l'anthropologie et la psychologie. Pendant longtemps, le clustering a été peu utilisé pour résoudre des problèmes économiques en raison de la spécificité des données et des phénomènes économiques.

Les clusters peuvent être sans chevauchement, ou exclusifs (sans chevauchement, exclusifs) et se croisant (chevauchement).

Il convient de noter qu'en raison de l'utilisation diverses méthodes L'analyse de cluster peut être obtenue avec des clusters de différentes formes. Par exemple, des clusters de type « chaîne » sont possibles, lorsque les clusters sont représentés par de longues « chaînes », des clusters allongés, etc., et certaines méthodes peuvent créer des clusters de forme arbitraire.

Diverses méthodes peuvent viser à créer des clusters de certaines tailles (par exemple petits ou grands) ou à supposer des clusters de différentes tailles dans l'ensemble de données. Certaines méthodes d’analyse groupée sont particulièrement sensibles au bruit ou aux valeurs aberrantes, tandis que d’autres le sont moins. En appliquant différentes méthodes de clustering, différents résultats peuvent être obtenus, ceci est normal et constitue une caractéristique du fonctionnement d'un algorithme particulier. Ces caractéristiques doivent être prises en compte lors du choix d'une méthode de clustering.

Apportons brève description approches du regroupement.

Algorithmes basés sur le partitionnement des données (Partitioningalgorithms), incl. itératif:

  • division des objets en k clusters ;
  • redistribution itérative des objets pour améliorer le clustering.
  • Algorithmes hiérarchiques (Hierarchyalgorithms):
  • agglomération : chaque objet est initialement un cluster, des clusters,
  • se connectant les uns aux autres, forment un cluster plus grand, etc.

Méthodes basées sur la concentration des objets (Méthodes basées sur la densité) :

  • basé sur la connectivité des objets ;
  • ignorez les bruits et trouvez des clusters de forme arbitraire.

Grille - méthodes (méthodes basées sur une grille) :

  • quantification d'objets dans des structures de grille.

Méthodes de modèle (basées sur un modèle) :

  • utiliser le modèle pour trouver les clusters qui correspondent le mieux aux données.

Méthodes d'analyse groupée. méthodes itératives.

À en grand nombre Les méthodes hiérarchiques d’analyse groupée ne conviennent pas aux observations. Dans de tels cas, des méthodes non hiérarchiques basées sur la division sont utilisées, qui sont des méthodes itératives de division de la population d'origine. Au cours du processus de division, de nouveaux clusters se forment jusqu'à ce que la règle d'arrêt soit respectée.

Un tel clustering non hiérarchique consiste à diviser un ensemble de données en un certain nombre de clusters distincts. Il existe deux approches. La première consiste à définir les limites des clusters comme les zones les plus denses dans l'espace multidimensionnel des données initiales, c'est-à-dire définition d'un cluster où il y a une grande "concentration de points". La deuxième approche consiste à minimiser la mesure de la différence d'objet

Algorithme k-moyennes (k-moyennes)

La plus courante parmi les méthodes non hiérarchiques est l'algorithme des k-moyennes, également appelé analyse de cluster rapide. Description complète L'algorithme peut être trouvé dans les travaux de Hartigan et Wong (1978). Contrairement aux méthodes hiérarchiques, qui ne nécessitent pas d’hypothèses préalables sur le nombre de clusters, pour pouvoir utiliser cette méthode, il est nécessaire d’avoir une hypothèse sur le nombre de clusters le plus probable.

L'algorithme k-means construit k clusters espacés aussi loin que possible. Le principal type de problèmes résolus par l'algorithme k-means est la présence d'hypothèses (hypothèses) concernant le nombre de clusters, alors qu'elles doivent être aussi différentes que possible. Le choix du nombre k peut être basé sur des recherches antérieures, des considérations théoriques ou une intuition.

L'idée générale de l'algorithme : un nombre fixe donné k de clusters d'observations sont comparés aux clusters de telle manière que les moyennes du cluster (pour toutes les variables) diffèrent autant que possible les unes des autres.

Description de l'algorithme

1. Répartition initiale des objets par clusters.

  • Le nombre k est choisi, et dans un premier temps ces points sont considérés comme les « centres » des clusters.
  • Chaque cluster correspond à un centre.

Le choix des barycentres initiaux peut s'effectuer de la manière suivante :

  • choisir k-observations pour maximiser la distance initiale ;
  • sélection aléatoire de k-observations ;
  • choix des premières k-observations.

En conséquence, chaque objet est affecté à un cluster spécifique.

2. Processus itératif.

Les centres des clusters sont calculés, qui sont ensuite considérés comme les moyennes de coordonnées des clusters. Les objets sont à nouveau redistribués.

Le processus de calcul des centres et de redistribution des objets se poursuit jusqu'à ce que l'une des conditions suivantes soit remplie :

  • les centres de cluster se sont stabilisés, c'est-à-dire toutes les observations appartiennent au cluster auquel elles appartenaient avant l'itération en cours ;
  • le nombre d'itérations est égal au nombre maximum d'itérations.

La figure montre un exemple de fonctionnement de l'algorithme k-means pour k égal à deux.

Un exemple de l'algorithme k-means (k=2)

Le choix du nombre de clusters est une question complexe. S'il n'y a aucune hypothèse sur ce nombre, il est recommandé de créer 2 clusters, puis 3, 4, 5, etc., en comparant les résultats.

Vérification de la qualité du clustering

Après avoir obtenu les résultats de l'analyse groupée à l'aide de la méthode des k-moyennes, il convient de vérifier l'exactitude du regroupement (c'est-à-dire d'évaluer en quoi les clusters diffèrent les uns des autres).

Pour ce faire, des valeurs moyennes pour chaque cluster sont calculées. Un bon regroupement devrait produire des moyennes très différentes pour toutes les mesures, ou du moins pour la plupart d’entre elles.

Avantages de l'algorithme k-means :

  • facilité d'utilisation;
  • rapidité d'utilisation;
  • clarté et transparence de l’algorithme.

Inconvénients de l'algorithme k-means :

  • l'algorithme est trop sensible aux valeurs aberrantes qui peuvent fausser la moyenne.

Solution possible ce problème consiste à utiliser une modification de l'algorithme -k-median algorithm ;

  • l'algorithme peut être lent sur les grandes bases de données. Une solution possible à ce problème consiste à utiliser l’échantillonnage des données.

Réseaux bayésiens

Dans la théorie des probabilités, le concept de dépendance informationnelle est modélisé par la dépendance conditionnelle (ou strictement : le manque d'indépendance conditionnelle), qui décrit comment notre confiance dans l'issue d'un événement change lorsque nous acquérons de nouvelles connaissances sur les faits, étant donné que nous connaissions déjà un ensemble d'autres faits.

Il est pratique et intuitif de représenter les dépendances entre éléments au moyen d'un chemin dirigé reliant ces éléments dans un graphique. Si la relation entre les éléments x et y n'est pas directe et s'effectue via le troisième élément z, alors il est logique de s'attendre à ce qu'il y ait un élément z sur le chemin entre x et y. De tels nœuds intermédiaires « couperont » la dépendance entre x et y, c'est-à-dire modéliser une situation d’indépendance conditionnelle entre eux avec une valeur connue de facteurs d’influence directs.Ces langages de modélisation sont des réseaux bayésiens, qui servent à décrire les dépendances conditionnelles entre les concepts d'un certain domaine.

Les réseaux bayésiens sont des structures graphiques permettant de représenter des relations probabilistes entre un grand nombre de variables et d'effectuer des inférences probabilistes basées sur ces variables.La classification « naïve » (bayésienne) est une méthode de classification assez transparente et compréhensible. « Naïve » elle est appelée parce qu'elle procède de l'hypothèse d'unecaractéristique de l'indépendance.

Propriétés de classement :

1. Utiliser toutes les variables et définir toutes les dépendances entre elles.

2. Avoir deux hypothèses sur les variables :

  • toutes les variables sont d’égale importance ;
  • toutes les variables sont statistiquement indépendantes, c'est-à-dire La valeur d’une variable ne dit rien sur la valeur de l’autre.

Il existe deux scénarios principaux d'utilisation des réseaux bayésiens :

1. Analyse descriptive. Le domaine est affiché sous forme de graphique dont les nœuds représentent des concepts, et les arcs dirigés affichés par des flèches illustrent les relations directes entre ces concepts. La relation entre x et y signifie que connaître la valeur de x vous aide à mieux deviner la valeur de y. L'absence de lien direct entre les concepts modélise l'indépendance conditionnelle entre eux, compte tenu des valeurs connues d'un certain ensemble de concepts « séparatifs ». Par exemple, la pointure d'un enfant est évidemment liée à sa capacité à lire en fonction de son âge. Ainsi, une pointure plus grande donne plus de confiance dans le fait que l'enfant lit déjà, mais si nous connaissons déjà l'âge, alors connaître la pointure ne nous donnera plus Informations Complémentaires sur la capacité de l'enfant à lire.


Comme autre exemple opposé, considérons des facteurs initialement sans rapport, comme le tabagisme et un rhume. Mais si nous connaissons un symptôme, par exemple qu'une personne souffre d'une toux matinale, alors savoir qu'une personne ne fume pas augmente notre confiance dans le fait qu'elle a un rhume.

2. Classification et prévision. Le réseau bayésien, permettant l'indépendance conditionnelle de plusieurs concepts, permet de réduire le nombre de paramètres de distribution conjointe, permettant de les estimer en toute confiance sur les volumes de données disponibles. Ainsi, avec 10 variables, chacune pouvant prendre 10 valeurs, le nombre de paramètres de distribution conjointe est de 10 milliards - 1. Si l'on suppose que seules 2 variables dépendent l'une de l'autre entre ces variables, alors le nombre de paramètres devient 8 * ( 10-1) + (10 * 10-1) = 171. Disposant d'un modèle de distribution conjointe réaliste en termes de ressources informatiques, on peut prédire la valeur inconnue d'un concept comme, par exemple, la valeur la plus probable de ce concept avec des valeurs connues d'autres concepts.

Ils notent les avantages des réseaux bayésiens en tant que méthode de DataMining :

Les dépendances entre toutes les variables sont définies dans le modèle, ce qui facilitegérer des situations dans lesquelles les valeurs de certaines variables sont inconnues ;

Les réseaux bayésiens sont interprétés tout simplement et permettent au stadela modélisation prédictive permet de réaliser facilement l'analyse du scénario « et si » ;

La méthode bayésienne permet de combiner naturellement des motifs,dérivés de données et, par exemple, de connaissances d’experts obtenues explicitement ;

L'utilisation de réseaux bayésiens évite le problème du surapprentissage(surajustement), c'est-à-dire une complication excessive du modèle, ce qui constitue une faiblessede nombreuses méthodes (par exemple, arbres de décision et réseaux de neurones).

L'approche bayésienne naïve présente les inconvénients suivants :

La multiplication des probabilités conditionnelles n'est correcte que lorsque toutes les entréesles variables sont en effet statistiquement indépendantes ; bien que cette méthode soit souventmontre d'assez bons résultats si l'état du système statistiquel'indépendance, mais en théorie, une telle situation devrait être gérée par desméthodes basées sur la formation des réseaux bayésiens ;

Traitement direct impossible des variables continues - elles sont nécessairesconversion en une échelle d'intervalle afin que les attributs soient discrets ; cependant, un telles transformations peuvent parfois conduire à la perte de modèles significatifs ;

Le résultat de la classification dans l'approche naïve bayésienne n'est affecté que parvaleurs individuelles des variables d'entrée, influence combinée des paires oules triplets de valeurs d'attributs différents ne sont pas pris en compte ici. Cela pourrait améliorerla qualité du modèle de classification en termes de précision prédictive,cependant, cela augmenterait le nombre de variantes testées.

Réseaux de neurones artificiels

Les réseaux de neurones artificiels (ci-après dénommés réseaux de neurones) peuvent être synchrones et asynchrones.Dans les réseaux de neurones synchrones, à chaque instant, seulement un neurone. En asynchrone - l'état change immédiatement pour tout un groupe de neurones, en règle générale, pour tout couche. Deux architectures de base peuvent être distinguées : les réseaux en couches et entièrement connectés.Le concept clé des réseaux en couches est le concept de couche.Couche - un ou plusieurs neurones dont les entrées sont alimentées par le même signal commun.Les réseaux de neurones en couches sont des réseaux de neurones dans lesquels les neurones sont divisés en groupes distincts (couches) afin que le traitement de l'information soit effectué en couches.Dans les réseaux en couches, les neurones de la ième couche reçoivent des signaux d'entrée, les transforment et les transmettent à travers les points de branchement vers les neurones (i + 1) de la couche. Et ainsi de suite jusqu'à la kième couche, ce qui donnesignaux de sortie pour l’interprète et l’utilisateur. Le nombre de neurones dans chaque couche n’est pas lié au nombre de neurones dans les autres couches ; il peut être arbitraire.Au sein d'une couche, les données sont traitées en parallèle et sur l'ensemble du réseau, le traitement est effectué de manière séquentielle - de couche en couche. Les réseaux neuronaux en couches comprennent, par exemple, les perceptrons multicouches, les réseaux de fonctions de base radiale, les réseaux cognitron, non cognitron et de mémoire associative.Cependant, le signal n’est pas toujours appliqué à tous les neurones de la couche. Dans un cognitron, par exemple, chaque neurone de la couche actuelle reçoit des signaux uniquement des neurones proches de lui dans la couche précédente.

Les réseaux en couches, quant à eux, peuvent être monocouches ou multicouches.

Réseau monocouche- un réseau constitué d'une seule couche.

Réseau multicouche- un réseau à plusieurs couches.

Dans un réseau multicouche, la première couche est appelée couche d’entrée, les couches suivantes sont appelées internes ou cachées et la dernière couche est la couche de sortie. Ainsi, les couches intermédiaires sont toutes les couches d'un réseau neuronal multicouche, à l'exception de l'entrée et de la sortie.La couche d'entrée du réseau implémente la connexion avec les données d'entrée, la couche de sortie - avec la sortie.Ainsi, les neurones peuvent être entrés, sortis et cachés.La couche d'entrée est organisée à partir de neurones d'entrée qui reçoivent des données et les distribuent aux entrées des neurones de la couche cachée du réseau.Un neurone caché est un neurone situé dans la couche cachée d'un réseau neuronal.Les neurones de sortie, à partir desquels est organisée la couche de sortie du réseau, produisentrésultats du réseau neuronal.

Dans des réseaux entièrement connectés chaque neurone transmet son signal de sortie au reste des neurones, y compris lui-même. Les signaux de sortie du réseau peuvent être tout ou partie des signaux de sortie des neurones après plusieurs cycles d'horloge du réseau.

Tous les signaux d'entrée sont transmis à tous les neurones.

Formation des réseaux de neurones

Avant d'utiliser un réseau de neurones, il doit être entraîné.Le processus de formation d'un réseau de neurones consiste à ajuster ses paramètres internes pour une tâche spécifique.L'algorithme du réseau neuronal est itératif, ses étapes sont appelées époques ou cycles.Époque - une itération dans le processus d'apprentissage, comprenant la présentation de tous les exemples de l'ensemble de formation et, éventuellement, la vérification de la qualité de la formation sur le contrôle ensemble. Le processus d'apprentissage s'effectue sur l'ensemble de formation.L'échantillon de formation comprend les valeurs d'entrée et leurs valeurs de sortie correspondantes de l'ensemble de données. Au cours de la formation, le réseau de neurones découvre certaines dépendances des champs de sortie par rapport à ceux d'entrée.Ainsi, nous sommes confrontés à la question : de quels champs de saisie (caractéristiques) avons-nous besoinnécessaire à utiliser. Dans un premier temps, le choix se fait de manière heuristique, puisle nombre d'entrées peut être modifié.

La complexité peut soulever la question du nombre d’observations dans l’ensemble de données. Bien qu'il existe certaines règles décrivant la relation entre quantité nécessaire observations et la taille du réseau, leur validité n’a pas été prouvée.Le nombre d'observations nécessaires dépend de la complexité du problème à résoudre. Avec une augmentation du nombre de caractéristiques, le nombre d'observations augmente de manière non linéaire, ce problème est appelé la « malédiction de la dimensionnalité ». Avec une quantité insuffisantedonnées, il est recommandé d’utiliser un modèle linéaire.

L'analyste doit déterminer le nombre de couches du réseau et le nombre de neurones dans chaque couche.Ensuite, vous devez attribuer de telles valeurs de poids et de biais qui peuventminimiser les erreurs de décision. Les poids et les biais sont automatiquement ajustés de manière à minimiser la différence entre les signaux souhaités et les signaux de sortie, ce que l'on appelle l'erreur d'apprentissage.L'erreur d'apprentissage du réseau neuronal construit est calculée en comparantvaleurs de sortie et cibles (souhaitées). La fonction d'erreur est formée à partir des différences obtenues.

La fonction d'erreur est une fonction objective qui doit être minimisée dans le processusapprentissage contrôlé des réseaux neuronaux.Grâce à la fonction d'erreur, vous pouvez évaluer la qualité du réseau neuronal pendant l'entraînement. Par exemple, la somme des carrés des erreurs est souvent utilisée.La capacité à résoudre les tâches assignées dépend de la qualité de la formation du réseau neuronal.

Recyclage des réseaux neuronaux

Lors de la formation des réseaux de neurones, une difficulté sérieuse surgit souvent, appeléeproblème de surapprentissage.Surajustement, ou surajustement - surajustementréseau neuronal à un ensemble spécifique d'exemples de formation, dans lesquels le réseau perdcapacité de généralisation.Le surapprentissage se produit lorsque l’entraînement est trop long et pas assezexemples de formation ou structure de réseau neuronal trop compliquée.Le surapprentissage est dû au fait que le choix de l'ensemble de formation (formation)est aléatoire. Dès les premiers pas de formation, l’erreur est réduite. Surétapes ultérieures afin de réduire les paramètres d'erreur (fonction objectif)adapté aux caractéristiques de l’ensemble d’entraînement. Cependant, cela arrive"ajustement" non pas aux schémas généraux de la série, mais aux caractéristiques de sa pièce -sous-ensemble de formation. Dans ce cas, la précision de la prévision diminue.L'une des options pour gérer le recyclage du réseau consiste à diviser l'échantillon de formation en deux.ensembles (formation et test).Sur l'ensemble de formation, le réseau neuronal est formé. Sur l'ensemble de test, le modèle construit est vérifié. Ces ensembles ne doivent pas se croiser.A chaque étape, les paramètres du modèle changent, cependant, une diminution constantela valeur de la fonction objectif se produit précisément sur l’ensemble d’apprentissage. En divisant l'ensemble en deux, nous pouvons observer l'évolution de l'erreur de prévision sur l'ensemble de test en parallèle avec les observations sur l'ensemble d'apprentissage. Quelquesle nombre de pas d'erreur de prédiction diminue sur les deux ensembles. Cependant, surà une certaine étape, l'erreur sur l'ensemble de test commence à augmenter, tandis que l'erreur sur l'ensemble d'apprentissage continue de diminuer. Ce moment est considéré comme le début de la reconversion.

Outils d'exploration de données

Développement dans le secteur DataMining du marché mondial logiciel les dirigeants de renommée mondiale et les nouvelles entreprises émergentes sont occupés. Les outils DataMining peuvent être présentés soit comme une application autonome, soit comme des modules complémentaires au produit principal.Cette dernière option est mise en œuvre par de nombreux leaders du marché des logiciels.Ainsi, il est déjà devenu une tradition que les développeurs de progiciels statistiques universels, en plus des méthodes traditionnelles d'analyse statistique, incluent dans le progicielun certain ensemble de méthodes DataMining. Ce sont des forfaits comme SPSS (SPSS, Clémentine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Certains développeurs de solutions OLAP proposent également un ensemble de techniques de DataMining, comme la famille de produits Cognos. Il existe des fournisseurs qui incluent des solutions DataMining dans les fonctionnalités du SGBD : il s'agit de Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMintelligentMinerforData).

Bibliographie

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., « Réingénierie des processus métier. Cours MBA », Moscou : Maison d'édition Eksmo, 2005. - 592 p. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. "Gestion des connaissances dans les entreprises et réingénierie des entreprises" - M. : Infra-M, 2011.- 382 p. – ISBN978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Holod I.I. "Méthodes et modèles d'analyse de données : OLAP et Data Mining", Saint-Pétersbourg : BHV-Petersburg, 2004, 336 pp., ISBN 5-94157-522-X
  1. Duc DANS., Samoilenko UN., « Exploration de données.Cours de formation "SPb : Piter, 2001, 386s.
  1. Chubukova I.A., cours d'exploration de données, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining : outils et techniques pratiques d'apprentissage automatique (troisième édition), ISBN 978-0-12-374856-0
  1. Petroshin V.A. , Khan L. , Exploration de données multimédia et découverte de connaissances

Qu'est-ce que l'exploration de données

Classification des tâches d'exploration de données

La tâche de recherche de règles d'association

Problème de clustering

Fonctionnalités de Data Miner dans Statistica 8

Outils d'analyse STATISTICA Data Miner

Un exemple de travail dans Data Minin

Créer des rapports et des résumés

Tri des informations

Analyse des prix des terrains résidentiels

Analyse des prédicteurs de survie

Conclusion


Qu'est-ce que l'exploration de données

Le terme informatique moderne Data Mining est traduit par « extraction d'informations » ou « data mining ». Souvent, avec le Data Mining, on trouve les termes Knowledge Discovery (« découverte de connaissances ») et Data Warehouse (« entrepôt de données »). L'émergence de ces termes, qui font partie intégrante du Data Mining, est associée à un nouveau cycle de développement d'outils et de méthodes de traitement et de stockage des données. Ainsi, le but du Data Mining est d’identifier les règles et modèles cachés dans de grandes (très grandes) quantités de données.

Le fait est que l’esprit humain lui-même n’est pas adapté à la perception d’un vaste éventail d’informations hétérogènes. En moyenne, une personne, à l’exception de certains individus, n’est pas capable de saisir plus de deux ou trois relations, même sur de petits échantillons. Mais les statistiques traditionnelles pendant longtemps qui prétendait être le principal outil d'analyse des données, échoue également souvent lors de la résolution de problèmes de la vie réelle. Il fonctionne avec des caractéristiques moyennes de l'échantillon, qui sont souvent des valeurs fictives (solvabilité moyenne du client, lorsque, selon la fonction de risque ou de perte, il faut pouvoir prédire la solvabilité et les intentions du client ; moyenne l'intensité du signal, tandis que vous êtes intéressé par les caractéristiques et l'arrière-plan des pics de signal, etc. d.).

Par conséquent, les méthodes de statistiques mathématiques sont principalement utiles pour tester des hypothèses préformulées, tandis que la définition d'une hypothèse est parfois une tâche assez compliquée et prend beaucoup de temps. Les technologies modernes de Data Mining traitent les informations afin de recherche automatique modèles (modèles) caractéristiques de tout fragment de données multidimensionnelles hétérogènes. Contrairement aux opérationnels traitement analytique(OLAP) dans le Data Mining, la charge de formuler des hypothèses et d'identifier des modèles inhabituels (inattendus) est transférée de l'humain à l'ordinateur. L’exploration de données n’en est pas une, mais une combinaison d’un grand nombre de méthodes différentes de découverte de connaissances. Le choix de la méthode dépend souvent du type de données disponibles et des informations que vous essayez d'obtenir. Voici par exemple quelques méthodes : association (combinaison), classification, clustering, analyse et prévision de séries chronologiques, réseaux de neurones, etc.

Considérons plus en détail les propriétés de la connaissance à découvrir, données dans la définition.

La connaissance doit être nouvelle, auparavant inconnue. L'effort consacré à la découverte de connaissances déjà connues de l'utilisateur n'est pas payant. Ce sont donc des connaissances nouvelles, jusqu’alors inconnues, qui ont de la valeur.

La connaissance doit être non triviale. Les résultats de l’analyse doivent refléter des tendances non évidentes et inattendues dans les données qui constituent ce que l’on appelle les connaissances cachées. Les résultats qui pourraient être obtenus par des méthodes plus simples (par exemple, la visualisation visuelle) ne justifient pas le recours à des méthodes puissantes de Data Mining.

La connaissance doit être utile dans la pratique. Les connaissances acquises doivent être applicables, y compris sur de nouvelles données, avec un degré de fiabilité suffisamment élevé. L'utilité réside dans le fait que ces connaissances peuvent apporter certains avantages dans leur application.

La connaissance doit être accessible à la compréhension humaine. Les modèles trouvés doivent être logiquement explicables, sinon il est possible qu'ils soient aléatoires. De plus, les connaissances découvertes doivent être présentées sous une forme compréhensible par l'homme.

Dans le Data Mining, des modèles sont utilisés pour représenter les connaissances acquises. Les types de modèles dépendent des méthodes de leur création. Les plus courants sont : les règles, les arbres de décision, les clusters et les fonctions mathématiques.

La portée du Data Mining est illimitée : le Data Mining est nécessaire partout où il y a des données. L'expérience de nombreuses entreprises de ce type montre que le retour sur l'utilisation du Data Mining peut atteindre 1 000 %. Par exemple, certains rapports font état d'un effet économique 10 à 70 fois supérieur aux coûts initiaux de 350 à 750 000 dollars. Des informations sont données sur un projet de 20 millions de dollars, qui a été rentabilisé en seulement 4 mois. Un autre exemple est l'économie annuelle de 700 000 $. grâce à l'introduction du Data Mining dans une chaîne de supermarchés au Royaume-Uni. Le data mining est d’une grande valeur pour les managers et les analystes dans leurs activités quotidiennes. Les hommes d’affaires ont réalisé qu’avec l’aide des méthodes de Data Mining, ils peuvent acquérir des avantages concurrentiels tangibles.

Classification des tâches d'exploration de données

Les méthodes de DataMining permettent de résoudre de nombreux problèmes rencontrés par un analyste. Parmi celles-ci, les principales sont : la classification, la régression, la recherche de règles d'association et le clustering. Ci-dessous se trouve brève description principales tâches d'analyse des données.

1) La tâche de classification se réduit à déterminer la classe d'un objet en fonction de ses caractéristiques. Il convient de noter que dans ce problème, l’ensemble des classes auxquelles un objet peut être affecté est connu à l’avance.

2) La tâche de régression, comme la tâche de classification, permet de déterminer la valeur de certains de ses paramètres en fonction des caractéristiques connues d'un objet. Contrairement au problème de classification, la valeur du paramètre n’est pas un ensemble fini de classes, mais l’ensemble des nombres réels.

3) Tâche d'association. Lors de la recherche de règles d'association, l'objectif est de trouver des dépendances (ou associations) fréquentes entre des objets ou des événements. Les dépendances trouvées sont présentées sous forme de règles et peuvent être utilisées à la fois pour une meilleure compréhension de la nature des données analysées et pour prédire l'occurrence d'événements.

4) La tâche du clustering est de rechercher des groupes indépendants (clusters) et leurs caractéristiques dans l'ensemble des données analysées. Résoudre ce problème vous aide à mieux comprendre les données. De plus, le regroupement d'objets homogènes permet de réduire leur nombre et, par conséquent, de faciliter l'analyse.

5) Modèles séquentiels - l'établissement de modèles entre des événements liés dans le temps, c'est-à-dire détection de dépendance selon laquelle si l'événement X se produit, alors après temps donné l'événement Y se produira.

6) Analyse des écarts - identification des modèles les plus inhabituels.

Les tâches répertoriées sont divisées par objectif en descriptives et prédictives.

Les tâches descriptives visent à améliorer la compréhension des données analysées. Le point clé de ces modèles est la facilité et la transparence des résultats pour la perception humaine. Il est possible que les modèles découverts constituent une caractéristique spécifique des données spécifiques étudiées et ne soient trouvés nulle part ailleurs, mais ils peuvent quand même être utiles et doivent donc être connus. Ce type de problème inclut le clustering et la recherche de règles d'association.

La solution des problèmes prédictifs se divise en deux étapes. Dans un premier temps, un modèle est construit sur la base d’un ensemble de données dont les résultats sont connus. Dans la deuxième étape, il est utilisé pour prédire les résultats sur la base de nouveaux ensembles de données. Dans ce cas, bien entendu, il est nécessaire que les modèles construits fonctionnent aussi précisément que possible. À cette espèce les tâches comprennent des tâches de classification et de régression. Cela inclut également le problème de trouver des règles d'association, si les résultats de sa solution peuvent être utilisés pour prédire l'occurrence de certains événements.

Selon les modalités de résolution des problèmes, ils se répartissent en apprentissages supervisés (apprentissage avec un enseignant) et apprentissages non supervisés (apprentissage sans enseignant). Ce nom vient du terme Machine Learning (machine learning), souvent utilisé dans la littérature anglophone et désignant l’ensemble des technologies de Data Mining.

Dans le cas de l’apprentissage supervisé, le problème de l’analyse des données est résolu en plusieurs étapes. Tout d'abord, en utilisant n'importe quel algorithme de Data Mining, un modèle des données analysées est construit - un classificateur. Le classificateur est ensuite formé. En d'autres termes, la qualité de son travail est vérifiée et, s'il n'est pas satisfaisant, le classificateur est en outre formé. Cela continue jusqu'à ce que le niveau de qualité requis soit atteint ou qu'il devienne évident que l'algorithme sélectionné ne fonctionne pas correctement avec les données, ou que les données elles-mêmes n'ont pas de structure identifiable. Ce type de problème comprend des problèmes de classification et de régression.

L'apprentissage non supervisé combine des tâches qui identifient des modèles descriptifs, tels que les modèles d'achats effectués par les clients dans un grand magasin. Évidemment, si ces modèles existent, alors le modèle devrait les représenter et il est inapproprié de parler de son apprentissage. D’où le nom – apprentissage non supervisé. L’avantage de tels problèmes est la possibilité de les résoudre sans aucune connaissance préalable des données analysées. Ceux-ci incluent le clustering et la recherche de règles d'association.

Problème de classification et de régression

Lors de l'analyse, il est souvent nécessaire de déterminer à laquelle des classes connues appartiennent les objets étudiés, c'est-à-dire de les classer. Par exemple, lorsqu’une personne demande un prêt à une banque, l’agent de la banque doit décider si le client potentiel est solvable ou non. Évidemment, une telle décision est prise sur la base de données sur l'objet étudié (en l'occurrence, une personne) : son lieu de travail, son salaire, son âge, la composition de sa famille, etc. Suite à l'analyse de ces informations, une banque l'employé doit attribuer la personne à l'une des deux classes bien connues « solvable » et « non solvable ».

Un autre exemple de tâche de classification est le filtrage des e-mails. Dans ce cas, le programme de filtrage doit classer le message entrant comme spam (message non sollicité). E-mail) ou sous forme de lettre. Cette décision est accepté en fonction de la fréquence d'apparition de certains mots dans le message (par exemple, le nom du destinataire, l'adresse impersonnelle, les mots et expressions : acquérir, « gagner », « proposition rentable" et ainsi de suite.).

Exploration de données

Le Data Mining est une méthodologie et un processus permettant de découvrir de grandes quantités de données qui s'accumulent dans systèmes d'information des entreprises jusqu'alors inconnues, non triviales, pratiquement utiles et accessibles pour l'interprétation des connaissances nécessaires à la prise de décision dans divers domaines de l'activité humaine. L'exploration de données est l'une des étapes de la méthodologie plus vaste de découverte des connaissances dans les bases de données.

Les connaissances découvertes au cours du processus de Data Mining doivent être non triviales et auparavant inconnues. La non-trivialité suggère que de telles connaissances ne peuvent pas être découvertes par une simple analyse visuelle. Ils doivent décrire les relations entre les propriétés des objets métier, prédire les valeurs de certaines fonctionnalités en fonction d'autres, etc. Les connaissances trouvées doivent être applicables à de nouveaux objets.

L'utilité pratique des connaissances tient à la possibilité de leur utilisation dans le processus d'aide à la décision managériale et d'amélioration des activités de l'entreprise.

Les connaissances doivent être présentées sous une forme compréhensible pour les utilisateurs n'ayant pas de formation mathématique particulière. Par exemple, les constructions logiques « si, alors » sont les plus facilement perçues par une personne. De plus, ces règles peuvent être utilisées dans divers SGBD sous forme de requêtes SQL. Dans le cas où les connaissances extraites ne sont pas transparentes pour l'utilisateur, il convient de disposer de méthodes de post-traitement permettant de les amener sous une forme interprétable.

L’exploration de données n’en est pas une, mais une combinaison d’un grand nombre de méthodes différentes de découverte de connaissances. Toutes les tâches résolues par les méthodes de Data Mining peuvent être conditionnellement divisées en six types :

L'exploration de données est de nature multidisciplinaire, car elle comprend des éléments de méthodes numériques, de statistiques mathématiques et de théorie des probabilités, de théorie de l'information et de logique mathématique, d'intelligence artificielle et d'apprentissage automatique.

Les tâches d'analyse commerciale sont formulées de différentes manières, mais la solution de la plupart d'entre elles se résume à l'une ou l'autre tâche de Data Mining ou à une combinaison d'entre elles. Par exemple, l’évaluation des risques est une solution à un problème de régression ou de classification, la segmentation du marché est un regroupement, la stimulation de la demande est une règle d’association. En fait, les tâches de Data Mining sont des éléments à partir desquels vous pouvez « assembler » la solution à la plupart des problèmes métiers réels.

Pour résoudre les problèmes ci-dessus, diverses méthodes et algorithmes de Data Mining sont utilisés. Compte tenu du fait que le Data Mining s'est développé et se développe à l'intersection de disciplines telles que les statistiques mathématiques, la théorie de l'information, l'apprentissage automatique et les bases de données, il est tout à fait naturel que la plupart des algorithmes et méthodes de Data Mining aient été développés sur la base de diverses méthodes issues de ces disciplines. disciplines. Par exemple, l’algorithme de clustering k-means a été emprunté aux statistiques.

Nous vous souhaitons la bienvenue portail de données Mining - un portail unique dédié aux méthodes modernes de Data Mining.

Les technologies d'exploration de données constituent un outil puissant pour la business intelligence et l'exploration de données modernes permettant de découvrir des modèles cachés et de créer des modèles prédictifs. Le Data Mining ou Knowledge Mining ne repose pas sur un raisonnement spéculatif, mais sur des données réelles.

Riz. 1. Schéma d'application du Data Mining

Définition du problème - Définition du problème : classification des données, segmentation, construction de modèles prédictifs, prévision.
Collecte et préparation des données - Collecte et préparation des données, nettoyage, vérification, suppression des enregistrements en double.
Construction de modèles - Construire un modèle, évaluer la précision.
Déploiement des connaissances - Application du modèle pour résoudre le problème.

Le Data Mining est utilisé pour mettre en œuvre des projets analytiques à grande échelle dans les domaines des affaires, du marketing, d'Internet, des télécommunications, de l'industrie, de la géologie, de la médecine, de la pharmacie et dans d'autres domaines.

L'exploration de données vous permet de démarrer le processus de recherche de corrélations et de connexions significatives en passant au crible une énorme quantité de données à l'aide de méthodes modernes de reconnaissance de formes et de l'utilisation de technologies analytiques uniques, notamment des arbres de décision et de classification, le clustering et les méthodes de réseau neuronal. , et d'autres.

Un utilisateur qui découvre la technologie d'exploration de données pour la première fois est étonné par l'abondance de méthodes et d'algorithmes efficaces qui permettent de trouver des approches pour résoudre des problèmes difficiles liés à l'analyse de grandes quantités de données.

De manière générale, le Data Mining peut être décrit comme une technologie conçue pour rechercher de grandes quantités de données. pas évident, objectif et pratiquement utile motifs.

Le Data Mining est basé sur méthodes efficaces et des algorithmes conçus pour analyser des données non structurées de grand volume et de grande dimension.

Le point clé est que les données de grand volume et de grande dimension semblent dépourvues de structure et de relations. L’objectif de la technologie d’exploration de données est d’identifier ces structures et de trouver des modèles où, à première vue, règnent le chaos et l’arbitraire.

Voici un exemple concret d’application de l’exploration de données dans les industries pharmaceutiques et pharmaceutiques.

Les interactions médicamenteuses constituent un problème croissant auquel sont confrontés les soins de santé modernes.

Au fil du temps, le nombre de médicaments prescrits (en vente libre et sous toutes sortes de suppléments) augmente, ce qui rend de plus en plus probable que les interactions entre médicaments peuvent provoquer des effets secondaires graves dont les médecins et les patients ne sont pas conscients.

Ce domaine fait référence aux études post-cliniques, lorsque le médicament est déjà sur le marché et est largement utilisé.

Les études cliniques font référence à l’évaluation de l’efficacité du médicament, mais prennent peu en compte les interactions de ce médicament avec d’autres médicaments du marché.

Des chercheurs de l'Université de Stanford en Californie ont étudié la base de données de la FDA (Food and Drug Administration) sur les effets secondaires des médicaments et ont découvert que deux médicaments couramment utilisés - l'antidépresseur paroxétine et la pravastatine, utilisés pour abaisser le taux de cholestérol - augmentent le risque de développer un diabète s'ils sont pris ensemble.

Une étude d’analyse similaire basée sur les données de la FDA a identifié 47 interactions indésirables jusqu’alors inconnues.

Ceci est remarquable, avec la mise en garde que bon nombre des effets négatifs notés par les patients restent non détectés. C’est précisément dans ce cas que la recherche sur réseau peut se montrer de la meilleure façon.

Prochains cours de Data Mining à la StatSoft Academy of Data Analysis en 2020

Nous commençons notre connaissance du Data Mining à l'aide des merveilleuses vidéos de l'Academy of Data Analysis.

Assurez-vous de regarder nos vidéos et vous comprendrez ce qu'est le Data Mining !

Vidéo 1. Qu'est-ce que l'exploration de données ?


Vidéo 2 : Présentation de l'exploration de données : arbres de décision, modèles prédictifs généralisés, clustering, etc.

Javascript est désactivé sur votre navigateur


Avant de lancer un projet de recherche, il faut organiser le processus d'obtention des données auprès des sources externes, nous allons maintenant montrer comment cela se fait.

La vidéo vous présentera la technologie unique STATISTIQUES Traitement de base de données sur place et connexion de Data Mining avec des données réelles.

Vidéo 3. L'ordre d'interaction avec les bases de données : une interface graphique pour créer des requêtes SQL Technologie de traitement de bases de données sur place

Javascript est désactivé sur votre navigateur


Nous allons maintenant nous familiariser avec les technologies de forage interactives qui sont efficaces pour effectuer une analyse exploratoire des données. Le terme forage lui-même reflète le lien entre la technologie de Data Mining et l’exploration géologique.

Vidéo 4. Forage interactif : méthodes d'exploration et de représentation graphique pour l'exploration interactive des données

Javascript est désactivé sur votre navigateur


Nous allons maintenant nous familiariser avec l'analyse des associations (règles d'association), ces algorithmes permettent de retrouver des relations qui existent dans des données réelles. Le point clé est l’efficacité des algorithmes sur de grandes quantités de données.

Le résultat des algorithmes d'analyse de liens, par exemple l'algorithme Apriori, est de trouver les règles de liens des objets étudiés avec une fiabilité donnée, par exemple 80 %.

En géologie, ces algorithmes peuvent être appliqués à l’analyse d’exploration des minéraux, par exemple pour déterminer la relation entre la caractéristique A et les caractéristiques B et C.

Vous pouvez trouver des exemples spécifiques de telles solutions dans nos liens :

Dans le commerce de détail, les algorithmes Apriori ou leurs modifications permettent d'explorer la relation entre différents produits, par exemple lors de la vente de parfums (parfum - vernis - mascara, etc.) ou de produits de différentes marques.

L'analyse des rubriques les plus intéressantes du site peut également être réalisée efficacement grâce aux règles d'association.

Alors regardez notre prochaine vidéo.

Vidéo 5. Règles d'association

Javascript est désactivé sur votre navigateur

Donnons des exemples d’application du Data Mining dans des domaines spécifiques.

Commerce sur Internet :

  • analyse des parcours clients depuis la visite du site jusqu'à l'achat des biens
  • évaluation de l'efficacité du service, analyse des échecs dus au manque de marchandises
  • relier les produits qui intéressent les visiteurs

Retail : Analyse des informations clients basée sur cartes de crédit, cartes de réduction, etc.

Tâches de vente au détail typiques résolues par les outils de Data Mining :

  • analyse du panier;
  • création de modèles prédictifs et modèles de classification des acheteurs et des biens achetés ;
  • création de profils d'acheteurs;
  • CRM, évaluation de la fidélité des acheteurs de différentes catégories, planification de programmes de fidélité ;
  • recherche de séries chronologiques et dépendances temporelles, sélection de facteurs saisonniers, évaluation de l'efficacité des promotions sur un large éventail de données réelles.

Le secteur des télécommunications offre des possibilités illimitées pour l'application des méthodes d'exploration de données, ainsi que technologies modernes Big Data:

  • classification des clients en fonction des caractéristiques clés des appels (fréquence, durée, etc.), fréquence des SMS;
  • identification de la fidélité des clients;
  • définition de la fraude, etc.

Assurance:

  • analyse de risque. En identifiant les combinaisons de facteurs associés aux sinistres payés, les assureurs peuvent réduire leurs pertes en responsabilité. Il existe un cas connu où une compagnie d'assurance a découvert que les montants versés sur les demandes de personnes mariées étaient le double des montants versés sur les demandes de personnes célibataires. L’entreprise a réagi en révisant sa politique de réductions pour les clients familiaux.
  • détection de fraude. Les compagnies d'assurance peut réduire la fraude en recherchant certains stéréotypes dans les réclamations d'assurance qui caractérisent la relation entre les avocats, les médecins et les demandeurs.

L'application pratique du data mining et la solution de problèmes spécifiques sont présentées dans notre prochaine vidéo.

Webinaire 1. Webinaire "Tâches pratiques du Data Mining : problèmes et solutions"

Javascript est désactivé sur votre navigateur

Webinaire 2. Webinaire « Exploration de données et exploration de textes : exemples de résolution de problèmes réels »

Javascript est désactivé sur votre navigateur


Vous pouvez approfondir vos connaissances sur la méthodologie et la technologie de l'exploration de données lors des cours StatSoft.