Casa / Skype / Metodi di classificazione e previsione di data mining. Tecnologie di data mining. Reti neurali artificiali

Metodi di classificazione e previsione di data mining. Tecnologie di data mining. Reti neurali artificiali

Il data mining è diviso in due grandi gruppi secondo il principio di lavorare con i dati di addestramento iniziale. In questa classificazione, il livello più alto viene determinato in base al fatto che i dati vengano archiviati dopo il Data Mining o che vengano distillati per un uso successivo.

1. Utilizzo diretto dei dati, oppure salvataggio dei dati.

In questo caso, i dati iniziali sono conservati in forma esplicita e dettagliata e sono utilizzati direttamente nelle fasi e/o analisi delle eccezioni. Il problema con questo gruppo di metodi è che quando li si utilizza, può essere difficile analizzare database molto grandi.

Metodi di questo gruppo: analisi dei cluster, metodo del vicino più vicino, metodo del vicino più vicino k, ragionamento per analogia.

2. Identificazione e uso di formalizzato modelli, o distillazione a modello.

Con la tecnologia modelli di distillazione un campione (template) di informazioni viene estratto dai dati di origine e convertito in alcune costruzioni formali, la cui forma dipende dal metodo di Data Mining utilizzato. Questo processo viene eseguito nella fase ricerca libera, il primo gruppo di metodi manca in linea di principio di questa fase. Sui palchi modellazione predittiva e analisi delle eccezioni vengono utilizzati i risultati della fase ricerca libera, sono molto più compatti dei database stessi. Ricordiamo che le costruzioni di questi modelli possono essere interpretabili dall'analista o non interpretabili ("scatole nere").

Metodi di questo gruppo: metodi logici; metodi di visualizzazione; metodi a campi incrociati; metodi basati su equazioni.

I metodi logici, o metodi di induzione logica, includono: query e analisi fuzzy; regole simboliche; alberi decisionali; algoritmi genetici.

I metodi di questo gruppo sono forse i più interpretabili: elaborano i modelli che si trovano, nella maggior parte dei casi, in una forma abbastanza trasparente dal punto di vista dell'utente. Le regole risultanti possono includere variabili continue e discrete. Va notato che gli alberi decisionali possono essere facilmente convertiti in insiemi di regole simboliche generando una regola lungo il percorso dalla radice dell'albero alla sua vertice terminale. Gli alberi decisionali e le regole lo sono in effetti diversi modi soluzioni allo stesso problema e differiscono solo per le loro capacità. Inoltre, l'implementazione delle regole avviene tramite algoritmi più lenti rispetto all'induzione di alberi decisionali.

Metodi a campi incrociati: agenti, reti bayesiane (di fiducia), visualizzazione a campi incrociati. L'ultimo metodo non corrisponde esattamente a una delle proprietà di Data Mining: la ricerca indipendente modelli sistema analitico. Tuttavia, fornire informazioni sotto forma di campi incrociati fornisce l'implementazione del compito principale di Data Mining: la ricerca di modelli, quindi questo metodo può anche essere considerato uno dei metodi di Data Mining.

Metodi basati su equazioni.

I metodi di questo gruppo esprimono i modelli rivelati sotto forma di espressioni matematiche - equazioni. Pertanto, possono funzionare solo con variabili numeriche e le variabili di altro tipo devono essere codificate di conseguenza. Ciò limita in qualche modo l'applicazione dei metodi di questo gruppo; tuttavia, sono ampiamente utilizzati per risolvere vari problemi, in particolare problemi di previsione.

I metodi principali di questo gruppo: metodi statistici e reti neurali

I metodi statistici sono più spesso utilizzati per risolvere problemi di previsione. Esistono molti metodi di analisi dei dati statistici, tra cui, ad esempio, l'analisi di correlazione e regressione, la correlazione di serie temporali, l'identificazione di tendenze nelle serie temporali, l'analisi armonica.

Un'altra classificazione divide l'intera varietà di metodi di Data Mining in due gruppi: metodi statistici e cibernetici. Questo schema di separazione si basa su vari approcci all'insegnamento di modelli matematici.

Va notato che esistono due approcci per classificare i metodi statistici come Data Mining. Il primo si oppone ai metodi statistici e al Data Mining, i suoi sostenitori considerano i metodi statistici classici come un'area separata di analisi dei dati. Secondo il secondo approccio, i metodi di analisi statistica fanno parte del toolkit matematico di Data Mining. La maggior parte delle fonti autorevoli adotta il secondo approccio.

In questa classificazione si distinguono due gruppi di metodi:

  • metodi statistici basati sull'uso dell'esperienza media accumulata, che si riflette nei dati retrospettivi;
  • metodi cibernetici, inclusi molti approcci matematici eterogenei.

Lo svantaggio di una tale classificazione è che sia gli algoritmi statistici che quelli cibernetici si basano in un modo o nell'altro sul confronto dell'esperienza statistica con i risultati del monitoraggio della situazione attuale.

Il vantaggio di una tale classificazione è la sua comodità per l'interpretazione: è usata nella descrizione dei mezzi matematici dell'approccio moderno estrarre conoscenza da matrici di osservazioni iniziali (operative e retrospettive), ad es. nelle attività di data mining.

Diamo un'occhiata più da vicino ai gruppi di cui sopra.

Metodi statistici Data mining

In questi metodi sono quattro sezioni correlate:

  • analisi preliminare della natura dei dati statistici (verifica delle ipotesi di stazionarietà, normalità, indipendenza, omogeneità, valutazione del tipo di funzione di distribuzione, dei suoi parametri, ecc.);
  • identificare i collegamenti e modelli(analisi di regressione lineare e non lineare, analisi di correlazione, ecc.);
  • analisi statistica multivariata (analisi discriminante lineare e non lineare, analisi dei cluster, analisi delle componenti, analisi fattoriale e così via.);
  • modelli dinamici e previsioni basate su serie temporali.

L'arsenale di metodi statistici Data Mining è classificato in quattro gruppi di metodi:

  1. Analisi descrittiva e descrizione dei dati iniziali.
  2. Analisi delle relazioni (analisi di correlazione e regressione, analisi fattoriale, analisi della varianza).
  3. Analisi statistica multivariata (analisi delle componenti, analisi discriminante, analisi di regressione multivariata, correlazioni canoniche, ecc.).
  4. Analisi delle serie temporali ( modelli dinamici e previsione).

Metodi di data mining cibernetici

La seconda direzione del Data Mining è un insieme di approcci accomunati dall'idea della matematica informatica e dall'uso della teoria intelligenza artificiale.

I sistemi OLAP forniscono all'analista un mezzo per testare le ipotesi durante l'analisi dei dati, ovvero il compito principale dell'analista è generare ipotesi, che risolve in base alla sua conoscenza ed esperienza.Tuttavia, non solo una persona ha conoscenza, ma anche i dati accumulati che vengono analizzati. Tale conoscenza è contenuta in un'enorme quantità di informazioni che una persona non è in grado di esplorare da sola. Al riguardo, esiste la possibilità di mancare ipotesi che possano portare notevoli benefici.

Per scoprire la conoscenza "nascosta", viene utilizzata metodi speciali analisi automatica, con l'aiuto della quale si deve praticamente estrarre conoscenza dai "blocchi" dell'informazione. In questa direzione è stato assegnato il termine “data mining (DataMining)” o “data mining”.

Esistono molte definizioni di DataMining che si completano a vicenda. Eccone alcuni.

DataMining è il processo di scoperta di modelli non banali e praticamente utili nei database. (gruppo base)

Il data mining è il processo di estrazione, esplorazione e modellazione di grandi quantità di dati per scoprire modelli (patter) precedentemente sconosciuti al fine di ottenere vantaggi aziendali (SAS Institute)

DataMining è un processo che mira a scoprire nuove correlazioni, modelli e tendenze significative setacciando grandi quantità di dati archiviati utilizzando tecniche di riconoscimento dei modelli e l'applicazione di metodi statistici e matematici (GartnerGroup)

Il DataMining è lo studio e la scoperta da parte di una “macchina” (algoritmi, strumenti di intelligenza artificiale) in dati grezzi di conoscenze nascoste cheprecedentemente sconosciuto, non banale, praticamente utile, disponibile per l'interpretazioneumano (A. Bargesyan "Tecnologie per l'analisi dei dati")

DataMining è il processo di scoperta di conoscenze utili sul business (N.M. Abdikeev "KBA")

Proprietà della conoscenza rilevabile

Considera le proprietà della conoscenza da scoprire.

  • La conoscenza deve essere nuova, precedentemente sconosciuta. Lo sforzo speso per scoprire conoscenze già note all'utente non ripaga. Pertanto, è una conoscenza nuova, precedentemente sconosciuta, che ha valore.
  • La conoscenza deve essere non banale. I risultati dell'analisi dovrebbero riflettere cose non ovvie, inaspettatemodelli nei dati che compongono la cosiddetta conoscenza nascosta. Risultati che si potrebbero ottenere di più modi semplici(ad esempio, mediante ispezione visiva) non giustificano l'uso di potenti metodi di DataMining.
  • La conoscenza dovrebbe essere praticamente utile. Le conoscenze rilevate dovrebbero essere applicabili, anche sui nuovi dati, con un grado di affidabilità sufficientemente elevato. L'utilità sta nel fatto che questa conoscenza può portare qualche beneficio nella sua applicazione.
  • La conoscenza deve essere accessibile alla comprensione umana. Gli schemi trovati devono essere logicamente spiegabili, altrimenti c'è la possibilità che siano casuali. Inoltre, la conoscenza scoperta dovrebbe essere presentata in una forma comprensibile dall'uomo.

In DataMining, i modelli vengono utilizzati per rappresentare la conoscenza acquisita. I tipi di modelli dipendono dai metodi della loro creazione. I più comuni sono: regole, alberi decisionali, cluster e funzioni matematiche.

Attività di data mining

Ricordiamo che la tecnologia DataMining si basa sul concetto di pattern, che sono le regolarità. Come risultato della scoperta di queste regolarità nascoste ad occhio nudo, i problemi di DataMining vengono risolti. tipi diversi i modelli che possono essere espressi in una forma leggibile dall'uomo corrispondono a determinate attività di DataMining.

Non c'è consenso su quali compiti dovrebbero essere attribuiti a DataMining. Le fonti più autorevoli elencano quanto segue: classificazione,

clustering, previsione, associazione, visualizzazione, analisi e discovery

deviazioni, valutazione, analisi delle relazioni, debriefing.

Lo scopo della descrizione che segue è quello di fornire una panoramica dei problemi del DataMining, di confrontarne alcuni e anche di presentare alcuni dei metodi con cui questi problemi vengono risolti. Le attività di DataMining più comuni sono la classificazione, il clustering, l'associazione, la previsione e la visualizzazione. Pertanto, le attività sono suddivise in base ai tipi di informazioni prodotte, questa è la classificazione più generale delle attività di DataMining.

Classificazione

Il compito di dividere un insieme di oggetti o osservazioni in gruppi dati a priori, chiamati classi, all'interno dei quali si presume che siano simili tra loro, aventi approssimativamente le stesse proprietà e caratteristiche. In questo caso, la soluzione si ottiene sulla base di analisi valori degli attributi (caratteristiche).

La classificazione è uno dei compiti più importanti estrazione dei dati . Si applica in marketing nel valutare il merito creditizio dei mutuatari, determinare fedeltà del cliente, riconoscimento del modello , diagnostica medica e molte altre applicazioni. Se l'analista conosce le proprietà degli oggetti di ciascuna classe, quando una nuova osservazione appartiene a una determinata classe, queste proprietà si applicano automaticamente ad essa.

Se il numero di classi è limitato a due, alloraclassificazione binaria , a cui si possono ridurre molti problemi più complessi. Ad esempio, invece di definire tali gradi di rischio di credito come "Alto", "Medio" o "Basso", puoi utilizzarne solo due: "Emissione" o "Rifiuta".

Per la classificazione in DataMining, vengono utilizzati molti modelli diversi: reti neurali, alberi decisionali , supportano macchine vettoriali, k-vicini più vicini, algoritmi di copertura, ecc., che sono costruiti utilizzando l'apprendimento supervisionato quandovariabile di uscita(etichetta di classe ) per ciascuna osservazione. Formalmente, la classificazione si basa sulla partizionespazi caratteristici in aree, all'interno di ciascuna delle qualivettori multidimensionali sono considerati identici. In altre parole, se un oggetto è caduto in una regione di spazio associata a una certa classe, gli appartiene.

Raggruppamento

Breve descrizione. Il raggruppamento è una logica continuazione dell'idea

classificazione. Questo compito è più complicato, la particolarità del clustering è che le classi di oggetti non sono inizialmente predeterminate. Il risultato del raggruppamento è la divisione degli oggetti in gruppi.

Un esempio di metodo per risolvere un problema di clustering: formazione "senza insegnante" di un tipo speciale di reti neurali: le mappe auto-organizzanti di Kohonen.

Associazione (Associazioni)

Breve descrizione. Nel corso della risoluzione del problema della ricerca di regole di associazione, vengono trovati schemi tra eventi correlati in un set di dati.

La differenza tra l'associazione e le due precedenti attività di DataMining è che la ricerca dei pattern non si basa sulle proprietà dell'oggetto analizzato, ma tra più eventi che si verificano contemporaneamente. L'algoritmo più noto per risolvere il problema della ricerca di regole di associazione è l'algoritmo Apriori.

Sequenza o associazione sequenziale

Breve descrizione. La sequenza consente di trovare schemi temporali tra le transazioni. Il compito di una sequenza è simile a un'associazione, ma il suo obiettivo è stabilire schemi non tra eventi che si verificano simultaneamente, ma tra eventi collegati nel tempo (cioè che si verificano in un determinato intervallo di tempo). In altre parole, la sequenza è determinata dall'elevata probabilità di una catena di eventi legati nel tempo. In effetti, un'associazione è un caso speciale di una sequenza con ritardo zero. Questo problema di DataMining è anche chiamato problema di pattern sequenziale.

Regola di sequenza: dopo l'evento X, l'evento Y si verificherà dopo un certo tempo.

Esempio. Dopo aver acquistato un appartamento, gli inquilini nel 60% dei casi acquistano un frigorifero entro due settimane e entro due mesi, nel 50% dei casi, viene acquistato un televisore. La soluzione a questo problema è ampiamente utilizzata nel marketing e nella gestione, ad esempio nella gestione del ciclo di vita del cliente (CustomerLifecycleManagement).

Regressione, previsione (Previsione)

Breve descrizione. A seguito della risoluzione del problema della previsione, sulla base delle caratteristiche dei dati storici, vengono stimati i valori mancanti o futuri degli indicatori numerici target.

Per risolvere tali problemi, sono ampiamente utilizzati metodi di statistica matematica, reti neurali, ecc.

Compiti aggiuntivi

Determinazione di deviazioni o valori anomali (DeviationDetection), analisi della varianza o dei valori anomali

Breve descrizione. Lo scopo della soluzione di questo problema è il rilevamento e l'analisi di dati che differiscono maggiormente dall'insieme generale di dati, l'identificazione dei cosiddetti pattern non caratteristici.

Stima

Il compito di stima si riduce a prevedere i valori continui di una caratteristica.

Analisi dei collegamenti (LinkAnalysis)

Il compito di trovare le dipendenze in un set di dati.

Visualizzazione (Visualizzazione, GraphMining)

Come risultato della visualizzazione, viene creata un'immagine grafica dei dati analizzati. Per risolvere il problema di visualizzazione, vengono utilizzati metodi grafici per mostrare la presenza di pattern nei dati.

Un esempio di tecniche di visualizzazione è la presentazione dei dati in dimensioni 2D e 3D.

Riassunto

L'attività, il cui scopo è la descrizione di gruppi specifici di oggetti dal set di dati analizzato.

Abbastanza vicino alla classificazione di cui sopra è la divisione dei compiti di DataMining in quanto segue: ricerca e scoperta, previsione e classificazione, spiegazione e descrizione.

Ricerca e scoperta automatiche (ricerca libera)

Esempio di attività: scoperta di nuovi segmenti di mercato.

Per risolvere questa classe di problemi, vengono utilizzati metodi di analisi dei cluster.

Pronostico e classifica

Esempio di problema: prevedere la crescita delle vendite in base ai valori correnti.

Metodi: regressione, reti neurali, algoritmi genetici, alberi decisionali.

I compiti di classificazione e previsione costituiscono un gruppo di cosiddetta modellazione induttiva, che si traduce nello studio dell'oggetto o del sistema analizzato. Nel processo di risoluzione di questi problemi, sulla base di un set di dati, a modello generale o un'ipotesi.

Spiegazione e descrizione

Esempio di problema: caratterizzare i clienti in base ai dati demografici e alla cronologia degli acquisti.

Metodi: alberi decisionali, sistemi di regole, regole di associazione, link analysis.

Se il reddito del cliente è superiore a 50 unità convenzionali e la sua età è superiore a 30 anni, la classe del cliente è la prima.

Confronto tra clustering e classificazione

Caratteristica

Classificazione

Raggruppamento

Controllabilità dell'apprendimento

controllato

incontrollabile

Strategie

Imparare con un insegnante

Imparare senza un insegnante

Presenza di un'etichetta di classe

Set da allenamento

corredata da etichetta indicante

la classe a cui appartiene

osservazione

Etichette di classe di insegnamento

insiemi sconosciuti

Base per la classificazione

I nuovi dati vengono classificati in base al training set

Dati molti dati per lo scopo

stabilire l'esistenza

classi o cluster di dati

Ambiti di datamining

Va notato che oggi la tecnologia DataMining è ampiamente utilizzata per risolvere i problemi aziendali. Forse il motivo è che è in questa direzione che il ritorno sull'utilizzo degli strumenti di DataMining può arrivare, secondo alcune fonti, fino al 1000%, e i costi della sua implementazione possono essere rapidamente ripagati.

Analizzeremo in dettaglio le quattro principali applicazioni della tecnologia DataMining: scienza, economia, ricerca governativa e Web.

compiti aziendali. Aree principali: bancario, finanziario, assicurativo, CRM, manifatturiero, telecomunicazioni, e-commerce, marketing, mercato azionario e altri.

    Se concedere un prestito al cliente

    Segmentazione del mercato

    Attrazione di nuovi clienti

    Frode con carta di credito

Applicazione di DataMining per risolvere problemi a livello statale. Direzioni principali: ricerca evasori fiscali; mezzi nella lotta al terrorismo.

Applicazione di DataMining per ricerca scientifica. Aree principali: medicina, biologia, genetica molecolare e ingegneria genetica, bioinformatica, astronomia, chimica applicata, ricerca sulla tossicodipendenza e altre.

Applicare il datamining a una soluzione Attività web. Direzioni principali: motori di ricerca (motori di ricerca), contatori e altri.

Commercio elettronico

Nel campo dell'e-commerce, DataMining viene utilizzato per generare

Questa classificazione consente alle aziende di identificare gruppi specifici di clienti e di condurre politiche di marketing in base agli interessi e alle esigenze identificati dei clienti. La tecnologia DataMining per l'e-commerce è strettamente correlata alla tecnologia WebMining.

I compiti principali del DataMining nella produzione industriale:

analisi di sistema complesso delle situazioni produttive;

· previsione a breve ea lungo termine dell'evoluzione delle situazioni produttive;

sviluppo di opzioni per soluzioni di ottimizzazione;

Prevedere la qualità di un prodotto in base ad alcuni parametri

processo tecnologico;

rilevamento di tendenze nascoste e modelli di sviluppo della produzione

processi;

modelli previsionali di sviluppo dei processi produttivi;

rilevamento di fattori di influenza nascosti;

rilevamento e identificazione di relazioni precedentemente sconosciute tra

parametri di produzione e fattori di influenza;

analisi dell'ambiente di interazione dei processi produttivi e previsione

cambiamenti nelle sue caratteristiche;

processi;

visualizzazione dei risultati delle analisi, preparazione di relazioni preliminari e progetti

soluzioni fattibili con stime dell'affidabilità e dell'efficienza delle possibili implementazioni.

Marketing

Nel campo del marketing, il DataMining è ampiamente utilizzato.

Domande di marketing di base "Cosa è in vendita?", "Com'è in vendita?", "Chi è

consumatore?"

Nella lezione sui problemi di classificazione e clustering, viene descritto in dettaglio l'uso della cluster analysis per risolvere problemi di marketing, come la segmentazione dei consumatori.

Un altro insieme comune di metodi per risolvere i problemi di marketing sono i metodi e gli algoritmi per la ricerca di regole di associazione.

Anche qui viene utilizzata con successo la ricerca di modelli temporali.

Al dettaglio

Nella vendita al dettaglio, come nel marketing, applica:

Algoritmi per la ricerca di regole di associazione (per determinare gli insiemi che ricorrono frequentemente

beni che gli acquirenti acquistano contemporaneamente). L'identificazione di tali regole aiuta

posizionare le merci sugli scaffali delle sale di scambio, sviluppare strategie per l'acquisto di merci

e la loro collocazione in magazzini, ecc.

uso di sequenze temporali, ad esempio, per determinare

la quantità richiesta di inventario nel magazzino.

metodi di classificazione e clustering per identificare gruppi o categorie di clienti,

la cui conoscenza contribuisce al successo della promozione dei beni.

Mercato azionario

Ecco un elenco di problemi del mercato azionario che possono essere risolti utilizzando la tecnologia dei dati

Mining: previsione dei valori futuri di strumenti e indicatori finanziari

valori passati;

previsione dell'andamento (direzione futura del movimento - crescita, ribasso, piatto) della finanziaria

strumento e la sua forza (forte, moderatamente forte, ecc.);

allocazione della struttura dei cluster del mercato, dell'industria, del settore secondo un determinato insieme

caratteristiche;

· gestione dinamica del portafoglio;

previsione di volatilità;

valutazione del rischio;

la previsione dell'inizio della crisi e la previsione del suo sviluppo;

selezione dei beni, ecc.

Oltre alle aree di attività sopra descritte, la tecnologia DataMining può essere applicata in un'ampia varietà di aree di business in cui è necessaria l'analisi dei dati ed è stata accumulata una certa quantità di informazioni retrospettive.

Applicazione del DataMining in CRM

Una delle applicazioni più promettenti di DataMining è l'uso di questa tecnologia nel CRM analitico.

CRM (Customer Relationship Management) - gestione delle relazioni con i clienti.

Quando queste tecnologie vengono utilizzate insieme, il knowledge mining viene combinato con il "money mining" dai dati dei clienti.

Un aspetto importante nel lavoro dei dipartimenti marketing e vendite è la preparazioneuna visione olistica dei clienti, informazioni sulle loro caratteristiche, caratteristiche, struttura della base clienti. Il CRM utilizza la cosiddetta profilazioneclienti, fornendo una visione completa di tutte le informazioni necessarie sui clienti.

La profilazione dei clienti include i seguenti componenti: segmentazione dei clienti, redditività dei clienti, fidelizzazione dei clienti, analisi della risposta dei clienti. Ciascuno di questi componenti può essere esplorato utilizzando DataMining e analizzarli insieme come componenti di profilazione può portare a conoscenze che non possono essere ottenute da ogni singola caratteristica.

webmining

WebMining può essere tradotto come "data mining sul Web". WebIntelligence o Web.

L'intelligence è pronta ad "aprire un nuovo capitolo" nel rapido sviluppo dell'e-business. La capacità di determinare gli interessi e le preferenze di ciascun visitatore, osservandone il comportamento, è un vantaggio competitivo serio e critico nel mercato dell'e-commerce.

I sistemi di WebMining possono rispondere a molte domande, ad esempio quale dei visitatori è un potenziale cliente del negozio Web, quale gruppo di clienti del negozio Web porta più entrate, quali sono gli interessi di un particolare visitatore o gruppo di visitatori.

Metodi

Classificazione dei metodi

Esistono due gruppi di metodi:

  • metodi statistici basati sull'uso dell'esperienza media accumulata, che si riflette nei dati retrospettivi;
  • metodi cibernetici, inclusi molti approcci matematici eterogenei.

Lo svantaggio di una tale classificazione è che sia gli algoritmi statistici che quelli cibernetici si basano in un modo o nell'altro sul confronto dell'esperienza statistica con i risultati del monitoraggio della situazione attuale.

Il vantaggio di tale classificazione è la sua comodità per l'interpretazione: viene utilizzata per descrivere gli strumenti matematici dell'approccio moderno per estrarre la conoscenza da matrici di osservazioni iniziali (operative e retrospettive), ad es. nelle attività di data mining.

Diamo un'occhiata più da vicino ai gruppi di cui sopra.

Metodi statistici Data mining

In questi i metodi sono quattro sezioni correlate:

  • analisi preliminare della natura dei dati statistici (verifica delle ipotesi di stazionarietà, normalità, indipendenza, omogeneità, valutazione del tipo di funzione di distribuzione, dei suoi parametri, ecc.);
  • identificare i collegamenti e modelli(analisi di regressione lineare e non lineare, analisi di correlazione, ecc.);
  • analisi statistica multidimensionale (analisi discriminante lineare e non lineare, analisi dei cluster, analisi delle componenti, analisi fattoriale, ecc.);
  • modelli dinamici e previsioni basate su serie storiche.

L'arsenale di metodi statistici Data Mining è classificato in quattro gruppi di metodi:

  1. Analisi descrittiva e descrizione dei dati iniziali.
  2. Analisi delle relazioni (analisi di correlazione e regressione, analisi fattoriale, analisi della varianza).
  3. Analisi statistica multivariata (analisi delle componenti, analisi discriminante, analisi di regressione multivariata, correlazioni canoniche, ecc.).
  4. Analisi delle serie storiche (modelli dinamici e previsionali).

Metodi di data mining cibernetici

La seconda direzione del Data Mining è un insieme di approcci accomunati dall'idea della matematica informatica e dall'uso della teoria dell'intelligenza artificiale.

Questo gruppo include i seguenti metodi:

  • reti neurali artificiali (riconoscimento, clustering, previsione);
  • programmazione evolutiva (compresi gli algoritmi del metodo di contabilità di gruppo degli argomenti);
  • algoritmi genetici (ottimizzazione);
  • memoria associativa (ricerca di analoghi, prototipi);
  • logica sfocata;
  • alberi decisionali;
  • sistemi esperti di elaborazione della conoscenza.

analisi di gruppo

Lo scopo del raggruppamento è cercare le strutture esistenti.

Il clustering è una procedura descrittiva, non trae conclusioni statistiche, ma offre l'opportunità di condurre analisi esplorative e studiare la "struttura dei dati".

Il concetto stesso di "cluster" è definito in modo ambiguo: ogni studio ha i suoi "cluster". Il concetto di cluster (cluster) è tradotto come "cluster", "mazzo". Un cluster può essere descritto come un gruppo di oggetti con proprietà comuni.

Ci sono due caratteristiche di un cluster:

  • omogeneità interna;
  • isolamento esterno.

Una domanda che gli analisti si pongono in molti problemi è come organizzare i dati in strutture visive, ad es. espandere le tassonomie.

Inizialmente, il clustering era ampiamente utilizzato in scienze come la biologia, l'antropologia e la psicologia. Per molto tempo, il clustering è stato poco utilizzato per risolvere problemi economici a causa delle specificità dei dati e dei fenomeni economici.

I cluster possono essere non sovrapposti o esclusivi (non sovrapposti, esclusivi) e intersecanti (sovrapposti).

Va notato che come risultato dell'applicazione di vari metodi di analisi dei cluster, è possibile ottenere cluster di varie forme. Ad esempio, sono possibili cluster di tipo "catena", quando i cluster sono rappresentati da "catene" lunghe, cluster allungati, ecc. e alcuni metodi possono creare cluster di forma arbitraria.

Vari metodi possono mirare a creare cluster di determinate dimensioni (ad esempio piccoli o grandi) o assumere cluster di dimensioni diverse nel set di dati. Alcuni metodi di analisi dei cluster sono particolarmente sensibili al rumore o ai valori anomali, mentre altri lo sono meno. Come risultato dell'applicazione di diversi metodi di clustering, è possibile ottenere risultati diversi, questo è normale ed è una caratteristica del funzionamento di un particolare algoritmo. Queste caratteristiche dovrebbero essere prese in considerazione quando si sceglie un metodo di clustering.

Diamo una breve descrizione degli approcci al clustering.

Algoritmi basati sulla partizione dei dati (Partitioningalgorithms), incl. iterativo:

  • divisione di oggetti in k cluster;
  • ridistribuzione iterativa di oggetti per migliorare il clustering.
  • Algoritmi gerarchici (Hierarchyalgoritms):
  • agglomerato: ogni oggetto è inizialmente un cluster, cluster,
  • connettersi tra loro, formare un gruppo più grande, ecc.

Metodi basati sulla concentrazione di oggetti (Metodi basati sulla densità):

  • basato sulla connettività degli oggetti;
  • ignora i rumori, trovando cluster di forma arbitraria.

Griglia - metodi (metodi basati su griglia):

  • quantizzazione di oggetti in strutture a griglia.

Metodi del modello (basati sul modello):

  • utilizzando il modello per trovare i cluster che meglio si adattano ai dati.

Metodi di analisi dei cluster. metodi iterativi.

In in gran numero osservazioni metodi gerarchici di analisi dei cluster non sono adatti. In questi casi vengono utilizzati metodi non gerarchici basati sulla divisione, che sono metodi iterativi per dividere la popolazione originale. Durante il processo di divisione, si formano nuovi cluster fino a quando non viene soddisfatta la regola di arresto.

Tale raggruppamento non gerarchico consiste nel dividere un set di dati in un certo numero di cluster distinti. Ci sono due approcci. Il primo è definire i confini dei cluster come le aree più dense nello spazio multidimensionale dei dati iniziali, cioè definizione di un cluster dove c'è una grande "concentrazione di punti". Il secondo approccio consiste nel ridurre al minimo la misura della differenza dell'oggetto

Algoritmo k-medie (k-medie)

Il più comune tra i metodi non gerarchici è l'algoritmo k-mean, chiamato anche analisi rapida dei cluster. Descrizione completa algoritmo può essere trovato nel lavoro di Hartigan e Wong (1978). A differenza dei metodi gerarchici, che non richiedono assunzioni preliminari sul numero di cluster, per poter utilizzare questo metodo è necessario avere un'ipotesi sul numero più probabile di cluster.

L'algoritmo k-mean costruisce k cluster distanziati il ​​più possibile. Il principale tipo di problemi che risolve l'algoritmo k-mean è la presenza di ipotesi (ipotesi) sul numero di cluster, mentre dovrebbero essere il più diversi possibile. La scelta del numero k può essere basata su ricerche precedenti, considerazioni teoriche o intuizioni.

L'idea generale dell'algoritmo: un dato numero fisso k di cluster di osservazione vengono confrontati con i cluster in modo tale che le medie nel cluster (per tutte le variabili) differiscano il più possibile l'una dall'altra.

Descrizione dell'algoritmo

1. Distribuzione iniziale degli oggetti per cluster.

  • Viene scelto il numero k, e nella prima fase questi punti sono considerati i "centri" dei cluster.
  • Ogni cluster corrisponde a un centro.

La scelta dei centroidi iniziali può essere effettuata come segue:

  • scegliere k-osservazioni per massimizzare la distanza iniziale;
  • selezione casuale di k-osservazioni;
  • scelta delle prime k-osservazioni.

Di conseguenza, ogni oggetto viene assegnato a un cluster specifico.

2. Processo iterativo.

Vengono calcolati i centri dei cluster, che poi e oltre sono considerati i mezzi coordinati dei cluster. Gli oggetti vengono ridistribuiti di nuovo.

Il processo di calcolo dei centri e ridistribuzione degli oggetti continua finché non viene soddisfatta una delle seguenti condizioni:

  • i centri dei cluster si sono stabilizzati, ovvero tutte le osservazioni appartengono al cluster a cui appartenevano prima dell'iterazione corrente;
  • il numero di iterazioni è uguale al numero massimo di iterazioni.

La figura mostra un esempio del funzionamento dell'algoritmo k-medie per k uguale a due.

Un esempio dell'algoritmo k-medie (k=2)

La scelta del numero di cluster è una questione complessa. Se non ci sono ipotesi su questo numero, si consiglia di creare 2 cluster, quindi 3, 4, 5, ecc., confrontando i risultati.

Verifica della qualità del clustering

Dopo aver ottenuto i risultati dell'analisi dei cluster utilizzando il metodo k-mean, si dovrebbe verificare la correttezza del clustering (vale a dire, valutare come i cluster differiscono l'uno dall'altro).

Per fare ciò, vengono calcolati i valori medi per ciascun cluster. Un buon raggruppamento dovrebbe produrre mezzi molto diversi per tutte le misurazioni, o almeno per la maggior parte di esse.

Vantaggi dell'algoritmo k-mean:

  • facilità d'uso;
  • velocità di utilizzo;
  • chiarezza e trasparenza dell'algoritmo.

Svantaggi dell'algoritmo k-mean:

  • l'algoritmo è troppo sensibile ai valori anomali che possono distorcere la media.

Una possibile soluzione a questo problema consiste nell'utilizzare una modifica dell'algoritmo: l'algoritmo k-mediana;

  • l'algoritmo può essere lento su database di grandi dimensioni. Una possibile soluzione a questo problema è utilizzare il campionamento dei dati.

Reti bayesiane

Nella teoria della probabilità, il concetto di dipendenza dall'informazione è modellato dalla dipendenza condizionale (o strettamente: mancanza di indipendenza condizionale), che descrive come la nostra fiducia nell'esito di un evento cambia quando acquisiamo nuove conoscenze sui fatti, a condizione che già sapessimo qualche insieme di altri fatti.

È conveniente e intuitivo rappresentare le dipendenze tra elementi per mezzo di un percorso diretto che collega questi elementi in un grafico. Se la relazione tra gli elementi xey non è diretta e avviene attraverso il terzo elemento z, allora è logico aspettarsi che ci sarà un elemento z sul percorso tra xey. Tali nodi intermedi "tagliano" la dipendenza tra x e y, cioè modellare una situazione di indipendenza condizionata tra loro con un valore noto di fattori diretti di influenza.Tali linguaggi di modellazione sono reti bayesiane, che servono a descrivere le dipendenze condizionali tra i concetti di una determinata area disciplinare.

Le reti bayesiane sono strutture grafiche per rappresentare relazioni probabilistiche tra un gran numero di variabili e per eseguire inferenze probabilistiche basate su tali variabili.La classificazione "naive" (bayesiana) è un metodo di classificazione abbastanza trasparente e comprensibile. "Naive" è chiamata perché procede dall'assunzione di reciprocheindipendenza delle caratteristiche.

Proprietà di classificazione:

1. Utilizzo di tutte le variabili e definizione di tutte le dipendenze tra di esse.

2. Avere due ipotesi sulle variabili:

  • tutte le variabili sono ugualmente importanti;
  • tutte le variabili sono statisticamente indipendenti, cioè Il valore di una variabile non dice nulla sul valore dell'altra.

Esistono due scenari principali per l'utilizzo delle reti bayesiane:

1. Analisi descrittiva. L'area tematica viene visualizzata come un grafico, i cui nodi rappresentano concetti e gli archi diretti visualizzati dalle frecce illustrano le relazioni dirette tra questi concetti. La relazione tra xey significa che conoscere il valore di x ti aiuta a indovinare meglio il valore di y. L'assenza di una connessione diretta tra concetti modella l'indipendenza condizionale tra di loro, dati i valori noti di un certo insieme di concetti "separatori". Ad esempio, il numero di scarpe di un bambino è ovviamente correlato alla capacità di un bambino di leggere attraverso l'età. Pertanto, un numero di scarpe più grande dà più sicurezza che il bambino stia già leggendo, ma se conosciamo già l'età, conoscere il numero di scarpe non ci darà più Informazioni aggiuntive sulla capacità del bambino di leggere.


Come un altro esempio opposto, prendi in considerazione fattori inizialmente non correlati come il fumo e il raffreddore. Ma se conosciamo un sintomo, ad esempio, che una persona soffre di tosse mattutina, sapere che una persona non fuma aumenta la nostra fiducia che una persona abbia il raffreddore.

2. Classificazione e previsione. La rete bayesiana, consentendo l'indipendenza condizionale di una serie di concetti, consente di ridurre il numero di parametri di distribuzione congiunta, consentendo di stimarli con sicurezza sui volumi di dati disponibili. Quindi, con 10 variabili, ognuna delle quali può assumere 10 valori, il numero di parametri di distribuzione congiunta è 10 miliardi - 1. Se assumiamo che solo 2 variabili dipendono l'una dall'altra tra queste variabili, allora il numero di parametri diventa 8 * ( 10-1) + (10 * 10-1) = 171. Avendo un modello di distribuzione congiunta realistico in termini di risorse computazionali, possiamo prevedere il valore sconosciuto di un concetto come, ad esempio, il valore più probabile di questo concetto con valori noti di altri concetti.

Notano tali vantaggi delle reti bayesiane come metodo di DataMining:

Le dipendenze tra tutte le variabili sono definite nel modello, questo lo rende facilegestire situazioni in cui i valori di alcune variabili sono sconosciuti;

Le reti bayesiane sono semplicemente interpretate e consentite sul palcola modellazione predittiva consente di effettuare facilmente l'analisi dello scenario "what if";

Il metodo bayesiano consente di combinare in modo naturale modelli,derivato da dati e, ad esempio, conoscenze specialistiche acquisite in modo esplicito;

L'utilizzo di reti bayesiane evita il problema dell'overfitting(overfitting), cioè eccessiva complicazione del modello, che è un punto debolemolti metodi (ad esempio alberi decisionali e reti neurali).

L'approccio bayesiano ingenuo presenta i seguenti svantaggi:

La moltiplicazione delle probabilità condizionali è corretta solo quando tutti gli inputle variabili sono infatti statisticamente indipendenti; anche se questo metodo è spessomostra risultati abbastanza buoni se la condizione della statisticaindipendenza, ma teoricamente una situazione del genere dovrebbe essere gestita da persone più complessemetodi basati sulla formazione delle reti bayesiane;

Impossibile elaborare direttamente le variabili continue: sono necessarieconversione in una scala di intervallo in modo che gli attributi siano discreti; tuttavia, talele trasformazioni a volte possono portare alla perdita di schemi significativi;

Il risultato della classificazione nell'approccio bayesiano naive è influenzato solo davalori individuali di variabili di input, influenza combinata di coppie otriplette di valori di attributi diversi non vengono prese in considerazione qui. Questo potrebbe migliorarela qualità del modello di classificazione in termini di accuratezza predittiva,tuttavia, aumenterebbe il numero di varianti testate.

Reti neurali artificiali

Le reti neurali artificiali (di seguito denominate reti neurali) possono essere sincrone e asincrone.Solo nelle reti neurali sincrone, in ogni momento un neurone. In asincrono: lo stato cambia immediatamente per un intero gruppo di neuroni, di regola, per tutto strato. Si possono distinguere due architetture di base: reti stratificate e completamente connesse.Il concetto chiave nelle reti a strati è il concetto di livello.Strato: uno o più neuroni, i cui ingressi sono forniti con lo stesso segnale comune.Le reti neurali a strati sono reti neurali in cui i neuroni sono divisi in gruppi separati (strati) in modo che l'elaborazione delle informazioni venga eseguita a strati.Nelle reti a strati, i neuroni dell'i-esimo strato ricevono segnali di input, li trasformano e li passano attraverso i punti di diramazione ai neuroni (i + 1) dello strato. E così via fino al k-esimo strato, che dàsegnali di uscita per l'interprete e l'utente. Il numero di neuroni in ogni strato non è correlato al numero di neuroni in altri strati, può essere arbitrario.All'interno di un livello, i dati vengono elaborati in parallelo e, nell'intera rete, l'elaborazione viene eseguita in sequenza, da un livello all'altro. Le reti neurali stratificate includono, ad esempio, perceptron multistrato, reti di funzioni di base radiale, reti di memoria associativa, cognitron, non cognitron.Tuttavia, il segnale non viene sempre applicato a tutti i neuroni dello strato. In un cognitrone, ad esempio, ogni neurone dello strato corrente riceve segnali solo dai neuroni vicini ad esso nello strato precedente.

Le reti a più livelli, a loro volta, possono essere a livello singolo e multistrato.

Rete a strato singolo- una rete composta da uno strato.

Rete multistrato- una rete a più livelli.

In una rete multistrato, il primo livello è chiamato livello di input, i livelli successivi sono chiamati interni o nascosti e l'ultimo livello è il livello di output. Pertanto, i livelli intermedi sono tutti i livelli in una rete neurale multistrato, ad eccezione dell'input e dell'output.Il livello di input della rete implementa la connessione con i dati di input, il livello di output - con l'output.Pertanto, i neuroni possono essere inseriti, emessi e nascosti.Il livello di input è organizzato dai neuroni di input che ricevono i dati e li distribuiscono agli input dei neuroni nel livello nascosto della rete.Un neurone nascosto è un neurone situato nello strato nascosto di una rete neurale.Vengono prodotti i neuroni di output, da cui è organizzato lo strato di output della reterisultati della rete neurale.

In reti completamente connesse ogni neurone trasmette il suo segnale di uscita al resto dei neuroni, compreso se stesso. I segnali di uscita della rete possono essere tutti o alcuni dei segnali di uscita dei neuroni dopo diversi cicli di clock della rete.

Tutti i segnali di ingresso vengono inviati a tutti i neuroni.

Formazione di reti neurali

Prima di utilizzare una rete neurale, è necessario addestrarla.Il processo di addestramento di una rete neurale consiste nell'adeguamento dei suoi parametri interni per un compito specifico.L'algoritmo della rete neurale è iterativo, i suoi passaggi sono chiamati epoche o cicli.Epoch - un'iterazione nel processo di apprendimento, inclusa la presentazione di tutti gli esempi dal set di formazione e, possibilmente, il controllo della qualità della formazione sul controllo impostare. Il processo di apprendimento viene svolto sul set di formazione.L'esempio di addestramento include i valori di input e i valori di output corrispondenti dal set di dati. Nel corso dell'allenamento, la rete neurale trova delle dipendenze dei campi di output da quelli di input.Pertanto, ci troviamo di fronte alla domanda: di quali campi di input (caratteristiche) abbiamo bisognonecessario da usare. Inizialmente, la scelta viene fatta euristicamente, quindiil numero di ingressi può essere modificato.

La complessità può sollevare il problema del numero di osservazioni nel set di dati. Sebbene ci siano alcune regole che descrivono la relazione tra quantità necessaria osservazioni e la dimensione della rete, la loro validità non è stata dimostrata.Il numero di osservazioni necessarie dipende dalla complessità del problema da risolvere. Con un aumento del numero di caratteristiche, il numero di osservazioni aumenta in modo non lineare, questo problema è chiamato "maledizione della dimensionalità". Con quantità insufficientedati, si consiglia di utilizzare un modello lineare.

L'analista deve determinare il numero di strati nella rete e il numero di neuroni in ogni strato.Successivamente, è necessario assegnare tali valori di pesi e distorsioni che possonominimizzare l'errore di decisione. I pesi e le polarizzazioni vengono regolati automaticamente in modo da ridurre al minimo la differenza tra il segnale desiderato e quello di uscita, che viene chiamato errore di apprendimento.L'errore di apprendimento per la rete neurale costruita viene calcolato mediante confrontovalori di output e target (desiderati). La funzione di errore è formata dalle differenze ottenute.

La funzione di errore è una funzione obiettivo che deve essere ridotta al minimo nel processoapprendimento controllato della rete neurale.Utilizzando la funzione di errore, è possibile valutare la qualità della rete neurale durante l'allenamento. Ad esempio, viene spesso utilizzata la somma degli errori al quadrato.La capacità di risolvere i compiti assegnati dipende dalla qualità dell'addestramento della rete neurale.

Riqualificazione della rete neurale

Quando si addestrano le reti neurali, sorge spesso una seria difficoltà, chiamataproblema di overfitting.Overfitting, o overfitting - overfittingrete neurale a un insieme specifico di esempi di addestramento, in cui la rete perdecapacità di generalizzazione.L'overfitting si verifica quando l'allenamento è troppo lungo, non abbastanzaesempi di addestramento o struttura della rete neurale eccessivamente complicata.L'overfitting è dovuto al fatto che la scelta dell'allenamento (allenamento) è impostataè casuale. Fin dai primi passi di formazione, l'errore è ridotto. Sulpassaggi successivi al fine di ridurre i parametri di errore (funzione obiettivo).adattato alle caratteristiche del training set. Tuttavia, questo accade"adeguamento" non agli schemi generali della serie, ma alle caratteristiche della sua parte -sottoinsieme di formazione. In questo caso, l'accuratezza della previsione diminuisce.Una delle opzioni per affrontare la riqualificazione della rete è dividere il campione di formazione in dueset (allenamento e test).Sul set di addestramento, la rete neurale viene addestrata. Sul set di prova viene verificato il modello costruito. Questi insiemi non devono intersecarsi.Ad ogni passaggio, i parametri del modello cambiano, tuttavia, una diminuzione costantevalore della funzione obiettivo avviene proprio sul training set. Quando dividiamo il set in due, possiamo osservare il cambiamento nell'errore di previsione sul test set in parallelo con le osservazioni sul training set. Alcuniil numero di passi di errore di previsione diminuisce su entrambi i set. Tuttavia, suad un certo punto l'errore sul test set inizia ad aumentare, mentre l'errore sul training set continua a diminuire. Questo momento è considerato l'inizio della riqualificazione.

Strumenti di data mining

Sviluppo nel settore DataMining del mercato mondiale Software sono occupati sia i leader di fama mondiale che le nuove società emergenti. Gli strumenti di DataMining possono essere presentati come un'applicazione standalone o come componenti aggiuntivi del prodotto principale.Quest'ultima opzione è implementata da molti leader del mercato del software.Pertanto, è già diventata una tradizione che gli sviluppatori di pacchetti statistici universali, oltre ai metodi tradizionali di analisi statistica, includano nel pacchettoun certo insieme di metodi di DataMining. Questi sono pacchetti come SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Alcuni sviluppatori di soluzioni OLAP offrono anche una serie di tecniche di DataMining, come la famiglia di prodotti Cognos. Esistono provider che includono soluzioni DataMining nelle funzionalità del DBMS: si tratta di Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMintelligentMinerforData).

Bibliografia

  1. Abdikeev NM Danko TP Ildemenov S.V. Kiselev A.D., “Reingegnerizzazione dei processi aziendali. Corso MBA”, Mosca: Eksmo Publishing House, 2005. - 592 p. - (MBA)
  1. Abdikeev NM, Kiselev d.C. "Gestione della conoscenza nelle imprese e reingegnerizzazione aziendale" - M.: Infra-M, 2011.- 382 p. – ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov MS, Stepanenko V.V., Holod I.I. "Metodi e modelli di analisi dei dati: OLAP e Data Mining", San Pietroburgo: BHV-Petersburg, 2004, 336 pp., ISBN 5-94157-522-X
  1. Duca A., Samoilenko MA., "Estrazione dei dati.Corso di formazione "SPb: Piter, 2001, 386s.
  1. Chubukova I.A., corso di Data Mining, http://www.intuit.ru/department/database/datamining/
  1. Ian H. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data mining: strumenti pratici e tecniche di apprendimento automatico (terza edizione), ISBN 978-0-12-374856-0
  1. Petrushin VA , Khan L. , Estrazione di dati multimediali e scoperta della conoscenza

Cos'è il data mining

Classificazione delle attività di data mining

Il compito di ricercare le regole dell'associazione

Problema di raggruppamento

Funzionalità di Data Miner in Statistica 8

Strumenti di analisi STATISTICA Data Miner

Un esempio di lavoro in Data Minin

Crea report e riepiloghi

Informazioni sull'ordinamento

Analisi dei prezzi dei lotti residenziali

Analisi predittiva della sopravvivenza

Conclusione


Cos'è il data mining

Il moderno termine informatico Data Mining è tradotto come "estrazione di informazioni" o "data mining". Spesso, insieme a Data Mining, si incontrano i termini Knowledge Discovery ("scoperta della conoscenza") e Data Warehouse ("data warehouse"). L'emergere di questi termini, che sono parte integrante del Data Mining, è associato a un nuovo round nello sviluppo di strumenti e metodi per l'elaborazione e la conservazione dei dati. Quindi, lo scopo del Data Mining è identificare regole e schemi nascosti in grandi (molto grandi) quantità di dati.

Il fatto è che la stessa mente umana non è adatta alla percezione di enormi matrici di informazioni eterogenee. In media, una persona, ad eccezione di alcuni individui, non è in grado di catturare più di due o tre relazioni, anche in piccoli campioni. Ma la statistica tradizionale per molto tempo che affermava di essere lo strumento principale per l'analisi dei dati, spesso fallisce anche nella risoluzione di problemi della vita reale. Opera con caratteristiche medie del campione, che sono spesso valori fittizi (solvibilità media del cliente, quando, a seconda della funzione di rischio o della funzione di perdita, è necessario essere in grado di prevedere la solvibilità e le intenzioni del cliente; media intensità del segnale, mentre sei interessato alle caratteristiche e allo sfondo dei picchi del segnale, ecc. d.).

Pertanto, i metodi della statistica matematica sono utili principalmente per testare ipotesi preformulate, mentre la definizione di un'ipotesi è a volte un compito piuttosto complicato e dispendioso in termini di tempo. Le moderne tecnologie di data mining elaborano le informazioni al fine di ricerca automatica template (pattern) caratteristici di eventuali frammenti di dati multidimensionali eterogenei. Diversamente operativo elaborazione analitica dati (OLAP) in Data Mining, l'onere di formulare ipotesi e identificare modelli insoliti (imprevisti) viene spostato dall'uomo al computer. Il data mining non è uno, ma una combinazione di un gran numero di diversi metodi di scoperta della conoscenza. La scelta del metodo dipende spesso dal tipo di dati disponibili e dalle informazioni che si sta cercando di ottenere. Ecco, ad esempio, alcuni metodi: associazione (combinazione), classificazione, clustering, analisi e previsione di serie temporali, reti neurali, ecc.

Consideriamo più in dettaglio le proprietà della conoscenza da scoprire, date nella definizione.

La conoscenza deve essere nuova, precedentemente sconosciuta. Lo sforzo speso per scoprire conoscenze già note all'utente non ripaga. Pertanto, è una conoscenza nuova, precedentemente sconosciuta, che ha valore.

La conoscenza deve essere non banale. I risultati dell'analisi dovrebbero riflettere modelli non ovvi e inaspettati nei dati che compongono la cosiddetta conoscenza nascosta. I risultati che potrebbero essere ottenuti con metodi più semplici (ad esempio la visualizzazione visiva) non giustificano l'uso di potenti metodi di Data Mining.

La conoscenza dovrebbe essere praticamente utile. Le conoscenze rilevate dovrebbero essere applicabili, anche sui nuovi dati, con un grado di affidabilità sufficientemente elevato. L'utilità sta nel fatto che questa conoscenza può portare qualche beneficio nella sua applicazione.

La conoscenza deve essere accessibile alla comprensione umana. Gli schemi trovati devono essere logicamente spiegabili, altrimenti c'è la possibilità che siano casuali. Inoltre, la conoscenza scoperta dovrebbe essere presentata in una forma comprensibile dall'uomo.

In Data Mining, i modelli vengono utilizzati per rappresentare la conoscenza acquisita. I tipi di modelli dipendono dai metodi della loro creazione. I più comuni sono: regole, alberi decisionali, cluster e funzioni matematiche.

L'ambito del Data Mining è illimitato: il Data Mining è necessario ovunque siano presenti dati. L'esperienza di molte di queste imprese mostra che il ritorno sull'uso del Data Mining può raggiungere il 1000%. Ad esempio, ci sono segnalazioni di un effetto economico che è 10-70 volte superiore ai costi iniziali da 350 a 750 mila dollari. Vengono fornite informazioni su un progetto da 20 milioni di dollari, che ha dato i suoi frutti in soli 4 mesi. Un altro esempio è il risparmio annuo di $ 700.000. attraverso l'introduzione del Data Mining in una catena di supermercati nel Regno Unito. Il data mining è di grande valore per manager e analisti nelle loro attività quotidiane. Gli uomini d'affari hanno capito che con l'aiuto dei metodi di Data Mining possono ottenere vantaggi competitivi tangibili.

Classificazione delle attività di data mining

I metodi di DataMining consentono di risolvere molti problemi affrontati da un analista. Di questi, i principali sono: classificazione, regressione, ricerca di regole di associazione e clustering. Sotto è breve descrizione compiti principali dell'analisi dei dati.

1) Il compito della classificazione si riduce a determinare la classe di un oggetto secondo le sue caratteristiche. Va notato che in questo problema è noto in anticipo l'insieme di classi a cui può essere assegnato un oggetto.

2) L'attività di regressione, come l'attività di classificazione, consente di determinare il valore di alcuni suoi parametri in base alle caratteristiche note di un oggetto. Contrariamente al problema della classificazione, il valore del parametro non è un insieme finito di classi, ma l'insieme dei numeri reali.

3) Compito associativo. Quando si cercano regole di associazione, l'obiettivo è trovare dipendenze (o associazioni) frequenti tra oggetti o eventi. Le dipendenze trovate sono presentate sotto forma di regole e possono essere utilizzate sia per una migliore comprensione della natura dei dati analizzati sia per prevedere il verificarsi di eventi.

4) Il compito del clustering è di ricercare gruppi indipendenti (cluster) e le loro caratteristiche nell'intero insieme di dati analizzati. Risolvere questo problema aiuta a comprendere meglio i dati. Inoltre, il raggruppamento di oggetti omogenei consente di ridurne il numero e, di conseguenza, di facilitare l'analisi.

5) Modelli sequenziali - la creazione di schemi tra eventi correlati nel tempo, ad es. rilevamento delle dipendenze che, se si verifica l'evento X, dopo tempo a disposizione si verificherà l'evento Y.

6) Analisi delle deviazioni - identificazione dei modelli più insoliti.

Le attività elencate sono divise per scopo in descrittive e predittive.

Le attività descrittive si concentrano sul miglioramento della comprensione dei dati analizzati. Il punto chiave in tali modelli è la facilità e la trasparenza dei risultati per la percezione umana. È possibile che i modelli scoperti siano una caratteristica specifica dei dati specifici oggetto di studio e non vengano trovati da nessun'altra parte, ma possono comunque essere utili e quindi dovrebbero essere conosciuti. Questo tipo di problema include il raggruppamento e la ricerca di regole di associazione.

La soluzione dei problemi predittivi è divisa in due fasi. Nella prima fase, viene costruito un modello basato su un set di dati con risultati noti. Nella seconda fase, viene utilizzato per prevedere i risultati sulla base di nuovi set di dati. In questo caso, ovviamente, è necessario che i modelli costruiti funzionino nel modo più accurato possibile. Questo tipo di problema include problemi di classificazione e regressione. Ciò include anche il problema di trovare regole di associazione, se i risultati della sua soluzione possono essere utilizzati per prevedere il verificarsi di determinati eventi.

Secondo i metodi di risoluzione dei problemi, si dividono in apprendimento supervisionato (apprendimento con un insegnante) e apprendimento non supervisionato (apprendimento senza insegnante). Questo nome deriva dal termine Machine Learning (machine learning), che viene spesso utilizzato nella letteratura in lingua inglese e si riferisce a tutte le tecnologie di Data Mining.

Nel caso dell'apprendimento supervisionato, il problema dell'analisi dei dati viene risolto in più fasi. Innanzitutto, utilizzando qualsiasi algoritmo di Data Mining, viene creato un modello dei dati analizzati: un classificatore. Il classificatore viene quindi addestrato. In altre parole, viene verificata la qualità del suo lavoro e, se non è soddisfacente, viene ulteriormente formato il classificatore. Ciò continua finché non viene raggiunto il livello di qualità richiesto o diventa chiaro che l'algoritmo selezionato non funziona correttamente con i dati o che i dati stessi non hanno una struttura che può essere identificata. Questo tipo di problema include problemi di classificazione e regressione.

L'apprendimento non supervisionato combina attività che identificano modelli descrittivi, come i modelli negli acquisti effettuati dai clienti in un grande negozio. Ovviamente, se questi modelli esistono, allora il modello dovrebbe rappresentarli ed è inopportuno parlare del loro apprendimento. Da qui il nome: apprendimento senza supervisione. Il vantaggio di tali problemi è la possibilità di risolverli senza alcuna conoscenza preventiva dei dati analizzati. Questi includono il raggruppamento e la ricerca di regole di associazione.

Problema di classificazione e regressione

Durante l'analisi, è spesso necessario determinare a quale delle classi note appartengono gli oggetti in studio, ovvero classificarli. Ad esempio, quando una persona richiede un prestito a una banca, l'ufficiale bancario deve decidere se il potenziale cliente è degno di credito o meno. Ovviamente, tale decisione viene presa sulla base dei dati sull'oggetto in studio (in questo caso, una persona): il suo luogo di lavoro, stipendio, età, composizione familiare, ecc. A seguito dell'analisi di queste informazioni, una banca il dipendente deve attribuire la persona ad una delle due ben note classi "credibile" e "non attendibile".

Un altro esempio di attività di classificazione è il filtraggio della posta elettronica. In questo caso, il programma di filtraggio deve classificare il messaggio in arrivo come spam (non richiesto E-mail) o come lettera. Questa decisione viene accettato in base alla frequenza di occorrenza di determinate parole nel messaggio (ad esempio il nome del destinatario, indirizzo impersonale, parole e frasi: acquisire, "guadagnare", " proposta redditizia" eccetera.).

Estrazione dei dati

Il data mining è una metodologia e un processo per scoprire conoscenze precedentemente sconosciute, non banali, praticamente utili e accessibili in grandi array di dati che si accumulano nei sistemi informativi delle aziende, necessari per prendere decisioni in vari settori dell'attività umana. Il data mining è una delle fasi della più ampia metodologia Knowledge Discovery in Databases.

Le conoscenze scoperte nel processo di Data Mining devono essere non banali e precedentemente sconosciute. La non banalità suggerisce che tale conoscenza non può essere scoperta con una semplice analisi visiva. Dovrebbero descrivere le relazioni tra le proprietà degli oggetti aziendali, prevedere i valori di alcune funzionalità in base ad altre e così via. La conoscenza trovata dovrebbe essere applicabile a nuovi oggetti.

L'utilità pratica delle conoscenze è dovuta alla possibilità del loro utilizzo nel processo di supporto alle decisioni manageriali e di miglioramento delle attività aziendali.

La conoscenza dovrebbe essere presentata in una forma comprensibile per gli utenti che non hanno una formazione matematica speciale. Ad esempio, le costruzioni logiche "se, allora" sono percepite più facilmente da una persona. Inoltre, tali regole possono essere utilizzate in vari DBMS come query SQL. Nel caso in cui la conoscenza estratta non sia trasparente per l'utente, dovrebbero esserci metodi di post-elaborazione che consentano di portarla in una forma interpretabile.

Il data mining non è uno, ma una combinazione di un gran numero di diversi metodi di scoperta della conoscenza. Tutte le attività risolte dai metodi di Data Mining possono essere suddivise condizionatamente in sei tipi:

Il data mining è di natura multidisciplinare, in quanto include elementi di metodi numerici, statistica matematica e teoria della probabilità, teoria dell'informazione e logica matematica, intelligenza artificiale e apprendimento automatico.

I compiti dell'analisi aziendale sono formulati in modi diversi, ma la soluzione della maggior parte di essi si riduce all'uno o all'altro compito di Data Mining oa una combinazione di essi. Ad esempio, la valutazione del rischio è una soluzione a un problema di regressione o classificazione, la segmentazione del mercato è un raggruppamento, lo stimolo della domanda è regole di associazione. Le attività di Data Mining, infatti, sono elementi da cui è possibile "assemblare" la soluzione ai più reali problemi aziendali.

Per risolvere i problemi di cui sopra, vengono utilizzati vari metodi e algoritmi di Data Mining. In considerazione del fatto che il Data Mining si è sviluppato e si sta sviluppando all'intersezione di discipline come la statistica matematica, la teoria dell'informazione, l'apprendimento automatico e i database, è del tutto naturale che la maggior parte degli algoritmi e dei metodi di Data Mining siano stati sviluppati sulla base di vari metodi da questi discipline. Ad esempio, l'algoritmo di clustering k-mean è stato preso in prestito dalla statistica.

Ti diamo il benvenuto portale dati Mining - un portale unico dedicato ai moderni metodi di Data Mining.

Le tecnologie di data mining sono un potente strumento per la moderna business intelligence e data mining per scoprire modelli nascosti e creare modelli predittivi. Il data mining o knowledge mining non si basa su ragionamenti speculativi, ma su dati reali.

Riso. 1. Schema di applicazione del Data Mining

Definizione del problema - Definizione del problema: classificazione dei dati, segmentazione, costruzione di modelli predittivi, previsione.
Raccolta e preparazione dei dati - Raccolta e preparazione dei dati, pulizia, verifica, rimozione dei record duplicati.
Model Building - Costruzione di un modello, valutazione dell'accuratezza.
Knowledge Deployment - Applicazione del modello per risolvere il problema.

Il data mining viene utilizzato per implementare progetti analitici su larga scala in ambito commerciale, marketing, Internet, telecomunicazioni, industria, geologia, medicina, prodotti farmaceutici e altre aree.

Il data mining consente di avviare il processo di ricerca di correlazioni e relazioni significative come risultato del setacciamento di un'enorme quantità di dati utilizzando metodi moderni di riconoscimento di modelli e l'uso di tecnologie analitiche uniche, inclusi alberi decisionali e di classificazione, clustering, metodi di rete neurale , e altri.

Un utente che scopre per la prima volta la tecnologia di data mining è stupito dall'abbondanza di metodi e algoritmi efficienti che consentono di trovare approcci per risolvere problemi difficili legati all'analisi di grandi quantità di dati.

In generale, il Data Mining può essere descritto come una tecnologia progettata per cercare grandi quantità di dati. non ovvio, obbiettivo e praticamente utile modelli.

Il data mining si basa su metodi efficaci e algoritmi progettati per analizzare dati non strutturati di grande volume e dimensione.

Il punto chiave è che i dati di grande volume e di dimensioni elevate sembrano privi di struttura e relazioni. L'obiettivo della tecnologia di data mining è identificare queste strutture e trovare modelli in cui, a prima vista, regnano caos e arbitrarietà.

Ecco un esempio reale dell'applicazione del data mining nelle industrie farmaceutiche e farmaceutiche.

Le interazioni farmacologiche sono un problema crescente che deve affrontare l'assistenza sanitaria moderna.

Nel tempo, il numero dei farmaci prescritti (da banco e tutti i tipi di integratori) aumenta, rendendo sempre più probabile che le interazioni tra farmaci possano causare gravi effetti collaterali di cui medici e pazienti non sono a conoscenza.

Quest'area si riferisce agli studi post-clinici, quando il farmaco è già sul mercato e viene ampiamente utilizzato.

Gli studi clinici si riferiscono alla valutazione dell'efficacia del farmaco, ma tengono scarsamente conto delle interazioni di questo farmaco con altri farmaci sul mercato.

I ricercatori della Stanford University in California hanno studiato il database degli effetti collaterali dei farmaci della FDA (Food and Drug Administration) e hanno scoperto che due farmaci comunemente usati - l'antidepressivo paroxetina e la pravastatina, usati per abbassare i livelli di colesterolo - aumentano il rischio di sviluppare il diabete se presi insieme.

Uno studio di analisi simile basato sui dati della FDA ha identificato 47 interazioni avverse precedentemente sconosciute.

Questo è notevole, con l'avvertenza che molti degli effetti negativi rilevati dai pazienti rimangono inosservati. Proprio in questo caso, la ricerca in rete riesce a mostrarsi nel migliore dei modi.

Prossimi corsi di Data Mining presso la StatSoft Academy of Data Analysis nel 2020

Iniziamo la nostra conoscenza del Data Mining utilizzando i meravigliosi video dell'Academy of Data Analysis.

Assicurati di guardare i nostri video e capirai cos'è il Data Mining!

Video 1. Che cos'è il data mining?


Video 2: Panoramica del data mining: alberi decisionali, modelli predittivi generalizzati, clustering e altro

Javascript è disattivato nel tuo browser


Prima di avviare un progetto di ricerca, dobbiamo organizzare il processo di ottenimento dei dati da fonti esterne, ora mostreremo come è fatto.

Il video ti introdurrà alla tecnologia unica STATISTICHE Elaborazione del database sul posto e connessione di Data Mining con dati reali.

Video 3. L'ordine di interazione con i database: un'interfaccia grafica per la creazione di query SQL Tecnologia di elaborazione dei database sul posto

Javascript è disattivato nel tuo browser


Ora faremo conoscenza con le tecnologie di perforazione interattive che sono efficaci nella conduzione dell'analisi esplorativa dei dati. Il termine perforazione riflette la connessione tra la tecnologia di data mining e l'esplorazione geologica.

Video 4. Drilling interattivo: metodi di esplorazione e rappresentazione grafica per l'esplorazione interattiva dei dati

Javascript è disattivato nel tuo browser


Ora faremo conoscenza con l'analisi delle associazioni (regole di associazione), questi algoritmi consentono di trovare relazioni che esistono nei dati reali. Il punto chiave è l'efficienza degli algoritmi su grandi quantità di dati.

Il risultato degli algoritmi di link analysis, ad esempio l'algoritmo Apriori, è di trovare le regole per i link degli oggetti in studio con una certa affidabilità, ad esempio 80%.

In geologia, questi algoritmi possono essere applicati nell'analisi di esplorazione di minerali, ad esempio, come la caratteristica A è correlata alle caratteristiche B e C.

Puoi trovare esempi specifici di tali soluzioni nei nostri link:

Nella vendita al dettaglio, gli algoritmi Apriori o le loro modifiche consentono di esplorare la relazione tra prodotti diversi, ad esempio quando si vendono profumi (profumo - vernice - mascara, ecc.) o prodotti di marche diverse.

L'analisi delle sezioni più interessanti del sito può essere efficacemente svolta anche utilizzando il regolamento associativo.

Quindi guarda il nostro prossimo video.

Video 5. Regole dell'associazione

Javascript è disattivato nel tuo browser

Diamo esempi dell'applicazione del Data Mining in aree specifiche.

Commercio su Internet:

  • analisi delle traiettorie dei clienti dalla visita al sito all'acquisto della merce
  • valutazione dell'efficienza del servizio, analisi dei guasti per mancanza di merce
  • collegamento di prodotti di interesse per i visitatori

Vendita al dettaglio: analisi delle informazioni sui clienti basata su carte di credito, carte sconto, ecc.

Tipiche attività di vendita al dettaglio risolte dagli strumenti di data mining:

  • analisi del carrello;
  • creazione di modelli predittivi e modelli di classificazione degli acquirenti e dei beni acquistati;
  • creazione di profili di acquirente;
  • CRM, valutazione della fidelizzazione dei clienti delle diverse categorie, pianificazione dei programmi di fidelizzazione;
  • ricerca su serie temporali e dipendenze temporali, selezione dei fattori stagionali, valutazione dell'efficacia delle promozioni su un'ampia gamma di dati reali.

Il settore delle telecomunicazioni offre opportunità illimitate per l'applicazione di metodi di data mining, nonché moderne tecnologie big data:

  • classificazione dei clienti in base alle caratteristiche chiave delle chiamate (frequenza, durata, ecc.), frequenza degli SMS;
  • identificazione della fidelizzazione del cliente;
  • definizione di frode, ecc.

Assicurazione:

  • analisi del rischio. Identificando le combinazioni di fattori associati ai sinistri pagati, gli assicuratori possono ridurre le proprie perdite di responsabilità. C'è un caso noto in cui una compagnia di assicurazioni ha scoperto che gli importi pagati sulle domande delle persone sposate sono il doppio degli importi sulle domande dei single. L'azienda ha risposto a ciò rivedendo la sua politica di sconti per i clienti familiari.
  • intercettazione di una frode. Compagnie di assicurazione può ridurre le frodi ricercando alcuni stereotipi nei sinistri assicurativi che caratterizzano il rapporto tra avvocati, medici e ricorrenti.

L'applicazione pratica del data mining e la soluzione di problemi specifici è presentata nel nostro prossimo video.

Webinar 1. Webinar "Compiti pratici di Data Mining: problemi e soluzioni"

Javascript è disattivato nel tuo browser

Webinar 2. Webinar "Data mining e text mining: esempi di risoluzione di problemi reali"

Javascript è disattivato nel tuo browser


È possibile ottenere una conoscenza più approfondita della metodologia e della tecnologia del data mining durante i corsi StatSoft.