itthon / Skype / Osztályozási és előrejelzési adatbányászati ​​módszerek. Adatbányászati ​​technológiák. Mesterséges idegi hálózat

Osztályozási és előrejelzési adatbányászati ​​módszerek. Adatbányászati ​​technológiák. Mesterséges idegi hálózat

Az adatbányászat két nagy csoportra oszlik a kezdeti betanítási adatokkal való munka elve szerint. Ebben a besorolásban a legfelső szint az alapján kerül meghatározásra, hogy az adatbányászat után tárolják-e az adatokat, vagy későbbi felhasználás céljából desztillálják.

1. Az adatok közvetlen felhasználása, ill adatok mentése.

Ebben az esetben a kezdeti adatokat kifejezetten részletes formában tárolják, és közvetlenül felhasználják a szakaszokban és/vagy kivételelemzés. Ezzel a módszercsoporttal az a probléma, hogy használatuk során nehéz lehet nagyon nagy adatbázisokat elemezni.

E csoport módszerei: klaszteranalízis, legközelebbi szomszéd módszer, k-legközelebbi szomszéd módszer, analógiás érvelés.

2. A formalizált azonosítása és használata minták, vagy sablon desztilláció.

Technológiával desztillációs minták A forrásadatokból egy információmintát (sablont) kinyerünk és formális konstrukciókká alakítunk, amelyek formája az alkalmazott adatbányászati ​​módszertől függ. Ezt a folyamatot a szakaszban hajtják végre ingyenes keresés, a módszerek első csoportjából elvileg hiányzik ez a szakasz. A színpadokon prediktív modellezésés kivételelemzés szakasz eredményeit használják fel ingyenes keresés, sokkal kompaktabbak, mint maguk az adatbázisok. Emlékezzünk vissza, hogy ezeknek a modelleknek a konstrukciói értelmezhetők az elemző számára vagy nem értelmezhetők ("fekete dobozok").

E csoport módszerei: logikai módszerek ; vizualizációs módszerek; kereszttáblás módszerek; egyenleteken alapuló módszerek.

A logikai módszerek vagy a logikai indukció módszerei a következők: fuzzy lekérdezések és elemzések; szimbolikus szabályok; döntési fák; genetikai algoritmusok.

Ennek a csoportnak a módszerei talán a leginkább értelmezhetőek - ezek rajzolják meg a talált mintákat, a legtöbb esetben a felhasználó szemszögéből meglehetősen átlátható formában. Az eredményül kapott szabályok folytonos és diszkrét változókat tartalmazhatnak. Meg kell jegyezni, hogy a döntési fák könnyen átalakíthatók szimbolikus szabályok halmazaivá, ha egy szabályt generálnak a fa gyökerétől a fa gyökeréig vezető útvonal mentén. terminális csúcs. A döntési fák és szabályok valójában különböző utak megoldások ugyanarra a problémára, és csak képességeikben különböznek egymástól. Ráadásul a szabályok megvalósítása lassabb algoritmusokkal történik, mint a döntési fák indukciója.

Cross-tab módszerek: ügynökök, Bayes-féle (bizalom) hálózatok, cross-tab vizualizáció. Az utolsó módszer nem teljesen felel meg az adatbányászat egyik tulajdonságának - független keresés minták elemző rendszer. A kereszttáblák formájában történő információnyújtás azonban az Adatbányászat fő feladatának - a minták keresésének - megvalósítását biztosítja, így ez a módszer is az adatbányászati ​​módszerek egyikének tekinthető.

Egyenleteken alapuló módszerek.

Ennek a csoportnak a módszerei a feltárt mintákat matematikai kifejezések - egyenletek - formájában fejezik ki. Ezért csak numerikus változókkal dolgozhatnak, a más típusú változókat ennek megfelelően kell kódolni. Ez némileg korlátozza e csoport módszereinek alkalmazását, ennek ellenére széles körben alkalmazzák őket különféle problémák, különösen előrejelzési problémák megoldásában.

E csoport főbb módszerei: statisztikai módszerek és neurális hálózatok

A statisztikai módszereket leggyakrabban az előrejelzési problémák megoldására alkalmazzák. A statisztikai adatelemzésnek számos módszere létezik, köztük például a korreláció- és regresszióanalízis, az idősorok korrelációja, az idősorok trendjeinek azonosítása, a harmonikus elemzés.

Egy másik osztályozás az adatbányászati ​​módszerek teljes skáláját két csoportra osztja: statisztikai és kibernetikai módszerekre. Ez az elválasztási séma a matematikai modellek tanításának különféle megközelítésein alapul.

Meg kell jegyezni, hogy kétféle megközelítés létezik a statisztikai módszerek adatbányászatként való osztályozására. Az első ellenzi a statisztikai módszereket és az adatbányászatot, támogatói az adatelemzés külön területének tekintik a klasszikus statisztikai módszereket. A második megközelítés szerint a statisztikai elemzési módszerek az Adatbányászat matematikai eszköztárának részét képezik. A legtöbb hiteles forrás a második megközelítést alkalmazza.

Ebben az osztályozásban a módszerek két csoportját különböztetjük meg:

  • az átlagosan felhalmozott tapasztalatok felhasználásán alapuló statisztikai módszerek, amelyek visszamenőleges adatokban jelennek meg;
  • kibernetikai módszerek, köztük sok heterogén matematikai megközelítés.

Az ilyen osztályozás hátránya, hogy mind a statisztikai, mind a kibernetikai algoritmusok valamilyen módon a statisztikai tapasztalatok összehasonlítására támaszkodnak a jelenlegi helyzet megfigyelésének eredményeivel.

Az ilyen osztályozás előnye az értelmezési kényelem - a modern megközelítés matematikai eszközeinek leírásában használják. tudás kinyerése kezdeti megfigyelések tömbjéből (operatív és retrospektív), azaz. az adatbányászati ​​feladatokban.

Nézzük meg közelebbről a fenti csoportokat.

Statisztikai módszerek Adatbányászat

Ezekben a módszerekben négy egymással összefüggő szakasz található:

  • a statisztikai adatok jellegének előzetes elemzése (stacionaritás, normalitás, függetlenség, homogenitás hipotéziseinek tesztelése, eloszlásfüggvény típusának, paramétereinek értékelése stb.);
  • linkek azonosítása és minták(lineáris és nemlineáris regresszióanalízis, korrelációanalízis stb.);
  • többváltozós statisztikai elemzés (lineáris és nemlineáris diszkriminanciaanalízis, klaszteranalízis, komponensanalízis, faktoranalízis satöbbi.);
  • dinamikus modellek és idősoron alapuló előrejelzés.

A statisztikai módszerek arzenálja Az adatbányászat négy módszercsoportba sorolható:

  1. A kiindulási adatok leíró elemzése és leírása.
  2. Kapcsolatelemzés (korrelációs és regressziós elemzés, faktoranalízis, varianciaanalízis).
  3. Többváltozós statisztikai elemzés (komponensanalízis, diszkriminanciaanalízis, többváltozós regresszióanalízis, kanonikus korrelációk stb.).
  4. Idősor elemzés ( dinamikus modellekés előrejelzés).

Kibernetikus adatbányászati ​​módszerek

Az adatbányászat második iránya olyan megközelítések összessége, amelyeket a számítógépes matematika gondolata és az elmélet alkalmazása egyesít. mesterséges intelligencia.

Az OLAP rendszerek az elemző számára lehetőséget biztosítanak a hipotézisek tesztelésére az adatok elemzésekor, vagyis az elemző fő feladata hipotézisek generálása, amelyeket tudása és tapasztalata alapján old meg, azonban nem csak az ember rendelkezik tudással, hanem az elemzett felhalmozott adatok. Az ilyen ismereteket hatalmas mennyiségű információ tartalmazza, amelyet az ember önmagában nem képes feltárni. Ebben a tekintetben fennáll annak a lehetősége, hogy olyan hipotéziseket hagynak ki, amelyek jelentős előnyökkel járhatnak.

A "rejtett" tudás felfedezésére használják speciális módszerek automatikus elemzés, melynek segítségével gyakorlatilag tudást kell kinyerni az információ "blokkjaiból". Ehhez az irányhoz az „adatbányászat (DataMining)” vagy „adatbányászat” kifejezést rendelték.

A DataMiningnek számos definíciója létezik, amelyek kiegészítik egymást. Íme néhány közülük.

A DataMining nem triviális és gyakorlatilag hasznos minták felfedezésének folyamata az adatbázisokban. (alapcsoport)

Az adatbányászat nagy mennyiségű adat kinyerésének, feltárásának és modellezésének folyamata, hogy korábban ismeretlen mintákat (mintákat) fedezzenek fel az üzleti előnyök elérése érdekében (SAS Institute)

A DataMining egy olyan folyamat, amelynek célja jelentős új összefüggések, minták és trendek felfedezése nagy mennyiségű tárolt adat átszűrésével mintafelismerő technikák, valamint statisztikai és matematikai módszerek alkalmazásával (GartnerGroup).

A DataMining egy „gép” (algoritmusok, mesterséges intelligencia eszközök) által végzett kutatás és felfedezés olyan rejtett tudás nyers adataiban,korábban ismeretlen, nem triviális, gyakorlatilag hasznos, értelmezhetőember. (A. Bargesyan "Technologies for Data elemzés")

Az adatbányászat az üzleti életről szóló hasznos ismeretek felfedezésének folyamata. (N.M. Abdikeev "KBA")

A felfedezhető tudás tulajdonságai

Tekintsük a feltárandó tudás tulajdonságait.

  • A tudásnak újnak, korábban ismeretlennek kell lennie. A felhasználó által már ismert tudás felfedezésére fordított erőfeszítés nem térül meg. Ezért az új, korábban ismeretlen tudás az, ami értékes.
  • A tudásnak nem triviálisnak kell lennie. Az elemzés eredményeinek nem nyilvánvalót, váratlant kell tükrözniükminták az adatokban, amelyek az úgynevezett rejtett tudást alkotják. Több elérhető eredmény egyszerű módokon(például szemrevételezéssel) nem indokolják a hatékony DataMining módszerek használatát.
  • A tudásnak gyakorlatilag hasznosnak kell lennie. A talált tudásnak kellően nagy megbízhatósággal kell alkalmazhatónak lennie, beleértve az új adatokat is. A hasznosság abban rejlik, hogy ez a tudás némi haszonnal járhat az alkalmazásában.
  • A tudásnak hozzáférhetőnek kell lennie az emberi megértés számára. A talált mintáknak logikailag magyarázhatónak kell lenniük, különben fennáll annak a lehetősége, hogy véletlenszerűek. Emellett a feltárt tudást ember számára érthető formában kell bemutatni.

A DataMiningben modelleket használnak a megszerzett tudás reprezentálására. A modellek típusai a létrehozásuk módszerétől függenek. A leggyakoribbak: szabályok, döntési fák, klaszterek és matematikai függvények.

Adatbányászati ​​feladatok

Emlékezzünk vissza, hogy a DataMining technológia a minták fogalmán alapul, amelyek szabályszerűségek. Ezen szabad szem elől rejtett törvényszerűségek felfedezésének eredményeként a DataMining problémák megoldódnak. különböző típusok az ember által olvasható formában kifejezhető minták megfelelnek bizonyos DataMining feladatoknak.

Nincs egyetértés abban, hogy milyen feladatokat kell a DataMininghez rendelni. A legtöbb hiteles forrás a következőket sorolja fel: osztályozás,

klaszterezés, előrejelzés, asszociáció, vizualizáció, elemzés és felfedezés

eltérések, értékelés, kapcsolatok elemzése, lektorálás.

Az alábbi leírás célja, hogy áttekintést adjon a DataMining problémáiról, összehasonlítsunk néhányat, valamint bemutassam azokat a módszereket, amelyekkel ezeket a problémákat megoldják. A leggyakoribb DataMining feladatok az osztályozás, a klaszterezés, az asszociáció, az előrejelzés és a vizualizáció. Így a feladatok az előállított információ típusa szerint vannak felosztva, ez a DataMining feladatok legáltalánosabb osztályozása.

Osztályozás

Az objektumok vagy megfigyelések halmazának felosztása a priori adott csoportokra, úgynevezett osztályokra, amelyek mindegyikén belül feltételezzük, hogy hasonlóak egymáshoz, megközelítőleg azonos tulajdonságokkal és jellemzőkkel rendelkeznek. Ebben az esetben a megoldást az alapján kapjuk meg elemzés attribútum (jellemző) értékek.

Az osztályozás az egyik legfontosabb feladat adatbányászat . Be van alkalmazva marketing a hitelfelvevők hitelképességének felmérése során meghatározva vásárlói hűség, mintafelismerés , orvosi diagnosztika és sok más alkalmazás. Ha az elemző ismeri az egyes osztályok objektumainak tulajdonságait, akkor amikor egy új megfigyelés egy adott osztályhoz tartozik, ezek a tulajdonságok automatikusan érvényesek rá.

Ha az osztályok száma kettőre korlátozódik, akkorbináris osztályozás , amelyre számos összetettebb probléma redukálható. Például a "Magas", "Közepes" vagy "Alacsony" hitelkockázati fokozatok meghatározása helyett csak kettőt használhat: "Kiadás" vagy "Elutasítás".

A DataMiningben történő osztályozáshoz számos különböző modellt használnak: neurális hálózatok, döntési fák , támogatási vektor gépek, k-legközelebbi szomszédok, lefedettségi algoritmusok stb., amelyek felügyelt tanulással jönnek létre, amikorkimeneti változó(osztálycímke ) minden megfigyelésnél megadva. Formálisan az osztályozás a partíción alapuljellemző terek területeken, amelyek mindegyikén belültöbbdimenziós vektorok azonosnak tekintendők. Más szóval, ha egy objektum egy bizonyos osztályhoz tartozó térrégióba esett, akkor ahhoz tartozik.

Klaszterezés

Rövid leírás. A klaszterezés az ötlet logikus folytatása

osztályozás. Ez a feladat bonyolultabb, a klaszterezés sajátossága, hogy az objektumok osztályai kezdetben nincsenek előre meghatározottak. A klaszterezés eredménye az objektumok csoportokra osztása.

Példa egy klaszterezési probléma megoldási módszerére: egy speciális típusú neurális hálózatok "tanár nélküli" képzése - Kohonen önszerveződő térképei.

Egyesület (egyesületek)

Rövid leírás. Az asszociációs szabályok keresési problémájának megoldása során egy adathalmaz kapcsolódó eseményei között mintákat találunk.

Az asszociáció és a két korábbi DataMining feladat között az a különbség, hogy a minták keresése nem az elemzett objektum tulajdonságain alapul, hanem több, egyidejűleg bekövetkező esemény között. Az asszociációs szabályok megtalálásának problémájának megoldására a legismertebb algoritmus az Apriori algoritmus.

Sorozat vagy szekvenciális asszociáció

Rövid leírás. A szekvencia lehetővé teszi a tranzakciók közötti időbeli minták megtalálását. A sorozat feladata hasonló az asszociációhoz, de célja, hogy nem egyidejűleg bekövetkező események, hanem időben összefüggő (vagyis bizonyos időintervallumban bekövetkező) események között hozzon létre mintákat. Más szóval, a sorrendet az időben összefüggő események láncolatának nagy valószínűsége határozza meg. Valójában az asszociáció egy nulla időeltolódású sorozat speciális esete. Ezt a DataMining problémát szekvenciális minta problémának is nevezik.

Sorrendszabály: X esemény után egy bizonyos idő után Y esemény következik be.

Példa. A lakásvásárlás után a bérlők az esetek 60%-ában két héten belül hűtőt, két hónapon belül pedig az esetek 50%-ában tévét vásárolnak. A probléma megoldását széles körben alkalmazzák a marketingben és a menedzsmentben, például az ügyfél életciklusának kezelésében (CustomerLifecycleManagement).

Regresszió, előrejelzés (előrejelzés)

Rövid leírás. Az előrejelzési probléma megoldása eredményeként a múltbeli adatok jellemzői alapján megbecsülik a célszámszerű mutatók hiányzó vagy jövőbeli értékeit.

Az ilyen problémák megoldására széles körben alkalmazzák a matematikai statisztikai módszereket, a neurális hálózatokat stb.

További feladatok

Eltérések vagy kiugró értékek meghatározása (DeviationDetection), variancia- vagy kiugró elemzés

Rövid leírás. A probléma megoldásának célja az általános adathalmaztól leginkább eltérő adatok felderítése, elemzése, az úgynevezett jellegtelen minták azonosítása.

Becslés

A becslés feladata egy jellemző folytonos értékeinek előrejelzésére redukálódik.

Linkelemzés (LinkAnalysis)

Függőségek keresésének feladata egy adathalmazban.

Vizualizáció (vizualizáció, GraphMining)

A vizualizáció eredményeként az elemzett adatokról grafikus kép jön létre. A vizualizációs probléma megoldására grafikus módszerekkel mutatják be a minták jelenlétét az adatokban.

A vizualizációs technikákra példa az adatok 2D és 3D dimenziókban történő bemutatása.

Összegzés

A feladat, melynek célja az elemzett adathalmazból meghatározott objektumcsoportok leírása.

A fenti osztályozáshoz egészen közel áll a DataMining feladatok felosztása a következőkre: kutatás és felfedezés, előrejelzés és osztályozás, magyarázat és leírás.

Automatikus kutatás és felfedezés (ingyenes keresés)

Feladatpélda: új piaci szegmensek felfedezése.

A problémák ezen osztályának megoldására klaszterelemzési módszereket alkalmaznak.

Előrejelzés és osztályozás

Mintaprobléma: az eladások növekedésének előrejelzése a jelenlegi értékek alapján.

Módszerek: regresszió, neurális hálózatok, genetikai algoritmusok, döntési fák.

Az osztályozás és az előrejelzés feladatai az ún. induktív modellezés egy csoportját alkotják, amely az elemzett objektum vagy rendszer vizsgálatát eredményezi. Ezen problémák megoldása során egy adatsor alapján a általános modell vagy egy hipotézis.

Magyarázat és leírás

Mintaprobléma: a vásárlók jellemzése demográfiai és vásárlási előzmények alapján.

Módszerek: döntési fák, szabályrendszerek, asszociációs szabályok, linkelemzés.

Ha az ügyfél jövedelme több mint 50 konvencionális egység, életkora pedig meghaladja a 30 évet, akkor az ügyfél osztálya az első.

Klaszterezés és osztályozás összehasonlítása

Jellegzetes

Osztályozás

Klaszterezés

A tanulás irányíthatósága

ellenőrzött

ellenőrizhetetlen

Stratégiák

Tanulás tanárral

Tanulás tanár nélkül

Osztálycímke jelenléte

Edzőkészlet

felirattal kísérve

az osztály, amelyhez tartozik

megfigyelés

Osztálycímkék tanítása

ismeretlen halmazok

Az osztályozás alapja

Az új adatok osztályozása a képzési halmaz alapján történik

Sok adatot adott erre a célra

a létezés megállapítása

osztályok vagy adatklaszterek

A DataMining hatókörei

Meg kell jegyezni, hogy ma a DataMining technológiát a legszélesebb körben használják üzleti problémák megoldására. Ennek oka talán az, hogy ebben az irányban a DataMining eszközök használatának megtérülése egyes források szerint akár 1000%-ot is elérhet, és a megvalósítás költségei gyorsan megtérülhetnek.

Részletesen megvizsgáljuk a DataMining technológia négy fő alkalmazását: a tudományt, az üzleti életet, a kormányzati kutatást és a webet.

üzleti feladatokat. Főbb területek: bank, pénzügy, biztosítás, CRM, gyártás, távközlés, e-kereskedelem, marketing, tőzsde és mások.

    Kiad-e kölcsönt az ügyfélnek

    Piaci szegmentáció

    Új ügyfelek vonzása

    Hitelkártya-csalás

A DataMining alkalmazása a állami szintű problémák megoldása. Főbb irányok: adóelkerülők felkutatása; jelenti a terrorizmus elleni küzdelemben.

A DataMining alkalmazása a tudományos kutatás. Főbb területek: orvostudomány, biológia, molekuláris genetika és géntechnológia, bioinformatika, csillagászat, alkalmazott kémia, drogfüggőség kutatás és mások.

A DataMining alkalmazása megoldásra Webes feladatok. Fő irányok: keresőmotorok (keresők), számlálók és mások.

Az elektronikus kereskedelem

Az e-kereskedelem területén a DataMininget használják generálásra

Ez a besorolás lehetővé teszi a vállalatok számára, hogy meghatározott vevőcsoportokat azonosítsanak, és marketingpolitikákat hajtsanak végre az ügyfelek azonosított érdekeinek és igényeinek megfelelően. Az e-kereskedelemhez használt DataMining technológia szorosan kapcsolódik a WebMining technológiához.

A DataMining fő feladatai az ipari termelésben:

termelési helyzetek komplex rendszerelemzése;

· a termelési helyzetek alakulásának rövid és hosszú távú előrejelzése;

optimalizálási megoldások lehetőségeinek kidolgozása;

Egy termék minőségének előrejelzése bizonyos paraméterek függvényében

technológiai folyamat;

rejtett trendek és termelési fejlődési minták észlelése

folyamatok;

a termelési folyamatok fejlődési mintáinak előrejelzése;

rejtett befolyásoló tényezők kimutatása;

közötti korábban ismeretlen kapcsolatok felderítése és azonosítása

termelési paraméterek és befolyásoló tényezők;

a termelési folyamatok interakciós környezetének elemzése és előrejelzés

jellemzőiben bekövetkezett változások;

folyamatok;

elemzési eredmények megjelenítése, előzetes jelentések, projektek elkészítése

megvalósítható megoldások a lehetséges megvalósítások megbízhatóságára és hatékonyságára vonatkozó becslésekkel.

Marketing

A marketing területén a DataMininget széles körben használják.

Alapvető marketing kérdések "Mi eladó?", "Hogyan eladó?", "Ki az

fogyasztó?"

Az osztályozási és klaszterezési problémákról szóló előadásban részletesen bemutatásra kerül a klaszteranalízis alkalmazása marketing problémák megoldására, például fogyasztói szegmentációra.

A marketing problémák megoldásának másik elterjedt módszerei az asszociációs szabályok keresésének módszerei és algoritmusai.

Itt is sikeresen alkalmazzák az időbeli minták keresését.

Kiskereskedelem

A kiskereskedelemben, akárcsak a marketingben, alkalmazza:

Algoritmusok asszociációs szabályok keresésére (gyakran előforduló halmazok meghatározására

áruk, amelyeket a vásárlók egyidejűleg vásárolnak). Az ilyen szabályok azonosítása segít

árukat helyezzen el a kereskedési padlók polcain, áruvásárlási stratégiákat dolgozzon ki

és raktári elhelyezésük stb.

idősorok használata például annak meghatározására

a szükséges mennyiségű készlet a raktárban.

osztályozási és klaszterezési módszerek az ügyfelek csoportjainak vagy kategóriáinak azonosítására,

amelyek ismerete hozzájárul az áruk sikeres promóciójához.

Tőzsde

Az alábbiakban felsoroljuk azokat a tőzsdei problémákat, amelyek Data technológia segítségével megoldhatók

Bányászat: Pénzügyi eszközök és mutatók jövőbeli értékeinek előrejelzése

múltbeli értékek;

a pénzügyi trend (jövőbeni mozgási irány - növekedés, esés, lapos) előrejelzése

hangszer és erőssége (erős, közepesen erős stb.);

a piac, iparág, szektor klaszterszerkezetének egy adott halmaz szerinti allokációja

jellemzők;

· dinamikus portfóliókezelés;

volatilitás előrejelzés;

kockázatértékelés;

a válság kialakulásának és fejlődésének előrejelzése;

eszközök kiválasztása stb.

A fent leírt tevékenységi területeken túl a DataMining technológia a legkülönfélébb üzleti területeken alkalmazható, ahol adatelemzésre van szükség, és bizonyos mennyiségű visszamenőleges információ halmozódott fel.

A DataMining alkalmazása CRM-ben

A DataMining egyik legígéretesebb alkalmazása ennek a technológiának az analitikus CRM-ben való alkalmazása.

CRM (Customer Relationship Management) - ügyfélkapcsolat-kezelés.

Ha ezeket a technológiákat együtt alkalmazzák, a tudásbányászatot az ügyféladatokból származó „pénzbányászattal” kombinálják.

A marketing és értékesítési osztályok munkájában fontos szempont a felkészülésa vevők holisztikus szemlélete, információik jellemzőiről, jellemzőiről, az ügyfélkör felépítéséről. A CRM az úgynevezett profilalkotást használjaügyfelek, teljes képet adva az ügyfelekkel kapcsolatos összes szükséges információról.

Az ügyfélprofilalkotás a következő összetevőket tartalmazza: vevőszegmentáció, vevő jövedelmezősége, vevőmegtartás, vevői válaszelemzés. Ezen komponensek mindegyike feltárható a DataMining segítségével, és ezek együttes elemzése, mint profilalkotó komponensek olyan ismereteket eredményezhet, amelyek nem szerezhetők be az egyes jellemzőkből.

webbányászat

A WebMining úgy fordítható, hogy "adatbányászat a weben". WebIntelligence vagy Web.

Az Intelligence készen áll arra, hogy "új fejezetet nyisson" az e-business gyors fejlődésében. Komoly és kritikus versenyelőny az e-kereskedelmi piacon, hogy az egyes látogatók érdeklődését és preferenciáit viselkedésük megfigyelésével meghatározhatjuk.

A WebMining rendszerek számos kérdésre adhatnak választ, például arra, hogy a látogatók közül ki a webáruház potenciális ügyfele, a webáruház mely vásárlói köre hozza a legtöbb bevételt, mi az érdeklődési köre egy-egy látogatónak vagy látogatói csoportnak.

Mód

A módszerek osztályozása

A módszereknek két csoportja van:

  • az átlagosan felhalmozott tapasztalatok felhasználásán alapuló statisztikai módszerek, amelyek visszamenőleges adatokban jelennek meg;
  • kibernetikai módszerek, köztük sok heterogén matematikai megközelítés.

Az ilyen osztályozás hátránya, hogy mind a statisztikai, mind a kibernetikai algoritmusok valamilyen módon a statisztikai tapasztalatok összehasonlítására támaszkodnak a jelenlegi helyzet megfigyelésének eredményeivel.

Az ilyen osztályozás előnye az értelmezési kényelem - a modern megközelítés matematikai eszközeinek leírására szolgál, amelyek a kezdeti (operatív és retrospektív) megfigyelések tömbjéből nyerik ki az ismereteket, pl. az adatbányászati ​​feladatokban.

Nézzük meg közelebbről a fenti csoportokat.

Statisztikai módszerek Adatbányászat

Ezekben A módszerek négy egymással összefüggő szakaszból állnak:

  • a statisztikai adatok jellegének előzetes elemzése (stacionaritás, normalitás, függetlenség, homogenitás hipotéziseinek tesztelése, eloszlásfüggvény típusának, paramétereinek értékelése stb.);
  • linkek azonosítása és minták(lineáris és nemlineáris regresszióanalízis, korrelációanalízis stb.);
  • többdimenziós statisztikai elemzés (lineáris és nemlineáris diszkriminanciaanalízis, klaszteranalízis, komponensanalízis, faktoranalízis stb.);
  • dinamikus modellek és idősorok alapján előrejelzés.

A statisztikai módszerek arzenálja Az adatbányászat négy módszercsoportba sorolható:

  1. A kiindulási adatok leíró elemzése és leírása.
  2. Kapcsolatelemzés (korrelációs és regresszióanalízis, faktoranalízis, varianciaanalízis).
  3. Többváltozós statisztikai elemzés (komponensanalízis, diszkriminanciaanalízis, többváltozós regresszióanalízis, kanonikus korrelációk stb.).
  4. Idősor elemzés (dinamikus modellek és előrejelzés).

Kibernetikus adatbányászati ​​módszerek

Az adatbányászat második iránya a számítógépes matematika gondolata és a mesterséges intelligencia elméletének alkalmazása által egyesített megközelítések összessége.

Ez a csoport a következő módszereket tartalmazza:

  • mesterséges neurális hálózatok (felismerés, klaszterezés, előrejelzés);
  • evolúciós programozás (beleértve az argumentumok csoportos elszámolási módszerének algoritmusait);
  • genetikai algoritmusok (optimalizálás);
  • asszociatív memória (analógok, prototípusok keresése);
  • zavaros logika;
  • döntési fák;
  • szakértői tudásfeldolgozó rendszerek.

klaszteranalízis

A klaszterezés célja meglévő struktúrák keresése.

A klaszterezés leíró eljárás, nem von le statisztikai következtetéseket, de lehetőséget ad feltáró elemzés elvégzésére, az „adatstruktúra” tanulmányozására.

Maga a „klaszter” fogalma kétértelműen definiált: minden tanulmánynak megvannak a maga „klaszterei”. A klaszter (klaszter) fogalmát „klaszternek”, „csomónak” fordítják. A fürt olyan objektumok csoportjaként írható le, amelyek közös tulajdonságokkal rendelkeznek.

A klaszternek két jellemzője van:

  • belső homogenitás;
  • külső szigetelés.

Az elemzők számos problémában felteszik azt a kérdést, hogyan lehet az adatokat vizuális struktúrákba rendezni, pl. taxonómiákat bővíteni.

Kezdetben a klaszterezést olyan tudományokban használták a legszélesebb körben, mint a biológia, az antropológia és a pszichológia. A klaszterezést a gazdasági adatok és jelenségek sajátosságai miatt hosszú ideje kevesen alkalmazták gazdasági problémák megoldására.

A klaszterek lehetnek nem átfedőek, vagy kizárólagosak (nem átfedő, kizárólagos) és egymást metszőek (átfedőek).

Megjegyzendő, hogy a különböző klaszterelemzési módszerek alkalmazásával különböző alakú klaszterek nyerhetők. Például "lánc" típusú klaszterek lehetségesek, amikor a klasztereket hosszú "láncok", megnyúlt klaszterek stb. képviselik, és egyes módszerek tetszőleges alakú klasztereket hozhatnak létre.

Különféle módszerek célozhatnak bizonyos méretű (pl. kicsi vagy nagy) klaszterek létrehozását, vagy különböző méretű klasztereket feltételezhetnek az adathalmazban. Egyes klaszterelemzési módszerek különösen érzékenyek a zajra vagy a kiugró értékekre, míg mások kevésbé. Különböző klaszterezési módszerek alkalmazása következtében egyenlőtlen eredményeket kaphatunk, ez normális, és egy adott algoritmus működésének sajátossága. Ezeket a jellemzőket figyelembe kell venni a klaszterezési módszer kiválasztásakor.

Adjunk rövid leírást a klaszterezés megközelítéseiről.

Adatparticionáláson alapuló algoritmusok (Partitioningalgorithms), beleértve ismétlődő:

  • objektumok felosztása k klaszterre;
  • objektumok iteratív újraelosztása a klaszterezés javítása érdekében.
  • Hierarchikus algoritmusok (Hierarchyalgoritms):
  • agglomeráció: minden objektum kezdetben egy klaszter, klaszterek,
  • egymással összekapcsolódva nagyobb klasztert alkotnak stb.

Az objektumok koncentrációján alapuló módszerek (sűrűség alapú módszerek):

  • az objektumok összekapcsolhatósága alapján;
  • figyelmen kívül hagyja a zajokat, tetszőleges alakú klasztereket találva.

Rács - módszerek (grid alapú módszerek):

  • objektumok kvantálása rácsszerkezetekben.

Modell módszerek (modell alapú):

  • a modell segítségével megtalálja az adatokhoz legjobban illeszkedő klasztereket.

Klaszteranalízis módszerei. iteratív módszerek.

Nál nél nagy számban megfigyelések A klaszteranalízis hierarchikus módszerei nem alkalmasak. Ilyen esetekben nem hierarchikus, felosztáson alapuló módszereket alkalmaznak, amelyek az eredeti sokaság felosztásának iteratív módszerei. A felosztási folyamat során új klaszterek jönnek létre, amíg a leállítási szabály teljesül.

Az ilyen nem hierarchikus klaszterezés egy adathalmaz bizonyos számú különálló klaszterre való felosztásából áll. Két megközelítés létezik. Az első a klaszterek határainak meghatározása a kiindulási adatok többdimenziós terében a legsűrűbb területekként, azaz. egy olyan klaszter meghatározása, ahol nagy a "pontok koncentrációja". A második megközelítés az objektumok közötti különbség mértékének minimalizálása

Algoritmus k-means (k-means)

A nem hierarchikus módszerek közül a legelterjedtebb a k-means algoritmus, más néven gyors klaszterelemzés. Teljes leírás algoritmus megtalálható Hartigan és Wong (1978) munkájában. Ellentétben a hierarchikus módszerekkel, amelyek nem igényelnek előzetes feltételezéseket a klaszterek számáról, ennek a módszernek a használatához szükség van egy hipotézisre a klaszterek legvalószínűbb számáról.

A k-mean algoritmus k klasztert épít fel, amelyek egymástól a lehető legtávolabb vannak. A k-means algoritmus által megoldott problémák fő típusa a klaszterek számával kapcsolatos feltételezések (hipotézisek) jelenléte, miközben ezeknek a lehető legkülönbözőbbeknek kell lenniük. A k szám kiválasztása lehet korábbi kutatások, elméleti megfontolások vagy megérzések alapján.

Az algoritmus általános gondolata: egy adott fix számú megfigyelési klasztert klaszterekkel hasonlítanak össze, hogy a klaszterben (minden változónál) a lehető legnagyobb mértékben eltérjenek az átlagok egymástól.

Az algoritmus leírása

1. Az objektumok kezdeti elosztása klaszterek szerint.

  • A k számot választjuk, és első lépésben ezeket a pontokat tekintjük a klaszterek „középpontjának”.
  • Minden klaszter egy központnak felel meg.

A kezdeti centroidok kiválasztása a következőképpen történhet:

  • k-megfigyelések kiválasztása a kezdeti távolság maximalizálása érdekében;
  • a k-megfigyelések véletlenszerű kiválasztása;
  • az első k-megfigyelések kiválasztása.

Ennek eredményeként minden objektum egy adott fürthöz van hozzárendelve.

2. Iteratív folyamat.

Kiszámítjuk a klaszterek középpontjait, amelyeket ezután és a továbbiakban a klaszterek koordinátaközépeinek tekintünk. Az objektumok újra elosztásra kerülnek.

A központok kiszámításának és az objektumok újraelosztásának folyamata mindaddig folytatódik, amíg az alábbi feltételek egyike teljesül:

  • a klaszterközpontok stabilizálódtak, i.e. minden megfigyelés abba a klaszterbe tartozik, amelyhez az aktuális iteráció előtt tartozott;
  • az iterációk száma megegyezik az iterációk maximális számával.

Az ábra egy példát mutat a k-közép algoritmus működésére, ha k egyenlő kettővel.

Példa a k-közép algoritmusra (k=2)

A klaszterek számának megválasztása összetett kérdés. Ha nincs feltételezés erről a számról, akkor ajánlatos 2 klasztert létrehozni, majd az eredményeket összehasonlítva 3, 4, 5 stb.

A klaszterezés minőségének ellenőrzése

A k-közép módszerrel végzett klaszteranalízis eredményeinek megszerzése után ellenőrizni kell a klaszterezés helyességét (azaz értékelni kell, hogy a klaszterek miben térnek el egymástól).

Ehhez az egyes klaszterek átlagos értékeit kiszámítják. A jó klaszterezés minden méréshez, vagy legalábbis a legtöbb méréshez nagyon eltérő eszközöket eredményez.

A k-means algoritmus előnyei:

  • egyszerű használat;
  • a használat sebessége;
  • az algoritmus egyértelműsége és átláthatósága.

A k-means algoritmus hátrányai:

  • az algoritmus túl érzékeny a kiugró értékekre, amelyek torzíthatják az átlagot.

A probléma lehetséges megoldása az algoritmus egy módosítása – a k-medián algoritmus;

  • az algoritmus lassú lehet nagy adatbázisokon. A probléma lehetséges megoldása az adatmintavételezés.

Bayesi hálózatok

A valószínűség-elméletben az információfüggőség fogalmát a feltételes függőség (vagy szigorúan: a feltételes függetlenség hiánya) modellezi, amely azt írja le, hogyan változik bizonyos esemény kimenetelébe vetett bizalmunk, amikor új ismereteket szerezünk a tényekről, feltéve, hogy már tudtuk. néhány egyéb tény.

Kényelmes és intuitív az elemek közötti függőségek ábrázolása egy irányított útvonal segítségével, amely ezeket az elemeket összeköti egy gráfban. Ha az x és y elemek közötti kapcsolat nem közvetlen, és a harmadik z elemen keresztül valósul meg, akkor logikus, hogy az x és y közötti úton lesz egy z elem. Az ilyen közvetítő csomópontok "levágják" az x és y közötti függőséget, azaz. modellezni a köztük lévő feltételes függetlenség helyzetét a közvetlen befolyásoló tényezők ismert értékével.Ilyen modellező nyelvek a Bayes-hálózatok, amelyek egy bizonyos témakör fogalmai közötti feltételes függőségek leírására szolgálnak.

A Bayes-hálózatok olyan grafikus struktúrák, amelyek nagyszámú változó közötti valószínűségi kapcsolatokat ábrázolnak, és ezeken a változókon alapuló valószínűségi következtetéseket hajtanak végre.A „naiv" (bayesi) osztályozás meglehetősen átlátható és érthető osztályozási módszer. „Naiv"-nak nevezik, mert a kölcsönösség feltételezéséből indul ki.jellemző függetlenség.

Osztályozási tulajdonságok:

1. Az összes változó használata és a köztük lévő összes függőség meghatározása.

2. Két feltételezés a változókkal kapcsolatban:

  • minden változó egyformán fontos;
  • minden változó statisztikailag független, azaz. Az egyik változó értéke semmit sem mond a másik értékéről.

A Bayes-hálózatok használatának két fő forgatókönyve van:

1. Leíró elemzés. A témakör grafikonként jelenik meg, melynek csomópontjai fogalmakat, a nyilakkal megjelenített irányított ívek pedig e fogalmak közötti közvetlen kapcsolatokat szemléltetik. Az x és y közötti kapcsolat azt jelenti, hogy az x értékének ismerete segít jobban kitalálni y értékét. A fogalmak közötti közvetlen kapcsolat hiánya modellezi a köztük lévő feltételes függetlenséget, tekintettel egy bizonyos "elválasztó" fogalmak ismert értékeire. Például a gyermek cipőmérete nyilvánvalóan összefügg a gyermek olvasási képességével az életkorban. Így a nagyobb cipőméret nagyobb magabiztosságot ad abban, hogy a gyerek már olvas, de ha már ismerjük az életkort, akkor a cipőméret ismerete már nem ad nekünk további információ a gyermek olvasási képességéről.


Egy másik, ellentétes példaként vegyük figyelembe az olyan kezdetben független tényezőket, mint a dohányzás és a megfázás. De ha ismerünk egy tünetet, például, hogy az embernek reggeli köhögése van, akkor annak tudata, hogy valaki nem dohányzik, növeli az önbizalmunkat, hogy az ember megfázott.

2. Osztályozás és előrejelzés. A Bayes-hálózat, amely lehetővé teszi számos fogalom feltételes függetlenségét, lehetővé teszi a közös eloszlási paraméterek számának csökkentését, lehetővé téve azok megbízható becslését a rendelkezésre álló adatmennyiségek alapján. Tehát 10 változónál, amelyek mindegyike 10 értéket vehet fel, az együttes eloszlási paraméterek száma 10 milliárd - 1. Ha feltételezzük, hogy ezek között a változók között csak 2 változó függ egymástól, akkor a paraméterek száma 8 * ( 10-1) + (10 * 10-1) = 171. A számítási erőforrások szempontjából reális közös eloszlási modell birtokában megjósolhatjuk például egy fogalom ismeretlen értékét, mint ennek legvalószínűbb értékét. koncepció más fogalmak ismert értékeivel.

Megjegyzik a Bayes-hálózatok, mint a DataMining módszer előnyeit:

A modellben az összes változó közötti függőség definiálva van, így egyszerűkezelni azokat a helyzeteket, amelyekben egyes változók értéke ismeretlen;

A Bayes-hálózatokat meglehetősen egyszerűen értelmezik, és lehetővé teszik a szakaszbana prediktív modellezéssel könnyen elvégezhető a „mi lenne, ha” forgatókönyv elemzése;

A Bayes-módszer lehetővé teszi a minták természetes kombinálását,adatokból és például kifejezetten megszerzett szakértői tudásból származnak;

A Bayes-hálózatok használatával elkerülhető a túlillesztés problémája(overfitting), vagyis a modell túlzott bonyolítása, ami gyengeségszámos módszer (például döntési fák és neurális hálózatok).

A naiv bayesi megközelítésnek a következő hátrányai vannak:

A feltételes valószínűségek szorzása csak akkor helyes, ha minden bemeneta változók valóban statisztikailag függetlenek; bár ez a módszer gyakranelég jó eredményeket mutat, ha a statisztika állapotafüggetlenség, de elméletileg egy ilyen helyzetet összetettebben kellene kezelnia Bayes-hálózatok képzésén alapuló módszerek;

A folytonos változók közvetlen feldolgozása lehetetlen – szükségesekátalakítás intervallumskálára, hogy az attribútumok diszkrétek legyenek; azonban olyanaz átalakulások néha az értelmes minták elvesztéséhez vezethetnek;

Az osztályozás eredményét a naiv bayesi megközelítésben csak az befolyásoljabemeneti változók egyedi értékei, párok együttes hatása illitt nem vesszük figyelembe a különböző attribútumok értékhármasait. Ez javíthataz osztályozási modell minősége prediktív pontossága szempontjából,azonban növelné a tesztelt változatok számát.

Mesterséges idegi hálózat

A mesterséges neurális hálózatok (a továbbiakban: neurális hálózatok) lehetnek szinkronok és aszinkronok.Szinkron neurális hálózatokban minden időpillanatban csak egy neuron. Aszinkronban - az állapot azonnal megváltozik a neuronok egész csoportjában, általában mindennél réteg. Két alapvető architektúra különböztethető meg - réteges és teljesen összekapcsolt hálózatok.A réteges hálózatok kulcsfogalma a réteg fogalma.Réteg - egy vagy több neuron, amelyek bemenetei ugyanazzal a közös jellel vannak ellátva.A réteges neurális hálózatok olyan neurális hálózatok, amelyekben a neuronok külön csoportokra (rétegekre) vannak osztva, így az információfeldolgozás rétegekben történik.A réteges hálózatokban az i-edik réteg neuronjai bemenő jeleket kapnak, átalakítják, majd az elágazási pontokon keresztül továbbítják a réteg neuronjaihoz (i + 1). És így tovább a k-edik rétegig, ami adkimeneti jelek a tolmács és a felhasználó számára. Az egyes rétegekben lévő neuronok száma nem függ össze a többi rétegben lévő neuronok számával, tetszőleges lehet.Egy rétegen belül az adatok feldolgozása párhuzamosan történik, a teljes hálózaton pedig szekvenciálisan – rétegről rétegre – történik a feldolgozás. A réteges neurális hálózatok közé tartoznak például a többrétegű perceptronok, a radiális bázisfüggvények hálózatai, a kognitron, a nonkognitron, az asszociatív memóriahálózatok.A jel azonban nem mindig vonatkozik a réteg minden neuronjára. Egy kognitronban például az aktuális réteg minden neuronja csak az előző rétegben hozzá közeli neuronoktól kap jeleket.

A réteges hálózatok pedig lehetnek egyrétegűek és többrétegűek.

Egyrétegű hálózat- egy rétegből álló hálózat.

Többrétegű hálózat- több rétegű hálózat.

Egy többrétegű hálózatban az első réteget bemeneti rétegnek, a következő rétegeket belsőnek vagy rejtettnek, az utolsó réteget pedig kimeneti rétegnek nevezik. Így a köztes rétegek egy többrétegű neurális hálózat összes rétege, kivéve a bemenetet és a kimenetet.A hálózat bemeneti rétege valósítja meg a kapcsolatot a bemeneti adatokkal, a kimeneti réteg - a kimenettel.Így a neuronok lehetnek bemeneti, kimeneti és rejtett.A bemeneti réteg bemeneti neuronokból szerveződik, amelyek adatokat fogadnak, és elosztják azokat a hálózat rejtett rétegében lévő neuronok bemenetei között.A rejtett neuron egy neuron, amely egy neurális hálózat rejtett rétegében található.A kimeneti neuronok, amelyekből a hálózat kimeneti rétege szerveződik, termelneka neurális hálózat eredményei.

Teljesen összekapcsolt hálózatokban minden neuron továbbítja kimenő jelét a többi neuronnak, beleértve önmagát is. A hálózat kimenőjelei lehetnek a neuronok kimenőjelei, vagy azok egy része a hálózat több órajelciklusa után.

Minden bemeneti jel az összes neuronba kerül.

Neurális hálózatok képzése

A neurális hálózat használata előtt betanítani kell.A neurális hálózat tanulási folyamata abból áll, hogy belső paramétereit egy adott feladathoz igazítja.A neurális hálózat algoritmusa iteratív, lépéseit korszakoknak vagy ciklusoknak nevezzük.Epocha - egy iteráció a tanulási folyamatban, beleértve az összes példa bemutatását a betanítási készletből, és esetleg a képzés minőségének ellenőrzését a vezérlőn készlet. A tanulási folyamat az oktatókészleten történik.A betanítási minta tartalmazza a bemeneti értékeket és a hozzájuk tartozó kimeneti értékeket az adatkészletből. A képzés során a neurális háló megtalálja a kimeneti mezők bizonyos függőségét a bemeneti mezőktől.Így azzal a kérdéssel állunk szemben, hogy milyen beviteli mezőkre (szolgáltatásokra) van szükségünkhasználatához szükséges. Kezdetben a választás heurisztikusan történik, majda bemenetek száma módosítható.

A komplexitás felveheti az adathalmazban található megfigyelések számának kérdését. Bár van néhány szabály, amely leírja a közötti kapcsolatot szükséges mennyiséget megfigyelések és a hálózat mérete, érvényessége nem igazolt.A szükséges megfigyelések száma a megoldandó probléma összetettségétől függ. A jellemzők számának növekedésével a megfigyelések száma nem lineárisan növekszik, ezt a problémát a "dimenzionalitás átkának" nevezik. Elégtelen mennyiséggeladatok, lineáris modell használata javasolt.

Az elemzőnek meg kell határoznia a hálózat rétegeinek számát és az egyes rétegekben lévő neuronok számát.Ezután olyan súlyozási és torzítási értékeket kell hozzárendelnie, amelyek képesekminimalizálja a döntési hibákat. A súlyok és a torzítások automatikusan úgy vannak beállítva, hogy minimálisra csökkentsék a kívánt és a kimeneti jelek közötti különbséget, amit edzéshibának nevezünk.A felépített neurális hálózat tanulási hibáját összehasonlítással számítjuk kikimeneti és cél (kívánt) értékek. A kapott különbségekből alakul ki a hibafüggvény.

A hibafüggvény egy célfüggvény, amelyet minimálisra kell csökkenteni a folyamat soránirányított neurális hálózati tanulás.A hibafüggvény segítségével kiértékelheti a neurális hálózat minőségét a képzés során. Például gyakran használják a hibák négyzetes összegét.A kiosztott feladatok megoldásának képessége a neurális hálózatok képzésének minőségétől függ.

Neurális hálózat átképzése

A neurális hálózatok képzése során gyakran felmerül egy komoly nehézség, úntúlillesztési probléma.Túlillesztés, vagy túlillesztés - túlillesztésa neurális hálózatot a képzési példák egy meghatározott halmazához, amelyben a hálózat veszítáltalánosító képesség.A túlméretezés akkor fordul elő, ha az edzés túl hosszú, de nem elégképzési példák vagy túlbonyolított neurális hálózati struktúra.Overfitting annak a ténynek köszönhető, hogy a választás a képzés (képzés) megvéletlenszerű. Az edzés első lépéseitől kezdve a hiba csökken. Atovábbi lépéseket a hiba (objektív függvény) paramétereinek csökkentése érdekébenaz edzéskészlet jellemzőihez igazítva. Ez azonban megtörténik"igazítás" nem a sorozat általános mintáihoz, hanem a rész jellemzőihez -képzési részhalmaz. Ebben az esetben az előrejelzés pontossága csökken.A hálózati átképzés kezelésének egyik lehetősége a képzési minta két részre osztásakészletek (képzés és teszt).Az oktatókészleten a neurális hálózat betanítása történik. A tesztkészleten a megépített modellt ellenőrzik. Ezek a halmazok nem metszhetik egymást.A modell paraméterei minden lépésnél változnak, de állandó csökkenésa célfüggvény értéke pontosan a képzési halmazon fordul elő. A halmaz két részre bontásakor a teszthalmaz előrejelzési hibájának változását figyelhetjük meg párhuzamosan a gyakorlóhalmaz megfigyeléseivel. Néhányaz előrejelzési hibalépések száma mindkét halmazon csökken. Azonban továbbegy bizonyos lépésnél a tesztkészlet hibája növekedni kezd, míg a tanítókészlet hibája tovább csökken. Ezt a pillanatot tekintik az átképzés kezdetének.

Adatbányászati ​​eszközök

Fejlődés a világpiac DataMining szektorában szoftver világhírű vezetők és új feltörekvő cégek egyaránt elfoglaltak. A DataMining eszközök önálló alkalmazásként vagy a fő termék kiegészítőjeként is bemutathatók.Ez utóbbi lehetőséget számos szoftverpiaci vezető valósítja meg.Így már hagyománnyá vált, hogy az univerzális statisztikai csomagok fejlesztői a hagyományos statisztikai elemzési módszerek mellett a csomagba beépítika DataMining metódusok bizonyos halmaza. Ezek olyan csomagok, mint SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Egyes OLAP-megoldások fejlesztői egy sor DataMining technikát is kínálnak, például a Cognos termékcsaládot. Vannak olyan szolgáltatók, amelyek a DataMining megoldásokat is beépítik a DBMS funkciói közé: ezek a Microsoft (MicrosoftSQLServer), az Oracle, az IBM (IBMintelligentMinerforData).

Bibliográfia

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., „Üzleti folyamatok újratervezése. MBA tanfolyam”, Moszkva: Eksmo Kiadó, 2005. - 592 p. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. "Tudásmenedzsment a vállalatokban és az üzleti újratervezés" - M.: Infra-M, 2011.- 382 p. – ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Holod I.I. "Az adatelemzés módszerei és modelljei: OLAP és adatbányászat", St. Petersburg: BHV-Petersburg, 2004, 336 pp., ISBN 5-94157-522-X
  1. Herceg NÁL NÉL., Samoilenko DE., "Adatbányászat.„SPb: Piter, 2001, 386s.
  1. Chubukova I.A., Adatbányászati ​​tanfolyam, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Adatbányászat: Gyakorlati gépi tanulási eszközök és technikák (harmadik kiadás), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L., Multimédiás adatbányászat és tudásfeltárás

Mi az adatbányászat

Adatbányászati ​​feladatok osztályozása

A társulási szabályok keresésének feladata

Klaszterezési probléma

A Data Miner szolgáltatásai a Statistica 8-ban

Elemző eszközök STATISTICA Data Miner

Példa a Data Mininben végzett munkára

Készítsen jelentéseket és összefoglalókat

Információk rendezése

Lakótelkek árának elemzése

Túlélési előrejelző elemzés

Következtetés


Mi az adatbányászat

A modern számítógépes adatbányászat kifejezést „információ-kinyerésnek” vagy „adatbányászatnak” fordítják. Az adatbányászattal együtt gyakran megtalálhatók a Knowledge Discovery ("tudásfelfedezés") és az Adattárház ("adattárház") kifejezések. Az adatbányászat szerves részét képező kifejezések megjelenése az adatok feldolgozására és tárolására szolgáló eszközök és módszerek fejlesztésében új kört jelent. Tehát az adatbányászat célja rejtett szabályok és minták azonosítása nagy (nagyon nagy) adatmennyiségben.

Az a tény, hogy maga az emberi elme nem alkalmazkodott a heterogén információk hatalmas tömbeinek észlelésére. Átlagosan egy személy – néhány egyed kivételével – még kis mintákban sem tud kettőnél vagy háromnál több kapcsolatot megragadni. De a hagyományos statisztika hosszú ideje amely az adatelemzés fő eszközének vallotta magát, szintén gyakran kudarcot vall a valós életből származó problémák megoldása során. A minta átlagos jellemzőivel operál, amelyek gyakran fiktív értékek (az ügyfél átlagos fizetőképessége, amikor kockázati függvénytől vagy veszteségfüggvénytől függően meg kell tudni előre jelezni az ügyfél fizetőképességét és szándékait; átlagos jelintenzitás, miközben érdekli a jelcsúcsok jellemzői és háttere stb. d.).

Ezért a matematikai statisztika módszerei elsősorban előre megfogalmazott hipotézisek tesztelésére használhatók, míg a hipotézisek meghatározása esetenként meglehetősen bonyolult és időigényes feladat. A modern adatbányászati ​​technológiák az információkat dolgozzák fel annak érdekében automatikus keresés heterogén többdimenziós adatok bármely töredékére jellemző sablonok (minták). Ellentétben az operatív elemző feldolgozás adatok (OLAP) az adatbányászatban, a hipotézisek megfogalmazásának és a szokatlan (váratlan) minták azonosításának terhe emberről számítógépre hárul. Az adatbányászat nem egy, hanem számos különböző tudásfeltárási módszer kombinációja. A módszer megválasztása gyakran attól függ, hogy milyen típusú adatok állnak rendelkezésre, és milyen információkat kíván megszerezni. Itt van például néhány módszer: asszociáció (kombinálás), osztályozás, klaszterezés, idősor elemzés és előrejelzés, neurális hálózatok stb.

Tekintsük részletesebben a feltárandó tudás definícióban megadott tulajdonságait.

A tudásnak újnak, korábban ismeretlennek kell lennie. A felhasználó által már ismert tudás felfedezésére fordított erőfeszítés nem térül meg. Ezért az új, korábban ismeretlen tudás az, ami értékes.

A tudásnak nem triviálisnak kell lennie. Az elemzés eredményeinek nem nyilvánvaló, váratlan mintázatokat kell tükrözniük az úgynevezett rejtett tudást alkotó adatokban. Az egyszerűbb módszerekkel (például vizuális megtekintéssel) elérhető eredmények nem indokolják a hatékony adatbányászati ​​módszerek alkalmazását.

A tudásnak gyakorlatilag hasznosnak kell lennie. A talált tudásnak kellően nagy megbízhatósággal kell alkalmazhatónak lennie, beleértve az új adatokat is. A hasznosság abban rejlik, hogy ez a tudás némi haszonnal járhat az alkalmazásában.

A tudásnak hozzáférhetőnek kell lennie az emberi megértés számára. A talált mintáknak logikailag magyarázhatónak kell lenniük, különben fennáll annak a lehetősége, hogy véletlenszerűek. Emellett a feltárt tudást ember számára érthető formában kell bemutatni.

Az adatbányászatban modelleket használnak a megszerzett tudás reprezentálására. A modellek típusai a létrehozásuk módszerétől függenek. A leggyakoribbak a szabályok, a döntési fák, a klaszterek és a matematikai függvények.

Az adatbányászat hatóköre korlátlan – az adatbányászatra mindenhol szükség van, ahol van adat. Sok ilyen vállalkozás tapasztalata azt mutatja, hogy az adatbányászat használatának megtérülése elérheti az 1000%-ot. Például olyan gazdasági hatásról számolnak be, amely 10-70-szer magasabb, mint a kezdeti 350-750 ezer dolláros költségek. Információkat közölnek egy 20 millió dolláros projektről, amely mindössze 4 hónap alatt megtérült. Egy másik példa az éves 700 000 dolláros megtakarítás. az adatbányászat bevezetése révén egy szupermarketláncban az Egyesült Királyságban. Az adatbányászat nagy értéket képvisel a vezetők és az elemzők számára napi tevékenységeik során. Az üzletemberek felismerték, hogy az adatbányászati ​​módszerek segítségével kézzelfogható versenyelőnyökre tehetnek szert.

Adatbányászati ​​feladatok osztályozása

A DataMining módszerek lehetővé teszik számos probléma megoldását, amelyekkel egy elemző szembesül. Ezek közül a főbbek: osztályozás, regresszió, asszociációs szabályok keresése és klaszterezés. Alább Rövid leírás az adatelemzés fő feladatai.

1) Az osztályozás feladata az objektum jellemzői szerinti osztályának meghatározására redukálódik. Megjegyzendő, hogy ebben a feladatban előre ismert azon osztályok halmaza, amelyekhez egy objektum hozzárendelhető.

2) A regressziós feladat az osztályozási feladathoz hasonlóan lehetővé teszi egyes paramétereinek értékének meghatározását egy objektum ismert jellemzői alapján. Az osztályozási problémával ellentétben a paraméter értéke nem osztályok véges halmaza, hanem valós számok halmaza.

3) Társulási feladat. A társítási szabályok keresése során a cél az objektumok vagy események közötti gyakori függőségek (vagy asszociációk) megtalálása. A talált függőségek szabályok formájában jelennek meg, és felhasználhatók mind az elemzett adatok természetének jobb megértésére, mind az események bekövetkezésének előrejelzésére.

4) A klaszterezés feladata független csoportok (klaszterek) és jellemzőik felkutatása a teljes elemzett adathalmazban. A probléma megoldása segít az adatok jobb megértésében. Ezenkívül a homogén objektumok csoportosítása lehetővé teszi számuk csökkentését, és ennek következtében az elemzés megkönnyítését.

5) Szekvenciális minták - minták megállapítása az időben összefüggő események között, pl. függőségi észlelés, hogy ha X esemény bekövetkezik, akkor azután rendelkezésre álló idő Y esemény bekövetkezik.

6) Eltérések elemzése - a legjellemzetlenebb minták azonosítása.

A felsorolt ​​feladatok cél szerint leíró és prediktív feladatokra vannak felosztva.

A leíró feladatok az elemzett adatok jobb megértésére összpontosítanak. Az ilyen modellekben a kulcspont az eredmények egyszerűsége és átláthatósága az emberi észlelés szempontjából. Lehetséges, hogy a felfedezett minták a vizsgált konkrét adatok sajátos jellemzői lesznek, és máshol nem találhatók meg, de ettől függetlenül hasznos lehet, ezért ismerni kell. Az ilyen típusú problémák közé tartozik a fürtözés és a társítási szabályok keresése.

A prediktív problémák megoldása két szakaszra oszlik. Az első szakaszban egy modellt építenek fel egy ismert eredményekkel rendelkező adathalmaz alapján. A második lépésben az eredmények előrejelzésére szolgál új adatkészletek alapján. Ebben az esetben természetesen elvárás, hogy az elkészített modellek a lehető legpontosabban működjenek. Az ilyen típusú problémák osztályozási és regressziós problémákat tartalmaznak. Ebbe beletartozik az asszociációs szabályok megtalálásának problémája is, ha megoldásának eredményei alapján előre jelezhető bizonyos események bekövetkezése.

A problémamegoldás módszerei szerint irányított tanulásra (tanárral való tanulás) és felügyelet nélküli tanulásra (tanár nélküli tanulásra) oszthatók. Ez az elnevezés az angol nyelvű szakirodalomban gyakran használt Machine Learning (gépi tanulás) kifejezésből származik, és minden adatbányászati ​​technológiára utal.

Felügyelt tanulás esetén az adatelemzés problémája több lépcsőben oldódik meg. Először is, bármilyen adatbányászati ​​algoritmussal, az elemzett adatok modelljét építik fel - egy osztályozót. Ezután az osztályozót betanítják. Vagyis a munka minőségét ellenőrzik, és ha nem megfelelő, az osztályozót további képzésben részesítik. Ez addig folytatódik, amíg el nem éri a kívánt minőségi szintet, vagy kiderül, hogy a kiválasztott algoritmus nem működik megfelelően az adatokkal, vagy maguk az adatok nem rendelkeznek azonosítható szerkezettel. Az ilyen típusú problémák osztályozási és regressziós problémákat tartalmaznak.

A felügyelet nélküli tanulás olyan feladatokat egyesít, amelyek leíró mintákat azonosítanak, például a vásárlók által egy nagy üzletben vásárolt mintákat. Nyilvánvalóan, ha ezek a minták léteznek, akkor a modellnek reprezentálnia kell őket, és nem helyénvaló beszélni a tanulásáról. Innen a név – felügyelet nélküli tanulás. Az ilyen problémák előnye, hogy az elemzett adatok előzetes ismerete nélkül is megoldhatók. Ezek közé tartozik a klaszterezés és a társítási szabályok keresése.

Osztályozási és regressziós probléma

Az elemzés során gyakran meg kell határozni, hogy a vizsgált objektumok az ismert osztályok közül melyikbe tartoznak, azaz osztályozni kell őket. Például, amikor egy személy hitelt kér a banktól, a banki tisztviselőnek el kell döntenie, hogy a potenciális ügyfél hitelképes-e vagy sem. Nyilvánvalóan egy ilyen döntés a vizsgált objektumra (jelen esetben egy személyre) vonatkozó adatok alapján születik: munkahelye, fizetése, életkora, családösszetétele stb. Ezen információk elemzésének eredményeként egy bank Az alkalmazottnak a két jól ismert „hiteles” és „nem hitelképes” osztály egyikébe kell besorolnia a személyt.

Egy másik példa az osztályozási feladatra az e-mailek szűrése. Ebben az esetben a szűrőprogramnak spamnek kell minősítenie a bejövő üzenetet (kéretlen Email) vagy levélként. Ezt a döntést bizonyos szavak előfordulási gyakorisága alapján fogadják el az üzenetben (például a címzett neve, személytelen cím, szavak és kifejezések: megszerezni, "keresni", " jövedelmező ajánlat" stb.).

Adatbányászat

Az adatbányászat egy olyan módszertan és folyamat, amely a vállalatok információs rendszereiben felhalmozódó nagy adattömbökben olyan, korábban ismeretlen, nem triviális, gyakorlatilag hasznos és hozzáférhető tudást fedez fel, amely az emberi tevékenység különböző területein szükséges döntések meghozatalához. Az adatbányászat a nagyobb tudásfeltárás az adatbázisokban módszertan egyik szakasza.

Az adatbányászat során feltárt tudásnak nem triviálisnak és korábban ismeretlennek kell lennie. A nem trivialitás azt sugallja, hogy az ilyen tudás nem fedezhető fel egyszerű vizuális elemzéssel. Le kell írniuk az üzleti objektumok tulajdonságai közötti kapcsolatokat, meg kell jósolniuk egyes jellemzők értékeit mások alapján stb. A megtalált tudást új tárgyakra kell alkalmazni.

Az ismeretek gyakorlati hasznosságát a vezetői döntéshozatal támogatása, a vállalati tevékenység fejlesztése során való felhasználásuk lehetősége adja.

A tudást a speciális matematikai képzettséggel nem rendelkező felhasználók számára érthető formában kell bemutatni. Például a „ha, akkor” logikai konstrukciókat az ember a legkönnyebben érzékeli. Ezenkívül az ilyen szabályok különféle DBMS-ekben használhatók SQL-lekérdezésekként. Abban az esetben, ha a kinyert tudás nem átlátható a felhasználó számára, olyan utófeldolgozási módszereket kell alkalmazni, amelyek lehetővé teszik azok értelmezhető formába hozását.

Az adatbányászat nem egy, hanem számos különböző tudásfeltárási módszer kombinációja. Minden adatbányászati ​​módszerrel megoldott feladat feltételesen hat típusra osztható:

Az adatbányászat multidiszciplináris jellegű, mivel magában foglalja a numerikus módszerek, a matematikai statisztika és valószínűségszámítás, az információelmélet és a matematikai logika, a mesterséges intelligencia és a gépi tanulás elemeit.

Az üzleti elemzés feladatai többféleképpen fogalmazódnak meg, de legtöbbjük megoldása egyik-másik adatbányászati ​​feladaton vagy ezek kombinációján múlik. Például a kockázatértékelés egy regressziós vagy osztályozási probléma megoldása, a piaci szegmentáció klaszterezés, a kereslet-ösztönzés az asszociációs szabályok. Valójában az adatbányászati ​​feladatok olyan elemek, amelyekből a legtöbb valós üzleti probléma megoldását "összeállíthatja".

A fenti problémák megoldására az adatbányászat különféle módszereit és algoritmusait alkalmazzák. Tekintettel arra, hogy az adatbányászat olyan tudományágak metszéspontjában fejlődött és fejlődik, mint a matematikai statisztika, az információelmélet, a gépi tanulás és az adatbázisok, teljesen természetes, hogy a legtöbb adatbányászati ​​algoritmust és módszert ezekből különböző módszerek alapján fejlesztették ki. diszciplínák. Például a k-means klaszterezési algoritmust a statisztikákból kölcsönöztük.

Üdvözöljük adatportál Bányászat - egyedülálló portál az adatbányászat modern módszereinek szentelt.

Az adatbányászati ​​technológiák a modern üzleti intelligencia és adatbányászat hatékony eszközei a rejtett minták felfedezésére és a prediktív modellek felépítésére. Az adatbányászat vagy a tudásbányászat nem spekulatív érvelésen alapul, hanem valós adatokon.

Rizs. 1. Az adatbányászat alkalmazási vázlata

Problémameghatározás - Probléma meghatározása: adatok osztályozása, szegmentálás, prediktív modellek felépítése, előrejelzés.
Adatgyűjtés és -előkészítés - Adatgyűjtés és -előkészítés, tisztítás, ellenőrzés, ismétlődő rekordok eltávolítása.
Modellkészítés – Modell készítés, pontosság felmérése.
Knowledge Deployment - A modell alkalmazása a probléma megoldására.

Az adatbányászatot nagyszabású elemzési projektek megvalósítására használják az üzleti élet, a marketing, az internet, a telekommunikáció, az ipar, a geológia, az orvostudomány, a gyógyszeripar és más területeken.

Az adatbányászat lehetővé teszi, hogy a modern mintafelismerési módszerek és egyedi analitikai technológiák, köztük döntési és osztályozási fák, klaszterezés, neurális hálózati módszerek segítségével hatalmas mennyiségű adat átvizsgálása révén jelentős összefüggések és kapcsolatok felkutatása megkezdődjön. , és mások.

Az adatbányászati ​​technológiát először felfedező felhasználót lenyűgözi a rengeteg módszer és hatékony algoritmus, amelyek lehetővé teszik, hogy megoldásokat találjanak a nagy mennyiségű adat elemzésével kapcsolatos bonyolult problémák megoldására.

Általánosságban az adatbányászat olyan technológiaként írható le, amelyet nagy mennyiségű adat keresésére terveztek. nem nyilvánvaló, célkitűzésés gyakorlatilag hasznos minták.

Az adatbányászat alapja hatékony módszerekés nagy volumenű és méretű strukturálatlan adatok elemzésére tervezett algoritmusok.

A lényeg az, hogy a nagy volumenű és nagy dimenziójú adatok struktúrától és összefüggésektől mentesnek tűnnek. Az adatbányászati ​​technológia célja, hogy azonosítsa ezeket a struktúrákat, és olyan mintákat találjon, ahol első pillantásra káosz és önkény uralkodik.

Itt van egy tényleges példa az adatbányászat alkalmazására a gyógyszeriparban és a gyógyszeriparban.

A kábítószer-kölcsönhatások egyre nagyobb problémát jelentenek a modern egészségügyben.

Idővel növekszik a felírt gyógyszerek (recept nélkül és mindenféle kiegészítő) száma, így egyre valószínűbb, hogy a gyógyszerek közötti kölcsönhatások súlyos mellékhatásokat okozhatnak, amelyekről az orvosok és a betegek nem is tudnak.

Ez a terület a posztklinikai vizsgálatokra vonatkozik, amikor a gyógyszer már forgalomban van, és széles körben használják.

A klinikai vizsgálatok a gyógyszer hatékonyságának értékelésére vonatkoznak, de rosszul veszik figyelembe ennek a gyógyszernek a kölcsönhatásait a piacon lévő más gyógyszerekkel.

A kaliforniai Stanford Egyetem kutatói az FDA (Food and Drug Administration) gyógyszermellékhatások adatbázisát tanulmányozták, és azt találták, hogy két gyakran használt gyógyszer – az antidepresszáns paroxetin és a koleszterinszint csökkentésére használt pravasztatin – együtt szedve növeli a cukorbetegség kialakulásának kockázatát.

Egy hasonló, az FDA adatain alapuló elemzési tanulmány 47 korábban ismeretlen káros interakciót azonosított.

Ez figyelemre méltó, azzal a kitétellel, hogy a betegek által észlelt negatív hatások közül sok nem észlelhető. Ebben az esetben a hálózati keresés képes a legjobban megmutatni magát.

Közelgő adatbányászati ​​tanfolyamok a StatSoft Adatelemző Akadémián 2020-ban

Az Adatbányászattal való ismerkedésünket az Adatelemző Akadémia csodálatos videóival kezdjük.

Feltétlenül nézze meg videóinkat, és megérti, mi az adatbányászat!

Videó 1. Mi az adatbányászat?


2. videó: Az adatbányászat áttekintése: döntési fák, általános prediktív modellek, klaszterezés és egyebek

A JavaScript le van tiltva a böngészőjében


Kutatási projekt elindítása előtt meg kell szerveznünk az adatgyűjtés folyamatát külső források, most megmutatjuk, hogyan készül.

A videó bemutatja az egyedülálló technológiát STATISZTIKA Helyi adatbázis-feldolgozás és Data Mining kapcsolat valós adatokkal.

Videó 3. Az adatbázisokkal való interakció sorrendje: grafikus felület SQL lekérdezések készítéséhez Helyi adatbázis-feldolgozási technológia

A JavaScript le van tiltva a böngészőjében


Most megismerkedünk azokkal az interaktív fúrási technológiákkal, amelyek hatékonyak a feltáró adatelemzésben. Maga a fúrás kifejezés az adatbányászati ​​technológia és a geológiai feltárás közötti kapcsolatot tükrözi.

4. videó Interaktív fúrás: Feltárási és ábrázolási módszerek az interaktív adatfeltáráshoz

A JavaScript le van tiltva a böngészőjében


Most megismerkedünk az asszociációk elemzésével (asszociációs szabályok), ezek az algoritmusok lehetővé teszik a valós adatokban létező kapcsolatok megtalálását. A kulcspont az algoritmusok hatékonysága nagy mennyiségű adat esetén.

A linkelemző algoritmusok, például az Apriori algoritmus eredményeként megtalálják a vizsgált objektumok hivatkozásainak szabályait adott, például 80%-os megbízhatósággal.

A geológiában ezek az algoritmusok alkalmazhatók ásványok kutatási elemzésére, például arra, hogy az A jellemző hogyan kapcsolódik a B és C tulajdonságokhoz.

Konkrét példákat találhat ilyen megoldásokra linkjeinken:

A kiskereskedelemben az Apriori algoritmusok vagy azok módosításai lehetővé teszik a különböző termékek kapcsolatának feltárását, például parfümök (parfüm - lakk - szempillaspirál stb.) vagy különböző márkájú termékek értékesítése során.

Az oldal legérdekesebb szakaszainak elemzése asszociációs szabályok segítségével is hatékonyan elvégezhető.

Tehát nézze meg következő videónkat.

Videó 5. Egyesületi szabályzat

A JavaScript le van tiltva a böngészőjében

Adjunk példákat az adatbányászat konkrét területeken történő alkalmazására.

Internetes kereskedés:

  • a vásárlói pályák elemzése a helyszín látogatásától az áruvásárlásig
  • szolgáltatás hatékonyságának értékelése, áruhiány miatti meghibásodások elemzése
  • a látogatók érdeklődésére számot tartó termékek összekapcsolása

Kiskereskedelem: Vevői információk elemzése alapján bankkártyák, kedvezménykártyák stb.

Az adatbányászati ​​eszközökkel megoldott tipikus kiskereskedelmi feladatok:

  • bevásárlókosár elemzés;
  • prediktív modellek létrehozása a vásárlók és a vásárolt áruk osztályozási modelljei;
  • vásárlói profilok létrehozása;
  • CRM, különböző kategóriák vásárlói lojalitásának felmérése, hűségprogramok tervezése;
  • idősoros kutatásés időfüggések, szezonális tényezők kiválasztása, a promóciók hatékonyságának értékelése valós adatok széles skáláján.

A távközlési szektor korlátlan lehetőségeket kínál az adatbányászati ​​módszerek alkalmazására, valamint modern technológiák nagy adat:

  • ügyfelek besorolása a hívások legfontosabb jellemzői (gyakorisága, időtartama stb.), SMS gyakorisága alapján;
  • a vásárlói hűség azonosítása;
  • csalás meghatározása stb.

Biztosítás:

  • kockázatelemzés. A kifizetett kárigényekhez kapcsolódó tényezők kombinációinak azonosításával a biztosítók csökkenthetik felelősségi veszteségeiket. Ismert eset, amikor egy biztosítótársaság felfedezte, hogy a házasok kérelmére kifizetett összegek kétszerese az egyedülállók kérelmének. A cég erre reagálva felülvizsgálta a családi vásárlókra vonatkozó kedvezménypolitikáját.
  • csalások felderítése. biztosító társaságok csökkentheti a csalást, ha bizonyos sztereotípiákat keres a biztosítási igényekben, amelyek az ügyvédek, az orvosok és a kárigénylők kapcsolatát jellemzik.

Az adatbányászat gyakorlati alkalmazását és konkrét problémák megoldását mutatjuk be következő videónkban.

Webinárium 1. Webinárium "Az adatbányászat gyakorlati feladatai: problémák és megoldások"

A JavaScript le van tiltva a böngészőjében

Webinar 2. Webinar "Adatbányászat és szövegbányászat: Példák valós problémák megoldására"

A JavaScript le van tiltva a böngészőjében


Az adatbányászat módszertanáról és technológiájáról a StatSoft tanfolyamokon szerezhet mélyebb ismereteket.