dbo:abstract
- Az adatbányászat a nagy mennyiségű adatokban rejlő információk félautomatikus feltárása különféle algoritmusok alkalmazásával. Több definíciója ismert és elfogadott. Magyarországon a leggyakrabban adatbányászat alatt újszerű, érvényes, nem triviális és vélhetően hasznos és magyarázható összefüggések keresését értik nagy adathalmazban. Más megfogalmazásban 3É, azaz érdekes, értékes, értelmes összefüggések keresése nagy adathalmazokban az adatbányászat célja. A megfogalmazásokban szereplő szavaknak különös súlya van és egyik sem elhagyható (ahogyan sokan teszik). Az újszerűség azt foglalja magában, hogy jelenleg a területi szakértők által még nem ismert összefüggések feltárására törekszünk, meglévő tudás kinyerése, bizonyítása ugyan lehet mellékhatás, de sosem cél. Érvényesnek kell lennie a felmérésnek, azaz vizsgálni kell azt a kérdést is, hogy a kinyert összefüggés a valósággal összhangban van-e, más jelenségek is alátámasztják az összefüggést, nem csak az adatok valamilyen sajátos rendezése folytán jutottunk-e az adott következtetésre. A vélhető hasznosság hangsúlyozása azért fontos, mert az adatbányászatnak mindig üzleti célúnak és szemléletűnek kell lennie; értékelni kell minden esetben, hogy egy-egy feltárt összefüggés hordoz-e értéket potenciálisan a szervezet számára. Végezetül magyarázhatónak kell lenni az összefüggésnek, azaz fel kell tárni azt, hogy miért és hogyan jutottunk egy következtetésre, nem elegendő elfogadni az eredményeket; a szervezetbe való beilleszthetőségének, a döntéshozók felelős döntésének ez elengedhetetlen része. Adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. szövegbányászat és a génkutatás is. Szűk értelemben azonban adatbányászat alatt a strukturált, adatbázisokban tárolható adatokon értelmezett összefüggés-kereső tevékenységeket értjük. Az adatbányászat egyes elemeit több szempont alapján szokás osztályozni. Adattípusok alapján beszélhetünk: * Strukturált adatok esetében * strukturált adatbányászatról * folyamjellegű (strukturált) adatbányászatáról (web kattintások, idősorok, gének, gráfok és hang - ami egy speciális idősor - tartozik jellemzően ide) * Nem strukturált adatok esetében * szövegbányászatról * képanalízisről (kép alapú adatbányászatról) * videó analitikáról (videó alapú adatbányászatról) Éppennyire gyakori azonban a cél szerinti osztályozás is, amely értelemszerűen valamely adattípushoz inkább kötődik, de a sajátos feladat határozza meg az alkalmazható eljárások körét. Ilyen például - a teljesség igénye nélkül: * (web-, kép-, videó-, név- stb.) keresés * webbányászat * ajánló rendszerek * érzelemdetekció (szentiment elemzés) * génkutatás * gépi látás * biometrikus azonosítás (aláírás, arcfelismerés, hangfelismerés, mozgásfelismerés stb.) (hu)