informatika

Bele fogunk fulladni az adatok óceánjába?

Szerző: 2011. május 29.No Comments

„Az adatok ócenjában úszunk: egyre több forrásból származó, exponenciálisan növekvő adatmennyiséget kell tudniuk kezelni a vállalatoknak, amelyek már nem csupán az üzleti rendszerekből, de bárhonnan – akár az internetről – származnak. Az utóbbi időszakban újabb bűvszó került elő a nemzetközi konferenciákon és cikkekben: a “Big Data”, azaz magyarul “Nagy Adat” kifejezés a minden korábbinál részletesebb, sokféle típusú adatok komplex feldolgozását és elemzését fedi.

“Big Data” alatt azonban nem csupán a nemzetközi cégek több petabájtos adattárházait kell érteni, de ebbe a témakörbe tartozik minden olyan kérdés, amely arra irányul, hogy az addig használt adatmennyiségen túl miként lehet új típusú adatokat is kezelni. Magyarországon ugyanis már az is probléma, ha egy nagyvállalat 1 terabájtról 10 terabájtra akarja növelni az elemzési kapacitását.

Itthon is hamarosan vége lesz annak az egyszerű világnak, hogy csupán az értékesítési adatokat teszik be az adattárházba, és számos új típusú adatot, így például a közösségi médiából származó adatok elemzését is lehetővé kell tenni – hangsúlyozta Arató Bence, a BI Consulting Kft. ügyvezető igazgatója a cég által immár harmadik alkalommal megrendezett Adattárház Fórum nyitóelőadásában. Hozzátette: Magyországon is egy évtizede működnek olyan adatbányászati megoldások, amelyek az ügyfelek viselkedésének jobb megértését célozzák, ezek azonban többnyire nagyon komplex elemzési modellekkel működtek. A szakember szerint a Big Data “üzenet” része az is, hogy nagy adatmennyiségen az egyszerűbb modellek jobb eredményt hozhatnak, mint kevesebb adat részletes elemzése.

A technológiai trendek közül kiemelkedik, hogy külföldön terjed a relatíve olcsón és egyszerűen használható, fürtözött szervereken futtatható nyílt forrású Hadoop keretrendszer, amelynek segítségével nagy adatmennyiségen egyszerűbb modellek segítségével futtathatók elemzések. A technológiát ma már csaknem minden óriáscég széles körben használja a hagyományos adattárháza mellett. Így például ezzel a módszerrel keres az Ebay az egyes termékekhez hasonló képeket mintegy 30 petabájtnyi adatban. Nálunk egyelőre az új technológiák nincsenek benne a köztudatban, és egyelőre majdnem mindenki a hagyományos relációs adatbázisokban, Oracle-ben vagy MSSQL-ben oldja meg az adatfeldolgozást – tette hozzá Arató Bence.

Stephen Brobst…az adattárházak jövőjét vázolta. Arra a problémára hívta fel a figyelmet, hogy az adatmennyiség gyorsabban nő, mint amilyen mértékben a memória ára csökken. Sokkoló számokat sorolt: az elmúlt három évben több adatot állítottunk el, mint az elmúlt 40 ezer évben; az elmúlt 3 év során megnégyszereződött a tárolt adatok mennyisége. Hangsúlyozta: az üzleti döntéshozóknak stratégiával kell rendelkezniük arra vonatkozóan, hogy mit kezdenek ezzel a mennyiségű adattal.

Az adatok mennyisége ráadásul amiatt is folyton nő, mivel például a nagy online cégek már nem csak azt elemzik, hogy mit vásárolnak az oldalaikon, hanem azt is, hogy hány kattintással, honnan jutottak el oda. Amíg az ügyfélérték a tranzakciós adatokból deríthető ki, egyre nagyobb szerep jut az ügyfélélmény elemzésére, erre az előbb említett interakciós adatokból következtethetnek. Szintén az adatmennyiség óriási mértékű növekedését vetíti előre, hogy a már néhány centért beszerethető szenzorok egyre több termékbe, mérőórákba, járművekbe, sőt akár haszonállatokra – így például tehenekre – és akár emberekre is kerülnek, amelyek folyamatosan adatokat fognak szolgáltatni viselőjükről.

Az adatelemzési trendek közé tartozik az is, hogy a vállalatok többsége szenved attól, hogy az egyre nagyobb mennyiségű, nem struktúrált – értsd: a relációs adatbázisokba, adattárházakba nem beleerőltethető – adatait, így például XML fájlokat, webes forgalmi vagy egyéb logadatokat, videókat, szöveget is elemezni tudja. Ennek következtében terjednek az olyan új elemzési modellek, mint a MapReduce, amely a hagyományos adatokkal szemben a közösségi hálózatok elemzésére, grafikus elemzésre, szövegelemzésre, vagy akár valósidejű mintakeresésre is használható.”

Forrás:
Bele fogunk fulladni az adatok óceánjába?, Mozsik Tibor, Bitport.hu, 2011. május 28.