informatikaInternet

CommonCrawl – ha unod a kis adathalmazokat, akkor 148TB-ot elemezhetsz a segítségével

Szerző: 2014. február 17.No Comments

„A CommonCrawl Foundation célja, hogy mindenki számára nyilvánossá és elemezhetővé tegye az Internetet. Ezért rendszeres időközönként készítenek “pillanatfelvételt” keresőrobotjaik az egész netről, a legutóbbi adathalmazuk 148 terrabájt(!!) lett, ami letölthető, vagy az Amazon AWS-en rögtön elemezhető!

Az Amazon AWS-en nem csak az adat érhető el, hanem a feldolgozásához szükséges eszközök is – ami különösen a kezdők dolgát könnyíti meg. Sebastian Spiegler, a SwiftKey vezető adattudósa Statistics of the Common Crawl 2012 Corpus című jelentésében összegezte a korpusz főbb jellemzőit, melyből kiderül, hogy többé-kevésbé reprezentatív a minta.

Az ún. top-level domain (azaz az internetes címek végződései, pl. .hu, .hr, .sk, stb.) tekintetében és a nyelvek esetében is kiegyensúlyozott a CommonCrawl korpusza. Érdekes, hogy az utf-8 karakterkódolás annak ellenére, hogy a legelterjedtebb, még nem szorította ki az egzotikus megoldásokat.

Az internetes tartalmak döntő többsége továbbra is szöveges, érdekes módon a mintából hiányoznak a videó tartalmak, a képek arány pedig igen alacsony.

A CommonCrawl ígérete szerint (és a blekko nagylelkűségének hála) 2014-től havi rendszerességgel fogja kiadni friss korpuszait. Az adatok pedig bárki számára hozzáférhetőek – ami remek lehetőség a big data iránt érdeklődők számára, hiszen a hasonló adatbázisok a nagy cégek féltett kincsei általában. Kutatók, aktivisták, kezdő cégek és leendő adattudósok ingyen juthatnak immár igazi nagytömegű adathoz – tessék élni vele!”

Forrás:
CommonCrawl – ha unod a kis adathalmazokat, akkor 148TB-ot elemezhetsz a segítségével; Kereső Világ; 2014. február