CommonCrawl – ha unod a kis adathalmazokat, akkor 148TB-ot elemezhetsz a segítségével
„A CommonCrawl Foundation célja, hogy mindenki számára nyilvánossá és elemezhetővé tegye az Internetet. Ezért rendszeres időközönként készítenek "pillanatfelvételt" keresőrobotjaik az egész netről, a legutóbbi adathalmazuk 148 terrabájt(!!) lett, ami letölthető, vagy az Amazon AWS-en rögtön elemezhető! Az Amazon AWS-en nem csak az adat érhető el, hanem a feldolgozásához szükséges eszközök is - ami különösen a kezdők dolgát könnyíti meg. Sebastian Spiegler, a SwiftKey vezető adattudósa Statistics of the Common Crawl 2012 Corpus című jelentésében összegezte a korpusz főbb jellemzőit, melyből kiderül, hogy...
Read more