SGI

The Trusted Leader in High Performance Computing

 

Pohled na svět očima Wikipedie

Co lze vytvořit během jednoho dne na novém systému SGI® UV™ 2000 - největším in-memory systému pro data mining?

Hamburg, Německo - 18. června 2012 - Společnost SGI (NASDAQ: SGI), lídr v oblasti technických výpočtů, spolupracuje s Kalevem H. Leetaru z Univerzity v Illinois na vytvoření vůbec prvního, historického mapování a průzkumu plného textového obsahu anglického vydání Wikipedie v čase a prostoru. Výsledky zahrnují vizualizace moderní historie zachycené v rámci jednoho dne s využitím in-memory (v paměti počítače) data-mining technik. Díky možnosti vložit celou anglickou verzi Wikipedie do systému SGI® UV™ 2000, pan Leetaru byl schopen ukázat, jak se odvíjel pohled Wikipedie na svět během posledních dvou století. Lokalita, rok a pozitivní nebo negativní sentiment byly provázány s těmito odkazy.

Zatímco několik předchozích projektů mapovalo vstupy Wikipedie pomocí ručně přiřazených umístění metadat editorem, tyto předchozí pokusy zahrnovaly jen nepatrný zlomek informací umístěných na Wikipedii. Tento projekt odemkl obsah článků samotných, identifikoval každou lokalitu i časový údaj u všech čtyř milionů stránek a vazeb mezi nimi a vytvořil tak masivní síť.

"Uzření" Wikipedie ve zcela novém světle
"Tato analýza umožňuje světu, aby odhlédl od jednotlivých článků a textů a získal celkový pohled z odstupu na obrovské poznatky zachycené ve Wikipedii a ne jen detailní pohled na stránku za stránkou. Můžeme sledovat, jak se vyvinula jedna z největších sbírek lidského poznání a uvidíme, co jsme nikdy předtím nemohli spatřit, jako je globální sentiment v určitém čase a prostoru nebo odhalení slepích míst v pokrytí znalostí, "uvedl Franz Aman, marketingový ředitel a vedoucí strategie společnosti SGI. "Velmi rádi používáme aplikaci Google Earth, protože si můžeme náhled oddálit a získat celkový obraz. Díky systému SGI UV 2 můžeme použít stejný koncept pro oblast Big Data a získat celkový pohled na naše rozsáhlá data."

Z této analýzy je vidět, že Wikipedie má čtyři období růstu ve svém historickém pokrytí: 1001-1500 (středověk), 1501-1729 (ranný novověk), 1730-2003 (osvícenství), 2004-2011 (éra Wikipedie) a zdá se, že její další růst se zaměřuje na zvýšení pokrytí historických událostí spíše než na zvýšené dokumentování současnosti. Průměrný charakter pokrytí každého roku Wikipedie úzce souvisí s hlavními globálními událostmi, přičemž nejvíce negativním obdobím za posledních 1000 let je americká občanská válka následovaná druhou světovou válkou. Analýza také ukazuje, že "mezera kvůli autorským právům", která potlačila většinu z dvacátého století v digitalizovaných tištěných sbírkách, není problémem Wikipedie, kde probíhá stabilní, exponenciální růst pokrytí od roku 1924 až po současnost.

Umožníme vědcům vytěžit Big Data
"Jednosměrný charakterpropojení ve Wikipedii, který postrádá vazby, a nerovnoměrná distribuce Infoboxů, poukazují na omezení data miningu, založeného na metadatech, ze sbírek jako je Wikipedie," sdělil pan Leetaru. "Systém SGI UV 2 s rozsáhlou sdílenou pamětí, který mi byl k dispozici, mi umožnil klást otázky v rámci celého souboru dat v téměř reálném čase. Velké množství cache-koherentní, sdílené paměti, které jsem měl na dosah ruky, mi umožnilo, abych jednoduše vepsal pár řádků kódu, spustil jej pro celý datový soubor a kladl jsem otázky, které mi zrovna přišly na mysl. Toto není možné dosáhnout s výpočetním přístupem typu scale-out. Je to velmi podobné jako práce s textovým procesorem místo použití psacího stroje. Mohu nyní provádět svůj výzkum úplně jiným způsobem a zaměřit se na výsledky nikoliv na algoritmy".

Analytický přístup
Do systému SGI® UV™ 2000, nazývaného počítač Big Brain, byly nahrány tyto obrovské datové soubory, které prošly fulltextovým geokódováním a kompletním časovým kódováním pomocí algoritmů, které identifikovaly každou zmínku o každé lokalitě a každém časovém údaji napříč záznamy o každém vstupu na Wikipedii. Mezi léty 1000 a 2012 bylo vygenerováno více než 80 milionů lokalit a 42 milionů časových údajů, v průměru to dělá 19 lokalit a 11 časových údajů na článek (každých 44 slov a každých 75 slov, odpovídající pořadí). Spojení mezi každým časovým údajem a každou lokalitou byla zachycena do masivní sítě, která reprezentuje pohled Wikipedie na historii. Pomocí tohoto vybavení byl pan Leetaru schopen na systému SGI UV 2 provádět analýzy téměř v reálném čase v rámci celého datového souboru, vytvářet vizuální mapy napříč prostorem a časem, aby byl schopen vidět nejen to, jak se historie odvíjela, ale i celkový charakter světa za posledních tisíc let, a interaktivně testovat širokou škálu teorií a vědeckých otázek, a to vše za méně než jeden den práce.

Nový systém SGI UV: počítač Big Brain
Rodina produktů SGI UV 2 umožňuje uživatelům najít odpovědi na nejtěžší problémy světa na systému, který lze spravovat stejně snadno jako pracovní stanici. Systém SGI UV2 je postaven na procesorech Intel® Xeon® řady E5, provozuje standardní Linux, podporuje širokou škálu úložných variant a nabízí kompletní, průmyslově standardní řešení pro bezlimitní počítání.

Systém SGI UV 2 můžete začít provozovat v malém měřítku s pouhými 16 jádry a 32 GB paměti a postupně můžete konfiguraci bez problémů rozšiřovat. Tato platforma nové generace, oproti předchozí generaci, zdvojnásobuje počet jader (až 4.096 jader) a čtyřnásobí množství koherentní hlavní paměti (až 64 TB), které jsou k dispozici pro in-memory výpočty v rámci jednoho jedinného systému. Systém SGI UV 2 lze škálovat až do osmi petabajtů sdílené paměti a při maximálním zatížení je I/O rychlost až čtyři terabajty za sekundu (14 PB/hod), což představuje zpracování celého tištěného obsahu americké knihovny kongresu za méně než tři sekundy.

SGI UV 2000 je okamžitě k dispozici. SGI UV 20 je možné objednat již dnes a dodávky budou zahájeny v srpnu 2012.

O SGI
SGI, ověřený lídr v oblasti technických výpočtů, pomáhá zákazníkům řešit jejich nejnáročnější obchodní i technologické výzvy. Pro více informací navštivte stránky www.sgi.com.

Sledujte SGI na Twitteru (@sgi_corp), na YouTube (youtube.com/sgicorp) a na LinkedIn.

Obrázky a videa jsou k dispozici zde: http://www.sgi.com/go/wikipedia

© 2012 Silicon Graphics International Corporation. SGI a logo SGI jsou registrované ochranné známky nebo obchodní značky společnosti Silicon Graphics International Corp. nebo jejích dceřiných společností ve Spojených státech amerických a/nebo dalších zemích. Intel a Xeon jsou registrované ochranné známky společnosti Intel Corporation. NVIDIA, Quadro a Tesla jsou registrované ochranné známky společnosti NVIDIA Corporation. Všechny ostatní obchodní názvy a značky jsou majetkem příslušných vlastníků.


Obrázky, za laskavého souhlasu, poskytl Kalev Leetaru.