Aktuální číslo:

I geografie má velká data

| 1. 11. 2021

| Vesmír 100, 684, 2021/11

komerční prezentace

Práce s rozsáhlými soubory dat patří ke geografii odnepaměti. Čím podrobněji se snažíme popsat svět kolem nás, tím více dat musíme vytvořit, a to často s poměrně složitou strukturou. Geografie navíc také pracuje i s jejich polohou. Pojďme se podívat na problematiku velkých dat z hlediska geografie a geoinformatiky – čím nám pomáhají, ale také jaká úskalí nás při jejich zpracování čekají.

Návštěva u fraktálů

Náš výlet do říše geografických dat začneme u článku B. Mandelbrota How Long Is the Coast of Britain? Statistical Self-Similarity and Fractional Dimension, ve kterém představil paradox délky pobřeží. Na délce pobřeží Velké Británie ukázal, že hodnota, kterou naměříme, záleží na rozlišení našeho měřidla. Pokud budeme měřit hypotetickou dvousetkilometrovou tyčí, výsledná vzdálenost bude kratší, než kdybychom měřili tyčí padesátikilometrovou. Kratší tyč totiž dokáže vystihnout více detailů, takže budeme měřit klikatěji.

Mandelbrot pak pokračuje matematickým popisem tohoto typu křivek a diskusí, zda určovat délku má v těchto případech vůbec smysl. My si z toho můžeme odnést ponaučení, že rozlišení, s jakým sbíráme data, může hrát zásadní roli v tom, jak jsou data následně využívána a jaké informace jsme díky nim schopni získat.

Moderní technologie sběr dat neustále zpřesňují. Družicové snímky máme k dispozici s rozlišením pod půl metru na jeden pixel, rozmáhá se laserové skenování z letadel a optické snímkování z dronů, běžně se používají profesionální GPS přijímače, které měří velmi přesně a v reálném čase.

Paradoxně ne vždy technologicky zvýšená přesnost znamená, že výsledná data budou věrnější. Staří geometři dokázali zmapovat terén jen s minimem naměřených bodů. Zaměřovali se totiž na hlavní charakteristické znaky mapovaného území. Změřili lomové body hranic lesa, osu či okraj cesty, nezapomněli zanést každý terénní zlom, patu svahu, hřbetnici kopců nebo nejnižší bod údolí. Laserovému skeneru jsou tato místa jedno. Skenuje vše, nad čím přelétá, a v nasnímaném mračnu bodů musíme tyto charakteristické rysy terénu identifikovat matematickými algoritmy.

A to vlastně nastiňuje náš hlavní problém s velkými daty: Jak z objemných souborů dat získat informace, které jsou pro nás užitečné?

Několik milionů dat o cestách taxi je v mapě jen nepřehledná změť bodů. Časoprostorová analýza shluků nám ale ukáže ta nejfrekventovanější místa (jako je letiště nebo nádraží), ale také časy a lokality významných událostí (plesy, premiéry filmu), při kterých byla taxi rovněž velmi vytížená.

Co se všemi daty dělat?

Kartografie má s extrahováním informací z dat zkušenosti. Shrnout rozsáhlá data z mnoha zdrojů do jedné mapy je ostatně její podstatou. Metody a postupy, které se pro tvorbu tematických map využívají, se proto s úspěchem dají použít i na zpracování velkých dat. S příchodem počítačového zpracování a interaktivních map navíc vznikají další metody vizualizace.

První tradiční metodou je generalizace. Při tvorbě mapy republiky například nepotřebujeme data o každém potůčku s každou jeho zákrutou. Kartograf vybere jen ty vodní toky, které se na mapě mají objevit, a jejich průběh generalizuje. To znamená, že zjednoduší jejich vzhled tak, aby zachoval jejich charakteristický tvar a polohu. Výsledkem je ladně zakřivená linie, která si ponechává všechny důležité prostorové vztahy s okolními prvky, a nikdy se tak nestane, že by generalizovaná řeka tekla na druhé straně silnice než ve skutečnosti.

I databáze se při práci s prostorovými daty uchylují k určité generalizaci, i když v jejich případě je cílem především urychlení prostorových operací a snazší vyhledávání správných prvků. Proč je to důležité? Představme si například databázi parcel v ČR, kterých je přes 22 milionů. Když si chceme tato data v digitální mapě zobrazit, software by musel parcelu po parcele kontrolovat, zda spadá do oblasti, na niž se právě díváme. Proto se v databázi vytváří tzv. prostorový index, který tyto operace nesmírně urychlí. Často má podobu obdélníku opsaného kolem každého prvku, což reprezentuje jeho velmi zjednodušený tvar. S ním pak počítač umí zacházet velice efektivně. Může si je ještě také roztřídit do nadřazených oblastí (představme si to jako značku, která říká například „toto je na severu“), a to mu práci dále zjednoduší.

A tak když budeme po počítači chtít zobrazit parcely příště, nejprve zjistí, na jaké území se díváme, pak sáhne do správné nadřazené oblasti a podle opsaných obdélníků vybere jen parcely, které by mohly zasahovat na území, jež sledujeme. A ty pak konečně bod po bodu zkontroluje, zda na něj opravdu zasahují. Je vidět, že čím rozsáhlejší data jsou, tím větší je i potřeba jejich indexování.

Analýzou finančních transakcí se dají vytipovat potenciální podvody. Zde nástroj nalezl několik transakcí z různých míst v relativně krátkém čase; všechny směřovaly od jednoho odesilatele k jednomu příjemci, což může znamenat praní špinavých peněz.

Agregace dat

Barevně jsou vyznačena místa se zvýšenou aktivitou blesků. (Šedé body označují všechny údery.) Údržbáři telekomunikačních společností si tak mohou vytipovat místa, kde provést preventivní prohlídku. Jednou z důležitých veličin zde byl i čas – analýza vyhledávala shluky pro každých šest hodin.

Druhou důležitou metodou je agregace neboli shlukování. Vidíme-li v mapě desetitisíce bodů, nejspíš z ní nevyčteme vůbec nic. Budeme zahlceni. Navíc i software bude mít problémy se zobrazováním tolika prvků najednou. Proto je namístě data agregovat buď do určitých oblastí, nebo k existujícím prvkům, se kterými mají tato data vztah.

Průběžná měření na meteorologických stanicích je lepší zobrazit spíš ve formě průměrné, maximální nebo minimální teploty za určitý čas než ukazovat každé měření zvlášť. V případě událostí, jako jsou například požáry, je zase lepší sumarizovat je po obcích nebo po hasičských okrscích. Podobně s daty o výskytu blesků je lepší pracovat tak, že si území rozdělíme na čtvercové nebo hexagonální buňky, kterým přiřadíme počty blesků, jež se v dané buňce vyskytly.

Z tisíců či milionů záznamů tímto způsobem získáme datové sady o velikosti, se kterou se dá na běžném hardwaru pracovat a kterou dokážeme našimi smysly pojmout.

Časoprostorové kostky

Počítačové zpracování umožňuje i nové druhy vizualizace. Jedním z nich je tzv. časoprostorová kostka, která vychází z dat agregovaných v buňkách, přičemž data jsou navíc rozdělena do časových intervalů (týdnů, měsíců) a při vizualizaci jsou tyto roviny zobrazené nad sebou. Čas v této kostce probíhá „zespoda nahoru“, a my tak můžeme sledovat vývoj veličiny nejen v prostoru, ale i v čase.

Vizualizace formou časové kostky se obvykle využívá společně s hot-spot analýzou a zobrazená data tak obvykle ukazují trendy, tedy významné shluky nízkých či vysokých hodnot.

Časoprostorová kostka ukazuje místa s významným nárůstem nebo poklesem hodnot. Každé patro kostky je jeden časový interval (například týden), a my tak můžeme sledovat vývoj jevu v čase.

Bez techniky to nejde

I přes existenci řady postupů a metod (ty výše uvedené byly pouhým příkladem) je práce s velkými objemy dat velmi náročná na výpočetní techniku, a vyžaduje proto specifické technologické postupy. Předně to je využívání paralelního zpracování, které data rozdělí na několik dílů, a výpočet je pak prováděn současně na různých procesorech. Velmi časté je také distribuované ukládání dat, kdy je databáze rozdělena na menší části, které jsou umístěny na různých místech.

Letadla vysílají téměř neustále údaje o své poloze. Tyto body můžeme spojit do linií, přiřadit jim charakteristické atributy a s daty pak pohodlněji pracovat.

Práce s velkými daty je, jak vidět, náročná úloha a v budoucnu bude určitě přibývat dat, která tímto způsobem můžeme zpracovávat. Zejména s rozvojem internetu věcí se zpřístupňují nejrůznější chytré senzory a navigace v autech. Vzrůstá i podíl dat, která se uchovávají v databázích, oproti těm, která se vyskytují v nestrukturované podobě. Případy, kdy budeme muset používat nástroje pro velká data, budou častější.

Analýza 500 milionů pozic autobusů MHD odhalila místa častých zpoždění.

Vydestilovat to nejdůležitější

Cílem zpracování velkých dat je získat nové informace. Různé způsoby sumarizací, agregací a prostorových analýz zase směřují k tomu, abychom získali (alespoň v rámci možností) srozumitelnou odpověď. K dispozici přitom máme mnohem více než pouhé zobrazení výsledků v mapě. Začlenit totiž můžeme celou řadu interaktivních funkcí, jako jsou například grafy, které se překreslují na základě vybraných prvků, nebo prohlížení v různých stupních podrobnosti (některé shluky dokážeme identifikovat pouze při velkém přiblížení). To všechno dokážou současné geografické informační systémy zajistit například ve webové aplikaci, takže k přístupu k těmto vizualizacím není potřeba žádný speciální software. Uživatelé tak mohou technologii nechat v pozadí a soustředit se především na interpretaci dat.

Ke stažení

článek ve formátu pdf [355,23 kB]

TÉMA MĚSÍCE: Velká data

OBORY A KLÍČOVÁ SLOVA: Geografie

RUBRIKA: Hlavní články

O autorovi

Jan Souček

Ing. Jan Souček, Ph.D. (*1977) je vědeckým pracovníkem v Ústavu fyziky atmosféry AV. Věnuje se experimentální fyzice kosmického plazmatu a návrhu přístrojů pro měření v elektromagnetických vln v kosmickém prostoru. Je technickým vedoucím připravovaných přístrojů pro sondy Solar Orbiter a JUICE a podílí se na návrhu budoucí družice THOR pro výzkum turbulence v plazmatu. Jeho oblíbeným výzkumným tématem je fyzika vln v horkém plazmatu slunečního větru a vnějších vrstev magnetosféry.

články autora