Mff2025KvantovéPřednáškyOřízlýMff2025KvantovéPřednáškyOřízlýMff2025KvantovéPřednáškyOřízlýMff2025KvantovéPřednáškyOřízlýMff2025KvantovéPřednáškyOřízlýMff2025KvantovéPřednáškyOřízlý

Aktuální číslo:

2025/11

Téma měsíce:

Vlny

Obálka čísla

Prohledávač otevřených dat

 |  1. 10. 2018
 |  Vesmír 97, 559, 2018/10

Množství volně přístupných „velkých“ dat roste spolu s tím, jak přibývá nástrojů pro jejich snadné zpracování. Ale aby člověk mohl data využít, musí se k nim nejprve dostat.

V tom by mohl napomoci nový nástroj od společnosti Google. Služba Dataset Search, dostupná na toolbox.google.com/datasetsearch, cílí především na vědce, datové novináře a geeky. Rozšiřuje portfolio specializovaných vyhledávacích služeb, z nichž jsou pro vědeckou komunitu zajímavé například Google Scholar nebo Books.

Podle Google by nový nástroj měl být přínosný především pro mladé vědce, teprve si budující síť kontaktů, která je k potřebným datům může navést. A také pro vědce věnující se mezioborovému výzkumu, protože ti často potřebují data z oblastí, v nichž se běžně nepohybují, takže nevědí, kam si pro ně sáhnout. (O novinářích to platí tím spíše.)

Nástroj prohledává otevřené databáze, které na web umisťují státní i nevládní organizace, vydavatelé open access časopisů, výzkumné instituce a další subjekty. Neskenuje však přímo obsah databází. Hledá pouze v metadatech, jimiž správci databází své produkty opatřili. A ne všichni data popisují tak, aby je prohledávací roboti našli a správně interpretovali.

I proto jsou výsledky zatím poněkud rozpačité. Některé informace se nám při testování najít nepodařilo, přestože existují (např. volně přístupná data Českého statistického úřadu). Jindy jsou relevantní výsledky schovány pod těmi méně využitelnými. (Zkuste si například vyhledat genom modelového háďátka Caenorhabditis elegans. Známá databáze WormBase se objeví až za několika tabulkami s dílčími informacemi z konkrétních vědeckých publikací.)

Výsledky by se měly postupně zlepšovat jak díky zdokonalování vyhledávacích algoritmů, tak díky lepší správě metadat. K tomu snad přispěje i projekt Schema.org, usilující o standardizaci strukturovaných dat na webu. Podílejí se na něm Google, Microsoft, Yahoo a Yandex.

Ke stažení

OBORY A KLÍČOVÁ SLOVA: Počítače, internet
RUBRIKA: Zákulisí

O autorovi

Ondřej Vrtiška

Původním vzděláním biolog se specializací na hydrobiologii (PřF UK), utekl z oborů žurnalistika a kulturní antropologie (obojí FSV UK). Od r. 2001 pracoval jako vědecký novinář (ABC, Český rozhlas, TÝDEN, iHNed.cz), na téma „věda v médiích“ přednáší pro vědce i pro laickou veřejnost. Věnuje se popularizaci vědy, spolupracuje s Učenou společností České republiky. Z úžasu nevycházející pozorovatel memetické vichřice. Občas napíná plachty, občas staví větrolam.
Vrtiška Ondřej

Doporučujeme

Lidské ucho v počítači

Lidské ucho v počítači uzamčeno

Pavel Jungwirth, Ondřej Ticháček  |  3. 11. 2025
Podle známého výroku Richarda Feynmana člověk něčemu pořádně porozumí, až když to sám sestrojí. A já (Pavel Jungwirth) jsem si z velmi osobních...
Deset let gravitačních vln

Deset let gravitačních vln

Ondřej Zelenka  |  3. 11. 2025
Letos v září jsme oslavili 10 let od první přímé detekce gravitačních vln. Jejich zaznamenáním jsme nejen doplnili další dílek skládačky důkazů...
Horké vlny v měnícím se klimatu

Horké vlny v měnícím se klimatu

Jan Kyselý, Ondřej Lhotka  |  3. 11. 2025
Tent o příspěvek navazuje na článek Horké vlny v měnícím se klimatu: otazníky zůstávají (Vesmír 91, 28, 2012/1) a shrnuje aktuální stav poznatků...