Nový jazyk pro webovské stránky
| 5. 6. 2000Před nedávnem jsme uváděli (Vesmír 78, 593, 1999/10), že existuje 800 milionů webovských stránek. Dnes již počet webovských stránek překročil miliardu a odhaduje se, že během dvou let překročí 100 miliard. Prohledávací nástroje nejenže neprohlédnou všechny webovské stránky (ty dobré, např. Google, Excite, Northern Light, AltaVista, FAST, Inktomi, prohlížejí 2050 %), ale „oindexují“ je, a pak odskočí na stránky odkazované a proces indexování může pokračovat. Výchozí stránky tak určují výsledek. Problém tvoří stránky, na něž neexistují v již zaregistrovaných stránkách odkazy. A protože se webovské stránky množí tak překotně, problém najít v té záplavě potřebnou informaci (a pokud možno jen ji) je stále závažnější. Jazyk HTML umožňoval popsat jen o málo více, než jak webovská stránka vypadá. Následující jazyk XTML umožňoval prohledávacím nástrojům navíc zpracovávat ve stránkách obsažená „metadata“. Americká agentura pro obranný výzkum DARPA nyní přišla s dalším jazykem DAML. Ten by měl umožnit prohledávacím nástrojům webovských stránek (agentům, robotům) „číst význam“ (a nejen prostý obsah).
Někteří experti jsou skeptičtí vůči všem strategiím spoléhajícím na návěstí (na kterých se musí celá webovská komunita dohodnout). Určitou naději mají dobře organizované vědecké skupiny, z nichž některé si již vytvořily standardy pro metadata (např. standard MathML). Omezujícím faktorem je však chování uživatelů - z jednoho průzkumu vyplývá, že 70 % uživatelů webu hledá podle jediného klíčového slova.
Nature 405, 111, 2000
Ke stažení
- Článek ve formátu PDF [128,14 kB]