Jak velký je svět webovských stránek
| 5. 10. 1999Nikdo nezkatalogizuje přes 800 milionů dokumentů na webovských stránkách, které se nadto ještě často mění. Odhaduje se, že Northern Light, prohledávač s nejvyšším pokrytím, indexuje asi 38 % webu. Málo je toho známo o velkoškálové struktuře webu. Jednou z důležitých veličin charakterizujících hledání je nejkratší vzdálenost mezi dvěma dokumenty. Je definována jako nejmenší počet URL odkazů, které je třeba projít, abychom se dostali z jednoho dokumentu do druhého. Bez dalšího uveďme vztah pro průměrnou vzdálenost všech dvojic dokumentů <d> = 0,35 + 2,06×log(N). Někoho možná překvapí, že podobně jako sociální nebo biologické systémy tvoří z tohoto hlediska web tzv. síť malých světů. Pro zmíněných 800 milionů dokumentů je <dweb> = 18,59. Jinak vyjádřeno: dva náhodně zvolené dokumenty na webu od sebe v průměru nejsou dále než 19 kliknutí. Jestliže se web v nejbližších letech rozroste o 1000 %, vzroste tato průměrná vzdálenost z 19 na pouhých 21 kliknutí.
Znamená to také, že inteligentní agent, který sleduje pouze relevantní odkazy, najde požadovanou informaci rychle. To však neplatí pro robota, který lokalizuje informaci porovnáváním řetězců znaků. Takový robot, který potřebuje určit dokument ve vzdálenosti <d>, musí prohledat zhruba 0,53×N0,92 dokumentů, což v případě 800 milionů webovských stránek znamená prohledat jich asi 82 milionů. Jedinou úspěšnou strategií pro takového robota je tedy prohledat tolik webovských stránek, kolik jen možno.
Nature 401, 130, 1999
Ke stažení
- Článek ve formátu PDF [706,83 kB]