Aktuální číslo:

Co s brakem v síti?

| 5. 8. 1999

| Vesmír 78, 423, 1999/8

Začátkem léta jsem se na jedné vážené konferenci (jedné z těch, které starostlivě hledí do nového tisíciletí) nechal v rámci tématu o nových médiích vtáhnout do debaty o tom, zda a jak se v záplavě textů a zpráv na internetu má potlačovat to, co je nezajímavé, nekvalitní, prostoduché, nevěrohodné, zlomyslné a zlé – označujme to nadále vše jedním slovem: brak. Tedy jak potlačit brak, aniž by při tom byla omezena svoboda projevu a aniž by si kdokoliv přisvojoval právo autoritativně rozhodovat o tom, co je brak a co nikoliv.

Zajisté starý problém; všimněme si proto nejdříve, co je zde nezvyklého. V současnosti se na celosvětové internetové síti (webu) vyskytuje přes 800 milionů veřejně přístupných stránek (adresovaných textů) a každým dnem údajně přibývá další milion. Síť se vyvíjí víceméně živelně, vložit svůj text může v podstatě kdokoliv, kdo se umí připojit, přičemž schopnost se připojit (popřípadě za to i něco zaplatit) nijak nesouvisí s kvalitou vkládané informace. Zatímco, řekněme, na knižním trhu je jen málo knih a autorů (ve srovnání s oněmi 800 miliony), takže nahlédnutí do knihy či jméno autora nám při výběru pomáhá, na internetu, pokud se na něm chceme něco rychle dovědět, jsme odkázáni na automatické prohledávače – a ty brak nerozpoznají. Pravda, mohou přednostně nabízet často navštěvované stránky, avšak ani měření návštěvnosti nás braku nezbaví. Přitom i ty nejlepší prohledávače (jako AltaVista nebo Northern Light) neznají víc než asi jen 16 % webových stránek. ¹⁾

Přesto bych neřekl, že situace je zcela beznadějná. Co může pomoci, je – paradoxně – právě ona kvantita a živelnost. Web je neobyčejně rozsáhlý kolektivní systém, jehož prvky (stránky) jsou hustě propojeny hypertextovými odkazy a v němž lze rozlišit dynamické procesy ve dvou časových měřítkách: rychlé užívání (čtení, prohledávání, „brouzdání“) a o něco pomalejší aktualizaci (vkládání nových stránek a odkazů). Takový systém na jedné straně nabízí analogii snad i s lidským mozkem, ²⁾ na druhé straně mu však natolik rozumíme, abychom se mohli pokusit odhadovat některé jeho „neviditelné“ rysy – například obsahovou kvalitu jednotlivých stránek – ze statistických vlastností jeho celkové struktury.

Budu záhy konkrétnější, nejprve však malé srovnání s jiným, obdobně živelným systémem: s vědeckými publikacemi v určitém oboru za nějaké delší časové období. Publikace jsou vzájemně propojeny citačními odkazy (raději předpokládejme, že citace nejsou ovlivněny snahou autorů účelově vyhovět scientometrickým kritériím). Lze jistě očekávat, že významnější práce budou v průměru daleko hustěji navzájem propojeny citacemi než práce okrajové a bezvýznamné. Citace navíc rozdělí práce do hustě propojených shluků, odpovídajících rozličným podoborům, tématům, názorovým směrům a školám.

Abyste mi rozuměli: nejde mi zde o uznání citačního indexu jako kritéria vědeckosti prací a jejich autorů (k tomu odkazuji na závěr poznámky P. Harmance v minulém čísle Vesmíru ³⁾ ), chci jen demonstrovat, jak i čistě strukturní vlastnosti systému mohou mít nějakou (pravděpodobnostně pojatou) vypovídací hodnotu. Čím větší systém, tím menší roli hrají výjimky a tím spolehlivěji lze odhadovat rozličné vlastnosti jeho prvků i bez znalosti jejich obsahu. (Poznamenávám, že mezi tyto vlastnosti nepatří pravdivost či správnost příslušné informace – to však nevadí: i chyba, zvlášť je-li bohatě kriticky citovaná, se může ukázat v důsledcích užitečnější než pravdivá banalita.)

Vraťme se k internetu. V červnovém čísle časopisu Scientific American mě zaujal článek, ⁴⁾ který naznačuje, jak by šlo využít znalosti struktury hypertextových odkazů k potlačení braku. Potlačení ovšem neznamená zákaz (nelze zakázat něco jen proto, že je to hloupé), znamená to pouze snížení pravděpodobnosti, že mi to můj oblíbený prohledávač nabídne. Uvažujme takto: existující stránky na webu (na dané téma) lze hodnotit ve dvou kategoriích, a to tak, že vždy na „lepší“ stránku první kategorie odkazuje mnoho „lepších“ stránek druhé kategorie a zároveň každá „lepší“ stránka druhé kategorie odkazuje na mnoho „lepších“ stránek první kategorie (obě kategorie se ovšem nevylučují). Tato definice „lepšího“ je – zdánlivě beznadějně – kruhová, ukazuje se však, že při dosti libovolných počátečních hodnotách stačí jen několik iterací, aby se hodnocení stabilizovalo. Všimněme si, že na rozdíl od běžného scientometrického principu (citovanosti druhými) je zde brán v potaz i opačný směr (citování druhých). Intuice je asi takováto: seriózní autor nejprve musí prostudovat kontext svého tématu (a ochotně citovat zdroje; brakem se přitom asi chlubit nebude). Pokud vyplodí něco hodnotného, pravděpodobně se dočká, že ho zase jiní seriózní autoři rádi ocitují.

V rámci internetu je uvedená strategie použitelná zejména proto, že ji v něm lze snadno automatizovat. Navenek se to pak bude jevit, jako by si internet pečoval o svou kvalitu sám. (Asi by jen bylo třeba promyslet, jak se při hodnocení omezovat pouze na věcné a informované odkazy; domnívám se, že detekce rozsáhlejších, hustě propojených a zacyklených shluků zde může pomoci.)

Závěrem bych rád konstatoval, že se nám tu snad i rodí nová věda, možná že se jí bude říkat infometrie. Pozoruhodně se v ní bude muset prolínat experiment (řadu vlastností internetu nelze zkoumat jinak než empiricky), teorie (na způsob statistické fyziky) a konstrukce (rozšiřování internetu o nové algoritmy).

Poznámky

1) S. Lawrence, C. Lee Giles: Accessibility of information on the web, Nature 400, 107–109, 1999.

2) Srov. úvodník Nový prostor, Vesmír 76, 3, 1997/1.

3) O čem svědčí citovanost prací, Vesmír 78, 365, 1999/7.

4) Členové projektu Clever: Hypersearching the web, Scientific American 280, 44–52, 1999/6.

Ke stažení

Článek ve formátu PDF [36,38 kB]

OBORY A KLÍČOVÁ SLOVA: Různé

RUBRIKA: Úvodník

O autorovi

Ivan M. Havel

Doc. Ing. Ivan M. Havel, CSc., Ph.D., (11. 10. 1938 – 25. 4. 2021) po vyloučení z internátní Koleje krále Jiřího pro „buržoazní původ“ dokončil základní školu v Praze a poté se vyučil jemným mechanikem. Později však večerně vystudoval střední školu a večerně také automatizaci a počítače na Elektrotechnické fakultě ČVUT (1961–1966). V letech 1969 až 1971 postgraduálně studoval na Kalifornské univerzitě v Berkeley, kde získal doktorát v matematické informatice. Po návratu se v Ústavu teorie informace a automatizace ČSAV zabýval teorií automatů. Z politických důvodů musel ústav v roce 1979 opustit a až do roku 1989 se živil jako programátor v družstvu invalidů META. Nespokojil se však s prací pro obživu. Organizoval bytové semináře, věnoval se samizdatové literatuře. Po sametové revoluci od listopadu 1989 do června 1990 působil v Koordinačním centru Občanského fóra. V polovině roku 1990 se stal spoluzakladatelem a prvním ředitelem transdisciplinárního pracoviště Centra pro teoretická studia UK a AV ČR. Nadále se zabýval kybernetikou, umělou inteligencí a kognitivní vědou, v souvislosti s transdisciplinaritou jej zajímala komplexita, emergentní jevy, vznik vědomí. V roce 1992 se habilitoval v oboru umělá inteligence. Do roku 2018 přednášel na MFF UK. Od srpna 1990 do konce roku 2019 byl šéfredaktorem časopisu Vesmír. Stejně jako v CTS i zde svou zvídavostí i šíří zájmů propojoval vědce, filosofy, umělce. Editoriály, které psal do Vesmíru, daly vznik knihám Otevřené oči a zvednuté obočí, Zvednuté oči a zjitřená mysl a Zjitřená mysl a kouzelný svět. (Soupis významnějších publikací)

články autora