Co s brakem v síti?
| 5. 8. 1999Začátkem léta jsem se na jedné vážené konferenci (jedné z těch, které starostlivě hledí do nového tisíciletí) nechal v rámci tématu o nových médiích vtáhnout do debaty o tom, zda a jak se v záplavě textů a zpráv na internetu má potlačovat to, co je nezajímavé, nekvalitní, prostoduché, nevěrohodné, zlomyslné a zlé – označujme to nadále vše jedním slovem: brak. Tedy jak potlačit brak, aniž by při tom byla omezena svoboda projevu a aniž by si kdokoliv přisvojoval právo autoritativně rozhodovat o tom, co je brak a co nikoliv.
Zajisté starý problém; všimněme si proto nejdříve, co je zde nezvyklého. V současnosti se na celosvětové internetové síti (webu) vyskytuje přes 800 milionů veřejně přístupných stránek (adresovaných textů) a každým dnem údajně přibývá další milion. Síť se vyvíjí víceméně živelně, vložit svůj text může v podstatě kdokoliv, kdo se umí připojit, přičemž schopnost se připojit (popřípadě za to i něco zaplatit) nijak nesouvisí s kvalitou vkládané informace. Zatímco, řekněme, na knižním trhu je jen málo knih a autorů (ve srovnání s oněmi 800 miliony), takže nahlédnutí do knihy či jméno autora nám při výběru pomáhá, na internetu, pokud se na něm chceme něco rychle dovědět, jsme odkázáni na automatické prohledávače – a ty brak nerozpoznají. Pravda, mohou přednostně nabízet často navštěvované stránky, avšak ani měření návštěvnosti nás braku nezbaví. Přitom i ty nejlepší prohledávače (jako AltaVista nebo Northern Light) neznají víc než asi jen 16 % webových stránek. 1)
Přesto bych neřekl, že situace je zcela beznadějná. Co může pomoci, je – paradoxně – právě ona kvantita a živelnost. Web je neobyčejně rozsáhlý kolektivní systém, jehož prvky (stránky) jsou hustě propojeny hypertextovými odkazy a v němž lze rozlišit dynamické procesy ve dvou časových měřítkách: rychlé užívání (čtení, prohledávání, „brouzdání“) a o něco pomalejší aktualizaci (vkládání nových stránek a odkazů). Takový systém na jedné straně nabízí analogii snad i s lidským mozkem, 2) na druhé straně mu však natolik rozumíme, abychom se mohli pokusit odhadovat některé jeho „neviditelné“ rysy – například obsahovou kvalitu jednotlivých stránek – ze statistických vlastností jeho celkové struktury.
Budu záhy konkrétnější, nejprve však malé srovnání s jiným, obdobně živelným systémem: s vědeckými publikacemi v určitém oboru za nějaké delší časové období. Publikace jsou vzájemně propojeny citačními odkazy (raději předpokládejme, že citace nejsou ovlivněny snahou autorů účelově vyhovět scientometrickým kritériím). Lze jistě očekávat, že významnější práce budou v průměru daleko hustěji navzájem propojeny citacemi než práce okrajové a bezvýznamné. Citace navíc rozdělí práce do hustě propojených shluků, odpovídajících rozličným podoborům, tématům, názorovým směrům a školám.
Abyste mi rozuměli: nejde mi zde o uznání citačního indexu jako kritéria vědeckosti prací a jejich autorů (k tomu odkazuji na závěr poznámky P. Harmance v minulém čísle Vesmíru 3) ), chci jen demonstrovat, jak i čistě strukturní vlastnosti systému mohou mít nějakou (pravděpodobnostně pojatou) vypovídací hodnotu. Čím větší systém, tím menší roli hrají výjimky a tím spolehlivěji lze odhadovat rozličné vlastnosti jeho prvků i bez znalosti jejich obsahu. (Poznamenávám, že mezi tyto vlastnosti nepatří pravdivost či správnost příslušné informace – to však nevadí: i chyba, zvlášť je-li bohatě kriticky citovaná, se může ukázat v důsledcích užitečnější než pravdivá banalita.)
Vraťme se k internetu. V červnovém čísle časopisu Scientific American mě zaujal článek, 4) který naznačuje, jak by šlo využít znalosti struktury hypertextových odkazů k potlačení braku. Potlačení ovšem neznamená zákaz (nelze zakázat něco jen proto, že je to hloupé), znamená to pouze snížení pravděpodobnosti, že mi to můj oblíbený prohledávač nabídne. Uvažujme takto: existující stránky na webu (na dané téma) lze hodnotit ve dvou kategoriích, a to tak, že vždy na „lepší“ stránku první kategorie odkazuje mnoho „lepších“ stránek druhé kategorie a zároveň každá „lepší“ stránka druhé kategorie odkazuje na mnoho „lepších“ stránek první kategorie (obě kategorie se ovšem nevylučují). Tato definice „lepšího“ je – zdánlivě beznadějně – kruhová, ukazuje se však, že při dosti libovolných počátečních hodnotách stačí jen několik iterací, aby se hodnocení stabilizovalo. Všimněme si, že na rozdíl od běžného scientometrického principu (citovanosti druhými) je zde brán v potaz i opačný směr (citování druhých). Intuice je asi takováto: seriózní autor nejprve musí prostudovat kontext svého tématu (a ochotně citovat zdroje; brakem se přitom asi chlubit nebude). Pokud vyplodí něco hodnotného, pravděpodobně se dočká, že ho zase jiní seriózní autoři rádi ocitují.
V rámci internetu je uvedená strategie použitelná zejména proto, že ji v něm lze snadno automatizovat. Navenek se to pak bude jevit, jako by si internet pečoval o svou kvalitu sám. (Asi by jen bylo třeba promyslet, jak se při hodnocení omezovat pouze na věcné a informované odkazy; domnívám se, že detekce rozsáhlejších, hustě propojených a zacyklených shluků zde může pomoci.)
Závěrem bych rád konstatoval, že se nám tu snad i rodí nová věda, možná že se jí bude říkat infometrie. Pozoruhodně se v ní bude muset prolínat experiment (řadu vlastností internetu nelze zkoumat jinak než empiricky), teorie (na způsob statistické fyziky) a konstrukce (rozšiřování internetu o nové algoritmy).
Poznámky
Ke stažení
- Článek ve formátu PDF [36,38 kB]