Aktuální číslo:

2017/12

Téma měsíce:

Kontakty

Co s brakem v síti?

 |  5. 8. 1999
 |  Vesmír 78, 423, 1999/8

Začátkem léta jsem se na jedné vážené konferenci (jedné z těch, které starostlivě hledí do nového tisíciletí) nechal v rámci tématu o nových médiích vtáhnout do debaty o tom, zda a jak se v záplavě textů a zpráv na internetu má potlačovat to, co je nezajímavé, nekvalitní, prostoduché, nevěrohodné, zlomyslné a zlé – označujme to nadále vše jedním slovem: brak. Tedy jak potlačit brak, aniž by při tom byla omezena svoboda projevu a aniž by si kdokoliv přisvojoval právo autoritativně rozhodovat o tom, co je brak a co nikoliv.

Zajisté starý problém; všimněme si proto nejdříve, co je zde nezvyklého. V současnosti se na celosvětové internetové síti (webu) vyskytuje přes 800 milionů veřejně přístupných stránek (adresovaných textů) a každým dnem údajně přibývá další milion. Síť se vyvíjí víceméně živelně, vložit svůj text může v podstatě kdokoliv, kdo se umí připojit, přičemž schopnost se připojit (popřípadě za to i něco zaplatit) nijak nesouvisí s kvalitou vkládané informace. Zatímco, řekněme, na knižním trhu je jen málo knih a autorů (ve srovnání s oněmi 800 miliony), takže nahlédnutí do knihy či jméno autora nám při výběru pomáhá, na internetu, pokud se na něm chceme něco rychle dovědět, jsme odkázáni na automatické prohledávače – a ty brak nerozpoznají. Pravda, mohou přednostně nabízet často navštěvované stránky, avšak ani měření návštěvnosti nás braku nezbaví. Přitom i ty nejlepší prohledávače (jako AltaVista nebo Northern Light) neznají víc než asi jen 16 % webových stránek. 1)

Přesto bych neřekl, že situace je zcela beznadějná. Co může pomoci, je – paradoxně – právě ona kvantita a živelnost. Web je neobyčejně rozsáhlý kolektivní systém, jehož prvky (stránky) jsou hustě propojeny hypertextovými odkazy a v němž lze rozlišit dynamické procesy ve dvou časových měřítkách: rychlé užívání (čtení, prohledávání, „brouzdání“) a o něco pomalejší aktualizaci (vkládání nových stránek a odkazů). Takový systém na jedné straně nabízí analogii snad i s lidským mozkem, 2) na druhé straně mu však natolik rozumíme, abychom se mohli pokusit odhadovat některé jeho „neviditelné“ rysy – například obsahovou kvalitu jednotlivých stránek – ze statistických vlastností jeho celkové struktury.

Budu záhy konkrétnější, nejprve však malé srovnání s jiným, obdobně živelným systémem: s vědeckými publikacemi v určitém oboru za nějaké delší časové období. Publikace jsou vzájemně propojeny citačními odkazy (raději předpokládejme, že citace nejsou ovlivněny snahou autorů účelově vyhovět scientometrickým kritériím). Lze jistě očekávat, že významnější práce budou v průměru daleko hustěji navzájem propojeny citacemi než práce okrajové a bezvýznamné. Citace navíc rozdělí práce do hustě propojených shluků, odpovídajících rozličným podoborům, tématům, názorovým směrům a školám.

Abyste mi rozuměli: nejde mi zde o uznání citačního indexu jako kritéria vědeckosti prací a jejich autorů (k tomu odkazuji na závěr poznámky P. Harmance v minulém čísle Vesmíru 3) ), chci jen demonstrovat, jak i čistě strukturní vlastnosti systému mohou mít nějakou (pravděpodobnostně pojatou) vypovídací hodnotu. Čím větší systém, tím menší roli hrají výjimky a tím spolehlivěji lze odhadovat rozličné vlastnosti jeho prvků i bez znalosti jejich obsahu. (Poznamenávám, že mezi tyto vlastnosti nepatří pravdivost či správnost příslušné informace – to však nevadí: i chyba, zvlášť je-li bohatě kriticky citovaná, se může ukázat v důsledcích užitečnější než pravdivá banalita.)

Vraťme se k internetu. V červnovém čísle časopisu Scientific American mě zaujal článek, 4) který naznačuje, jak by šlo využít znalosti struktury hypertextových odkazů k potlačení braku. Potlačení ovšem neznamená zákaz (nelze zakázat něco jen proto, že je to hloupé), znamená to pouze snížení pravděpodobnosti, že mi to můj oblíbený prohledávač nabídne. Uvažujme takto: existující stránky na webu (na dané téma) lze hodnotit ve dvou kategoriích, a to tak, že vždy na „lepší“ stránku první kategorie odkazuje mnoho „lepších“ stránek druhé kategorie a zároveň každá „lepší“ stránka druhé kategorie odkazuje na mnoho „lepších“ stránek první kategorie (obě kategorie se ovšem nevylučují). Tato definice „lepšího“ je – zdánlivě beznadějně – kruhová, ukazuje se však, že při dosti libovolných počátečních hodnotách stačí jen několik iterací, aby se hodnocení stabilizovalo. Všimněme si, že na rozdíl od běžného scientometrického principu (citovanosti druhými) je zde brán v potaz i opačný směr (citování druhých). Intuice je asi takováto: seriózní autor nejprve musí prostudovat kontext svého tématu (a ochotně citovat zdroje; brakem se přitom asi chlubit nebude). Pokud vyplodí něco hodnotného, pravděpodobně se dočká, že ho zase jiní seriózní autoři rádi ocitují.

V rámci internetu je uvedená strategie použitelná zejména proto, že ji v něm lze snadno automatizovat. Navenek se to pak bude jevit, jako by si internet pečoval o svou kvalitu sám. (Asi by jen bylo třeba promyslet, jak se při hodnocení omezovat pouze na věcné a informované odkazy; domnívám se, že detekce rozsáhlejších, hustě propojených a zacyklených shluků zde může pomoci.)

Závěrem bych rád konstatoval, že se nám tu snad i rodí nová věda, možná že se jí bude říkat infometrie. Pozoruhodně se v ní bude muset prolínat experiment (řadu vlastností internetu nelze zkoumat jinak než empiricky), teorie (na způsob statistické fyziky) a konstrukce (rozšiřování internetu o nové algoritmy).

Poznámky

1) S. Lawrence, C. Lee Giles: Accessibility of information on the web, Nature 400, 107–109, 1999.
2) Srov. úvodník Nový prostor, Vesmír 76, 3, 1997/1.
3) O čem svědčí citovanost prací, Vesmír 78, 365, 1999/7.
4) Členové projektu Clever: Hypersearching the web, Scientific American 280, 44–52, 1999/6.

Ke stažení

OBORY A KLÍČOVÁ SLOVA: Různé
RUBRIKA: Úvodník

O autorovi

Ivan M. Havel

Doc. Ing. Ivan M. Havel, Ph.D., (*1938) absolvoval FEL ČVUT v Praze. V letech 1969–1971 studoval Ph.D. (počítačové vědy) na University of California v Berkeley. Několik let pracoval jako výzkumný pracovník v Ústavu teorie informace a automatizace ČSAV. V současné době je docentem na Univerzitě Karlově v Praze a působí v Centru pro teoretická studia (společném pracovišti UK v Praze a AV ČR), jehož byl v letech 1990 – 2008 ředitelem. Přednáší na MFF UK.
Havel Ivan M.

Doporučujeme

Jak si delfíni ucpávají uši

Jak si delfíni ucpávají uši audio

Jaroslav Petr  |  17. 12. 2017
Hluk v mořích a oceánech produkovaný člověkem ohrožuje kytovce. Může je dočasně ohlušit nebo jim trvale poškodit sluch. Nově objevený fenomén by...
Tajemná sůva šumavská

Tajemná sůva šumavská

Jan Andreska  |  17. 12. 2017
Byl vyhuben a vrátil se. Na Šumavu lidskou snahou a do Beskyd vlastním přičiněním. Puštík bělavý teď žije opět s námi, ale ohrožení trvá.
Hmyz jako dokonalý létací stroj

Hmyz jako dokonalý létací stroj

Rudolf Dvořák  |  4. 12. 2017
Hmyz patří k nejdokonalejším a nejstarším letcům naší planety. Jeho letové schopnosti se vyvíjely přes 300 milionů let a předčí dovednosti všech...

Předplatným pomůžete zajistit budoucnost Vesmíru

Tištěná i elektronická
verze časopisu
Digitální archiv
od roku 1994
Speciální nabídka
pro školy a studenty

 

Objednat předplatné