Aktuální číslo:

2024/4

Téma měsíce:

Obaly

Obálka čísla

Je sémantický web řešením?

Jak putovat datovou džunglí kyberprostoru
 |  17. 2. 2005
 |  Vesmír 84, 104, 2005/2

Sémantický web jako nová forma webu, jehož obsah je smysluplný pro počítače, rozpoutá revoluci nových možností.

Tim Berners-Lee

Problém webu

Všichni, kdo používají web (viz Vesmír 74, 425, 1995/8), to znají. Situace na webu je nepřehledná a pro každého, kdo potřebuje získat nějakou informaci, i značně frustrující. Jistě si vzpomenete na seznamy odkazů se zcela nerelevantním významem, které vám vyprodukoval některý vyhledávací stroj, nebo na nepřehledné portály či dobře „ukryté“ vortály. 1) Pravda, po nějaké době si uživatel zběhlý ve formální logice najde způsob jak získat to, co hledá, nicméně to stále stojí příliš mnoho zcela neproduktivního času. Rovněž nástroje běžného prohlížeče (browseru) pro vytváření katalogů (bookmarků), jež přece jen poněkud usnadňují život, neodpovídají zcela situaci na webu.

Proč je stále ještě „pomalý“ a „nepřehledný“?

Hlavní příčinu vidím v tom, že původně byl web navržen do poněkud jiných podmínek (pro početně omezenou akademickou komunitu) a pro poněkud odlišný cíl (usnadnit členům komunity publikování a sdílení výsledků výzkumných prací).

Základem webu je technologie hypertextových odkazů. Tak jak jsou odkazy na webu používány, umožňují propojit cokoliv s čímkoliv, a tím vytvářet decentralizovanou strukturu webu. Přitom otázku, zda odkazy skutečně na něco odkazují, ponechali autoři webu na webovém „publicistovi“ nebo správci internetového serveru. Všichni jistě známe neblaze proslulé hlášení internetového prohlížeče „Error 404: not found“.

Návrh webu byl výsledkem kompromisů, kterým byla obětována především integrita, úplnost a kvalita poskytovaných dat. Tak jak se web prakticky exponenciální rychlostí rozšiřuje, zhoršuje se doba přístupu k informacím, což je patrně nejvážnější. Tato negativa jsou na druhé straně vyvážena velmi snadným způsobem publikování, neobyčejnou rozšiřitelností a (díky distribuované infrastruktuře internetu, na níž je web realizován) také značnou odolností proti globálnímu zhroucení.

Přes uvedené nevýhody vykazuje struktura hypertextových odkazů, je-li vhodně užita, výbornou schopnost vyjádřit význam uložených dat, neboť může v podstatě představovat sémantickou síť. Díky tomu je web jako zdroj informací a vědomostí stále ještě použitelný.

Vraťme se k problému exponenciálně se šířícího webu a bující datové džungle, která vyplňuje kyberprostor. Jak uvidíme dále, metafora kyberprostoru jako datové džungle je celkem užitečná. Má-li být prostředí datové džungle zdravé (sloužit jako efektivní zdroj informací, vědomostí a prostředí pro komunikaci), musí v ní panovat takové zákony, které zamezí, aby dynamika nárůstu neproduktivních nebo mrtvých částí webu překonala dynamiku produktivních částí. Jestliže má být datová džungle webu efektivním zdrojem, musí zákony této džungle účinně fungovat jako zákony ekologie datových zdrojů.

Možnosti řešení uživatelských problémů

  • Hrubá síla. Klasické řešení (zvýšení výkonů komunikačních linek, serverů i stanic), při aplikaci informačních technologií běžně užívané, jen dále zvyšuje nepřehlednost a zrychluje exponenciální růst. Řešení je nutno hledat v automatické manipulaci s webovými daty. Současná konceptuální a informační vrstva webu, tvořená hypertextovou sítí a webovými dokumenty, je především humánní rozhraní, což šanci na efektivní automatizaci zhoršuje.

    Již v počátcích výstavby webu byla tendence vybavit HTML (původní značkovací jazyk webových dokumentů) nástroji pro (alespoň omezené) vyjádření sémantiky, které mělo manipulaci s webovými dokumenty usnadnit a zpřesnit. Používání těchto značek se však postupně opouštělo.

  • Dolování dat z webu. Ačkoli jsem naznačil, že počítačová analýza a zpracování současných webových dat jsou obtížné, jeden ze směrů, které se snaží řešit problémy uživatelů webu, z této možnosti vychází. Dolování dat z www se již široce využívá a má praktické aplikace. Metody dolování dat z webu využívají analýzu struktury webových stránek a asociací mezi webovými textovými dokumenty.

    Zajímavou technologií dolování dat z www je užití citační analýzy stránek, která spočívá ve vyhledání webových zdrojů s výsadním postavením v daných oborech. To se zjišťuje počtem odkazů na webový zdroj z různých míst webu. Pro každý obor je tak určena takzvaná autorita. Dále jsou identifikovány zdroje, jejichž prvotním účelem je na tyto autority odkazovat. Tato kategorie zdrojů plní roli rozcestníků. Každé internetové stránce jsou v rámci analýzy přidělena čísla vyjadřující stupeň příslušnosti do skupiny autorit nebo skupiny rozcestníků. Algoritmus založený na citační analýze, užívaný systémem Clever firmy IBM, je základem úspěšného vyhledávače „Google“.

    Přístup založený na metodách dolování dat pracuje s webem takovým, jaký je, užití metod je efektivní. Tento přístup k zefektivnění webu řeší sice jen některé aspekty, ale přesto se zdá, že začlenění metod dolování dat do technologie sémantického webu by bylo přínosné.

  • Sémantický web jako globální vědomostní báze. Automatizace zacházení s webovými daty, která má být řešící strategií, vyžaduje upravit web tak, aby byl srozumitelný nejen lidem, ale i strojům, přesněji webovým agentům, kteří mají obstarávat automatizovanou, velmi účelnou, a tedy efektivní interpretaci dat a poskytovat inteligentní služby. Agenti mají spolupracovat nejen s lidskými uživateli webu, ale i mezi sebou. Tato vize byla nazvána „sémantický web“ nebo web druhé generace.

Zmíněné webové služby se mají uskutečňovat kooperovanou činností agentů s využitím globální vědomostní báze, která vytvořením sémantického webu postupně vznikne. V této vizi se setkaly dva typy technologií – technologie klasické umělé inteligence (AI), tak jak se používají v expertních systémech při budování vědomostních bází, a technologie webu (viz rámeček 1 - „Technologie sémantického webu“). Zdá se, že jejich spojení bude plodné a v jistém smyslu objevné, neboť umožní řešit krizi, ve které se nacházejí obě oblasti. Obdobně jako u webu se i u sémantického webu předem počítá s kompromisy – a opět budou souviset s decentralizovanou architekturou. Sémantický web akceptuje důsledky Gödelova teorému o existenci nerozhodnutelných tvrzení. Akceptování existence nerozhodnutelných problémů je cenou za přizpůsobivost a efektivnost. Tento kompromis znamená opět především neúplnost.

Ontologie

Přes to, co bylo uvedeno, je stále možné, aby byl tentýž pojem označen více různými kódy, nebo aby jeden kód označoval více pojmů. Agent musí mít možnost poznat, s jakým významem pro daný datový zdroj se může setkat. Pro řešení tohoto problému má sloužit další komponenta sémantického webu – ontologie. Tento termín si výzkumníci umělé inteligence vypůjčili z filozofie a označují jím soubor formálně definovaných relací mezi objekty. Nejtypičtější webovou ontologií je taxonomie a množina odvozovacích pravidel, jak je známe např. z vědomostních bází v klasické umělé inteligenci. Odvozovací pravidla v ontologii umožňují odvozovat další vztahy mezi entitami, popřípadě třídami entit.

Právě těchto vlastností ontologií si mimořádně cení budovatelé takzvané nové ekonomiky. I sféra obchodní má vysoké požadavky na přesné vymezení pojmů, neboť obchodní transakce uskutečněné na webu mají finanční dopady. Tím, že se řada transakcí svěří webovým agentům, bude se nová ekonomika rozvíjet. Proto je ontologii věnována mimořádná pozornost. V současné době je pro účely specifikace ontologií navržena řada jazyků, z nichž jmenujme alespoň Web Ontology Language (OWL), s nímž přišlo konsorcium W3C (centrum, kde vznikají a kde jsou formulovány nejen koncepty, ale i definice jazyků, protokolů atd.). Užití ontologií k upřesnění významů kódů XML nebo textů na webové stránce má být zajištěno ukazateli ze stránky do příslušné ontologie. Problém různého významu téhož kódu pak musí řešit odpovídající relace, dávající do souvislosti definice pro tentýž pojem.

Ontologie zvyšují funkčnost webu tím, že umožní zpřesnit webové hledání. Vyhledávací program se může díky ontologiím zaměřit na ty stránky, kde je vyhledávaný řetězec užit pouze v požadovaném významu. Toto je ta nejjednodušší forma využití ontologií, další, sofistikovanější možnosti, využívají asociace struktury vědomostí a odvozovacích pravidel ontologie. Takové užití ontologií umožňuje například zcela automatickou prezentaci všech relevantních informací o nalezeném objektu nebo zodpovídání dotazů.

Jak sémantický web uvést v život?

Autoři vizionářského článku o sémantickém webu 2) předpokládají, že se web bude měnit postupně, neuvažují, že by se vedle dosavadního webu budoval web sémantický. Nepředpokládají totální sémantizaci webu, ale společnou existenci obou sfér, přičemž klíčové civilizační aktivity (podnikání, věda, státní správa, spravedlnost, vzdělání) budou nepochybně zahrnuty do sféry sémantické.

Základní technologické předpoklady pro uskutečnění vize sémantického webu jsou splněny. Rozvoj technologie lze očekávat v ontologiích a jazycích pro definování ontologií. Největší rozvoj čeká webové agenty – složku sémantického webu, která vše oživuje.

Dalším logickým krokem po zpřístupnění „informačního, resp. vědomostního obsahu webu“ webovým agentům je vybavení webových agentů schopností automatické tvorby a údržby ontologií a dalších stránek technologie sémantického webu. 3)

Je zřejmé, že malou pružnost klasických expertních systémů bude možné definitivně překonat jedině tehdy, když budou RDF a ontologie budovány a udržovány agenty, kteří budou mít schopnost učení a automatické aktualizace prostředků sémantického webu. Institucionálně je sémantický web zajištěn především konsorciem W3C. Toto konsorcium vede Tim Berners-Lee, ideový otec webu a jeden ze spoluautorů vize sémantického webu. 4) Na sémantický web je zaměřen nejeden výzkum (viz rámeček 2 - „Výzkumné programy zaměřené na sémantický web“).

Vedlejší efekty sémantického webu

Předpokládá se exponenciální růst efektivity webových agentů s rozšířením strojově čitelných webových zdrojů. To by pak mělo mít za následek omezení neproduktivní práce uživatelů, snazší přístup k webovým službám, informacím a vědomostem. Dále lze očekávat kvalitativní skok v charakteru webových služeb, které budou přesnější a přizpůsobivější.

Autoři vizionářského článku (viz pozn. 2) ) předpokládají vznik prostředí, které prolomí bariéry mezi malými skupinami, které sice efektivně spolupracují, avšak vytvářejí si vlastní pojmy a dialekty. To je nebezpečné především ve vědě, kde by se to mohlo stát překážkou pro spolupráci s jinými pracovními skupinami, působícími mimo obor. Sémantický web může vytvořit prostředí pro spolupráci a sdílení vědomostí. K tomu účelu je vhodně vybaven prostředky, mezi nimiž největší roli hrají ontologie, a proto je jim dnes věnována mimořádná pozornost. Pro účely specifikace ontologií byla navržena řada jazyků, z nichž jmenujme alespoň Web Ontology Language (OWL) konsorcia W3C. Užití ontologií k upřesnění významů kódů XML nebo textů na webové stránce má být zajištěno ukazateli ze stránky do příslušné ontologie. Problém různého významu téhož kódu pak musí řešit odpovídající relace, dávající do souvislosti definice pro tentýž pojem.

Očekává se, že se sémantický web rozšíří i do fyzického světa. Nejenže URI může odkazovat na cokoli, včetně objektů reálného světa, ale rovněž RDF může popisovat reálná zařízení jako mobilní telefony nebo měřicí aparatury. Tato zařízení pak mohou být řízena stejně jako weboví agenti. Pro tyto účely již také byly vytvořeny první standardy.

Sémantický web přinese jistě řadu právních a etických problémů, jejichž podobu lze spíše tušit než dohlédnout. Příkladem takových problémových oblastí je ochrana soukromí a právní identity, spolehlivá a nezpochybnitelná autorizace transakcí atd.

Sémantický web dnes

Někteří z vás si možná položili otázku, jak moc jde o praktickou záležitost dneška, jaké jsou praktické výstupy iniciativy sémantického webu.

Prozatím jde o převážně vývojovou aktivitu, na níž se podílí řada univerzitních pracovišť obou stran Atlantiku, nicméně existují již první aplikace používané v průmyslu. Například americký energetický průmysl (výrobci a distributoři elektrické energie) užívá RDF pro výměnu modelů energetických systémů mezi systémovými operátory. 5)

Knowledge Media Institut na Open University v Londýně vyvinul zajímavý nástroj s názvem „Magpie“ pro sémanticky obohacené brouzdání sémanticky značenými webovými dokumenty. Magpie umožňuje identifikaci a filtrování konceptů, jež jsou předmětem uživatelova zájmu. Tento nástroj je možné bezplatně získat na kmi.open.ac.uk/projects/magpie.

Jak je koncept sémantického webu přijímán

Vize i technické detaily sémantického webu jsou stále předmětem diskusí, především mezi softwarovými a vědomostními inženýry, jichž se realizace týká nejvíc. Krom toho se o sémantickém webu diskutuje i v řadách tvůrců webových stránek a aplikací. Většina z nich očekává výsledky vývoje se zájmem, i když postoje nejsou jednoznačně kladné. Někteří očekávají nárůst komplikací při publikování na webu a orientaci sémantického webu ve prospěch uživatelů (pro které je web zdrojem informací, vědomostí a služeb) vidí jako nebezpečnou změnu poměrů. Jsou to patrně ti uživatelé webu, pro něž je prvotní službou webu možnost co nejjednodušeji publikovat.

Literatura

Ontologie a WWW, Vojtěch Svátek
VŠE Praha, nb.vse.cz/~svatek/onto-www.pdf > Building a Semantic Web Site, Erie van der Vlist, www.xml.com/pub/au/74 > An Idiot’s Guide to the Resource Description Framework, Renato Iannella, The University of Queensland, 1998
OWL Web Ontology Language Guide, www.w3.org/TR/2004/REC-OWL-Guide-20040210/ >

Poznámky

1) Vortály jsou odpovědí na specifický zájem zákazníka o zcela konkrétní informace. Poskytují informace a zdroje pro určité odvětví. V podstatě poskytují novinky, průzkumy, statistiky, diskuse, informační bulletiny, online nástroje a další služby, které uživatelům přinášejí fakta o konkrétním odvětví.
2) Tim Berners-Lee, James Hendler, Ora Lassila: The Semantic Web, Scientific American, květen 2001.
3) Semiautomatická Konštrukcia Ontologií z Textov, David Čeljuska, diplomová práce, Technická univerzita v Košicích.
4) Na webových stránkách konsorcia (www.w3c.org) najdete vše podstatné, co se vzniku sémantického webu týká. Iniciativa není přirozeně omezena jen na konsorcium W3C, na výzkumu a vývoji se podílí řada institucí a soukromých firem.
5) Bližší informace je možné získat na adrese: www.langdale.com.au/xmlcim.

TECHNOLOGIE SÉMANTICKÉHO WEBU

  • XML (eXtensible Markup Language) umožňuje popsat strukturu webového dokumentu bezezbytku, což je důležitý (nikoli postačující) předpoklad pro vyjádření jeho sémantiky.

  • RDF (Resource Description Framework) je struktura popisu a výměny metadat. Slouží k vyjádření významu. Děje se tak souborem trojic, které jsou tvořeny subjektem, slovesem a objektem elementární věty. Tyto trojice jsou zapsány pomocí značek (tagů) XML.

  • URI (Uniform Resource Identifiers) jsou krátké řetězce symbolů, které identifikují zdroje webu. Jejich prostřednictvím je jednoznačně idnetifikován každý subjekt a objekt. Pro zajímavost, zdroje popsané v RDF nemusí být nutně webové objekty, rovněž URI mohou označovat reálné objekty mimo web. Význam URI pro sémantický web je značný. Díky této technologii nejsou již pojmy v dokumentu jen jako slova, ale jsou vázány do unikátních definic, což má umožnit, aby mohlo být na webu nalezeno cokoliv.

VÝZKUMNÉ PROGRAMY ZAMĚŘENÉ NA SÉMANTICKÝ WEB

/Několik z mnoha pracovišť, která se uvedenou problematikou zabývají/

Stanford Knowledge Systems Laboratory realizuje projekt „DAML“ (DARPA Agent Mark UP Language and Taskable Agent Software Kit). Cílem je tvorba agentů schopných dynamicky identifikovat informační zdroje, porozumět jim a poskytnout jim vzájemnou operabilitu na sémantické úrovni.

Evropská komise ve svém Action Line „Semantic Web Technologies“ vytyčila cíl uschopnit uživatele webu pro přístup k informacím v kvalitě, která by odpovídala jejich potřebám a zájmům.

Projekt On-To-Knowledge (IST-1999-10132) byl z iniciativy EU nastartován v lednu 2000; jeho cílem je vytvořit nástroj vědomostního managementu obsahově řízený prostřednictvím ontologií. Na projektu se podílí řada institucí z celé západní Evropy, projekt koordinuje Vrije Universiteit Amsterdam. Produktem je OIL (Ontology Inference Layer).

SLOVNÍČEK

data – uchovávané nebo komunikované kódy (řetězce symbolů v různé materiální formě odpovídající technologii manipulace a uchování), které splňují podmínky interpretovatelnosti; účelem shromažďování dat je efektivně uchovávat a sdílet informační nebo vědomostní metadata – data o datech, např. data zachycující strukturu a význam jiných dat; mohou mít třeba podobu slovníku dat nebo konceptuálního modelu báze dat.

informace – význam či hodnota přisuzované datům; významy jsou datům přiřazovány na základě vědomostí (proces se nazývá interpretace); data mohou být nositeli informace také jen pro daný případ a danou osobu.

vědomosti (poznatky) – data, jejichž informace se nemění v čase, nejsou závislá na uživateli a mohou tvořit mimořádně komprimovanou formu; tím umožňují lidem i strojům, aby je efektivně uchovávali a manipulovali s nimi. V prostoru dat jsou vědomosti navigačním systémem pro vyhledávání informací a odvozování jiných vědomostí. Existují různé kategorie vědomostí, obvykle se rozlišují deklarativní (odpovídající na otázku Co je to?) a procedurální (odpovídající na otázku Jak se to dělá? popř. Jak to probíhá?). Reprezentace vědomostí může být jazyková ve formě tvrzení, jinou formou jsou sémantické sítě.

vědomostní báze (báze poznatků) – jedna z komponent expertního systému, která s využitím metod reprezentace vědomostí, vhodné pro činnost expertního systému, zachycuje vědomosti experta v oblasti, pro niž je expertní systém navržen.

expertní systém – produkt vědomostního inženýrství (jedné z disciplín klasické umělé inteligence); je schopen nalézat řešení problémů s využitím báze vědomostí vytvořené při jeho vývoji s využitím znalostí expertů pro oblast svého užití. Expertní systémy nalezly uplatnění v lékařství, prospektorství, diagnostice poruch systémů, v oblasti investic na kapitálových trzích, v bankovních systémech pro poskytování úvěrů a jinde. Umějí nejen nalézat řešení minimálně na úrovni průměrného lidského experta, ale také uživateli poskytnou odůvodnění.

AI (Artificial Intelligence) – umělá inteligence je věda o vytváření strojů nebo systémů, které budou při řešení určitého úkolu užívat takový postup, který bychom u člověka považovali za projev inteligence (M. Minsky, 1967).

dolování dat – skupina informačních technologií pro získávání poznatků z bází dat; dolování dat z www lze zhruba rozdělit na analýzu návštěvnosti www stránek, analýzu chování uživatelů na webu a analýzu struktury stránek (její součástí je i citační analýza stránek).

web – síť dokumentů a služeb vzájemně provázaných hypertextovými odkazy, funkční na infrastruktuře internetu.

kyberprostor – termín poprvé použil r. 1984 W. Gibson v novele „Neuromancer“; dnes se používá jako synonymum pro web.

hypertextový odkaz – „živé“ propojení mezi zdroji webu; aktivace hypertextového odkazu na aktuálně zobrazené části webu umožní zobrazit odkazovaný zdroj, ať se nachází kdekoli na webu; vyjádření souvislosti jedné části dokumentu s jinou nebo jiným dokumentem výrazně usnadňuje přístup k informacím.

webový dokument – původně elektronická obdoba běžného textového dokumentu doplněného o hypertextové odkazy, dnes elektronický kontejner obsahující objekty, jako jsou texty, tabulky, formuláře, obrázky, videa, animace, ale i aplikace rovněž s hypertextovými odkazy.

webový zdroj – jakýkoli objekt na webu schopný nést informace, např. webový dokument, obrázek, stahovatelný soubor, schránka elektronické pošty, nebo jakýkoliv proces poskytující webové služby.

ontologie – ve znalostním inženýrství „formální specifikace sdíleného konceptuálního modelu“ (definice W. Borst). Účelem ontologií je: usnadnit a zpřesnit porozumění mezi lidmi, kteří vyvíjejí přesně kooperované úsilí, zpřesnit a umožnit komunikaci mezi počítačovými systémy (agenty), usnadnit návrh vědomostně orientovaných aplikací.

sémantika – (v tomto kontextu) vyjádření vazby mezi daty nebo jejich přípustnými strukturami a koncepty.

Ke stažení

OBORY A KLÍČOVÁ SLOVA: Počítače, internet

O autorovi

Ludvík Benda

Ludvík Benda (*1951) vystudoval Matematicko-fyzikální fakultu UK, obor teoretická kybernetika. Pracoval jako programátor, analytik databázových aplikací, je expert na datové modelování a projektové řízení. Působí jako nezávislý konzultant pro oblast IT a projektového řízení. (e-mail: bendaq@hotmail.com)

Doporučujeme

Přírodovědec v ekosystému vědní politiky

Přírodovědec v ekosystému vědní politiky uzamčeno

Josef Tuček  |  2. 4. 2024
Petr Baldrian vede Grantovou agenturu ČR – nejvýznamnější domácí instituci podporující základní výzkum s ročním rozpočtem 4,6 miliardy korun. Za...
Od krytí k uzavření rány

Od krytí k uzavření rány

Peter Gál, Robert Zajíček  |  2. 4. 2024
Popáleniny jsou v některých částech světa až třetí nejčastější příčinou neúmyslného zranění a úmrtí u malých dětí. Život výrazně ohrožují...
Česká seismologie na poloostrově Reykjanes

Česká seismologie na poloostrově Reykjanes s podporou

Jana Doubravová, Jakub Klicpera  |  2. 4. 2024
Island přitahuje návštěvníky nejen svou krásnou přírodou, ale také množstvím geologických zajímavostí, jako jsou horké prameny, gejzíry a aktivní...