Tanec mezi pravděpodobnostmi
| 3. 12. 2018Forenzní genetička Halina Šimková donedávna v Kriminalistickém ústavu Praha analyzovala DNA a pomáhala odhalovat vrahy, násilníky a zloděje. To ji přivedlo k obecnějším otázkám týkajícím se hodnocení spolehlivosti důkazů. Hledá způsoby, jak spočítat a vyjádřit nejistotu, a to nejen v kriminalistických laboratořích a soudních síních.
Na webu jsem viděl upoutávku na vaši přednášku na Matematicko-fyzikální fakultě UK. O čem forenzní genetička přednáší matfyzákům? — Samozřejmě jim nemůžu vykládat nic z jejich oboru. Ale tohle bude v rámci cyklu Matematické problémy nematematiků, a o těch toho zase tedy vím celkem dost – budu prezentovat situaci ve forenzních vědách. Soud řeší nějakou v zásadě jednoduchou otázku ze života: „Udělal to Pepa, nebo neudělal?“ Při hledání smysluplné odpovědi se probírá desítkami střípků informace, a to je ošemetná věc – je třeba nezpronevěřit se matematice a logice, která je za tím, což se ne vždy daří.
Matematické a statistické nástroje by mohly pomoci, ale justice s nimi často neumí pracovat? — Nejenže neumí. Spousta lidí vůbec netuší, že mají matematický problém. Mnohé forenzní disciplíny mají ve zvyku vyjadřovat se vágně. Pro vyjádření spolehlivosti důkazu používají nejasné kategorie jako „skupinová identifikace“ nebo „je středně pravděpodobné, že…“. Ale když se autorů takových vyjádření zeptáte, kolik procent znamená ta „střední pravděpodobnost“, nevědí. Že prý tahle pravděpodobnost se v procentech nevyjadřuje. To ale přece nedává smysl, vede to jen ke zmatkům.
Místo čísel pružná slova… — Slovo je v podobných případech kvůli rozdílům v jeho subjektivním vnímání strašně nebezpečné. Když řeknu, že možná přijedu, není jasné, co tím myslím. Přijedu s pravděpodobností 70 %? Nebo 30 %? Lidé si nerozumějí – a co je horší: nevědí, že si nerozumějí. A pak je tu ještě obrácená varianta deformace pravděpodobnosti: znalec ví, že číslo vypadá „vědečtěji“ než slovo, tak řekne, že něco je pravděpodobné na 80 %, ale neumí říct, kde se to číslo vzalo. A proč to není 70 % nebo 90 %, ale právě 80 %? Ve skutečnosti ta hodnota vychází jen z jeho vágního pocitu. Způsob, jakým se ve forenzních vědách důkazy interpretují, tak připomíná v některých ohledech spíše šamanství.
„Někteří lidé si vůbec nepřipouštějí, že mají-li k dispozici omezený balík dat, zákonitě nemohou dospět k závěru, který by byl prost jakékoli nejistoty.“
Jak to myslíte? — Každý znalec by měl být schopen odkrýt karty. Umět říct, z jakých předpokladů vychází, jaká data naměřil nebo jinak získal, jaké jsou logické kroky jeho způsobu hodnocení a k jakým závěrům dochází, včetně toho, jak spočítal nějaké pravděpodobnosti. Jiný expert by měl být schopen jít v jeho stopách a třeba zvolit v jednotlivostech jiný postup a opět ho zdůvodnit. Potom možná dostane trochu jiné výsledky, ale u obou lze sledovat, jak ke svým závěrům došli. Nebo může protistrana přijít s tím, že rozporuje nějaký konkrétní předpoklad, z nějž znalec vychází, a skrze to výsledek posudku napadnout.
A realita? — Některé interpretační postupy se dědí z generace na generaci, aniž se někdo zamýšlí nad tím, zda to, co se od staršího kolegy učí, je správný způsob interpretace. A za jakých okolností a do jaké míry je spolehlivý. Ale i obory stojící na velmi solidní znalostní bázi a velmi kvalitních znalcích můžou mít interpretační problém, a to kvůli obrovské komplexitě systémů, se kterými pracují.
Například? — Vezměte si třeba soudní lékařství. Pracuje s nesmírně složitým biologickým strojem – člověkem. Když má znalec například určit příčinu smrti, hledá charakteristické znaky a porovnává je se znaky očekávanými u jednotlivých mechanismů smrti. Ale stejně jako když děláte diagnózu v klasické medicíně, zdaleka ne vždy jsou příznaky jasné a typické. A tehdy se i velmi dobrý expert při pokusu o pravděpodobnostní kvantifikaci dostává do potíží, které nejsou dány jeho neznalostí, ale tím, že lidský mozek prostě není schopen relevantně vyhodnocovat ani jednoduché, natož složitější struktury vzájemně provázaných podmíněných pravděpodobností.
Kvantifikace je u některých typů důkazů asi poměrně snadná, u jiných to ale může být obtížné. — Určitě. Dobrým příkladem snadné kvantifikace je identifikační genetika. Víme, jak ty věci fungují odspodu: jak se znaky dědí, jak se kombinují, jak jsou četné v populaci. Máme velmi dobré a funkční populační modely, a tudíž umíme váhu důkazu velmi přesně spočítat. V jiných oborech je něco podobného těžší až nemožné – v daktyloskopii, v mechanoskopii, v písmoznalectví…
Co s tím? — Předně, tam kde to jde, směřovat k využití umělé inteligence. U digitalizovatelných dat, třeba nejrůznějších 2D a 3D vizuálních porovnávání, jako jsou daktylky, písmo atd. bude trvat tak patnáct dvacet let, než se zpracování kompletně ujmou neuronové sítě. Budou mít tak malinkou chybovost, že nebude důvod, aby porovnání dělal svýma očima a hlavou člověk. I tohle už dnes vidíme v medicíně: masivní nástup umělé inteligence v diagnostice, třeba u zobrazovacích metod.
Stroje vezmou znalcům práci? — Ne úplně. Jen se změní role. Obrovsky naroste úloha data science specialistů, kteří budou ty znalecké neuronové sítě navrhovat, vychovávat a testovat. Na konci ale stejně musí být člověk – znalec, nebo v případě medicíny lékař. Ten, který vezme to, co AI vyplivla, a dá to do kontextu případu – kriminalistického nebo medicínského. A pak je tu druhá cesta: za určitých okolností totiž můžu pořád používat znalce-člověka, a dokonce ani nemusím vlastně moc vědět, jaké postupy používá.
Za jakých okolností? — I znalec je taková neuronová síť na produkci výsledků. Jen jeden stroj funguje na elektřinu a druhý na rohlíky s máslem. S nadsázkou lze říct, že mě nemusí zajímat, co, čím a jak znalec hodnotí, zda třeba nad podpisem kývá siderickým kyvadélkem – pokud ho budu moci řádně charakterizovat podobně jako jiné analytické metody, tedy prostřednictvím údajů o jeho specificitě a senzitivitě.
Jak toho dosáhnout? — Budete třeba písmoznalci předkládat různé podpisy a zjišťovat, kolikrát se spletl, tedy jaká je míra jeho falešné pozitivity a falešné negativity. Samozřejmě by to bylo velmi komplexní, pro různé podmínky, například různou složitost podpisu, protože potvrdit pravost jednoduché vlnovky je těžší než v případě nějakého komplikovaného podpisu. Každého znalce by pak bylo možno charakterizovat sadou jeho senzitivit a specificit za daných podmínek. Konkrétní znalec by při určitých podmínkách vykazoval například 98% senzitivitu (správně určí pravost u 98 ze 100 pravých podpisů) a 95% specificitu (odhalí 95 ze 100 zfalšovaných podpisů). Když by konstatoval shodu u sporného podpisu, soud by věděl, jak je toto konstatování spolehlivé.
Proč to tak ještě nefunguje? Bylo by takové kvantitativní ohodnocení znalců v praxi příliš složité? — Narážíme mnohem spíše na sociální než na metodologickou bariéru. Předně si valná většina lidí v justici neuvědomuje, že tenhle problém existuje. A navíc jim současný stav vyhovuje. Žádný znalec nechce být v roli stroje, který má na sobě nalepeny štítky s hodnotami své spolehlivosti. A soudce je také šťastný, že mu znalec nemává před očima nějakými procenty, že nemusí počítat s přesně vyjádřenou mírou nejistoty. Pro něj je lepší, když znalec řekne: „Ano, tuhle listinu podepsal Pepa.“ Snímá to z něj úzkost z nejistoty. Ale je to celé jen hra na absolutní jistotu, protože ta neexistuje.
Forenzní vědy a ti, kteří jejich výsledky využívají, se tedy musí naučit pracovat s nejistotou? — Ve všech oborech jsou lidé, kteří chtějí mít pravdu za každou cenu. A není výjimečný názor, že kdo neumí svou pravdu říci se stoprocentní jistotou, není žádný expert. Někteří lidé si totiž vůbec nepřipouštějí, že mají-li k dispozici omezený balík dat, zákonitě nemohou dospět k závěru, který by byl prost jakékoli nejistoty. A že ve skutečnosti je expert tím lepší, čím validněji umí tuto nejistotu kvantifikovat. Navíc nikdo moc nepočítá s tím, že se informace o případu mohou vyvíjet.
Takže posudek předložený soudu může vycházet z předpokladů, které mezitím přestanou platit? — Ano. Znalec se obvykle probere dostupnými informacemi, změří, co umí, vyhodnotí, odevzdá posudek a tím to pro něj končí. Ale například v prognostice se analýzy průběžně aktualizují s každou novou informací. Budu-li odhadovat cenu ropy za pět let, vyjdu z aktuální situace, ale nastane-li například neočekávaný politický vývoj v některé z klíčových zemí, prognózu podle toho upravím. A forenzní věda by měla pracovat podobně – jediný rozdíl je, že se dívá do minulosti. Objeví-li se nové zjištění, znalec by ho měl do svého posudku zapracovat a adekvátně své závěry upravit.
A co vědomé podvody? Umí jim systém čelit? — Většina skutečných podvodů ve forenzních vědách vzešla buď ze snahy krýt svou nekompetentnost, nebo ze snahy zamaskovat chybu. V prvním případě je zřejmé, že řešením je jedině pravidelné nezávislé ověřování schopností znalce, třeba pomocí srovnávacích okružních testů. Ve druhém případě se dostáváme k obecnějšímu problému, jak mají být nastavené zpětné vazby, když někdo něco „zkazí“. V té souvislosti mne napadá případ toho člověka, který zřejmě provrtal ISS na nesprávném místě a pak se to snažil zamaskovat. Proč svou chybu raději nepřiznal? Dost možná proto, že nechtěl být za pitomce, nebo nechtěl riskovat postih, vyhazov či dokonce obvinění ze sabotáže.
Snaha utajit chybu vedla k chybě mnohem větší… — Začíná to už na základní škole, kde děti zhusta učíme, že udělat chybu je něco špatného. Chybami se ale člověk učí, to není jen prázdná fráze. Děti by namísto pětky měly být vedeny k tomu, že pokud jejich výsledek není správně, znamená to, že někde na cestě k němu nastal problém. A že je důležité ho odhalit. Tím se vytvářejí zdravé zpětné vazby. Když se dítě naučí násobilku a seká výsledky jak Baťa cvičky, dalšími spočítanými příklady se už nic nového nedozví, nemá smysl mu dávat další a další jedničky.
Děti se málo učí pracovat s chybou jako se zdrojem dalšího poznání? — Děti se ve velkém učí řešit úlohy, nikoli problémy. To je rozdíl. Úloha je primitivní model, který někdo vymyslel, aby procvičil partikulární dovednost nebo znalost. Problém je kousek reality, a dítě má neomezený prostor pro uplatnění svého pohledu na věc a pro vlastní návrhy na mechanismus řešení. Zrovna včera měla dcerka v učebnici příklad: mateřská škola zakoupila tři nové koloběžky celkem za 5400 Kč. Kolik stála jedna koloběžka? Děti se učí, že mají prostě 5400 Kč vydělit třemi, jedna koloběžka tedy stojí 1800 Kč. Učí se ten mechanický úkon – dělení. To je v pořádku, jenže už se u toho neučí přemýšlet třeba o tom, že školka nemusela kupovat tři stejné koloběžky, že není jasné, jestli je v ceně doprava, a že tedy úloha může mít i jiná řešení a pro jednoznačný výsledek nemáme dostatek informací. Jedno řešení je možná hodně pravděpodobné, ale i s jinými možnostmi je nutno počítat.
Což je problém, který jste už zmínila v kontextu forenzních věd. Jak si stojíme ve srovnání se světem? — Na to nelze odpovědět takto obecně. Trochu máme smůlu, že jsme poměrně malý a ne zrovna pokrokový rybník. Sama to teď nedokážu kvantifikovat, tak mi odpusťte vágní slovní vyjádření, ale nezanedbatelná část soudních znalců u nás neumí slovo anglicky, v životě nikde nebyli a jediné, co čtou, je něco na způsob „Dolnolhotských znaleckých rozhledů“. A to je strašně špatně. Spousta problémů se ve světové odborné literatuře probírá, zabývají se jimi odborníci specializovaní na chybovost ve forenzních vědách, jsou popsány klíčové faktory, návrhy opatření k minimalizaci rizik… A tady se to vlastně v podstatě v mnoha případech neřeší.
Neexistuje žádný tlak, který by znalce ke zlepšování nutil? — Neexistuje zatím systém povinného vzdělávání. Jakmile znalec jednou získal razítko, nemusí nijak prokazovat, že drží krok s dobou. V kombinaci se zažitým přístupem, že autorita znalců se nezpochybňuje, se může stát, že se za expertní názory vydávají i hodně pochybná tvrzení. Systém umožňuje přežívání hlubokého podstandardu, protože znalci v řadě oborů vůbec nemusejí skládat účty.
Jak situaci zlepšit? Bylo by na místě novelizovat příslušné zákony? — Jistě. Je třeba stanovit povinnost průběžného vzdělávání, což se ale může snadno stát formální záležitostí, a především je třeba zavést pravidelné nezávislé testování podobné tomu, jakým už dnes musejí procházet akreditované zkušební laboratoře. To se nedá obejít tím, že si člověk sežene padesát razítek o absolvování nějakých kurzů, v nichž mu jeho kamarádi potvrdí, že to podle nich dělá dobře.
Je naděje, že se systém podaří reformovat? — Ve střednědobém horizontu ano, v krátkodobém ne.
Pardon, mohla byste kvantifikovat, co znamená „střednědobý horizont“? — (Směje se.) Výtečná otázka. U některých oborů to není větší problém už teď, protože v tomto režimu pracují od začátku. Třeba genetika. Další se k tomu začínají přiklánět a jiné si pořád ještě myslí, že z toho nějak vykličkují. Ale když půjde vše dobře, během patnácti let podle mne může dojít k tomu, že se starý přístup zcela opustí. Spoléhám na pravdivost známého bonmotu: „Nezměníme svět tím, že budeme bojovat se starým, změníme ho budováním nového.“ Věřím, že vytvoříme-li funkční systém podle nových pravidel, s nímž všichni budou umět pracovat, nebudou mít důvod ho nepřijmout.
Vy ale ve 4BIN (viz rámeček Bayesova věta…) nekritizujete způsob vyhodnocování informací jen u forenzních věd, ale ve vědě obecně. Co je podle vás špatně? —
Ale to není „podle mě“ nebo podle mých kolegů ve 4BIN. Je to věc, kterou se ve vědeckém světě zabývá stále více lidí a je potřeba o tom začít mluvit hodně hlasitě.1) Zvláště biologické, biomedicínské nebo třeba psychologické obory totiž mají obrovský problém s takzvanou replikační krizí. Pokud se velkou část publikovaných výsledků nedaří zopakovat, není to přece normální.2) Jednou z potíží je často zvrhlý způsob interpretace p-hodnoty při fisherovském testování nulové hypotézy s využitím arbitrární hladiny 0,05 a principiální nemožnost brát v rámci tohoto způsobu testování v úvahu apriorní pravděpodobnost testované hypotézy, což se při analýze velmi komplexních systémů, jako je živá příroda, začíná ukazovat jako jízdenka do pekel. My totiž testem odpovídáme na otázku, na kterou se nikdo neptal.
To mi vysvětlete. — Dám vám příklad z medicínské diagnostiky. Máte rentgenový snímek pacienta a vidíte na něm nějaký problém. Nezajímá vás, jak pravděpodobné je, že takový nebo ještě horší snímek má zdravý člověk, ale jak pravděpodobné je, že člověk s takovým snímkem je nemocný. A k tomu, abychom to zjistili, potřebujeme počítat s inverzními podmíněnými pravděpodobnostmi, tedy uvažovat bayesovsky. Musíme tedy mít nejen data, která nám řeknou, jak vypadají snímky zdravých versus nemocných, ale musíme i vědět, jak pravděpodobná byla nemoc dotyčného ještě předtím, než jsme ho zrentgenovali. A teď si stejný princip představte u libovolné vědecké hypotézy. Ani tam nám jen samotná naměřená data o výsledné pravděpodobnosti testované hypotézy nic říci nemohou. A tohle je dost možná kritický bod celé věci: že spousta lidí neakceptuje myšlenku, že data sama o sobě dokážou pouze modifikovat apriorní pravděpodobnost hypotézy. Jinak řečeno, je obrovsky důležité rozlišovat, zda je ta hypotéza relevantní, dává kupříkladu biologicky smysl, má logiku, nebo zda se nám spíše jen tak přihodila stylem „v noci ke mně přišel ve snu trpaslík a poradil mi, ať zkusím, jestli náhodou sledování porna nemá vliv na počet leukocytů“. To je nadsázka samozřejmě.
Pacient přišel s nějakými potížemi, takže pravděpodobnost, že abnormalita na rentgenovém snímku odpovídá zdravotnímu problému je předem vyšší, než kdybychom stejný snímek pořídili u náhodně vybraného člověka? — Právě. Apriorní pravděpodobnost toho, že hypotéza platí, strašlivě ovlivňuje, jak mám interpretovat získaná data. V technické nebo lékařské, ale třeba i forenzně genetické praxi se s tímhle umí pracovat. Bere se v úvahu senzitivita a specificita testu, stejně jako prevalence zkoumaného jevu. Představte si test na rakovinu prostaty, který má specificitu 99 %, takže u zdravých jedinců vyjde v jednom případě ze sta pozitivní. Kdybychom ho udělali u šestiletých dívek, u jednoho procenta z nich bychom diagnostikovali rakovinu prostaty, tedy orgánu, který vůbec nemají – prevalence je nulová. Všechny pozitivní výsledky by šly na vrub falešné pozitivity. Když stejný test uděláme skupině sedmdesátiletých mužů majících problémy s močením, vypovídací hodnota bude mnohem větší.
Biologové takto neuvažují? — Inu, odpovězte si pozorovanou mírou replikační krize, nicméně hlavně proboha nepaušalizujme. Samozřejmě je spousta kvalitního výzkumu i při klasickém fisherovském testování, což je bezpochyby dáno hlubokou erudicí lidí, kteří ho vedou – oni se prostě nepouštějí do testování nesmyslů. Koukněte například do genetiky. Mám dejme tomu podezření, že nějaký gen ovlivňuje metabolismus tuků. Dává to smysl, protože z předchozího výzkumu vím, že jeho produkt funguje v těle v nějakém kontextu. Udělám experiment, naberu data a na jejich základě mohu apriorní pravděpodobnost své hypotézy zásadně zvýšit nebo snížit. Ale pokud jen náhodně zapíchnu prst někam do genomu a opět otestuji vliv příslušného genu na metabolismus tuků, klidně se mi může stát, že na arbitrárně stanovené hladině významnosti nulovou hypotézu zamítnu, ale přitom jsem neměla žádný apriorní důvod předpokládat, že alternativní hypotéza platí. Riziko falešné pozitivity je pak obrovské.
Takže vědec publikuje pozitivní výsledek, který mu statisticky sedí, ale přesto je chybný… — Podívejte, já se věnuji především problematice forenzní expertízy, takže můj pohled do světa výzkumu berte jako pohled ze sousední, avšak ne nepodobné planety. Ve forenzní vědě se jako velmi kritické místo ukazují motivátory. Lidsky řečeno: jaké vnitřní pohnutky ovlivňují znalce a jeho závěry a jak velkou deformaci reality to může způsobit. A při znalosti téhle problematiky vidím jako mimořádně rizikový faktor nastolený systém hodnocení vědeckých výsledků. Pokud jsou lidé pod silným tlakem, který je nutí k intenzivnímu publikování, tak v kombinaci se statistickými metodami produkujícími falešně pozitivní výsledky je to smrtící koktejl. Tím vůbec neříkám, že ve vědě je všechno špatně, jen upozorňuji, že systém nemá dostatečnou ochranu proti nesprávným výsledkům, naopak jejich vznik podporuje. Existuje půvabný, a hlavně dlouhatánský seznam formulací, které vědci píšou do článků ve snaze dotlačit k publikaci i výsledky, které arbitrárně stanovená kritéria nesplňují.3) Když nedosáhnou p-hodnoty 0,05, ale třeba jen 0,053 nebo 0,06, píšou věci jako „trend k významnosti“ nebo „na hranici významnosti“. Kdyby se v biologii zavedla jako standard bayesovská inference, živná půda falešných pozitivit by do značné míry zmizela.
Poznámky
1) Wasserstein R. L., Lazar N. A., The American Statistician, DOI: 10.1080/00031305.2016.1154108.
2) Baker M., Nature, DOI: 10.1038/533452a, Cvek B., Vesmír online.
Ke stažení
- článek ve formátu pdf [364,76 kB]
O autorovi
Ondřej Vrtiška
Původním vzděláním biolog se specializací na hydrobiologii (PřF UK), utekl z oborů žurnalistika a kulturní antropologie (obojí FSV UK). Od r. 2001 pracoval jako vědecký novinář (ABC, Český rozhlas, TÝDEN, iHNed.cz), na téma „věda v médiích“ přednáší pro vědce i pro laickou veřejnost. Věnuje se popularizaci vědy, spolupracuje s Učenou společností České republiky. Z úžasu nevycházející pozorovatel memetické vichřice. Občas napíná plachty, občas staví větrolam.