Lékaři a věda statistická
| 5. 6. 1995Ze školy si pamatujeme, že když zahříváme železnou tyč a měříme dostatečně přesně její délku, roztahuje se v závislosti na teplotě zákonitým způsobem. Ta zákonitost je velmi jednoduchá a nepřipouští výjimky: když si změřenou délku tyče vyneseme do grafu v závislosti na teplotě, leží - v jistém rozsahu - téměř přesně na přímce. Fyzikové jsou ovšem lidé opatrní a všímají si i malých odchylek: naučili se počítat - doslova! - s tím, že i procedura měření má svou chybu, přinejmenším náhodnou (pokud ne i systematickou) a že i kdyby se tyč sama chovala ideálně, naměřené délky mohou mít od přímkové závislosti jisté odchylky. Biologický a lékařský výzkum však probíhal po staletí bez přímé a výrazné návaznosti na způsob myšlení fyziků. Zprvu se přirozeně zaměřoval na výrazné a jednoduché účinky a souvislosti. Podáme-li pokusnému zvířeti bakteriální jed, endotoxin, vystoupí prudce jeho tělesná teplota. Podchladíme-li zvíře po farmakologické přípravě, poklesne podstatně jeho srdeční frekvence. Takové masivní reakce se zdály promlouvat tak jasnou řečí, že nevznikaly žádné metodické problémy stran náhodných vlivů.
Tělo (jeho utváření a činnosti) však nepozůstává jen z jevů na úrovni jednoduchosti železné tyče. Ty už jsou dnes dávno prozkoumány a výzkum se posunuje na úroveň efektů stále jemnějších a zákonitostí stále složitějších a subtilnějších. Ostatně už i uvedené příklady fyziologických závislostí nejsou tak jednoduché, jak je ve fyzice obvyklé. Naměřené hodnoty v podstatě nikdy neleží přesně na jednoduchých křivkách, nýbrž mají okolo nich vždycky určitý rozptyl. Tento rozptyl zdaleka není - na rozdíl od běžných fyzikálních příkladů - vytvářen jen chybou měřicí metody. Studované chování těla, pozorovaný jev, není totiž ovlivňován jenom naším pokusným zásahem, který máme "pod kontrolou", ale zároveň i řadou dalších vlivů, které i při nejlepší vůli a rafinovanosti uspořádání pokusu odstranit nemůžeme. I kdybychom vzali zvířata téměř identické genetické konstituce (zvířata zvaná "inbrední"), téhož věku, pohlaví, hmotnosti, se kterými se individuálně stejně zacházelo (je to možné zaručit?), lze odchylky od zjišťovaných zákonitostí sice omezit, ale nikdy úplně vymýtit. Zvíře se v průběhu pokusu adaptuje na jeho podmínky, vnímá výstražný pach a zvuky jedinců, kteří byli použiti k experimentu před ním, mění se fáze jeho fyziologického denního rytmu a mnoho jiného. Vliv přirozených zdrojů variability se nezaměnitelně a neodbytně hlásí přítomností rozptylů změřených či spočtených hodnot.
Řádově vyšší odchylky musíme nutně očekávat, je-li předmětem výzkumu člověk. Nemáme - bohudík! - žádné inbrední populace nebo klony lidí, každý z nás je geneticky zcela jedinečně založen a má svou jedinečnou osobní historii. Studium jemných pokusných efektů na člověku je proto stále náročnější, ne-li beznadějnější. Situace je podobná, jako když se mají na velkou dálku přenést silně "zašuměné" signály měřicích aparatur ze vzdálených kosmických sond. I biolog a medicínský badatel musí svůj "signál" vyfiltrovávat ze stále více a více šumem postižených zpráv. Blízké okolí "planety Tělo" je už prozkoumáno a je třeba jít do stále větších dálav: do studia jemných účinků, tj. takových, kdy se na daném efektu účastní řada příčin, takže jednotlivá příčina není rozhodující a snadno rozeznatelná, do studia "silně nelineárních interakcí" mezi těmito mnohočetnými příčinami, jejich vzájemného "neočekávatelného" ovlivňování, případů jejich podivné souhry, "synergetických" efektů. To vše je překryto "šumem", tj. souhrnným vlivem všech faktorů, které nás v dané chvíli nezajímají a které nemáme pod kontrolou.
Existuje racionálně, tj. rozumně propracovaná metoda jak dobývat signál ze šumu: říká se jí matematická statistika. Statistikou není, když si trafikant spočítá, kolik procent lidí u něho kupuje ty či ony noviny; to je nanejvýš příklad primitivního statistického šetření. Matematická statistika je obecná metoda, jak dělat induktivní závěry z pozorovaného, poněvadž každé pozorování bez výjimky je zatíženo určitým šumem, nejistotou, náhodností.
Očekávali bychom, že tak univerzální a bytostně důležitá metoda bude výzkumníkům v biologických a lékařských oborech dnes už běžná. Podle toho, co jsme už naznačili, by se dala úloha statistiky (pro stručnost budeme vynechávat přívlastek "matematické") srovnat v těchto oborech s úlohou mikroskopie. Rozdíl je v tom, že zatímco mikroskopování přináší "primární data", bezprostředně pozorovaná "fakta", statistika umožňuje jejich racionální interpretaci (s ohledem na vliv náhodných faktorů). Interpretace ovšem není ve vědě o nic méně důležitá než tzv. fakta sama; to by však bylo téma samo pro sebe.
Bývám svědkem obhajob vědeckých prací v oboru medicíny (a nechci mluvit za jiné obory teoretické nebo aplikované biologie). Ačkoliv nestatistik, nemohu se ubránit dojmu, jaký by měl asi mikroskopik, kdyby zjistil, že má někdo v morfologické laboratoři jen sto let starý mikroskop, a to hlavně jako pěknou mosaznou starožitnost zdobící polici. A že pokud ho přece jen někdy sundá, že si plete mikrošroub s makrošroubem a že se do něj chvílemi pokouší dívat obráceně - od strany preparátu! Ostatně posuďte sami.
Jinak zřejmě velmi svědomitý badatel, klinický hematolog, mluví opakovaně o zjištěných rozdílech (mezi kontrolní a pokusnou skupinou) jako o "velmi pozoruhodných, i když statisticky nevýznamných rozdílech". Co tím asi míní? Co je to vlastně statistická významnost? Téma, které dělá medikům potíže i po absolvování speciálního semináře. Čtenář promine, když to zopakuji: Statisticky významný je takový výsledek šetření (pozorování, pokusu), o kterém lze výpočtem zjistit, že nastává z náhodných příčin jen s jistou malou pravděpodobností. Věda usuzuje v podstatě stejně jako mladá dáma, která potkává při ranní cestě do práce nápadně často jistého sympatického mladého muže: za tak vysokou častostí setkání možná něco vězí, totiž jeho aranžmá, tedy příčina nenáhodná. Rozdíl je jen v tomto: Mladá dáma, není-li to zrovna statistička, interpretuje danou četnost výskytu jevu podle své povahy a intuice. Dostatečným sebevědomím opatřená si vyšší četnost vyloží jako pokus o sblížení, pocitem méněcennosti postižená si tutéž četnost vyloží jako pouhé náhody hru záludnou.
Věda ovšem musí spět za objektivitou: i zvolí si - konvenčně - hranici pro svou "statistickou významnost", tj. oněch pověstných 5 procent.
Náš hematolog ovšem ví, že bez vyjádření se k statistické významnosti výsledků nemůže se ctí předstoupit před vědecké publikum: vždyť se to tak žádá, každý oponent a redakce chce mít v posuzované práci svůj t-test, tak jako chce mít soupis použité literatury. I t-testuje, až se práší. Použil v pokusech, dejme tomu, čtyři úrovně faktoru v pěti časových intervalech: i vypočte hodnotu statistiky t pro všechny kombinace výsledků, porovná s tabulkami, vybere ty, které "vyšly signifikantně", a zavrhne ty, které "vyšly nesignifikantně". Zapomněl, že t-test je určen výhradně pro srovnání polohy dvou souborů, a netuší, že svou úlohu měl řešit jinými statistickými metodami. Pak se mu může stát, že např. v časové řadě pozorování jedné proměnné se žádný jednotlivý výsledek neodlišuje signifikantně od výchozího stavu (použitý vliv "nevychází signifikantně"), i když je na první pohled zřejmé, že skoro všechny výsledky v určitém časovém intervalu jsou nad nebo pod kontrolní hodnotou, což ovšem jistě není náhodné! Chyba je zde v použití nevhodné statistické metody, nikoliv ve "slepotě" statistiky. Náš badatel to netuší a uzavírá, že výsledek je nesignifikantní, i když je "pozoruhodný" - a nyní se v jeho hlavě uzavře bludný kruh: K čemu je mi statistika, když není schopná dokázat to, co vidím už pouhým pohledem na graf? A docela logicky jí pak věnuje přesně tolik péče, kolik věnuje byrokraty vyžadované zprávě ze služební cesty. Jeho trestem bude, že se nikdy nedozví, že pověstný t-test je jen něčím na způsob prvního pohledu do školního mikroskopu.
Jiný příklad: Zjevně erudovaná a zasloužilá klinická lékařka si vytkne za cíl zlepšit diagnostiku jisté zapeklité nemoci použitím velkého počtu diagnostických metod v jejich vzájemné interakci. Očekávali bychom, že metodickým jádrem práce bude právě analýza této interakce metod, konstatování stupně jejich vzájemné závislosti, nahraditelnosti, optimálního pořadí použití apod., k čemuž existuje už celá knihovna statistických metod, a dokonce hotových počítačových programů. Ničeho z toho se nedočkáme, naopak, na dotaz v tomto směru paní doktorka překvapeně odtuší, že opravdu neví, k čemu by jí zde byla statistika dobrá. - V analogické situaci se někdy ocitnou ti výzkumníci, kteří se zajímají o rytmický výskyt a projevy chorob v průběhu dní, měsíců a let. I pro ně zůstává mnohdy už hotový a k přímé aplikaci nachystaný statistický aparát zcela netušenou neznámou.
Není zde příležitost k hromadění ukázek myšlení a konání našich klinických výzkumníků (bohužel asi většiny). O tom by mohli vyprávět povolanější - profesionální statističtí konzultanti našich lékařských fakult a výzkumných ústavů, pokud si je kde ovšem zřídili. Šlo nám o nastínění typického základního postoje ke statistice jako metodě - o nepochopení jejího poslání a principiální nezbytnosti. Jeden z kořenů tohoto přezíravého postoje je zřejmě v tom, že skutečně výrazné příčiny vyvolávají tak výrazné účinky, že jsou vidět "už pouhým okem"; vědec se pak může spokojit intuitivní úvahou jako vzpomenutá sebevědomá slečna - to přece nemůže být náhoda! Jenže dnes už není středem pozornosti jednofaktorová etiologie (jedna příčina) podle vzoru: bakterie Vibrio cholerae - dramatické průjmové onemocnění, cyankali - smrtelná otrava, poškozeno dýchací barvivo. Čteme-li současné práce o etiologii nejběžnějších nemocí - hypertenze, aterosklerózy, diabetu, vředové nemoci trávicího ústrojí, vrozených malformací plodu, vážných duševních poruch - setkáváme se všude s vysloveně multifaktoriální etiologií. To znamená, tyto nemoci nejčastěji nemají u určité osoby jedinou příčinu, ale řadu příčin či spíše podmínek, podmínek genetických i podmínek prostředí, jejichž účinky jsou - právě pro jejich mnohočetnost - jednotlivě jen nevelké, náznakové, "zašuměné", a teprve ve svém komplexu významné. Zde je statistika zásadním nástrojem výzkumu, a to nikoliv statistika na úrovni t-testu nebo jemu podobných, ale statistika zvaná multivariační, mnohdy značně komplikovaná a rafinovaná, použitelná často jen v rukou specialisty.
Neprovést statistický test na významnost zjištěného rozdílu, korelace, trendu atd. a mluvit o nich, jakoby se samo sebou rozumělo, že jsou výsledkem pokusného zásahu či jiného zákonitého faktoru, se vlastně rovná popření principu dostatečného důvodu. Je to tak, jako když paní učitelka přisoudí bez dalšího šetření rozbité okno ve třídě poškolákovi Kubovi ("pokusnému činiteli"), když je mohl stejně tak dobře rozbít jeho spolužák Ondra ("náhodný faktor"), který s ním byl v kritickou dobu sám ve třídě (a oba vinu popírají). Nejde-li tedy o zmíněné velké efekty, kdy pravděpodobnostní analýzu můžeme provést i intuitivně a často ji provádíme nevědomě, rovná se ignorování pravděpodobnostní analýzy v induktivní vědě popření elementárních logických principů racionálního myšlení.
Moderní multivariační metody by byly nemyslitelné bez použití výkonných počítačů a rodí se paralelně s nimi. Rád bych zde však upozornil na nebezpečí, které číhá právě ze strany (osobních) počítačů na statistické laiky. Na rozdíl od mikroskopu, do kterého se lze dívat obráceně jen s jistými potížemi, lze do formuláře určité statistické metody, nabízeného počítačem, dosadit téměř jakákoliv čísla. Počítač ani "okem nemrkne" a odvede výsledek. I tehdy, když je nesprávný nebo i absurdní. Badatel, který nedošel ve své metodické průpravě dál než ke špatně pochopenému t-testu, pak také ani okem nemrkne a opíše výsledek do publikace. Poněvadž však nejde o "tvrdá data", nýbrž "jen" o jejich interpretaci, prochází mu to mnohem snadněji, než kdyby např. místo mikroskopických obrazů buněk publikoval obrazy smítek na krycím sklíčku.
Štítě se houfu těch, kteří neproduktivně lamentují nad špatností světa (popř. toho našeho zde a dnes), uvažuji, co by bylo možné našim medicínským vyzkumníkům doporučit. Nepochybně především systematickou, popř. povinnou výchovu během pre- i postgraduálního studia ke zvládnutí základních logických principů a technik matematické statistiky. Ve vlastní výzkumné praxi pak ovšem systematickou a včasnou spolupráci (už při plánování sběru dat!) s odborným konzultantem - také ovšem ne jakýmkoliv, nýbrž zkušeným v biologické a medicínské oblasti.
Pravděpodobnostní styl uvažování se však každému vyplatí i jako občanovi. Snad každý druh sociálního šarlatánství a demagogie si více či méně posluhuje nekorektní prezentací výsledků statistických šetření v sociální oblasti. Kdo z nás však ví, že i procenta mají svůj rozptyl a ten že je potřeba znát? Uvádí-li novinář nebo politik s tendenčním úmyslem, že nějaký pozitivní ukazatel klesl za poslední rok z 86 % na 74 %, je třeba se ptát, jestli směrodatná odchylka zmíněných 86 % činí 2 %, nebo 20 % (a totéž u oněch 74 %)! V prvním případě musíme brát uvedený pokles mnohem vážněji než ve druhém, kdy neznamená třeba vůbec nic! Kdo z nás ví, že se tvrzení o časových trendech (dejme tomu, že se na Ukrajině rodí každý rok třikrát tolik dvouhlavých telat než v minulém roce, ale třeba také, že se v posledních letech zvětšuje "ozonová díra") statisticky obecně dokazuje velmi obtížně? Ten, kdo se se statistickou analýzou těchto tzv. časových řad někdy setkal, si může dovolit zachovat si od novinářských tvrzení o trendech užitečný odstup.
Bylo řečeno, že logika jako nástroj přesné komunikace patří k demokracii. Je možné dodat, že i matematická statistika jako nástroj přesného zacházení s ne zcela určenými daty patří k demokracii, nejen k vědě.