Co nám mohou říct funkcionální testové statistiky
| 6. 9. 2021Nové pojetí statistického testování zavádí více jistoty. Statistické testování je v dnešní době nedílnou součástí všech vědních oborů. Je to nástroj používaný pro ověřování hypotéz v sociálních i přírodních vědách. Proto jsou statistické metody důležitým oborem studia a základním kamenem výzkumu. Ale i tento základní kámen výzkumu prochází v současnosti inovačním procesem. Jednu z nových metod v nedávné době představil kolektiv autorů, v jehož středu je Tomáš Mrkvička, pracovník Ekonomické fakulty Jihočeské univerzity. Takzvaná metoda globálních obálek se dá použít ve všech vědních oborech; autoři ji pro zjednodušení demonstrují na příkladu oteplování.
Proč jste si pro demonstraci vaší metody vybrali právě oteplování? — Metodu globálních obálek jsme původně vymysleli na bodových procesech, které ale nejsou tak snadno uchopitelné, jsou obtížněji představitelné. Bodové procesy jsou například stromy v lese, u nichž zaznamenávám jejich pozice, ale třeba i hvězdy ve vesmíru nebo středy tkáňových buněk. Zkrátka jakákoliv bodová soustava v prostoru. Postupně jsme zjistili, že naše metoda je široce aplikovatelná, a začali jsme hledat další možnosti využití – jednou z nich je funkcionální testování trendů a rozdílů. A oteplování jsme zvolili proto, že jsme měli k dispozici potřebná data. Jinými slovy, neděláme žádný globální závěr o oteplování, pouze ukazujeme metodologii.
Z jaké hypotézy jste vycházeli? — Pracovali jsme s hypotézou, že určité oblasti se v posledních třiceti letech neoteplují. Použijeme-li pro tuto hypotézu klasické statistické testování, obvykle shromáždíme veškeré informace a z nich zkonstruujeme jednu jednorozměrnou statistiku, tedy jedno číslo. Jeho hodnota se od hodnot, kterých by měla dosahovat, buď významně liší, nebo je s nimi ve shodě. Podle toho hypotézu buď zamítneme, či nikoli.
Ovšem tvrzení testu ve smyslu ano/ne je poněkud ploché, a někdy dokonce nedostačující. — Uvažujme náš příklad. Máme k dispozici roční průběhy teplot vodní nádrže za posledních 30 let a ptáme se, v kterém ročním období se otepluje a v kterém ochlazuje. Otázka vygeneruje 365 hypotéz, pro každý den v roce jednu, které jednu po druhé můžeme otestovat. Pak si ale můžeme být téměř jisti, že některou hypotézu chybně zamítneme.
Proč? — Protože každý statistický test zamítá chybně obvykle v 5 % případů. Ovšem u 365 testovaných hypotéz zamítneme chybně některou z hypotéz skoro v 100 % případů. Pokusím se to ještě vysvětlit na příkladu testování na onemocnění covid-19. V celé republice děláte 50 tisíc testů denně a každý z nich má chybovost řekněme 5 %. Uvědomte si, kolik bude tím pádem ve výsledku špatně určených lidí. To nechceme. Potřebujeme takový test, který by řekl, že jsme u 50 tisíc lidí udělali jednu chybu jenom v 5 %. Chceme zkrátka omezit vytváření jakékoliv chyby.
V čem je tedy metoda globálních obálek jiná? — V tom, že řeší problém mnohonásobného testování v případě, že testová statistika je mnohorozměrná (funkcionální). V našem příkladu oteplování je vlastně testová statistika 365rozměrná. Obálka je zkonstruována takovým způsobem, aby testová funkcionální statistika opustila tuto obálku alespoň v jednom bodě právě v 5 % případů, za předpokladu platnosti hypotézy – v našem příkladu za předpokladu, že se neotepluje. Tehdy globální obálka určuje, v kterých obdobích se otepluje, neboť právě v těchto obdobích testová statistika vystoupí z globální obálky. Zároveň ale máme jistotu, že alespoň jedno chybné zamítnutí uděláme jen v 5 % případů.
Když se podíváme na obrázek s grafem, k jakým závěrům jste pomocí metody došli? — Šedě je znázorněna globální obálka pro 365 dní v roce a testovanou hypotézu žádného oteplování. Černá čára znázorňuje odhadnutou testovou statistiku a červené body testovou statistiku, v kterých na základě globální obálky můžeme zamítnout hypotézu žádného oteplování. Navíc ještě víme, kdy přesně k oteplování došlo, v tomto případě někdy kolem sto dvacátého až sto čtyřicátého dne roku, což vychází na květen.
Oteplování jste sledovali pro jednu konkrétní přehradu, je možnost jej sledovat v globálním měřítku? — Testy pro celou planetu používají velmi podobné metody, ta naše by se pro ně dala využít, ovšem nemáme k dispozici potřebná data. Museli bychom mít milion pozic na planetě a pak bychom sledovali to samé, tedy na kterých pozicích trend vylézá z obálky
Tvrdíte, že se tato metoda dá použít prakticky ve všech vědních oborech. Můžete uvést nějaký příklad? — Používali jsme ji v ekonomii, výborně se dá využít v chemii při zkoumání DNA, hodně rozšířená je v prostorové statistice, kde máme za poslední rok kolem stovky citací. Také se velmi využívá v neuroimage analýze ve zdravotnictví.
Na čem pracujete v současné době? — S kolegyní Mari Myllymäkiovou momentálně používáme naši metodu globálních obálek na detekování nebezpečných dopravních míst, konkrétně vytipováváme riziková místa havárií motocyklistů. Je to klasický příklad bodového procesu, o kterém jsem hovořil, v tomto případě na síti silnic. Našimi daty jsou místa havárií motorkářů.
Ke stažení
- článek ve formátu pdf [969,73 kB]