Poznámka k lidové definici statistiky
| 5. 5. 1998Statistika je přesný součet nepřesných čísel. Lidová definice statistiky je vtipná a výstižná, až na jednu zásadní maličkost. Statistik se nezajímá o součet, a vlastně příliš ani o průměr, který v definici má správně být místo součtu. Statistik se zajímá o rozdělení. Co se tím míní, vysvětlíme na příkladech z našeho ekonomického života. Jako vhodný pojmový aparát se nabízí pojmosloví turecké.
Průměrný plat v České republice je, dejme tomu, 10 000 Kč. Nechť je rozdělení náhodné veličiny plat ve tvaru kupole mešity (na obrázcích výška každého sloupce mincí značí počet lidí s platem v určitém rozmezí děleno počtem lidí s platem).
Průměrná hodnota platu situaci charakterizuje jen hodně přibližně. Pokud by se ovšem všechny platy vešly do jednoho sloupce a rozdělení by mělo tvar minaretu, byl by průměr docela výstižný. Takové rozdělení platu měli asi na mysli utopičtí socialisté. Představitelé reálného socializmu měli spíše na mysli rozdělení, které pracovně nazvěme minaret s kadibudkou.
Poznamenejme, že najít nějaký zobecněný průměr, který by jedním číslem charakterizoval data pocházející z rozdělení s kadibudkou, je náročným úkolem robustní statistiky.
Dnešní skutečné rozdělení náhodné veličiny zvané plat je přibližně znázorněno na dalším obrázku.
Už na první pohled je zřejmé, že průměr (stejný jako v předešlých případech) toto rozdělení necharakterizuje vůbec. Když budete hledat zaměstnání, tak vám nejpravděpodobněji nabídnou nejpravděpodobnější hodnotu, která je v obdélníku vlevo. Statistici ji nazývají modus. Je dobré si zapamatovat jeden důležitý princip: modus nebrat.
Statistika vychází z pozorování. Je to pozorování, že se nikdy nepodaří získat tolik dat, aby z nich bylo možné rozdělení zkonstruovat. V případě náhodné veličiny plat je kupříkladu jistě možné získat dostatečné množství dat na daňovém úřadě. Tato metoda sběru dat však vede k závěru, že průměrný plat podnikatele je nižší než podpora v nezaměstnanosti. Reprezentativní data nezískáte ani přímým dotazováním: některých respondentů se prostě dotázat neodvážíte a k jiným vás nepustí jejich ochranka.
V zájmu exaktnosti je nutno ještě dodat, že jsou i případy, kdy se statistik o rozdělení raději nezajímá a přistoupí k odhadování nějakých charakteristik rovnou. Tak je tomu například při studiu časových řad. Časová řada vypadá dejme tomu takto
a může představovat vývoj kurzu dolaru nebo cenu akcií cestovní kanceláře na burze v čase t. Úkolem je předpovědět (predikovat), jaký kurz nebo cena bude v čase t+1, tj. zítra. Řada důmyslných metod dá v našem jednoduchém příkladě stejný výsledek, který se ale nemusí shodovat se skutečností následně pozorovanou v čase t+1. Skutečnost může vypadat i tak
(cestovní kancelář zkrachovala), nebo tak
(kurz vyskočil zavedením balíčku opatření). Predikovat balíček opatření, krach cestovní kanceláře nebo vytunelování banky zatím statistika neumí, což je možná důvodem, proč se u nás statistici predikcí ekonomických řad neživí tak dobře, jako jejich kolegové ve světě.
Ke stažení
- Článek ve formátu PDF [46,55 kB]