Netestování testování
| 9. 2. 2012„Jaké znáš největší číslo?“ „O jedničku větší než ty,“ odpověděla kočka komisaři.
Testem neprošla; projevila nebezpečnou a netestovatelnou inteligenci, takže se jí museli zbavit.1)
Kdysi dávno jsem napsal pro tento časopis článek Testování testování,2) v němž jsem vyprávěl o tom, jak vlastně k testování (mentálních, duševních schopností) došlo: psychologie se chtěla vyrovnat přírodním vědám – a jak jinak, než že také bude měřit (subjekty), protože jen tak bude podle dobových (a dosud přežívajících) představ pokládána za objektivní (testování udělá ze subjektů objekty). Jak už tomu u měření bývá, nevědělo se, co se to vlastně měří, důležité ale bylo měřit. „Měřte! Nevíte, co máte měřit? Měřte i přesto!“ říkával prý jeden profesor sociologie na Harvardu. Platí to i pro přírodní vědy; jejich historici vyprávějí, že celých sto let, které následovaly po objevu teploměru, se zjišťovalo, co teploměr vlastně měří. Podle některých termodynamiků to prý pořádně nevíme dodnes. Subjektivně je to jasné každému, kdo se ráno podívá na teploměr, aby věděl, jak se obléct. Prostě je tady korelace s našimi pocity chladu a tepla. Objektivně ve fyzice je to dáno rovnicemi, v nichž se tato veličina vyskytuje; co je to za veličinu, je dáno způsobem jejího měření.
Každý test, psal jsem v tom článku, musí být standardizován a validován. Standardizace má zaručit, aby test probíhal pokaždé naprosto stejně a aby se tak jeho výsledky daly vzájemně porovnávat. To nebývá tak těžké, na rozdíl od validace, která má zaručit, že to, co test měří, je to, co měřit má, například inteligenci či vzdělání. Musíme tedy mít něco nezávislého, s čím můžeme výsledky testování porovnávat a korelovat, což vyžaduje občas výjimečnou vynalézavost a nápaditost. Rozšířilo se tak nakonec mínění, že většina testů testuje jen schopnost úspěšně takové testy absolvovat, a vznikaly dokonce firmy a instituce, jejichž jediným posláním bylo vycvičit v uvedené schopnosti. Takovými institucemi mají teď být u nás všechny školy, abych už prozradil, kam to směřuji.
Uvedl jsem tehdy příklad testování, které mělo zjišťovat schopnosti jedince k programování počítačů. Jeden z takových testů vytvořila někdy v polovině padesátých let skupina nadšenců u firmy IBM po vzoru testů IQ. Jmenoval se PAT (Programmer’s Aptitude Test) a stal se nesmírně populárním, dokonce pronikl i k nám, i když tady se tehdy používaly testy jiné, zvané kádrové. Nikoho nenapadlo takový test validovat, i když zde by to bylo jednoduché: vyzkoušet jej na dobrých programátorech, nebo jej podstoupit před kurzem programování a pak se podívat, jak absolvent dopadl při psaní opravdového programu. Když se to pak dodatečně v sedmdesátých letech provedlo, ukázalo se, že u tohoto testu jsou korelace se skutečnou schopností programovat nepatrné, někdy dokonce záporné: kdo tím testem projde, neměl by vůbec programovat.
Testy, zvláště ty, kde se má vybrat správná odpověď z několika daných, více než jen připomínají vytváření podmíněných reflexů. Na tom se zakládaly kdysi „programované učebnice“: do další kapitoly bylo možné postoupit až poté, co se bezchybně reagovalo na všechny otázky. Na konci se tak vytvořila celá síť podmíněných reflexů; kdo prokázal, že reaguje na stimuly správně, mohl dostat potvrzení, že je odborníkem v dané oblasti. Za týden ovšem všechny podmíněné reflexy vyhasly a nezbylo nic, totiž až na ten papír o odbornosti.
Třeba by se to dalo pozměnit a otočit. Uchazeč by místo otázky dostal čtyři možné odpovědi a otázku k nim by měl vymyslet; vyhrál by ten, kdo by vymyslel otázku nejchytřejší a nejvtipnější. Ale už jistě víte, jak by to dopadlo: uchazeč by dostal na výběr čtyři různé otázky a měl by vybrat tu správnou.
Původní článek o testování testování jsem psal kvůli závěru: Každoročně dochází k masovému testování při zkoušení žáků a studentů. Klade si vůbec někdo otázku po validaci takových testů? Zná někdo odpovídající korelace? A co teprve otázka: jaká je korelace mezi složením zkoušek a úspěchem v dalším studiu či v zaměstnání? Nejsou zde některé korelace záporné? Tehdy ovšem ještě nedocházelo k masovému testování typu ověřování podmíněných reflexů, a tak jsem si dovolil vyslovit naději, že korelace s tím, čemu se říká vzdělání, nejsou většinou záporné. Dříve než zodpovíme otázku po kladných korelacích kladně, měli bychom však aspoň trochu zaváhat.
Nyní už ani takový umírněný a opatrný optimismus nesdílím. U masového testování žáků základních i středních škol vím o jediném testování testování: testování spolehlivosti softwaru a hardwaru. O žádné jiné validaci nevím, pokud ovšem už není vzdělání ztotožněno se schopností procházet testy, u nichž nevíme, co vlastně testují. Korelace tady ovšem jsou, ale spíše s přizpůsobivostí, poddajností, netvořivostí, především však s nevzdělaností.
Nemají-li zvítězit nevzdělanci a prosadit nevzdělanost u nás, bude muset nastoupit třetí jednání tohoto příběhu: rázné a důkladné testování netestování.
Poznámky
1) Volně podle Philip J. Davis, Filosofující kočka z Pembroke, přeložil J. Fiala, Lidové noviny 1995.
2) Jiří Fiala, Testování testování, Vesmír 73, 245, 1994/5.
Ke stažení
- článek ve formátu pdf [153,11 kB]