Aktuální číslo:

Testování testování

| 5. 5. 1994

| Vesmír 73, 245, 1994/5

Když hlavní hrdinka románu Kočka z Pembroke od amerického matematika a filozofa matematiky Philipa J. Daviese, která se narodila v malé vesničce v nížinách východní Anglie a které dají později studenti cambridgeské koleje Pembroke jméno Thomas Gray (po anglickém romantickém básníkovi, který napsal ódu na milovanou kočku, která se mu utopila v akváriu se zlatými rybičkami), když tedy tato kočka dospěje, obrátí se na místního poradce pro volbu povolání – což je jiná kočka jménem Mevrow. A Mevrow začne, jak se sluší a patří, psychologickými testy inteligence. Povídá: Jaké znáš největší číslo? A Thomas Gray, která zná jen číslo čtyři (čtyři byli její sourozenci v rodném pelíšku), se rozhodne pro trochu vyhýbavou odpověď: Největší číslo, která já znám, je o jedničku větší, než největší číslo, které znáš ty. Mevrow tato odpověď trochu zaskočí, nahlas ji pochválí, ale v duchu si řekne, že takového vychytralého mláděte je třeba se pro klid obce co nejrychleji zbavit. A tak ji šoupne na nejbližší loď plující vzhůru po řece Cam a Thomas Gray vystoupí na břeh v Cambridgi, usadí se ve starobylé Pembroke College, žije spolu s učiteli a učenci, vyslechne spousty jejich učených hovorů, ba dokonce se podílí na jednom významném objevu, týkajícím se jednoho starého matematického problému, a dosáhne určitého věhlasu. Jenže pak se v ní probudí pochybnosti o správnosti volby povolání, tak netradičního u koček, a vrátí se do rodného kraje. A při pátrání po ní do příběhu vstoupí Barbara, což, jak asi tušíte, není jen název jednoho z aristotelovských sylogizmů. Nakonec všechno dobře dopadne. Jak – to si možná budete moci brzy přečíst, protože Daviesův román jsem už počeštil.

Toto povídání nebude ani o kočkách, ani o starých matematických problémech (a ani o lásce). Bude o psychologických testech. Nakonec ani o nich ne, ale to až na konec. Poradkyně pro volbu povolání Mevrow byla zřejmě dost zkušená psychodiagnostička: Její test nebyl sice asi standardizován ani řádně validizován, nicméně se z hlediska obce rozhodla správně – pryč s kočkou, ať si jejích chytrostí užijí jinde.

Když se dušesloví přestalo zabývat duší a vymanilo se jako poslední z věd z područí filozofie, muselo ukázat svým starším sourozencům, že také dokáže žít svým vlastním životem a že se jim vyrovná. A jak jinak, než že jako oni i ono bude měřit. Připomeňme si rok tohoto osamostatnění: 1879. To bylo tehdy, když Wilhelm Wund opustil filozofickou fakultu a založil psychologickou laboratoř. Byl to ale také rok, kdy vyšel Begriffsschrift Gottloba Fregeho, kterým se zakládala matematická logika, a také rok, kdy Johann Martin Schleyer vyhlásil první umělý mezinárodní jazyk volapük. Kolem roku 1880 vzniká i metoda psychologického testování. O deset let později pak americký psycholog J. M. K. Cattel zavádí termín mentální test pro sérii psychologických zkoušek používaných pro zjištění rozdílů mezi univerzitními studenty. Až do 1. světové války se používalo testů inteligence a schopností převážně ve školství.

K přelomu dochází, když se testy začnou používat i pro volbu povolání. Rozhodující byl pro to úspěch testů používaných r. 1917 v americké armádě, kdy bylo třeba rychle vybrat vojáky k jednotlivým zbraním (americká armáda neměla záložníky). Tyto armádní testy se pak pokládaly za jeden z faktorů, které přispěly k vítězství. To také změnilo poměr veřejnosti k testům. Obliba testů stoupala, až se testy vymkly z rukou těch, kteří ještě věděli, co činí. Testy začal sestavovat kdokoli na cokoli. I dnes skoro každý magazín přináší nějaký ten test, v němž se můžete za několik minut dozvědět, zda jste dobrý manžel nebo manželka, zda se správně stravujete anebo zda jste „v kolektivu oblíben“. Popularita testů typu „zjistěte si vlastní IQ“ neochabuje, u nás se lidé s touto zálibou přesahující určité meze sdružují ve zvláštní společnosti.

Psychologická diagnostika je záležitostí velmi spletitou a obtížnou a musí ji provádět profesionální psychologové se značnými zkušenostmi. Vůbec si myslím, že osobnost psychologa je při mentálním testování důležitější než test sám. Testy navíc musí být standardizovány, validizovány – a to rozhodně není něco, co by se mohlo provádět amatérsky. U nás nyní vzrůstá potřeba nějakých metod pro výběr do určitých povolání (např. bezpečnostních složek), kdekdo sestavuje vlastní testy anebo používá bez zkušeností testy bůhví odkud převzaté, a my se pak divíme: taxikář zabije za bílého dne jiného taxikáře a sdružení taxikářů argumentuje, že všichni prošli testy; brutální zásah bezpečnostních služeb také provádějí lidé, kteří prošli testy. Chybí u nás ochrana společnosti před nekvalifikovaným testováním, chybí definice profese psychologa, chybějí zákony, chybí psychologická komora, chybí pracoviště nebo ústav, kde by se testy standardizovaly (a také se pečovalo o jejich utajení).

Velmi vážné jsou však i problémy čistě psychologické. Už samo vymezení „psychologický test“ je obtížné. Jedním z důvodů je to, že chybí (a možná principiálně) všeobecně přijatá teorie osobnosti, takže není ani moc jasné, co vlastně testy měří. Jedna z definic testů (z knížky Pierra Pichota Mentální testy, jejíž překlad u nás kdysi vyšel) říká: „Psychologickým testem nazýváme standardizovanou experimentální situaci vyvolávající určité chování. Toto chování je hodnoceno pomocí statistického srovnání s chováním jiných jedinců, kteří jsou ve stejné experimentální situaci; takto je možno zkoumané osoby třídit buď kvantitativně, nebo typologicky.“ Je to definice opatrná, hovoří jen o srovnávání s chováním jiných jedinců a o případné klasifikaci, ani slovo o tom, že by se měřila ta a ta vlastnost (předem daná) nebo že by se nabízela nějaká predikce o chování budoucím v situacích neexperimentálních, anebo dokonce v nějakém povolání. Přesto – anebo právě proto – mají psychodiagnostické metody vypovídací schopnost, ovšem jsou-li v povolaných rukou.

Někteří skeptici tvrdí, že testy nakonec měří jen schopnost dělat testy (a tento nápad už dávno zužitkovaly některé firmy – jistě se objeví i u nás – které cvičí své zákazníky v úspěšném absolvování testů) anebo že to, co se testy dá zjistit, se dá zjistit i prostředky mnohem jednoduššími. Tak se vypráví o jednom armádním testu, velmi rafinovaném a propracovaném, kterým se zjišťovalo, zda se dotyčná osoba hodí spíše pro bojové oblasti, kde je vedro, anebo naopak pro místa chladná. Test byl prý dokonalý a úspěšný, neboť dával výsledky naprosto shodné s odpovědí na prostou a přímou otázku: Máte raději teplo, nebo zimu?

Nebudu se dále zabývat obecnými problémy testování; ostatně jsem se sám před chvílí vyloučil z této oblasti jako nepovolaný. Podíváme se místo toho na historii jednoho testu; myslím si totiž, že je to případ stále poučný. Vlastně jde o skupinu testů, která měla za cíl zjišťovat, jak se kdo hodí pro práci programátora. Slavným a velice používaným byl test zvaný PAT (Programmer’s Aptitude Test), který jednoho odpoledne udělala ad hoc skupina programátorů firmy IBM někdy v polovině padesátých let. Řada variant tohoto testu kolovala i u nás (a kdo ví, zda ještě nekoluje). Vedle testu PAT se používaly i jiné testy, např. CPAB (Computer Programmer’s Aptitude Battery) anebo i testy obecnější povahy, jako třeba WG (Watson-Glaser Critical Thinking Appraisal). Tyto testy sestávaly z několika skupin časově omezených otázek zpravidla těchto typů: schopnost manipulace s čísly (odhadování výsledků), pokračování v dané řadě čísel, písmen nebo obrázků, formální uvažování (algebraické formulace problémů anebo vyvozování formálních důsledků z předložených premis), verbální testy (nacházení synonym) apod.

Problémem je ovšem validizace takových testů, tedy zjištění míry toho, zda a jak test provádí to, co o sobě prohlašuje, že totiž předpovídá rozdíly mezi budoucími dobrými a špatnými programátory. V principu jsou dva přístupy k validizaci: 1. prediktivní, který sleduje korelace skóre před a po nějaké době programátorské činnosti, a 2. paralelní, kdy se zjišťuje to, jak test odlišuje od sebe špatné a dobré programátory, kteří už toto zaměstnání vykonávají. Prediktivní způsob je samozřejmě mnohem náročnější, a proto i méně používaný.

Programátorské testy byly pořádně validizovány až koncem sedmdesátých let, tedy dvacet let po jejich vzniku a jejich používání. Tak D. Bell zkoumal několik takových testů pomocí pěti elementárních úloh z programování. Zjišťoval se celkový počet různých chyb ve všech programech, dále celkový počet běhů programů na počítačích až do úplného odladění. Rozlišovaly se chyby typu překlepu, chyby syntaktické, sémantické, logické a ostatní. Celkem se sledovalo 11 proměnných, zpracováno bylo 541 otisků programů s celkem 3 550 chybami 1 600 druhů. Výsledky se pak porovnávaly s výsledky uvedených testů. Objevily se nízké korelace, v některých případech dokonce záporné.

Jiná práce (L. J. Mazlacka) zkoumala tři varianty IBM testu PAT na více než třech tisících studentech nejrůznějších oborů. Ukázalo se, že není třeba sestavovat oddělené kurzy pro studenty různých oborů a různých úrovní zkušenosti a že nelze předpovídat spolehlivě úspěch ve studiu programování na základě osobních rysů anebo písemných testů. Tento výzkum tedy dokonce popíral i obecně přijímané minimální tvrzení o takových testech: ten, kdo udělá test dobře, bude dobrý i jako student programování (o skutečném programování testy nevypovídaly nic, dokonce mohly predikovat obráceně).

Problém je v tom, že nejsou známy žádné specifické rysy osobnosti, které by nějak předurčovaly lidi k programování. Nevíme-li, co vlastně máme měřit, je nebezpečí, že testy sestavené ad hoc nebudou měřit nic, anebo dokonce nesmysly. Připomeňme si zde Maxwellova slova: To measure is to know (měřit znamená vědět).

Gerald M. Weiberg napsal kdysi znamenitou knihu o psychologii programování a v jedné kapitole se tam také zabývá otázkou testování. Říká, že mu ještě nikdo nevysvětlil, proč by měli být programátoři dobří v aritmetice (a proč by navíc v ní měli být rychlí; to ale už kdysi říkal Gauss o matematicích – že totiž právě jistá neschopnost v obyčejné manipulaci s čísly charakterizuje dobrého matematika), že neví, jaký smysl by mělo říci, že jeden program je totožný s jiným až na otočení o devadesát stupňů (takové úlohy na otáčení obrazců bývají součástí testů). Namísto toho navrhuje — když už — testy typu: Jak bude pokračovat řada 10 000, 20 000, 30 000 na vašem počítači (když bude mít patnáctibitový registr, bude další číslo 7 232). Anebo: přinese se 30 – 40 náhodně potištěných papírů a testovaný je má uložit do deseti přihrádek. Pak se týden nic neděje, až se na to zapomene – a tu testující vtrhne do pracovny, začne měřit čas a vyžaduje papír, na kterém se vyskytuje to a to slovo. Další možnost: myslete si nějaký problém, neřekněte jaký, všechno se musíte dozvědět doptáváním, jenže vaše odpovědi musí být doslovné. Takové testy zjevně odpovídají více skutečným situacím, ale že by byly praktické, říci nelze.

No a teď proč jsem to vlastně celé vykládal, co mi leží na srdci. Každoročně dochází k masovému testování: říká se tomu přijímací zkoušky, zápočty, řádné zkoušky, státnice. Tak třeba přijímací zkoušky: jejich cílem má být přece predikce toho, jak si uchazeč bude počínat jako student vysoké školy. Jsou zde testy znalostí, inteligence tím pravým? Klade si vůbec někdo otázku po validizaci používaných postupů? Zná někdo odpovídající korelace? Nebylo by přiměřenější (skoro jako u Weiberga) vzít náhodně jednu stránku ze skript, z nichž se bude uchazeč po prázdninách učit, a zjistit, zda vůbec umí číst, psát a počítat – zda totiž je schopen zjistit, čemu tam rozumí, a hlavně čemu nerozumí, a zda je schopen to jasně a srozumitelně říct? Takové testování (pokud by ale bylo vůbec proveditelné) by ovšem nebylo „objektivní“. Jenže objektivita často nemá s pravdou nic společného. A co teprve otázka: jaká je korelace mezi složením zkoušek a státnic a vzděláním a úspěšností v dalším povolání? Nejsou zde některé korelace záporné? A to nelze oddělit od toho, co se vlastně přednáší a učí. Učit to, „co budou potřebovat“, lze těžko pokládat za odpověď, pokud nevíme, co budou potřebovat. Kdysi se na gymnáziích dosahovalo kladných korelací vyučováním takových předmětů, jako byla latina nebo řečtina, které by přece vůbec neměly korelovat s úspěchy v povolání.

Samozřejmě že odpověď na tyto otázky neznám. Věřím, musím věřit, že korelace nejsou záporné. Celým tímto povídáním jsem vlastně chtěl dosáhnout pouze toho, že dříve než zodpovíme otázku po kladných korelacích kladně, měli bychom aspoň trochu zaváhat.

Testování – problémy i naděje

Kočičí poradkyně pro volbu povolání si svůj úkol usnadnila. Poslala klientku Thomas Gray jinam – ať si tam s ní poradí – a dále si s tímto zapeklitým případem hlavu nelámala. Na určitý čas sice příběh T. G. ovlivnila, ale odpovědnost nepřevzala. Co si může podle P. J. Daviese dovolovat kočka, to by si neměl dovolovat psychodiagnostik. Jakýkoliv zásah do života klienta je spojen s odpovědností a chybné rozhodnutí lze mnohdy napravit jen s obtížemi. I když vlastně T. G. se za čas vrátila k původnímu životu v rodném kraji...

O diagnostickém testování bylo napsáno mnoho knih, odborných i populárních, nadšených i skeptických, souhlasných i polemických. Mnoho ostrých debat proběhlo za posledních 70 – 80 let a jistě mnoho dalších ještě proběhne. Jiří Fiala naznačil problémy a slabiny testování a třeba podnítí i širší rozpravu. Pokusím se naznačit několik otevřených problémů, které považuji za podstatné. Každý z nich by si ovšem zasloužil samostatnou studii. Tedy jen stručně:

Diagnostické (psychologické) testování má dva základní předpoklady: Osobní odpovědnost diagnostika a důkladnou znalost metodických nástrojů, které jsou k dispozici. První aspekt se nedá popsat v učebnicích, naučit či vyzkoušet u státních zkoušek. Je dán vyzrálostí osobnosti, životními i profesionálními zkušenostmi a etickou vyspělostí jedince či instituce, kteří testy užívají. Pokud tento předpoklad neplatí (a o profesionální odpovědnosti staré dobré Mevrow pochybuji), pak všechny další úvahy jsou zbytečné.

Nepřehlednost metodik

Již před téměř 20 lety odhadoval R. Brickenkamp v jedné německy důkladné příručce, že existuje asi 10 000 různých psychologických testů. Od té doby přibyly mnohé další a asi nebude daleko od pravdy můj odhad, že dnes jich je dvojnásobek. Orientovat se v této spleti je zcela nemožné. Na většině pracovišť se nutně pracuje jen se zcela malým zlomkem existujících možností, a to většinou s metodami, které byly kriticky přezkoumány ve více zemích a mají jistou tradici.

Teoretické pozadí

Existují různá východiska. Jedním extrémem jsou techniky jasně zakotvené v jisté teorii osobnosti, ze které je odvozena obsahová náplň i interpretace výsledků. Mnohdy se však stává, že uživatel přehlédne teoretická východiska, aplikuje zkoušku bez pochopení a mechanickým výkladem získaných dat dospěje ke sporným závěrům. Druhý extrém tvoří testy programově ateoretické, které se opírají o čistě empirické nálezy o jistých korelacích mezi výsledkem a stanovenými kritérii (třeba úspěch ve studiu a uplatnění v jisté profesi u firmy X apod.). Většina testů leží mezi těmito póly; v našich podmínkách se však z mnoha důvodů blížíme pólu empirickému.

Některé testy byly zcela řádně vyvinuty a vyhovují mnoha přísným psychometrickým kritériím v podmínkách, v nichž byly vytvořeny. Jejich převod do jiného jazyka, kulturní, sociální i školské tradice však bývá spojen s mnoha nepřesnostmi, které se obtížně rozebírají. (Jsou nároky na policisty u nás stejné jako v USA či v Německu? Jsou některé dětské vývojové testy poplatné vychovatelské tradici či jisté módní vlně v určité zemi, nebo dokonce v určité subpopulaci?)

Psychodiagnostik řeší různé typy problémů, které vyžadují odlišné přístupy. Jen namátkou uvedu několik z nich.

Výběr většího počtu uchazečů do poměrně jasně definovaných profesí: Testová sestava se sice vytvoří poměrně snadno, ale objeví se další otázky. Jiná situace je, vybírá-li se z 1 000 uchazečů o studium stovka nejvhodnějších, a jiná, jestliže se na 40 volných míst přihlásí 30 zájemců. V prvním případě je značná možnost výběru, lze užít více kritérií, různě je kombinovat či vážit. V druhém případě je možno pouze vyloučit nevyhovující zájemce.

Posouzení aktuálního stavu – např. školní zralosti dětí – před vstupem do první třídy: Doporučení odložit docházku neblokuje podstatně jejich budoucí uplatnění, pouze posouvá začátek jedné životní etapy a ve většině případů působí blahodárně.

Individuální případ: Zde bývá situace velmi obtížná, protože se jen těžko stanoví kritéria pro danou roli. Vybírá se třeba ředitel SOS vesničky ze tří kandidátů nebo je vypsán konkurz na ředitele továrny, která je na pokraji úpadku. Podobná situace nastává jednou za několik let a celé šetření se zaměří na jednotlivé případy. Uvažuje se o jedinci z mnoha hledisek, aniž by bylo možné se opřít o statistické normy větších populací.

Vytvoření malé skupiny osob, z nichž má vzniknout dobře spolupracující tým – třeba řídící management nebo pracovní skupina pro odlehlé a izolované pracoviště apod.: Jde jak o individuální vlastnosti, tak o schopnost komunikovat a vzájemně spolu vycházet, a to mnohdy i ve sféře mimopracovní.

Tolik jen malá ukázka šíře problematiky – jistě by bylo možno stanovit i řadu dalších zapeklitých situací, které se objevují v psychodiagnostické praxi. Mnohdy vítězí zdravý rozum nad návody z literatury a životní zkušenost nad formálními postupy.

Posuny v problematice po stránce věcné

Existují statistické modely, které upravují klasické testové úvahy. O těch se zmiňovat nebudu. Při sledování dlouhodobých tendencí se rýsují následující věcné změny:

Od zjišťování rysů osobnosti (relativně stálých struktur osobnosti) k diagnostice stylu jednání (situační podmínění jednání člověka např. jak působí na kvalitu řešení myšlenkových úkolů časový stres, nedostatek či nespolehlivost informací, zvýšená motivace, komplikace v osobním životě aj.)

Od zjišťování aktuálního stavu ke snaze odhadnout očekávatelné změny v průběhu času. Proto bývá kladen důraz na dlouhodobé sledování jedince, resp. na rozbor jeho minulých zkušeností i životních cest.

Od zaměření na čistě diagnostické úvahy k přemýšlení o úpravě životních podmínek či životního stylu (změny chování, které by měly vést k nápravě, změna postojů, adaptace na změněné podmínky života – třeba po nemoci, při změně zaměstnání, osobního stavu aj.)

Od relativně jednoduchých testů k širším sestavám zkoušek a k dlouhodobému pozorování jedince v různých situacích (kdo by měl lépe vystihnout přednosti i slabiny žáka než jeho učitel).

Od jednorázových vyšetření k vývojové diagnostice, která je dnes samozřejmá v dětském věku, ale jen velmi obtížně se prosazuje v jiných kategoriích (např. preventivní zdravotnictví, pracovní prohlídky v náročných profesích, třeba u letců, operátorů v atomových elektrárnách aj. či při prodlužování platnosti řidičských průkazů u stárnoucích osob aj.).

Co nám dnes při uplatnění testových metod hrozí nejvíce:

požadavky praxe, která netrpělivě žádá výsledky co nejdříve a s nejmenšími náklady (často jen zcela formálně),

poměrně malý počet dobře vyvinutých a vyzkoušených metod,

poměrně malý počet odborníků, kteří dokáží používat diagnostické metody s patřičným nadhledem a kritičností,

etický standard pro užívání testů.

A snad ještě jedna historická poznámka: Před zhruba 60 lety požadoval J. Stavěl, aby se budovala „multidimenzionální diagnostika, která by kombinovala metody i poznávací hlediska: zážitkové struktury, vnější aspekt, tj. chování, somatické pozadí prožívání a chování, to znamená vztahy psychosomatické a pozadí sociální, tedy sociálně psychologické vztahy. Jejich kombinováním se lze blížit k poznání existujících struktur v jejich dynamické výstavbě, složité vrstevnatosti a celistvosti“.

Václav Břicháček

OBORY A KLÍČOVÁ SLOVA: Psychologie a psychiatrie

O autorovi

Jiří Fiala

Doc. RNDr. Jiří Fiala (*1939–2012) vystudoval Přírodovědeckou fakultu MU v Brně. Zabývá se filozofií matematiky a logiky. Přednáší analytickou filozofii a epistemologii na Západočeské univerzitě. Zde také vydal tři čítanky textů analytických filozofů. Kromě jiných textů přeložil řadu knih, například Karl Popper: Logika vědeckého bádání, Paul K. Feyerabend: Rozprava proti metodě, B. Mandelbrot: Fraktály, René Descartes: Regulae ad directionem ingenii – Pravidla pro vedení rozumu.

články autora