Aktuální číslo:

Twitter v rukou psychologů

Lingvistické markery deprese

| 15. 4. 2020

| Téma: Jazyk

Stejně jako je deprese poruchou mozku, která zvyšuje jeho citlivost vůči stresu a negativním podnětům, je i poruchou mezilidských vztahů, v nichž onu negativitu vnímáme. A zatímco biologické souvislosti měříme pomocí snímků mozku, koncentrace hormonů nebo imunitního obrazu, ty mezilidské můžeme sledovat v komunikaci – například analýzou textů, které člověk píše.

Tak jako za psem zůstávají očurané stromky, z jejichž pachových signálů mohou příslušníci jeho druhu odhalit vlastnosti toho, kdo je zanechal, zůstávají za lidmi nákupní seznamy, básně, životopisy nebo statusy na sociálních sítích. A stejně jako psi, také my ve svých komunikačních pozůstatcích projevujeme své osobní charakteristiky. Že skrze ně lze odhalit pohlaví nebo socioekonomický status, oceňují hlavně marketéři a prodejci. Analýzami se ale zabývají i psychologové – a ukazují, že „očichávání“ lidských textů přináší také informace o duševních obtížích jejich autorů.

Textová analýza [1] projevů vůdců al‑Káidy z roku 2007, tedy čtyři roky před Ládinovým úmrtím, tak mohla odhalit intelektuální převahu bin Ládina nad jeho následovníkem Ajmánem Zavahrím, stejně jako nárůst počtu osobních zájmen první osoby v jednotném čísle („já“, „moje“) u Zavahrího podle autorů poukazoval na jeho rostoucí pocit ohrožení a zhoršování vztahů s vůdcem. Právě poměr jednotného a množného čísla u zájmen v první osobě totiž patří mezi klíčové lingvistické ukazatele depresivity a psychopatologie obecně.

Četnost zájmen v první osobě koreluje s výsledky klinických testů závažnosti deprese. Navíc pacienti s depresí užívají víc negativních a méně pozitivních slov, víc nadávají a píší celkově emotivněji, což lze měřit třeba množstvím vykřičníků. Další lingvistické indexy ale tak samozřejmé nejsou: depresi lze odvodit třeba z indexů srovnávajících výskyt sloves a podstatných jmen. A také z vyšší četnosti slov odkazující k absolutní míře věcí: „všechno“, nebo „nic“, „nikdo“, nebo „všichni“ – výrazy, které vylučují výjimky.

Zvýšený výskyt „absolutistických“ výrazů předpovídají kognitivní modely deprese, které podstatu onemocnění vidí v zevšeobecňování všeho špatného. A „absolutistické“ výrazy skutečně afektivní poruchy doprovázejí – a to dokonce víc [2] než negativní slova. Navíc nevymizí ani po úspěšné léčbě. Právě černobílé myšlení tak může vystihovat obecnější charakteristiku lidí predisponovaných k depresi a patřit mezi důvody, proč jsou vyléčení pacienti náchylní k návratu onemocnění.

Podobně samotnou depresivní epizodu přesahuje i zvýšené užívání jednotného čísla zájmena „já“ oproti množnému „my“. Většinu z nás nejspíš napadne vysvětlení, které jazyk chápe spíš jako projev než příčinu deprese: člověk pod návalem problémů myslí hlavně na sebe, pročež o sobě také mluví. Jenže skutečný vztah může být složitější – a jazyková specifika mohou reflektovat obecnější lidské vlastnosti, které k depresi vedou.

Analýzy internetových diskusních fór ukazují, že lidé vyléčení z deprese přestanou s nadměrným užíváním negativismů. Naopak jsou výrazně pozitivnější, dokonce i oproti kontrolním, neutrálním diskusím – dost možná proto, že se v „rekonvalescenčních“ skupinách nepřestávají zaměřovat na emoce a vzájemně se podporují v optimismu. Určitou roli nicméně hrají i metodologické nesnáze a (hypo)mánie: v příslušných skupinách se nejspíš pohybují jak lidé, kteří se „vyléčili“, tak pacienti trpící bipolární (maniodepresivní) poruchou, u nichž se depresivní fáze přehoupla do té manické. Klíčovým problémem těchto studií tak zůstává, že zkoumají diskusní fóra spíš než konkrétní lidi, aniž by uměly přesně změřit, jak dobře vystihuje „diskusní skupina o depresi“ depresi samotnou.

Takové obtíže ovšem překonali rakouští a němečtí vědci [3], kteří vztah osobních zájmen s depresivitou potvrdili i u přepisů rozhovorů s konkrétními klienty psychoterapie. Poměr zájmen „já“ a „my“ navíc neovlivňovala jen deprese, ale i obecnější způsob vztahování se k ostatním lidem. Četnosti těchto slov o nás podle autorů něco vypovídají i bez ohledu na depresivitu, jejíž vliv statisticky odstranili:

Lidé, kteří užívají osobní zájmena v jednotném čísle, mají paradoxně vyšší potřebu pospolitosti. Častější odkazování k sobě samotnému vychází z jejich zvýšené potřeby lidského kontaktu a má vyvolat „submisivně-přátelský“ zájem ostatních. V takovém snažení ale (statisticky!) selhává – z čehož pak pramení stres a souvislost s depresemi.

Depresivní syntax: krátké věty, málo spojek

Deprese se projevuje nejen změnami ve vztazích, ale i v mozku. A protože z toho vychází i struktura jazyka, skupina ruských vědců se pokusila na základě textových vodítek předpovědět sklony k sebedestruktivnímu jednání: poškozování vlastního těla, braní drog nebo poruchám příjmu potravy či pokusům o sebevraždu [4].

V mozku depresivita souvisí se zvýšenou činností čelních oblastí v pravé hemisféře, které se relativně víc aktivují při emočním uvažování, oproti stejným oblastem hemisféry levé, jejichž relativní aktivita statisticky souvisí spíš s racionálními úvahami. Aktivita mozku se přitom přirozeně zrcadlí i v produktech myšlení, včetně psaného projevu. Autoři tak předpokládali, že se sklony k sebedestrukci projeví snížením kvality textu, například omezením slovní zásoby a zjednodušením syntaxe, které spojujeme spíš s levou hemisférou.

Na základě psaných textů a výsledků testu osobnosti u šedesáti účastníků pak autoři hledali souvislosti mezi vlastnostmi textů a osobnostními charakteristikami, které se sebedestrukcí souvisejí – impulzivní agresivitou, depresivitou a nevyrovnaností. Výsledky ukázaly, že sebepoškozování skutečně lze relativně úspěšně předvídat – na základě méně složité slovní zásoby textů, menšího množství předložek a většího zastoupení zájmen, zejména osobních. Oproti předpokladům model sebepoškozování spojoval i s delšími větami a s vyšší koncentrací spojek.

Dodejme, že slabé a komplikované statistické vztahy, z nichž vědci vycházejí, neznamenají, že bychom sebepoškozování museli vysvětlovat poměrem činnosti pravé a levé hemisféry. Výsledky analýzy lze snadno vykládat i bez pomoci asymetrie hemisfér, snížením pozornosti, zhoršením paměti a kognitivního výkonu v důsledku vyšší depresivity. Vztahy osobnostních charakteristik se slovy a větami nicméně studie skutečně našla, byť bude nutné ověřit na nezávislých datech, jsou-li skutečné.

Přirozeným uplatněním takových výzkumů by byla detekce duševních onemocnění, která by nepředstavovala žádnou námahu pro vyšetřované ani lékaře. K analýze se přirozeně nabízejí sociální sítě – a právě jejich možné využití testovalo loňské srovnání twitterových účtů zdravých a depresivních uživatelů [5]. Tweety lidí trpících depresí obsahovaly víc sloves a méně podstatných jmen, větší hustotu negativních slov a charakteristický posun od „my“ k „já“. Tito lidé zároveň na twitteru komunikovali méně – a to celý den až do půlnoci, kdy se trend obrací, zřejmě kvůli nespavosti, která často depresi doprovází.

Studie digitálních stop uživatelů sociálních sítí ovšem nejsou dokonalé. Vědci nikoho sami nediagnostikovali, místo toho se spolehli na vlastní výpovědi zkoumaných a sestavili „depresivní skupinu“ z těch, kteří sami veřejně uvádějí, že trpí depresí. Pravdivost takového tvrzení a správnost příslušné diagnózy nikdo neověřoval, takže výzkum může do jisté míry nacházet textové charakteristiky psychopatologie obecně, a ne konkrétně deprese. Hlavně ale srovnává specifickou skupinu lidí, kteří o svých problémech otevřeně píšou na twitteru, s jinými náhodnými uživateli. Ony „depresivní“ uživatele tak spojuje i řada dalších věcí, kromě samotné deprese třeba chuť psát o sobě a svých emocích. Mezi „náhodné“ účty se mohly vloudit nějaké jinak specifické profily, třeba falešné nebo profesně orientované. Zároveň je třeba mít na paměti specifické prostředí anonymních účtů a sociodemografická specifika uživatelů twitteru.

Algoritmy spolehlivější než lékaři

Na úrovni skupin jsou rozdíly mezi depresivními a statisticky průměrnými uživateli zjevné: četnost tweetů v odpoledních hodinách nebo zastoupení emocí se liší o desítky procent, slov vyjadřujících znechucení najdeme u depresivních přispěvatelů téměř dvojnásobek. Jenže stačí to se všemi zmíněnými omezeními k užitečným predikcím na individuální úrovni?

Slavná studie z roku 2013 [6] naznačila, že ano: kombinace analýzy textů a vazeb mezi twitterovými účty stačila vědcům z Microsoftu, aby rozvoj deprese uměli předpovědět se 70% úspěšností. Výzkum sice také doprovázejí nevýhody omezení na uživatele twitteru, kteří k tomu svolili, nicméně depresivitu tentokrát vědci měřili klinickým dotazníkem a otevřenou otázkou, zda byla někdy uživatelům diagnostikována. Použití výsledného modelu na náhodně vybrané twitterové účty navíc přináší výsledky přesně odpovídající známým epidemiologickým výzkumům: vyšší četnosti depresí v zimě než v létě, vyššímu výskytu u žen než u mužů nebo vyšším hodnotám v těch (amerických) městech a státech, kde se skutečně nachází víc depresivních pacientů.

Automatická analýza instagramových obrázků [7] o pár let později dosáhla v diagnostice deprese úspěchů srovnatelných s klinickými úsudky praktických lékařů při běžné návštěvě pacienta. Vycházela přitom spíš z formálních vlastností obrázků, jako je světlost a zabarvení, než z obsahu. Stejně jako většina podobných výzkumů i tento používá k rozlišení deprese relativně jednoduchý dotazník, který nepřináší příliš podrobná data. Výsledky proto nejen nemusí úplně platit mimo sociální sítě a jejich uživatele, ale navíc je mohou zkreslovat i některé specifické skupiny depresivních pacientů, kteří se podle textu a obrázků detekují snadno, zatímco jiné podoby depresí mohou algoritmům unikat. Kromě toho u naměřených markerů často není zřejmé, jestli se pojí spíš s klinickou depresí čili onemocněním, nebo s vyšší depresivitou jako rysem osobnosti.

Možnosti praktického uplatnění podobných výzkumů navíc omezuje, že zkoumaná data pocházejí od účastníků, kteří k tomu poskytnou svolení, a netuší, co by vědci mohli na jejich účtech hledat. Pokud by lékaři své pacienty místo dotazů na duševní stav žádali o přístup k twitterovým a instagramovým účtům, nejspíš by jim řada z nich nevyhověla – a ti ostatní by tomu časem sdílený obsah přizpůsobili.

Zajímavá data ovšem můžeme získat i odjinud. V detekci poruch mozku se jeví jako slibná třeba analýza psaní na klávesnici – a při vyšetřování psychiatrických symptomů texty napsané přímo za účelem vyšetření. Právě obyčejné slohové úkoly loni analyzovala skupina českých vědců [8]. Účastníci podstoupili jednoduché vyšetření depresivity (tedy sklonu k depresi, nikoli klinické deprese samotné) a následně napsali asi čtyřstránkové texty, neformální pozdrav z dovolené, omluvný dopis, formální přihlášku k výběrovému řízení a stížnost. Vědci pak účastníky rozdělili na „depresivní“ a „zdravé“ a z množství různých lingvistických indexů vybrali tucet těch, které mezi oběma skupinami rozlišovaly nejlépe. Jejich relativní úspěšnost se lišila napříč pohlavími a jednotlivými texty, takže nelze vybrat jedno nejlepší kritérium – ve všech případech ale šlo o ryze jazykové kategorie, jako je poměr různých slovních druhů nebo užití jednotného versus množného čísla.

Konečný model pak dokázal depresi správně rozlišit asi v 60 % případů, přičemž čtyři z pěti účastníků označení jako depresivní skutečně patřili do skupiny vyznačující se depresí. U žen bylo možné depresi rozpoznat z pozdravu z dovolené: ten správně odhalil příslušnost k depresivnější skupině u 80 % účastnic. U mužů kritérium 60% úspěšnosti splnily tři texty, s výjimkou omluvného dopisu. Skutečný efekt nicméně bude nižší, protože vědci model testovali na stejném – a relativně skromném – vzorku.

Pokud ale studii chápeme jako pilotní ověření použití textové analýzy v češtině, jde o nadějné výsledky, jakkoli bude před praktickým uplatněním nutné ověřit další studií, zda jsou předpovědi modelu platné. Logickým pokračováním by byla snaha o vývoj nástrojů, které by duševní onemocnění uměly detekovat v praxi – jenže k tomu máme zatím daleko.

Aktuální český výzkum proto směřuje trochu jinam: „Morfosyntaktická analýza textu může sloužit i jako nástroj měření efektu léčby. Představte si, že máte v terapii osobu s rozvinutou depresí nebo léčíte odsouzeného agresora. V rámci terapie si jedinec vede svůj terapeutický deník – a algoritmus průběžně vyhodnocuje jeho morfosyntaktické charakteristiky. Jako byste současně s výpovědí získali její chemický rozbor a sledovali proměny pacienta. Ve chvíli, kdy se poměry morfosyntaktických znaků začnou blížit stavu, kdy byl v normě, máte objektivizované kritérium úspěšnosti léčby. A to je směr, kterým se momentálně obrací i náš výzkum,“ vysvětluje hlavní autorka české studie Jana Marie Havigerová, co dalšího by nám podobné výzkumy mohly jednoho dne nabídnout.

Literatura

[1] Pennebaker J. W., Chung C. K.: Computerized text analysis of Al-Qaeda transcripts, in: Krippendorff K., Bock M. (eds.): A Content Analysis Reader, Thousand Oaks, CA: Sage 2007.

[2] Al-Mosaiwi M., Johnstone T.: In an Absolute State: Elevated Use of Absolutist Words Is a Marker Specific to Anxiety, Depression, and Suicidal Ideation. Clin. Psychol. Sci. 6, 529–542, 2018/4.

[3] Zimmermann J. et al.: The way we refer to ourselves reflects how we relate to others: Associations between first-person pronoun use and interpersonal problems. Journal of Research in Personality 47, 218–225, 2013.

[4] Litvinova T., Seredin P., Litvinova O., Zagorovskaya O.: Profiling a set of personality trans of a text author: what our words reveal about us. Research in Language 14, 2016/4.

[5] Leis et al.: Detecting Signs of Depression in Tweets in Spanish: Behavioral and Linguistic Analysis. J. Med. Internet Res. 21, 2019/6.

[6] De Choudhury M., Counts S., Horvitz E.: Social Media as a Measurement Tool of Depression in Populations. Proceedings of the 5th ACM International Conference on Web Science, Paris, France, May 2–May 4, 2013, WebSci 2013.

[7] Reece A., Danforht C.: Instagram photos reveal predictive markers of depression. EPJ Data Science 6, 2017.

[8] Havigerová J. M., Haviger J., Kučera D., Hoffmanová P.: Text-Based Detection of the Risk of Depression. Frontiers in Psychology 10, 2019.

TÉMA MĚSÍCE: Jazyk

OBORY A KLÍČOVÁ SLOVA: Počítače, internet, Lingvistika

O autorovi

Vojtěch Pišl

Vojtěch Pišl, MSc., (*1989) nedostudoval psychologii a mediální studia na Masarykově univerzitě v Brně, aby se nakonec po pár letech práce v oblasti financí a médií vrátil do školy a vystudoval neuropsychologii na Maastricht University. I po jejím dokončením ale alespoň prozatím zůstává na volné noze, píše a překládá o psychologii a médiích a příležitostně se podílí na nějakých firemních procesech.

články autora