Počítačům chybí „druhý“ pohled. Proč se neuronové sítě dívají na věci jinak než lidé?

S rozvojem neuronových sítí se vědcům potvrdila jedna věc. Počítače se na věci nedívají stejně jako lidé. Lidský pohled je mnohem komplexnější a modifikovatelný, stroje zase postupují velmi metodicky.

Neuronové sítě, užívané počítači k dívání, postupují docela přímočaře,“ píše Kevin Hartnett v článku pro Quanta Magazine. „Chápou obraz jako vstup, který prochází řadou postupných kroků. Nejdřív detekují pixely, poté okraje, obrysy a celý objekt, než přistoupí ke konečnému odhadu, na jaký objekt se dívají. Říká se tomu „dopředný“ (feed-forward) systém, díky podobnosti s montážní linkou.“

Zdroj: Pixabay

O mechanice lidského vidění toho víme méně. Záhadou dosud zůstává, jak zrakové centrum mozku (visual cortex) utváří odpovídající reprezentaci vnějšího světa na základě informací přijímaných oční sítnicí. Jisté jen je, že se od toho počítačového liší.

Současná úroveň bádání naznačuje, že zrakové centrum získává obraz vnějšího světa ze série cyklů neurální zpětné vazby, kdy se celkový pohled neustále upravuje na základě registrace drobných změn v obrazech.

Lidský pohled se postupně vyvíjí

Naší největší předností přitom je schopnost „druhého pohledu“. V případě, že zpracovávaná vizuální informace vyvolává pochybnosti (jestli jsme se náhodou „nepřehlédli“), podíváme se na objekt znova a zjištěné informace potvrdíme, nebo vyvrátíme, a následně zpřesníme. Počítačové systémy tuto schopnost postrádají už i v případě velmi jednoduchých úkolů.

Zdroj: Pixabay

Podle Johna Tsotsose, informatika z York University, se schopnost dívat se u lidí postupně vytváří s růstem a vývojem jedince. Podle zjištění, které učinil společně se svým výzkumným týmem, nedokážou lidé například plně rozeznávat jednotlivé obličeje v davu až do 17. roku věku.

Počítačové vidění takovýmto vývojem neprochází. Jeho postup je podmíněn zpracováváním velkého objemu dat, v nichž nachází korelace umožňující mu odlišovat jeden objekt od druhého. U složitějších úkolů, jako je registrace objektu z různých úhlů pohledu, prý ale ani to zatím nemusí stačit.

Učení formou těchto deep learning metod se liší od lidského učení, jak jen to je možné,“ tvrdí Tsotsos. „To mi napovídá, že se blížíme ke stropu. Dosáhneme jednou bodu, kdy tyto systému se už nebudou mít kam dále vyvíjet.“



Další články k tématu: Uncategorized