2022/11/25

認識の要素の分解

200で認識はそれほど正確ではないという事について書いたが、
その中で認識に至るまでに必要となる刺激の情報の要素については、
認識自体にとっても、思考する際に用いられる関連の要素についても
重要な意味を持つと考えられるため、今回少し考えてみる事にする。

200では認識の対象に自動車について考えてみたが、
ネット上で今の人工知能は「猫」の認識さえも上手くできないという
記述があったように覚えているので、今回は「猫」の認識を例にしてみる。

さて今回も私が他の人に猫を伝えようとした場合にどのような絵を描くか考えてみると、
まず特徴的な耳と髭(ひげ)と4つ足と尾っぽを描けば大体意味が通じるだろうと思う。
あとは猫目でも描けば、まず間違いなく通じると思う。

言語で伝えるならニャーニャー鳴く動物だけでも通じるだろう。

これらは私が猫について認識している刺激の要素であり、
逆に私がこれらの情報を刺激として受け取り認識すれば、
記憶の中にある「猫」が想起によって思い出されることになる。

つまり、私が記憶して持っている猫の刺激としての要素は、
これらのそれぞれの要素の関連によって認識されているという事になる。

「猫」と聞いたり、映像を見れば、私はそれらの音声や画像から、
関連する刺激の要素として、それらが想起され、再構成されて猫の認識に至るという事になる。

しかし、例えば髭だけでは何のことか想起する事はできない。
人間の髭でもあるし、ネズミの髭でもあるし、犬の髭、ダリの髭でもある。
ただ、この文字としての髭にはそれぞれ刺激としての髭の要素を持つ対象が
脳神経ネットワークにおいて関連している事は間違いない。

髭に関連してリンゴを思い浮かべるような事はない。

つまり、用語「髭」という刺激は、刺激の1要素であって、
ある認識される対象がその認識の際にその「髭」の要素を持っていた場合に
認識の際には、神経ネットワークで関連している事になる。

つまり、脳神経ネットワークの特定の場所に「髭」に関する刺激の要素だけを持つ
刺激の記憶が存在するという事になる。
そして、それは文字としての「髭」だけの要素を持ち、
先ほど思い出した髭についての関連した想起の際には他の要素も含まれている事になる。

ちょっと内容が錯綜(さくそう)しているが、
つまり、文字「髭」を想起して再構築、思い出した場合には、
私は既に毛が数本~たくさん顔から伸びた状態を同時に想起していた。
単純に文字「髭」の想起であれば、ヒゲの漢字としての映像と読み仮名としての「ひげ」だけを
想起するのだが、先ほどは既にその関連した要素ごと想起して、
人間や~ネズミや~犬や~ダリや~というように、
その顔や、鼻、その形やヒゲ自体の映像や姿も同時に想起していたのである。

つまり、
人工知能が猫をネコとして、髭をヒゲとして認識できないのは、
その対象についての刺激を各要素に分解出来ていないからという事になる。

人間がある対象に対して認識するための刺激を受けた場合、
その情報を得る事ができるのは感覚器官である。
つまり、五感という事になる。

猫を見て視覚で猫の画像を見る。
猫の鳴き声を聴覚で聞く、
猫の匂いを嗅覚で嗅ぐ、
猫の触った感触を触覚で触れる、
まあ味は舐めたりしないので分からないが、
つまり、猫という認識する対象について、人間が知りうるのは、
感覚器官をもってしてしか認識できないということであり、
この感覚器官から受けた刺激だけで十分認識に至る情報を得ているという事でもある。

赤ちゃん言葉で猫を最初に覚えるのは「ニャーニャー」になるだろうか、
猫を見て「ほらニャーニャーが来たよ」とか大人が言う。
赤ん坊はそれを見て画像としての猫を見る事になり、ニャーニャーという音によって
その対象とニャーニャーという音を関連付けて認識する。

まだこの時点では特定の猫の画像とニャーニャーの音だけであるが、
その後に絵本で猫を見る、別の猫を見るなどして
今度は大人が「ネコ」という音声を言い、幼子がその対象について「ネコ」という音声を
関連付ける。
猫の画像は、幼子は以降も複数見る事になるが、複数見ても
その画像から得ている認識される要素はある程度限られている。
それは200にあった認識はそれほど正確ではないの内容の通りであるが、
人間の認識が正確ではないからこそ、刺激の認識における抽象的な要素ははっきりしたものとなる。

つまり、幼子は次々と猫の画像を見る事になるのだが、
そこから認識される要素は耳や尾っぽ、目や鼻やヒゲ、4つ足、そういった要素だけしか
認識していないのである。
それは幼子に限らず私も同じであるし、人間が猫を認識するというのはそういう要素だけで
認識しているのである。
それは最初に私が猫を描くとしたらの要素でも同じような要素で猫を表現している事でもわかる。

つまり、人間が猫の画像で認識しているのは、猫ではなく、
その対象の画像が持つ要素の刺激という事になる。

だから人間なら猫だと分かる画像を見て人工知能が猫だと分からないのは、
例えば今時であればディープラーニングで猫の画像を大量にデータ化して要素化しようとしているからという事になる。
まあ猫のデータとして画像の絶対数が多ければそれでも猫と認識できるのかもしれないが、
人工知能は猫の識別だけできれば良いというものでもないし、
猫っぽい犬や犬っぽい猫の画像があったらもう認識できないことになる。

人間はシンプルに線で繋がっていない耳と目とヒゲとあごだけでもそれを猫の顔と認識できる。

そう、そういえばモノを覚えたての幼子が、
例えば猫を覚えたての幼子が、犬を見ても「ニャーニャー」と言う事がある。
その幼子にとっては猫を見て認識した要素が犬にも同じ要素として認識された場合、
その認識に共通する対象は「ニャーニャー」なのである。

------------------------------------------------------
では、人間が例えば猫を見て猫だと認識しておらず、
その画像から得られる刺激の要素だけで認識している事について考えてみる。
これが表題の通りの認識の要素の分解ということになる。

認識される対象は刺激であるので、
まあ今回は猫の画像の視覚の刺激ということにしよう。

そこから刺激を受けるのはまず色や形状である。
ただ、視覚刺激においては色はあまり重要な要素ではない。
それは視覚が何の情報を得るために備わったかという原点にあり、
視覚はその見るという対象の位置や形状や動きを捉えるための感覚であるという事である。

視覚ではそのコントラスト差から対象を認識する対象として切り出すことが出来る。
そしてその位置と形状と動きを認識する対象とすることが出来る。

次に人間の知能はその対象の特徴的な形状を認識する刺激の要素として分解する事になる。
これは、対象の認識において要素に分解しないと認識、記憶できないという事になるからである。
つまり、複数の刺激の情報を統合して認識しているのではなく、
認識は対象が持つそれぞれの刺激の要素を先に認識してから、
その刺激による脳神経ネットワークの励起によって記憶し、
その後の想起と再構築によって対象を認識する対象として作り出し、
それを認識する事になるからである。

つまり、ここで認識の対象になる刺激の要素というのは、
人間の知能であれば形状の要素という事になる。
例えば角(かど)であるとか、直線であるとか、円、
まあ視覚においてはコントラスト差による線の形状によって
その要素に分解されることになる。
そしてその要素は要素の刺激として認識され、記憶、想起されて
その線の組み合わせとしてその対象の形状が再構築され、
その再構築された姿で人間の知能は認識したと感じる。

ちょっと今日は時間なので後日続きを書くが、
つまり、人間の認識できる刺激の要素にはある程度の単純化された要素でないと
脳で記憶が出来ないという事になる。
まあこれは神経細胞1つが持てる情報の少なさという点からも言えるのだが、
その代わりにそのネットワークの数で認識できる要素を増やしているという事でもある。

視覚であれば恐らく点や線の繋がり、
基本的な形状である三角、四角、丸、恐らく今考えられる要素としては、
人間が視覚で得ている対象の形状はその組み合わせだけなのではないかと考えられる。

では今日はこの辺で。


TOPに戻る