視聴覚での物体定位能力の学習

環境内にある物体を視覚と聴覚で定位する能力を,自己組織的に獲得する方法についての研究を行っている.生体は左右の耳への到達時間差等の情報を基にして,音源の方向を推定することが出来る.もし音の速さや左右の耳の距離,音伝播の物理法則等を与えられれば,我々はそれらの情報から音源の方向を推定することが出来る.しかし,生体はそのようなパラメータは知らないし,時間差と角度の幾何的関係も知らない.にもかかわらず生体は自己組織的に定位能力を獲得している.この能力は知覚と運動の繰り返し(知覚循環)によって,獲得されていると考えられる.そこで,音源に対応して首を回転させ,そのときに獲得した情報を利用して,聴覚的および視覚的な物体の定位能力を教師なしで獲得するモデルを提案し,シミュレーションと実験でモデルの妥当性を確かめた.

本モデルは図1のような,2つのマイクで音の情報を,1つのカメラで音源の視覚情報を獲得し,首を回転させて音源を視野の中央に捕らえるシステムである.

図1.モデルイメージ

 

図2に学習モデルを示す.

図2.音源定位学習モデル

音の発生が知覚されると,まず両耳間時間差Δtから聴覚的推定モジュールによって,中間コードIを求める.次にこの中間コードから,音源を定位するのに必要な首の回転量Δsが運動制御モジュールによって決定され,実際に首の回転を行う.聴覚的定位(音源定位)が未熟な学習の初期においては,この定位はたいていうまくいかない.そのため,次に視覚的定位による補正を行う.視覚的位置Δxから視覚的推定によって,聴覚的定位の場合と同様に中間コードIを求め,運動制御によって首の回転を行う.

学習過程を図3に示す.

図3.学習の流れ

一回の学習が完了するまでには,聴覚的定位,視覚的定位,サーチ,ステップセンタリングと最大4つの行動を行うことになる.まず,聴覚的定位,を行う.もし,音源物体を視野の中央にとらえることができていなければ,次に視覚的定位を行う.視覚的定位において,視野の中に音源物体がない場合には,首を微小回転させて音源物体を視野の中に入れる.これがサーチである.音源物体が視野の中央から遠ざかってしまった場合には,ステップセンタリングを行う.ステップセンタリングとは,視覚的フィードバックにより首を微小回転させて,音源物体を視野の中央によせる行動である.視覚的定位エラーのEVnは,そのときの視覚的定位以降に行った首の総回転量,聴覚的定位エラーEAは,聴覚的定位以降の首の総回転量として表せる.このように,首の回転という運動によって,エラーEA,EVが得られる.このエラー値を用いてBP学習によって視覚・聴覚推定モジュールの学習を行う事によって音源定位能力が獲得される.

しかし,このモデルでは線形な運動系を仮定していた.そこで非線形な運動系にも対処できるよう,自己組織化特徴マップモデルを用いてモデルの拡張を試みた.

使用した神経回路モデルを図4に示す.

図4.神経回路モデル

参照ベクトルwは自己組織化特徴マップモデルによって構成され,それと制御値sが一対一に対応する.入力値としてΔtまたはΔxが入力されるとそれと最も近い距離にある参照ベクトルwkが選択され,それに対応した制御値skが出力される.

音源定位学習の流れを図5に示す.

図5.学習の流れ

まず音源をランダムに配置し,音を発生させる.そして,その音の左右のマイクへの到達時間差を求め,その値から聴覚モジュールを用いて,首を回転させる.音源が視野外にある場合は,音源の位置を変える.音源が視野内にある場合は,視覚モジュールを用いて,首を回転させる.そのときの視覚モジュールからの出力値を用いて聴覚モジュールの学習が行われ,その後,視覚モジュールの学習が直接逆モデリングを用いて行われる.

聴覚モジュールの学習方法を図6に示す.

図6.聴覚モジュールの学習法

聴覚モジュールによる回転に用いられた制御値をs1,視覚モジュールによる回転に用いられた制御値をs2とすると,聴覚モジュールの制御値の更新は,図中の式のように視覚モジュールの制御値に小さな学習係数εを掛けた値の分だけ変更がなされる.

以上のように学習方法を変更して実験を行い,視聴覚モジュールの学習を行った結果,非線型な制御対象についても学習可能なモデルであることが示された.