[BlueLeaf1336]> PROBLEMS> NeuralNetwork>

ニューラルネットワーク > XOR問題

history TOP

2009/12/15:作成
2009/12/16:続き
2009/12/17:続き

はじめに TOP

今、手元に 2002/02/27 に購入したパーソナルメディア刊平野廣美著「Cでつくるニューラルネットワーク」という本(以下、テキスト)があります。なんというか、突然ニューラルネットワークをやってみたくなったわけで。

先週なんですけど、平日はオフラインの上、持ってる本も別の場所にあってやってみたい欲が見事に増殖した感じです。で、週末に昔買った本を探しまわることになりました。

で、平日オフラインなんですが、携帯だけはあるのでi-modeで検索して思いを馳せているとXOR問題という言葉が見つかりました。テキストによると、初期のニューラルネットワークの限界として線形分離性という性質を持つ問題だけに対応できる(XOR演算は線形分離不可能)、という話があって、3層の階層型ネットワークとバックプロパゲーションで解決できた歴史があって、「XOR問題」がメジャーな言葉になってるようです。

ま、怪しい説明をしましたが、「XOR問題」という言葉がなんかかっこよくてますますやってみたくなったわけです。

テキストはタイトルどおりニューラルネットワークを実行できるように、どんな配列を用意するか、どんな順序で実行するか、などをかなり詳しく説明してくれています。で、ここではそれをDelphiで書くわけですが、そのままやっても面白くないのでわざわざイランことをしながら書いていく予定です。

テキストの説明 TOP

テキストでは、配列をバキバキつかっています。できればこれをクラスで閉じ込めていきたいなぁと。感触としては配列の方がわかりやすそうな気もしますが、そこはあえて。基本的に頭の体操的な感じで進めようかと。

出てくる用語とかテキストに出てくる配列とか

判断方向(入力層⇒出力層)の信号伝播 (入力層⇒隠れ層、隠れ層⇒出力層の2段階)

入力層・入力層のユニット
隠れ層・隠れ層のユニット
出力層・出力層のユニット
out_in[入力層のユニット数]...入力層の各ユニットの出力値
out_hid[隠れ層のユニット数]...隠れ層の各ユニットの出力値
out_out[出力層のユニット数]...出力層の各ユニットの出力値
witoh[隠れ層のユニット数][入力層のユニット数]...入力層のユニットから隠れ層のユニットへの結合の重み
whtoo[出力層のユニット数][隠れ層のユニット数]...隠れ層のユニットから出力層のユニットへの結合の重み
hbias[隠れ層のユニット数]...隠れ層の各ユニットの閾値
obias[出力層のユニット数]...出力層の各ユニットの閾値
入力層のユニットには閾値は不要

バックプロパゲーション(教師付き学習)

tsignal[出力層のユニット数]...出力層の各ユニットに対する教師信号
dwho[出力層のユニット数]...出力層の各ユニットから隠れ層へ向かって伝播される学習信号
dwih[隠れ層のユニット数]...隠れ層の各ユニットから入力層へ向かって伝播される学習信号
dwitoh[隠れ層のユニット数][入力層のユニット数]...入力層のユニットから隠れ層のユニットへの結合の重みの変化量
dwhtoo[出力層のユニット数][隠れ層のユニット数]...隠れ層のユニットから出力層のユニットへの結合の重みの変化量
dhbias[隠れ層のユニット数]...隠れ層の各ユニットの閾値の変化量
dobias[出力層のユニット数]...出力層の各ユニットの閾値の変化量

ただし、実際には、学習パターン(入力層に与える値と望ましい結果の対)は複数(XOR問題なら4種類)あるので、

out_in[学習パターン数][入力層のユニット数]...入力層の各ユニットの出力値
tsignal[学習パターン数][出力層のユニット数]...出力層の各ユニットに対する教師信号

実は、この最後の話がしっくりきません。直接「入力層に与える値と望ましい結果の対」を保持した方がよさそうな気がする。...多分浅知恵

Thinking Time TOP

出力値、閾値、閾値の変化量はユニットの性質としてまとめられそう。
- 入力層の閾値なしは、閾値ゼロでよい
入力層、隠れ層、出力層を区別する必要ある?
- 判断方向
  - 入力信号⇒入力層...入力層は入力を受け取る
    で、入力層の各ユニットは自分の出力値を決定する
  - 入力層の出力値は、入力層に与えられた値そのもの
  - 入力層⇒隠れ層...入力層が出力値を押し出す(感じ)
    でも、重みのことがあるから隠れ層が一つ前の層の出力値をかき集めるイメージか?
    で、隠れ層の各ユニットは自分の出力値を決定する
  - 隠れ層⇒出力層...隠れ層が出力値を押し出す(感じ)
    でも、重みの(以下略)
    で、出力層の各ユニットは自分の出力値を決定する
  - 出力層⇒出力信号...出力層がが出力値を押し出す(感じ)
    このステップはなさそう。
    じゃあ、かき集めてくれる誰か(次の層)はないので、やっぱり隠れ層とは違うかも
  - ※一つ前の層の出力値をかき集めて自分の出力値を決めてじっと待つ、みたいにまとめられそうな。
    出力層の各ユニットと重み1で1対1でつながる特殊層を置いたら、入力層、隠れ層、出力層に違いはない(気がする)。でも、特殊層も不要かも。出力層の出力値をどう解釈するかはすでにネットワークの外部。
    [2009/12/21]入力層がかき集める出力って何? 入力層の前に外側的なものを置くか? そうなると、入力層のための特別なナニカを書くことになって、結局入力層を特別にした方がいいかも。
- 学習方向(ユニット間の結合の重みの調整と、各ユニットの閾値の調整)
  1. 出力層の学習信号
    - 各ユニットに期待する出力値(=教師信号)と各ユニットの出力値の2つから求める
      もし期待通りの出力値なら学習信号はゼロ
  2. 出力層と隠れ層の間の重みの調整
    - ある出力ユニットOとある隠れユニットHの間の結合の重みは、Oの学習信号とHの出力値と前回の重み調整時の変化量の3つから求める
    - 調整後の重みを使って、各隠れユニットの(入力層に対する)学習信号をついでに求める
      ループがもったいないけれど重みの調整と学習信号の決定は分離できる
  3. 隠れ層と入力層の間の重みの調整
    - ある隠れユニットHとある入力ユニットIの間の結合の重みは、Hの学習信号とIの出力値(Iの入力そのもの)と前回の重み調整時の変化量の3つから求める
    - 隠れ層と同じ方法で入力層の学習信号は求まるけれども意味がないので求めない。
  4. 出力層の閾値の調整、隠れ層の閾値の調整
    - 決定済みの(自分自身の)学習信号と前回の閾値変化量から求める
    - 入力層は閾値なし(ゼロともいえる)なので調整もしない。
  5. ※出力ユニットの学習信号と隠れユニットの学習信号の求め方が別物だけれど、重みの調整、閾値の調整は同じ。(学習信号と出力値と前回変化量から求まる)
    無理強いすれば学習信号を求める手順で、「教師信号と出力値の差」が「出力層の各ユニットの学習信号を重みつきで足し合わせた値」に代わってるだけともいえる。
    出力層に対する教師信号を「出力層の1つ後の仮想的な層のユニットの学習信号」と考えて、しかも、出力層の各ユニットが「たまたま1対1で仮想的な層のユニットと重み1で結合していた」と考えれば、隠れユニットと出力ユニットが同じようにあつかえる。かも。
    [2009/12/21]で、学習方向で言うと、今度は出力層のための特別なナニカがいるのか? もうひとつ感がすごい。入力層、中間層、出力層をおとなしく別々に作る方がよさげ。

ユニットクラス
- 判断モード
  - 閾値保持
  - 出力値計算
    - 自分の前につながるユニットの出力値を見る
    - そのユニットとの結合の重みを見る
    - 入力層に所属するとき、入力値をそのまま横流し
  - 出力値保持
- 学習モード
  - 学習信号計算
    - 自分の後につながるユニットの学習信号を見る
    - そのユニットとの結合の重みを見る
    - 出力層の後として教師層を作る?...結局感がすごい
  - 学習信号値保持
  - 閾値計算
    - 自分の学習信号値を見る
  - 閾値調整量保持

重みは、ユニット単体では決定できない。間。ユニットをクラスにすると、重みの調整がめんどくさくなる気がする。やっぱ神様視点(?)で配列かなぁ。

出力側につながる重みをユニットに持たせるにしても、入力側の重みをユニットに持たせるにしても、判断モードと学習モードでどっちも見ないといけない。

じゃ、両方持たすか。

ユニットの試作 TOP

まだ中身は書いてませんが、こんな感じで進めてみます。ひょっとするとテキストどおりに配列使った方がシンプルな気がしてきたり。

uses
    SysUtils, Classes, Contnrs;

type
    //  値を更新したときに前回値との変更量を記録する
    TDeltaValue = class
    public
        Value: Double;                  //  値
        Delta: Double;                  //  前回値からの変化量
        procedure Update(const NewValue: Double; const KeepDelta: Boolean = False);
    end;

    //  ニューラルネットワークのユニット
    TNeuron = class
    private
        FPushWeight: TObjectBucketList; //  出力側との結合の重み
        FPullWeight: TObjectBucketList; //  入力との結合の重み
        FThreshold: TDeltaValue;        //  閾値(初期値ゼロ、かな)
        FScore: Double;                 //  学習信号(評価点数という意味で)
        FOutput: Double;                //  出力値
        //  入力側のユニットとの重みを設定する
        //  SetPushWeightが呼び出されたら反射的に中から呼び出す
        procedure SetPullWeight(const Target: TNeuron);
    public
        //  出力側のユニットとの重みを設定する
        procedure SetPushWeight(const Target: TNeuron; const Weight: Double);
    public
        procedure EvalOutput();         //  出力値計算
        procedure EvalScore();          //  学習信号計算
        procedure UpdateWeight();       //  入力側との結合の重みを調整
        procedure UpdateThreshold();    //  閾値を調整
    public
        constructor Create();
        destructor Destroy(); override;
    end;

中身を書く前に、こういうクラスがあると妄想してネットワークを作成する流れを確認してみます。

シャドウネットワーキング TOP

テキストをぱらぱらとめくってみると、まんなか位に汎用的なネットワークを作成できるプログラムが紹介されています。読んでみると、もうめんどくさいぐらい作成できるネットワークの構造が柔軟です。ただ、今、そのレベルに踏み込むと120%の確率で挫折するので、XOR問題を解ける程度としておきます。

まず、XOR演算の入力と出力の組をテキストファイル(学習データファイル)で読ませる必要があります。で、問題は、どうやって入力と出力を区別するかです。

0,0,0
0,1,1
1,0,1
1,1,0

しない、という手もあります。もうこうなったらしないことにします。なんならテキストファイルに分けなくてもソースコードにべた書きでもいい気がしてきましたが、さすがに気が引けるので上の形式で読み込むことにします。

多分、線形分離できるんだと思うんですが、AND や OR の問題を解かせることもできるなぁと自分に言い訳して

入力1、入力2、出力

のフォーマットとします。で、ネットワークは、テキストどおり、3層(入力層、隠れ層、出力層)として層間は直列接続に決めます。後は層ごとのユニットの数ですが、これもテキストどおり、2つ、2つ、1つに決めうちで。

そして、処理の流れもテキストどおり。

学習データファイルを読み込んで、保持する。
ユニットを入力層2+隠れ層2+出力層1の5つ作成する。
ネットワークを組み立てる。結合の重みは、-0.3~0.3の乱数で。
学習を行う。終了判定は、すべての学習パターンに対して誤差の2乗を足しこみ平均?が設定値以下
問題を出して遊んでみる

乱数の生成 TOP

今、[0,1]の範囲で乱数を生成する関数があって、[-0.3,0.3]の乱数を得たいとしたら、どうしたらいいんだろう。単純に0.3左にずらしたら、[-0.3,0.7]になってしまう。

いやいや、0.6をかけて0.3ずらしたらいいですね。

[0,1]x0.6=[0,0.6]
[0,0.6]-0.3=[-0.3,0.3]

EOF TOP

*05/28/2011 13:38:26
*BlueLeaf1336-PROBLEMS-2009_0006 > ニューラルネットワーク > XOR問題 :: ニューラルネットワーク > XOR問題
*<a target="link" href="http://blueleaf1336.g2.xrea.com/problems/2009_0006.html">BlueLeaf1336-PROBLEMS-2009_0006 > ニューラルネットワーク > XOR問題 :: ニューラルネットワーク > XOR問題</a>