oneup

一つ上を目指す人への応援ブログ

MENU

AI関連で聞く用語解説(主な学習方法)

教室と黒板

AI関連で耳にする用語を解説します。

この言葉何だっけ?という時にお役立てください。

人間に置き換えると…人間で説明すると…というように考えていくと、AIがより理解できるようになるのではないかと思うので、できる限り人間の部位で説明させていただきます。皆様のoneupにお役立てください。

 

人間でいう頭を良くする勉強方法

ディープラーニングの主な学習方法。

教師あり学習

データに正解のラベルをつけて学習する方法。例えば犬を分類するときに、これはブルドック、これは柴犬、土佐犬など、一つ一つのデータに正解を教えて学習させる。そして新たな画像をみると「これは○○犬」ということがわかるようになる。しかし、正解を教えてもらっていない犬に関しては、見たことがないのでその犬をみても違う犬と回答してしまう。人間でいうと、学校で授業を受ける知識を得ているのに近い。

 

教師なし学習 

データに正解のラベルをつけずに学習する方法。googleが猫の画像をAIで読み取り大反響になったのは、コンピュータが勝手に学習していくこの方法だったため。これは赤ちゃんが物事を覚えるものと似ており、誰かに方法を教えてもらえなくても、経験によってできるようになるのと同じで、自分で得た情報を「これは○○」と言う風に分類し近似的なものを関連づけ、答えを導く。人間でいうと、自分で失敗したり成功したりして、知恵を得ているのに近い。

 

強化学習 

将来の価値を最大化することを目標とした学習方法。


AI × Swing Robot - Hitachi

 (これは「ブランコのふりをより大きくする。」という価値を目指して強化学習していくロボット。最初ふりは小さいけれども、徐々に学習していくさまがよくわかる。

ただし、強化学習は「価値が高い」「環境が変わらない」という評価がはっきりとわかる状態でないと効果が表れない。チェスや将棋の場合、対戦相手の強さが変わると自分の手の評価が高いのか低いのかがわからず、(いつまでたっても評価値が定まらず)正解を導けないようになる。また、人間が「価値が高い」値を設定してやらなければならず、設定がわかってないと制御もできないデメリットもある。

 

深層強化学習

ディープラーニングを利用した強化学習方法。評価値が高い手を学習し正解にたどりつくのは強化学習と同じだが、コンピュータ自ら評価が高い方法を導き出して学習していく。この方法により、人間を超える能力を手に入れることができ、難題解決の立役者となれる。かもしれない。

アルファ碁(googleが開発した囲碁システムで、複雑な思考を必要とする囲碁で人間に勝った。)は「囲碁で勝つ」という価値を何万局数という対局を自ら学ぶことにより、一つ一つの打ち筋をスコアで表し最も高くなる筋で打つことにより、人間に勝つことができた。(下図参照。結果的に左下が一番良い打ち筋となる)

学習図

この方法は誤差逆伝播法(バックプロパゲーション)という、一度やってみたことを後から振り返ってみて、「ここでこの打ち方はまずかったな。スコアを下げよう。ここは過去に失敗した所だけど、場合によっては有効なのでもう少しスコアを上げておこう」など、過去の行いをフィードバックしてスコアがより高くなるように強化していった。人間でいうと、「反省と実行を繰り返すことによって強くなる」こと思い浮かべいただくとわかりやすい。