Posts

Showing posts from July, 2018

Boosting のまとめ

Image
Boosting のまとめ ブースティングとは、Weak Learner(弱い学習機)のアンサンブルを作ることで Strong Learner(強い学習機)を生成するのを目的とした機械学習のアルゴリズムの一種である。ブースティングをまとめるために Weak Learner (WL) と Strong Learner (SL) とは何か、その概念を本記事で簡単に説明したいと考えている。
Weak Learner とは、ある特徴量に対して分類しようとした結果がランダムにカテゴリを選ぶよりも精度が高いという若干の相関のある分類機である。基本的には WL の構造はシンプルである。 例えば、ある人を「男性」、「女性」という2つのカテゴリで分類するのが目的としよう。人間を表す特徴量は、例えば以下の通りの4次元ベクトルにしよう。

人の特徴量:(年齢、身長、マイナンバー、過去5年間でスカート・ドレスを履いた回数)

もちろん以上の特徴量(情報)で100%という確率で性別を予測することができない。しかも、全く性別に関係ない要素もある。だが、以下のように分類機を用意すると、どれくらいのな確率で予測できるのであろうか。



以下は、日本における男女平均身長のグラフである。中央値が平均値と異なる可能性が高いが、等しいとしよう。


source: NHK (https://www.nhk.or.jp/ohayou/digest/2017/04/0401.html)
男女平均身長を男女身長の中央値にした場合は、50% 以上の男性は 165cm より背が高く、50% 以上の女性は 165cm より背が低い。 すると、分類機によって正しく分類された人は、50% 以上である。これは、ランダムに性別を選ぶよりも正確だが、165cm より背が高い女性もいれば、 165cm より背が短い男性もいるから100%近づかないであろう。
さらに、もう一つ、以下の分類機を加えよう。



以上の分類機は身長の分類機と同様、100%という確率で性別を予測できないが、ランダムに選ぶよりも正確であろう。 以上の分類機を加え、両方の分類機の分類結果を考慮した上で分類した方が精度が上がるであろうという発想からブースティングが生まれた。 複数の WL を作り、それぞれの WL に重みをつけて、各 WL の結果を重みに…