平均値いろいろまとめてみた
IT技術
機械学習を実装する上で、便利だと思う平均値を色々とまとめてみました!
算術平均(相加平均)
誰もが知っているであろう全部足して割るだけの普通の平均。
便利な値だが、極端な値が存在する場合は平均値がその値に引っ張られる。
例えば、500万、400万、350万、300万の4つの値で平均値を求めると387.5万になるが、新たな5つ目の値として1億というデータも含めると平均値は2310万となる。
このような場合は、外れ値を除外して平均値を計算したり極端な値の影響を受けない中央値と合わせて参照したりしたほうが求めているデータが見えてくるかも?
幾何平均(相乗平均)
算術平均が全て足して割るのに対して、相乗平均はすべてかけてn乗根を取る。
高校数学の相加相乗平均の大小関係の公式で微妙に登場している。
売上高の成長率のように比率を表す時系列データの平均を取るには算術平均より幾何平均のほうが適切。
調和平均
逆数の平均の逆数といったかんじ。
調べるとたいてい一定距離を違う速度で往復する例が出てくる。
他にも電気抵抗の問題で使うらしい。個人的には最も使う機会が少なそう。
移動平均
時系列データで一定区間ごとに平均値をずらしながら求める。
左がもともとのデータで、右が区間50日の移動平均をプロットしたもの。
グラフを見てわかるように、平滑化してデータを捉えることができる。
また、単純な移動平均はpandas.Series.rollingで簡単に求めることができる。
加重平均
平均値の平均値を取るときに母数を考慮したいとか、先述の移動平均で現在に近い値ほど重要なデータとして平均したいとかの場合に使う。
numpy.averageでは重みを表す配列を渡すことで加重平均を計算してくれる。
カテゴリごとの平均
機械学習のための特徴量エンジニアリングでカテゴリごとの平均をとるときに、出現頻度が少ないカテゴリは全体の平均に寄せるという手法がある。
λは値域が0~1で、数が多いほど大きくなるような関数を入れる。
好きな動物 | テストの点数 | 好きな動物ごとのテストの平均 |
犬 | 82 | 83 |
犬 | 91 | 83 |
犬 | 78 | 83 |
犬 | 65 | 83 |
犬 | 99 | 83 |
猫 | 59 | 75 |
猫 | 79 | 75 |
猫 | 100 | 75 |
猫 | 62 | 75 |
カエル | 95 | 95 |
例えば上記のようなデータがあった場合、カエルは1人しかいないので平均が95点となるが犬・猫に比べて人数が少ないためゆらぎの大きなデータとなってしまいます。
そのため、「全体の平均に寄せておきましょう」ということです。
たしかにカエルの平均が95点というのは正しいが、もっとカエルの人が集まった場合に95点よりは低く、全体の平均に近づいているであろうというのも自然です。
他にも自身以外のデータで計算するなどの工夫もあります。
こちらの記事もオススメ!
2020.07.28機械学習 特集知識編人工知能・機械学習でよく使われるワード徹底まとめ!機械学習の元祖「パーセプトロン」とは?【人工知能】ニューラルネ...
2020.07.17ライトコード的「やってみた!」シリーズ「やってみた!」を集めました!(株)ライトコードが今まで作ってきた「やってみた!」記事を集めてみました!※作成日が新し...
今日の一冊
ライトコードでは、エンジニアを積極採用中!
ライトコードでは、エンジニアを積極採用しています!社長と一杯しながらお話しする機会もご用意しております。そのほかカジュアル面談等もございますので、くわしくは採用情報をご確認ください。
採用情報へ
競馬が好きです。