【機械学習】「スタッキング技術」を実装して予測精度を上げる
IT技術
機械学習におけるスタッキング技術とは?
上位入賞者の公開コードに必ずと言っていいほど顔を出すのが「スタッキングされた学習モデル」です。
本記事では、スタッキング技術の内容から実際のコード実装までご紹介していきますが、
まず始めに、機械学習における「スタッキング技術」とは何かを見ていきたいと思います。
スタッキング(stacking)とは「積み重ねる」を意味し、複数の学習器を組み合わせて作った学習モデルのことを「スタッキングされた学習モデル」と呼びます。
なぜこんな複雑なことをするのかと言うと、各学習器の不得意な部分をフォローし合うことで隙のない学習モデルを作るためです。
人間がお互いの長所を活かし合って最大限の力を発揮するように、機械学習もお互いに助け合うことで予測精度を高めることができるのです。
スタッキングモデルの一例
では、スタッキングモデルの一例を見てみましょう。
下の図は、Kaggle と並んで世界的に人気のある大会 「KDD CUP」 において、2015年に優勝を果たした Jeong Yoon Lee 氏の学習モデルです。
スタッキング技術を用いて優勝したことにより、スタッキング技術に注目が集まるキッカケになりました。
出典:https://speakerdeck.com/smly/techniques-tricks-for-data-mining-competitions?slide=47
上記のモデルでは、3つのステージに分けてスタッキングを行い、64の個別モデルを組み合わせています。
決定係数の精度向上分はたったの「0.0015」かと思うかもしれませんが、大会ではこの差の中に10チーム以上が入ってくるほど「大きな差」となります。
この程度の精度向上であれば、スタッキング技術は不要と思う人もいるかもしれません。
しかし、精度向上分が小さいのは決定係数が既に高いのが原因であるため、決定係数が低い部分においては精度向上分も大きくなってしまいます。
言い換えれば、超プロ級の腕前でない場合は、スタッキング技術を使うことで精度向上が見込めるということです。
よって、単独モデルで行き詰った際には「スタッキング」を試すことを強くオススメします。
スタッキング技術のメリット・デメリット
メリット:予測精度が向上する
機械学習にとっては、「予測精度」こそが全てです。
単独モデルに及ばないこともありますが、基本的には精度が向上します。
デメリット①:結果の解釈・分析が難しくなる
学習モデルを複数回通すことで、リバースエンジニアリング(結果の解釈)が非常に難しくなります。
機械学習における大会等では予測精度のみが問われるため問題ありませんが、結果の解釈とセットで用いたいエンジニアにとっては注意が必要です。
対応策としては、データの考察等は単独モデルで行い、精度向上をスタッキングに求めるのが良いでしょう。
デメリット②:計算コストの増加
学習モデルが難解になる分、どうしても計算時間が長くなります。
ただし、数万行レベルであれば通常の PC でも実装が可能です。
対応策としては、下記が挙げられます。
- 計算コストの小さい学習モデルを採用する
- 各モデルの計算時間を短縮する(ハイパーパラメーターの調整)
- 学習環境の見直し(PC のスペック向上やサーバーのレンタルなど)
実際にスタッキングを実装してみよう!
使用するデータ
今回の検討では、コンクリートの強度に関するデータ「 Concrete Compressive Strength Data Set 」を使用します。
I-Cheng Yeh, “Modeling of strength of high performance concrete using artificial neural networks,” Cement and Concrete Research, Vol. 28, No. 12, pp. 1797-1808 (1998).
スタッキングモデル
今回は、2つのステージに分けてスタッキングを行います。
下の図を見ながら説明を読み進めてください。
1つ目のステージでは、「LightGBM」「RandomForest」の条件違いを、3つ + 重回帰 の計7つのモデルを作成します。
これ以外には、「ニューラルネット」や「k 近傍法」を組み込むケースを良く見かけます。
性質の異なる学習器を複数織り交ぜることにより、色んな長所を取り入れることができるためです。
自身に馴染みのある学習器を、たくさん入れてみることをオススメします!
その後、1つ目のステージにて予測された値が、2つ目のステージの入力値となります。
2つ目のステージでは、1つ目のステージにて出てきた7つの予測値を束ねます。
最後に束ねる際の学習器は、「Lasso」「Ridge」「ロジスティック」「重回帰」などが良く用いられます。
ただ今回は、説明変数の重みが完全に「0」にならないという点から「Ridge」を採用しました。
人間らしく言うと、「全ての人の意見を取り入れる」イメージです。
言葉での説明は少し難しいと思います。
でも、実際にコードを実装すると理解できてくると思いますので、安心してください!
必要なパッケージの読み込み
それでは、必要なパッケージを読み込んでいきたいと思います!
1%matplotlib inline
2
3# データ解析用ライブラリ
4import pandas as pd
5import numpy as np
6
7# データ可視化用ライブラリ
8import matplotlib.pyplot as plt
9
10# Scikit-learn
11from sklearn.metrics import mean_squared_error
12from sklearn.metrics import r2_score
13from sklearn.model_selection import KFold, StratifiedKFold
14from sklearn import linear_model
15from sklearn.ensemble import RandomForestRegressor
16
17# LightGBM
18import lightgbm as lgb
LightGBM のパッケージをインストール
LightGBM のパッケージをインストールしていない方は、下記コードにてインストールを行ってください。
1pip install LightGBM
データを読み込みます。
xxxの部分を各自変更して下さい。
1# データの読み込み
2df = pd.read_excel(r'C:xxx.xlsx', sheet_name='yyy', header=0)
3# 予測したい変数の設定
4Objective_variable = 'Concrete compressive strength'
目的変数のヒストグラムを確認する
目的変数のヒストグラムを確認します。
1# ヒストグラムの確認
2data = np.array(df['Concrete compressive strength'])
3plt.hist(data, bins=10, histtype='barstacked', ec='black')
4plt.xlabel("Concrete compressive strength")
5plt.show()
あまりに歪な分布をしていると、決定木系の精度は上がりません。
本記事ではデータ把握に関する部分を省いていますが、データの傾向把握は必ず実行してください。
精度が低い場合に要因を探すのは大変なので、当たり前のことを当たり前に順番に確認するクセを付けることが大事です。
スタック1段目
ランダムフォレストの予測値を作成
スタック1段目のランダムフォレストの予測値を作成します。
下記コードにより、5種類の木の深さ(2・4・6・8・10)における予測結果が格納されます。
木の深さにより学習の深さを変えることで、多様性を持たせています。
あくまで一例ですので、他のハイパーパラメーターを変えても構いません。
1# スタッキング1段目(Random Forest)
2column_name = 'Random_Forest'
3
4# training dataの作成
5train = df.drop(Objective_variable, axis=1)
6target = df[Objective_variable]
7
8# DataFrameの作成
9Train_pred_df = pd.DataFrame(index=df.index, columns=[])
10
11# 交差検証の回数
12Fold = 10
13
14# 木の深さが異なるモデルによる推定
15for i in range(0, 5):
16
17 max_depth=(i+1)*2
18 kf = KFold(n_splits=Fold, random_state=123, shuffle=True)
19
20 pred_df_temp = pd.DataFrame({'index':0, column_name:0}, index=[1])
21 pred_df_temp_test = pd.DataFrame({'index':0, column_name:0}, index=[1])
22
23 # 交差検証
24 for train_index, val_index in kf.split(train, train.index):
25 X_train = train.iloc[train_index]
26 X_test = train.iloc[val_index]
27 y_train = target.iloc[train_index]
28 y_test = target.iloc[val_index]
29
30 clf = RandomForestRegressor(n_estimators=100, criterion='mse', max_depth=max_depth)
31 clf = clf.fit(X_train, y_train.values.ravel())
32 y_pred = clf.predict(X_test)
33 y_pred = pd.DataFrame({'index':y_test.index, column_name:y_pred})
34
35 pred_df_temp = pd.concat([pred_df_temp, y_pred], axis=0)
36
37 # データの整理
38 pred_df_temp = pred_df_temp.sort_values('index').reset_index(drop=True).drop(index=[0]).set_index('index')
39 pred_df_temp = pd.concat([pred_df_temp, target], axis=1).rename(columns={str(Objective_variable) : 'true'})
40
41 if i == 0:
42 Train_pred_df['true'] = pred_df_temp['true']
43 Train_pred_df[column_name + '_Maxdepth='+str(max_depth)] = pred_df_temp[column_name]
44 else:
45 Train_pred_df[column_name + '_Maxdepth='+str(max_depth)] = pred_df_temp[column_name]
46
47# 予測値の格納
48Random_Forest_train_pred = Train_pred_df
予測値が格納されていることを確認します。
1# 結果の確認
2Random_Forest_train_pred
LightGBMの予測値を作成
スタック1段目の LightGBM の予測値を作成します。
下記コードにより、3種類の学習反復回数(10・100・1000)における予測結果が格納されます。
学習反復回数を変えることで、多様性を持たせています。
こちらもあくまで一例ですので、他のハイパーパラメーターを変えても良いです。
1# スタッキング1段目(LightGBM)
2column_name = 'LightGBM'
3
4# パラメータの設定
5params = { 'objective': 'regression',
6 'metric': 'rmse'}
7
8# training dataの作成
9train = df.drop(Objective_variable, axis=1)
10target = df[Objective_variable]
11
12# DataFrameの作成
13Train_pred_df = pd.DataFrame(index=df.index, columns=[])
14
15# 交差検証の回数
16Fold = 10
17
18# 反復学習回数の異なるモデルによる推定
19for i in range(0, 3):
20
21 num_boost_round=10**(i+1)
22 kf = KFold(n_splits=Fold, shuffle=True, random_state=123)
23
24 pred_df_temp = pd.DataFrame({'index':0, column_name:0}, index=[1])
25 pred_df_temp_test = pd.DataFrame({'index':0, column_name:0}, index=[1])
26
27 for train_index, val_index in kf.split(train, train.index):
28 X_train = train.iloc[train_index]
29 X_test = train.iloc[val_index]
30 y_train = target.iloc[train_index]
31 y_test = target.iloc[val_index]
32
33 lgb_train = lgb.Dataset(X_train, y_train)
34 lgb_eval = lgb.Dataset(X_test, y_test)
35
36 clf = lgb.train(params,
37 lgb_train,
38 valid_sets=lgb_eval,
39 num_boost_round=num_boost_round,
40 verbose_eval=50)
41
42 y_pred = clf.predict(X_test)
43 y_pred = pd.DataFrame({'index':y_test.index, column_name:y_pred})
44
45 pred_df_temp = pd.concat([pred_df_temp, y_pred], axis=0)
46
47 # データの整理
48 pred_df_temp = pred_df_temp.sort_values('index').reset_index(drop=True).drop(index=[0]).set_index('index')
49 pred_df_temp = pd.concat([pred_df_temp, target], axis=1).rename(columns={str(Objective_variable) : 'true1'})
50
51 if i == 0:
52 Train_pred_df['true1'] = pred_df_temp['true1']
53 Train_pred_df[column_name + '_num_boost_round='+str(num_boost_round)] = pred_df_temp[column_name]
54 else:
55 Train_pred_df[column_name + '_num_boost_round='+str(num_boost_round)] = pred_df_temp[column_name]
56
57# 予測値の格納
58LightGBM_train_pred = Train_pred_df
予測値が格納されていることを確認します。
1# 結果の確認
2LightGBM_train_pred
重回帰の予測値を作成
スタック1段目の重回帰の予測値を作成します。
下記コードにより、重回帰の予測結果が格納されます。
1# スタッキング1段目(重回帰)
2column_name = 'Multiple_regression'
3
4# 交差検証の回数
5Fold = 10
6
7# training dataの作成
8train = df.drop(Objective_variable, axis=1)
9target = df[Objective_variable]
10
11# DataFrameの作成
12Train_pred_df = pd.DataFrame(index=df.index, columns=[])
13
14# モデルによる推定
15kf = KFold(n_splits=Fold, shuffle=True, random_state=123)
16
17pred_df_temp = pd.DataFrame({'index':0, column_name:0}, index=[1])
18pred_df_temp_test = pd.DataFrame({'index':0, column_name:0}, index=[1])
19
20for train_index, val_index in kf.split(train, train.index):
21 X_train = train.iloc[train_index]
22 X_test = train.iloc[val_index]
23 y_train = target.iloc[train_index]
24 y_test = target.iloc[val_index]
25
26 clf = linear_model.LinearRegression()
27 clf = clf.fit(X_train, y_train.values.ravel())
28
29 y_pred = clf.predict(X_test)
30 y_pred = pd.DataFrame({'index':y_test.index, column_name:y_pred})
31
32 pred_df_temp = pd.concat([pred_df_temp, y_pred], axis=0)
33
34# データの整理
35pred_df_temp = pred_df_temp.sort_values('index').reset_index(drop=True).drop(index=[0]).set_index('index')
36pred_df_temp = pd.concat([pred_df_temp, target], axis=1).rename(columns={str(Objective_variable) : 'true1'})
37
38Train_pred_df['true1'] = pred_df_temp['true1']
39Train_pred_df[column_name] = pred_df_temp[column_name]
40
41# 予測値の格納
42Multiple_regression_train_pred = Train_pred_df
予測値が格納されていることを確認します。
1# 結果の確認
2Multiple_regression_train_pred
以上で、1段目の予測値作成は終わりです。
スタック2段目
では、2段目の組み合わせモデルを実装します。
今回は、「Ridge」を採用しています。
1# スタッキング2段目(Ridge回帰)
2column_name = 'Stacking'
3
4# training dataの作成
5train = pred_temp.drop('true', axis=1).copy()
6target = pred_temp['true'].copy()
7
8
9# DataFrameの作成
10Train_pred_df = pd.DataFrame(index=df.index, columns=[])
11
12# 交差検証の回数
13Fold = 10
14
15# 回帰結果の格納
16for i in range(0, 1):
17
18 kf = KFold(n_splits=Fold, shuffle=True, random_state=123)
19
20 pred_df_temp = pd.DataFrame({'index':0, column_name:0}, index=[1])
21
22 for train_index, val_index in kf.split(train, train.index):
23 X_train = train.iloc[train_index]
24 X_test = train.iloc[val_index]
25 y_train = target.iloc[train_index]
26 y_test = target.iloc[val_index]
27
28 clf = linear_model.Ridge(alpha=0.1)
29 clf.fit(X_train, y_train)
30 y_pred = clf.predict(X_test)
31 y_pred = pd.DataFrame({'index':y_test.index, column_name:y_pred})
32 pred_df_temp = pd.concat([pred_df_temp, y_pred], axis=0)
33
34 pred_df_temp = pred_df_temp.sort_values('index').reset_index(drop=True).drop(index=[0]).set_index('index')
35 pred_df_temp = pd.concat([pred_df_temp, target], axis=1).rename(columns={str(Objective_variable) : 'true'})
36
37 if i == 0:
38 Train_pred_df['true'] = pred_df_temp['true']
39 Train_pred_df[column_name] = pred_df_temp[column_name]
40 else:
41 Train_pred_df[column_name] = pred_df_temp[column_name]
42
43# 予測値の格納
44Stacking_train_pred = Train_pred_df
45
46# 結果の確認
47R2 = r2_score(Stacking_train_pred['true'], Stacking_train_pred['Stacking'])
48RMSE = np.sqrt(mean_squared_error(Stacking_train_pred['true'], Stacking_train_pred['Stacking']))
49
50# 図の作成
51plt.figure(figsize=(8,8))
52ax = plt.subplot(111)
53ax.scatter('true', 'Stacking', data=Stacking_train_pred)
54ax.set_xlabel('True', fontsize=18)
55ax.set_ylabel('Pred', fontsize=18)
56ax.set_xlim(0,90)
57ax.set_ylim(0,90)
58x = np.linspace(0,90, 2)
59y = x
60ax.plot(x,y,'r-')
61plt.text(0.1, 0.8, 'R^2 = {}'.format(str(round(R2, 3))), transform=ax.transAxes, fontsize=15)
62plt.text(0.1, 0.9, 'RMSE = {}'.format(str(round(RMSE, 3))), transform=ax.transAxes, fontsize=15)
63plt.tick_params(labelsize=15)
64plt.title("Stacking results", fontsize=25)
非常に高い予測精度を実現することができました!
予測結果をどの程度使ったのかを確認する
次に、どの予測結果をどの程度使ったのか、確認してみます。
1# パッケージのインポート
2import seaborn as sns
3
4# 偏回帰係数、切片の取得
5a = clf.coef_
6a = np.abs(a)
7b = clf.intercept_
8
9# グラフの作成
10sns.set()
11sns.set_style('whitegrid')
12sns.set_palette('gray')
13
14x = np.array(['RF_dep=2','RF_dep=4','RF_dep=6','RF_dep=8','RF_dep=10','LGBM_num=10','LGBM_num=100','LGBM_num=1000','MLT'])
15y = a
16
17x_position = np.arange(len(x))
18
19fig = plt.figure()
20ax = fig.add_subplot(1, 1, 1)
21ax.barh(x_position, y, tick_label=x)
22ax.set_xlabel('Adoption rate')
23ax.set_ylabel('Method')
24fig.show()
1つめのステージの予測値をバランスよく採用できています。
「 LigheGBM (勾配ブースティング)」の偏回帰係数( Partial regression coefficient )が高いのは、予測精度が最も高いためです。
一番頼れるモデルを頼りながらも、他のモデルも少し頼るというバランスの良いモデルができています。
また、全てのモデルを採用することで「過学習を防ぐ」といった重要な一面があります。
ただし、スタッキングでは「どの説明変数」が「どの程度寄与したか」の判断ができなくなる点には、注意が必要です。
一番信頼した「 LightGBM_num=1000」のモデルを確認することで予想は付きますが、定量性はどうしても欠けてしまいます。
scikit-learn
今回は、スタッキングの中身を正しく理解するため、スタッキング専用のパッケージを使いませんでした。
スタックに使用可能なパッケージは複数ありますが、皆さんに馴染みのある scikit-learn にもスタッキングのパッケージが追加されました。
※ Scikit-learn のバージョン0.22から追加されたパッケージとなりますので、アップグレードが必要です。
小回りは効きませんが、簡単にスタッキングを行うことができる便利なパッケージとなっています。
興味のある方は、ぜひ使ってみてください!
単独の学習モデルと予測精度を比較してみる
次に、単独モデルとの比較をします。
単独モデルの予測精度の方が高ければスタッキングは必要ありませんので、この確認は非常に重要です。
ランダムフォレスト単独の予測精度
ハイパーパラメータの最適化を行った後の決定係数は「0.915」となり、スタッキングの「0.941」には及びません。
余談ですが、非常にレベルの高い勝負となった要因は、質の良いデータを使っているためだと思います。
科学的な実験データは、ある程度、「説明しやすくなる傾向」にあります。
一方、人間が行動した結果のようなデータは、「説明しにくくなる傾向」にあります。
LightGBM 単独の予測精度
ハイパーパラメータの最適化を行った後の決定係数は「0.889」となり、スタッキングの「0.941」には及びません。
重回帰単独の予測精度
決定係数は「0.607」となり、スタッキングの「0.941」には及びません。
重回帰分析は結果の解釈が行いやすいという最大の長所がありますが、「精度が低い」のが短所となります。
単独モデルと比較した結果から言えること
「ランダムフォレスト」「 LighGBM」に関しては、ハイパーパラメーターの最適化を実行後に行った後の決定係数です。
にも関わらず、スタッキングとの差がでたということは、組み合わせによる良いとこ取りができたことを意味すると考察できます。
さいごに
今回は、スタッキングの背景理解から実装まで行いました。
スタッキングは複数の学習器を組み合わせてモデルを作るので、予測精度の向上が期待できます。
ただし、データによって精度が向上しない場合ももちろんあります。
そのため、注意して使うようにしてくださいね!
こちらの記事もオススメ!
2020.07.28機械学習 特集知識編人工知能・機械学習でよく使われるワード徹底まとめ!機械学習の元祖「パーセプトロン」とは?【人工知能】ニューラルネ...
2020.07.17ライトコード的「やってみた!」シリーズ「やってみた!」を集めました!(株)ライトコードが今まで作ってきた「やってみた!」記事を集めてみました!※作成日が新し...
ライトコードでは、エンジニアを積極採用中!
ライトコードでは、エンジニアを積極採用しています!社長と一杯しながらお話しする機会もご用意しております。そのほかカジュアル面談等もございますので、くわしくは採用情報をご確認ください。
採用情報へ
「好きを仕事にするエンジニア集団」の(株)ライトコードです! ライトコードは、福岡、東京、大阪、名古屋の4拠点で事業展開するIT企業です。 現在は、国内を代表する大手IT企業を取引先にもち、ITシステムの受託事業が中心。 いずれも直取引で、月間PV数1億を超えるWebサービスのシステム開発・運営、インフラの構築・運用に携わっています。 システム開発依頼・お見積もり大歓迎! また、現在「WEBエンジニア」「モバイルエンジニア」「営業」「WEBデザイナー」を積極採用中です! インターンや新卒採用も行っております。 以下よりご応募をお待ちしております! https://rightcode.co.jp/recruit