
【準備編】肺のCT画像からCOVID19かどうかの判断は可能か?【機械学習】
2020.10.14
準備編~肺のCT画像からCOVID19か予想できるのか?

今回は、前回に引き続き、肺の CT 画像から、COVID 19か否かを予測する深層学習モデルを、「PyTorch」で実装してみたいと思います。
PyTorch を採用した理由は、「Kaggle」での実装例も多く、公式ドキュメントも充実しているためです。
ちなみに、こちらの記事は「プログラミングで分類に挑戦する」ということが目的で、COVID 19を確実に分類できるわけではありませんので、予めご了承をお願い致します。
【下処理編】をお読みでない方は、まずは以下をお読みください。
こちらの記事もオススメ!
画像拡張をする
「画像拡張」は、データ数の少なさを緩和するために、有効な手段です。
今回は、ライブラリとして、「albumentations」を用いました。
「albumentations」には、様々な拡張が搭載されています。
【 GitHub:albumentations 】
https://github.com/albumentations-team/albumentations
また、自作の画像拡張関数を作成することも可能です。
使用した augumentation は、以下の通りです。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | def get_transforms1(*, data): #train,valid以外だったら処理を止める。 if data == 'train': return Compose([ HorizontalFlip(p=0.5), VerticalFlip(p=0.5), GaussNoise(p=0.5), RandomRotate90(p=0.5), RandomGamma(p=0.5), RandomAugMix(severity=3, width=3, alpha=1., p=0.5), Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225], ) ]) elif data == 'valid': return Compose([ Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225], ) ]) def to_tensor(*args): return Compose([ ToTensor() ]) |
Augmix
画像拡張の手法では、コーネル大学が公開している、「Augmix」というものがあります。
【コーネル大学:Augmix 】
https://arxiv.org/abs/1912.02781
これは、「train」と「test」でデータに違いがある場合に生じる、「堅牢性」と「不確実性」の問題を大幅改善できる手法です。

「Dataset」や「model」も準備する
Datasetは典型!
PyTorch では、「channel」「height」「width」の順に、Tensor の軸を並べ替える必要があります。
以下が、PyTorch における Dataset です。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | class TrainDataset(Dataset): def __init__(self, df, labels, transform1=None, transform2=None): self.df = df self.labels = labels self.transform = transform1 self.transform_ = transform2 def __len__(self): return len(self.df) def __getitem__(self, idx): file_name = self.df['filename'].values[idx] file_path = '/kaggle/input/computed-tomography-of-lungs-datase-for-covid19/{}'.format(file_name) image = cv2.imread(file_path) image = cv2.resize(image,(SIZE,SIZE)) if self.transform: image = self.transform(image=image)['image'] if self.transform_: image = self.transform_(image=image)['image'] label = torch.tensor(self.labels[idx]).float() return image, label |
画像は、OpenCV により「ndarray」で扱っているので、NumPy の「swapaxis」でも対応できるかと思います。
それ以外は、Keras と似たような、Dataset を書けば良いわけです。
モデルはお好みで!
深層学習のモデルの技術革新は凄まじく、2019年に Google から発表された「EfficientNet」は、Kaggle 上で大人気です。
その EfficientNet よりも、ImageNet での性能が良いとされているのが、「EfficientNet-Noisy-Student」。
これは、「Self-learning」に、画像拡張のようなノイズを加えたものです。
同じパラメーターで見た精度は、従来のものよりも向上していますね。
というわけで今回は、「EfficientNet-Noisy-Student」の B2 を使用しました。
ImageNet では、出力が1000次元なので、出力が1次元の FC 層に付け替えます。
重みを読み込んでからでないと、エラーが出るので、注意が必要です。
コード
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 | class Efnet_b2_ns(nn.Module): def __init__(self,weight_path): super().__init__() self.weight_path = weight_path self.model = geffnet.tf_efficientnet_b2_ns(pretrained=False) state_dict = torch.load(self.weight_path,map_location=device) self.model.load_state_dict(fix_model_state_dict(state_dict)) #さいごの部分を付け替え self.model.global_pool=nn.AdaptiveAvgPool2d(1) self.model.classifier = nn.Linear(self.model.classifier.in_features, 1) def forward(self, x): x = self.model(x)#ベースのモデルの流れに同じ return x def fix_model_state_dict(state_dict): from collections import OrderedDict new_state_dict = OrderedDict() for k, v in state_dict.items(): name = k if name.startswith('model.'): name = name[6:] # remove 'model.' of dataparallel new_state_dict[name] = v return new_state_dict |
精度を向上させるためには、以下のような手順を踏むのが、一般的です。
- 軽いモデルで試す
- 画像拡張の探索を行う
- 重いモデルを複数学習させる
- アンサンブル
EfficientNet 以外では、「SE-ResNeXt」などの SE 系モデルも、試す価値があるかもしれませんね。
評価指標はAUCを選択
モデルの出力は「0~1」ですが、ラベルは「0」か「1」。
そのため、F1-score などを用いると、閾値によっては精度のスコアが変化してしまいます。
ですが、ROC 曲線の曲線下面積である「AUC」を用いれば、閾値によらない精度を考えることができるのです。
AUC は、QWK と並んで、医療データでよく扱われます。
実装編へつづく!
こちらの記事は、【実装編】へつづきます。
こちらの記事もオススメ!
ライトコードよりお知らせ






一緒に働いてくれる仲間を募集しております!
ライトコードでは、仲間を募集しております!
当社のモットーは「好きなことを仕事にするエンジニア集団」「エンジニアによるエンジニアのための会社」。エンジニアであるあなたの「やってみたいこと」を全力で応援する会社です。
また、ライトコードは現在、急成長中!だからこそ、あなたにお任せしたいやりがいのあるお仕事は沢山あります。「コアメンバー」として活躍してくれる、あなたからのご応募をお待ちしております!
なお、ご応募の前に、「話しだけ聞いてみたい」「社内の雰囲気を知りたい」という方はこちらをご覧ください。
ライトコードでは一緒に働いていただける方を募集しております!
採用情報はこちら書いた人はこんな人

IT技術2021.01.11React Hooks登場でコンポーネントはどう変わった?
IT技術2021.01.05【Unity】Rigidbodyの基本
IT技術2021.01.04【Unity】ARkit3を使ったARアプリを開発する方法を解説(AR foundation,iOS)
IT技術2020.12.29【機械学習】単純なアルゴリズムで迷惑メールを分類してみた