論文を読む:示唆的な注釈:生物医学的画像セグメンテーションのためのディープアクティブラーニングフレームワーク



Read Paper Suggestive Annotation

論文を読む:示唆的な注釈:生物医学的画像セグメンテーションのためのディープアクティブラーニングフレームワーク

この論文はMICCAI2017に掲載されました。著者はノートルダム大学、Lin Yang、YizheZhang、Jianxu Chen、すべて中国語で、記事タイトルの中国語訳は次のとおりです。推奨注釈:生物医学画像セグメンテーションの深さアクティブ学習フレームワーク。記事全体も比較的簡潔で、主に提案されたディープアクティブラーニングフレームワークの基本構造を紹介し、主に理論的な精緻化に基づいて、式の導出の証拠はほとんどなく、後半は2つのデータセットでの実験によるものです。トレーニングデータの50%のみを使用しても、良好なトレーニング結果が得られると結論付けられます。

1.背景知識



近年、深層学習は生物医学画像のセグメンテーションで良好な結果を達成しており、多くの研究者が元のネットワーク構造に基づいてネットワーク構造を継続的に変更し、セグメンテーションの結果が継続的に改善されています。しかし、現在誰もが困惑している最も深刻な問題の1つは、トレーニングです。データが不十分です。既存の公的な生物医学画像データセットのデータは数百のオーダーにすぎず、それでも通常の自然画像分類データセットからはほど遠い。主な理由は、生物医学的画像注釈に対する専門的な障壁が高いことです。訓練を受けた生物医学の専門家だけがデータに注釈を付けることができるため、大衆の力を使って注釈を付けることは非常に困難です。第二に、生物医学画像はより多くのターゲット例を含み、多くのエネルギーを消費する可能性があります。既存の公開データセットにも、空間注釈がほとんどありません。

現在のところ、良いモデルを訓練するためにみんなを困惑させる問題がまだあります。どのくらいのデータが必要ですか?多いほど良いですか?正確な飽和点はありますか?これは、この記事のアクティブラーニングネットワークの研究における実際の問題であり、この記事の著者は、優れたパフォーマンスを得るためにどの例にマークを付ける必要があるかに焦点を当てています。著者は、完全畳み込みネットワークと能動学習の組み合わせを提案します。深い能動学習フレームワークは、注釈の効率(有効性)を改善し、FCNによって提供される不確実性と類似性を使用して、最大の問題セットを含む一般化バージョンを形成し、注釈について最も代表的で不確実です。領域。



2.モデル構造

能動学習(能動学習):場合によっては、クラスラベルのないデータは非常に豊富で、クラスラベルのあるデータは非常に少なく、データに手動でラベルを付けるコストは非常に高くなります。この場合、学習アルゴリズムにラベル付けするデータを事前に提案させることができます。次に、これらのデータを専門家に送信してラベル付けし、これらのデータをトレーニングサンプルセットに追加してアルゴリズムをトレーニングする必要があります。このプロセスはアクティブラーニングと呼ばれます。



アクティブラーニングモデルはこれまでで最高のセグメンテーションレベルを達成できますが、この方法は事前トレーニングされた領域と事前トレーニングされた画像記述子ネットワークに基づいています。異なる生物医学画像には大きな違いがあるため、生物医学画像の設定に簡単にアクセスすることはできません。

著者はFCNを使用して特定のフィールドの画像記述子を取得し、領域の提案を使用してセグメンテーションを直接生成しません。ディープアクティブラーニングフレームワークの主なアイデアとステップをまとめています。非常に少ないトレーニングデータから始めて、モデルは一連のFCNを繰り返しトレーニングします。各段階の終わりに、これらのFCNから有用な情報(不確実性の推定値や類似性の推定値など)を抽出して、注釈を付ける次の画像のバッチを決定します。新しい注釈データを取得したら、利用可能なすべての注釈画像を使用して次の段階を開始します。上記のプロセスは単純に見えますが、以下で説明するように、FCNをこの詳細なアクティブラーニングフレームワークに統合するには、いくつかの課題を克服する必要があります。

1.FCNの課題

まず、ネットワークトレーニングが十分に高速であることを確認する必要があるため、モデルトレーニングを高速化するために、バッチ正規化と残余ネットワークが使用されます。次に、ボトルネック設計が使用されます。ボトルネック設計は、同じ数の機能チャネルパラメータを維持しながら、ネットワークを大幅に削減できます。

2.アクティブラーニングの課題

この記事では、最初に、ブートストラップアルゴリズムのアイデアに基づいて、FCNの不確実性を評価する方法と、FCNの最後のレイヤーのコーディング部分を使用して画像の類似性を評価する方法を証明します。この情報に基づいて、トレーニングデータの次のバッチの最大セットカバレッジ推奨値が作成されます。一般化されたバージョン。

3.方法

彼らの提案する方法は、3つの主要なコンポーネントで構成されています。

(1)新しいFCN。これは、新しい完全畳み込みネットワークの実験で使用された2つのデータセットで最先端のパフォーマンスを示します。

(2)FCNの不確実性推定と類似性推定不確実性と類似性を評価するためのFCN

(3)最も効果的なトレーニングデータを選択するための注釈提案アルゴリズム。

1)新しい完全畳み込みネットワーク

従来のFCNネットワークは、パフォーマンスを向上させるために数時間トレーニングする必要があります。トレーニングを高速化するために、作成者はバッチ正規化を使用して元の畳み込み層を残余モジュールに変換します。トレーニングの開始時には、ラベル付けされたデータが少なく、ネットワーク内のパラメータが多いため、トレーニングが困難であるか、効果があまり良くないため、作成者はネットワークのボトルネック設計を採用します。ネットワークのパラメータを大幅に削減しながら、同じ数の機能チャネルを維持します。

図3は、テストセットの不確実性とピクセル精度の関係を推定しています。これは、テストの精度と不確かさの推定値に大きな相関関係があることを示しています。

2)不確実性の推定と類似性の推定

最も価値のあるラベル付き領域を見つける方法は、不確実性サンプリングを使用することです。ただし、同じタイプのモデルでは深層学習モデルが不確実であることが多いため、不確実性サンプリングのみを使用すると、ラベル付けされた領域が繰り返し選択されます。したがって、不確実性に焦点を当てるだけでなく、最も代表的なサンプル領域を見つける必要があります。したがって、異なる画像間の類似性を比較し、最も代表的なサンプルを見つける必要があります。著者は使用しますブートストラップアルゴリズムの基本的な考え方は、一連のモデルをトレーニングすることです。トレーニングプロセス中、各モデルは、トレーニング用のトレーニングセットのサブセット(サンプルを置き換えることによって生成される)のみを使用するように厳密に制限され、これらのモデル間の分散が計算されます。各トレーニングサンプルの最終的な不確実な行は、すべてのピクセルの平均を計算することによって取得されます。

3)注釈の提案

次の2つの特性に従って、マークされた領域は典型的または代表的である必要があります。

1.不確実性。マークされた領域は、ネットワークが分割するのが難しい部分である必要があります

2.表現。注釈付き領域には、有用な特徴または注釈なし画像のできるだけ多くの特徴が含まれている必要があります。

具体的な方法は、各ラベリング提案段階で、すべてのラベリングされていない画像から最も不確実で代表的なk画像を抽出することです。不確実性はより重要な指標であるため、ステップ1で抽出します。不確実性スコアが最も高い上位K枚の画像が候補サブセットを形成し、このサブセットから最も代表的なk枚の画像を抽出します。

4.実験的結論

著者は、2つのデータセット、つまり2015 MICCAIGlandチャレンジデータセット(85のトレーニング画像と80のテスト画像(パートAの60、パートBの20))とリンパ節データ(37のトレーニング画像と37のテスト)で提案されたモデルの実験を行いました。画像)。

どちらのデータセットも良好なパフォーマンスを示しており、トレーニングデータの50%のみを使用した場合にのみ、最良の結果よりも優れている可能性があります。