画像のキャプションノート(8):キャプションからビジュアルコンセプトまで、そしてその逆



Image Caption Notes



この記事は、15年間のマイクロソフトの仕事です。グーグルの「ショーアンドテル」と同じ記事です。それらはすべてMicrosoftのImageCaptionチャレンジ(MS COCOキャプションチャレンジ)に行き、全体的な結果は最初に結び付けられました。

この記事のフレームワークは、私たちの一般的なエンコーダー-デコーダータイプではありませんが、それでも有益です。



記事のキャプションを生成するというアイデアは

(1)画像を作成するには、まず視覚検出器を使用して、画像に存在する可能性のある単語を抽出します。



(2)単語が抽出された後、言語モデリングにはlstmの代わりに従来の方法が使用されます。予測されるキャプションの数を取得します。

(3)DMSMモデル(ディープマルチモーダル類似性モデル)を使用して、キャプションと画像の類似性を計算し、最も類似したキャプションを最終的な予測結果として取得します。

実装の詳細は次のとおりです。



(0)準備

著者は最初にすべてのキャプションから1000語を抽出しました。これは、すべての単語の出現の92%以上を占めています。

私たちの考えによれば、最初に画像に存在する可能性のある語彙を抽出する必要があります。猫の犬などの用語では、BBボックスを使用する方が簡単ですが、美しいなどの抽象的な単語の中には、画像の特定の領域に限定できないものもあります。オン。著者が使用した方法は、弱教師ありマルチインスタンス学習(MIL)を使用することです。

以下は、Multiple Instance Learning(MIL)の簡単な紹介です。

マルチインスタンス学習の簡単な紹介から始めましょう。複数例の学習は、実際には半教師ありアルゴリズムです。このようなトレーニングデータについて考えてみましょう。パケットがたくさんあり、各パケットには多くのインスタンスがあります。バッグの正と負のクラスマーカーのみがあり、インスタンスの正または負のフラグはありません。バッグがポジティブとしてマークされている場合、パッケージ内にポジティブクラスのインスタンスが存在する必要がありますが、他のインスタンスがネガティブである可能性もあります。バッグがネガティブクラスとしてマークされている場合、そのバッグ内のすべてのインスタンスはネガティブである必要があります。私たちの目標は、インスタンスのポジティブとネガティブを区別できる分類器をトレーニングすることです。

マルチインスタンス学習は、実際には非常に一般的です。記事が禁止されている場合、それは通常、記事に特定の禁止されている単語が含まれているためですが、どの単語が禁止されているかわからない場合があります。この例では、bagが冠詞であり、instanceが単語です。たとえば、医用画像の分野と同様に、CTマップは状態を持つように調整されており、CTマップの特定の領域で病変領域として検出されるため、人は状態を持っています。多くの場合、CTマップの注釈しかありませんが、CTマップの各領域に注釈はありません。このとき、バッグはCT画像であり、インスタンスはCTチャートの小さな領域です。

この論文では、マルチインスタンス学習を使用して、画像から単語を抽出する問題に対処します。単語ごとに、注釈に単語を含む画像が肯定的な例のバッグであり、図の領域がインスタンスです。

したがって、マルチインスタンス学習法を使用して2段階の反復を実行します。最初のステップは、現在のアルゴリズムを使用して、ポジティブな例である可能性が最も高いポジティブなサンプルバッグのインスタンスと、ネガティブなサンプルバッグのインスタンスを選択することです。このようにして、ラベルのインスタンスが多数あります(1000ワード)。

2番目のステップは、選択したインスタンスインスタンスを使用して、トレーニングをトレーニングおよび更新することです。これは学習を監督するプロセスです。このように繰り返すことで、画像の領域を分類できます。

これにより、画像の領域が得られ、必要な単語を抽出できます。この記事では、(オブジェクト検出のための複数インスタンスブースティング)から、ターゲット検出を改善するためにマルチインスタンス学習方法Noisy-ORMILを使用しています。

2つの主要な問題が

インスタンスの最も重要なインスタンス(イメージ領域)を見つける方法と、選択したインスタンスをトレーニングするためのネットワークアーキテクチャ。

テスト時に、画像iが与えられ、各領域jについて、領域に単語wが含まれる確率が計算され、画像iに単語wが含まれる確率が計算されます。

訓練された完全に接続されたネットワークに画像が入力され、12 * 12の特徴マップが出力されます。特徴マップの各位置は、画像上の領域(重複している可能性があります)を表し、特徴マップを使用して単語の確率がさらに生成されます。

テストの部分は明確ですが、どのようにトレーニングするのですか?フィーチャーマップをグラウンドトゥルースのキャプション内の単語にどのように関連付けますか?私はこれを理解していませんでした。 「オブジェクト検出のための複数のインスタンスブースト」またはソースコードを見たいと思うかもしれません。

従来の方法を使用して多数のキャプションを生成したため、この部分は理解できませんでした。

キャプションと画像の類似性を計算するためのDMSMモデルを確立します。 DMSMはニューラルネットワークのペアです。

前の畳み込みネットワークの最後のfcは、画像の特徴の表現として3つのtanh非線形層と重ね合わされます。画像の特徴抽出が完了しました。 (Q)

DSSMを導入して、テキストを特徴空間にマップします。テキスト特徴抽出が完了しました。 (D)

コサイン類似度は、2つの間の類似度を計算するために使用されます。

rは平滑化係数です。 Dは複数のキャプションのコレクションです。

これらの3つの部分の後、モデルのフレームワークが構築されます。ただし、エンドツーエンドのトレーニングは実現できず、段階的なトレーニングが必要です。これは、bottom_upメカニズムの問題でもあります。