すべての写真が物語を語る:画像から文を生成する



Every Picture Tells Story



論文のアドレスはここにあります:
https://www.ringling.edu/fileadmin/content/news/pdf/Perspectives_Spring-2009.pdf
この論文は約 画像から文章までのスコアを計算できるシステム。この文は、画像によって得られた意味と文によって得られた意味を比較することによって導き出されます。

システムへの貢献

1.この方法を研究するためのデータセットを導入しました
2.画像​​と文の間に新しい表現を導入しました
3.文の注釈で非常に良い結果を生み出すことができる新しい識別方法について説明します
4.これらの問題に対処するために、分散セマンティクス(これが何を意味するのかわかりません)を使用します
5.評価の質を向上させるために、有用な尺度での文生成の定量的評価について説明します。



2つのアプリケーションを紹介するには:

  1. 最初のものは呼ばれます:イラスト(イラスト)はテキスト提案の写真を見つけるために使用されます
  2. 2番目は呼ばれます:注釈(注釈)は画像のテキスト注釈を見つけるために使用されます

提供される方法:

文空間と画像空間の間に意味空間があると仮定し、文と画像の類似性を意味空間で評価する。



画像
2.1画像を意味にマッピングする
トリプレットは意味を表すために使用されます。このトリプレットは、画像とは何かという最も重要な概念を提供するために使用されます。そして、トリプルの各スロットには、個別の可能な値のセットがあります(紙に対応してマークされています)ので、画像から意味へのマッピングは、画像のトリプルを予測することを学ぶために簡略化されます。これには、(最小の)マルチラベルマルコフ確率場を見つけることが含まれます。 (マルコフ確率場を理解するために、これを見ることができます https://blog.csdn.net/hohaizx/article/details/82868843 )、オブジェクトのノードは、23の名詞の可能なセットから取得でき、16の異なるアクションノードと、回転可能な29の異なる値の各シーンのノードがあります。 MRFの可能性が提供された後、それは推論のために欲張り法を使用することができます。推論には、単項およびバイナリのポテンシャルが与えられた場合の離散値の最良の選択を見つけることが含まれます。

それから、私にはわからないある種の複雑な画像ポテンシャル情報を紹介しました。目標は、最初に推定された線形結合の重みを見つけることです。最終的な線形結合ポテンシャルは、MRFの値を提供します。トリプレットがすべての例の中で最高スコアのトリプレットであることが基本的な事実です。

2.2データセットの選択
彼らはPASCAL2008画像を中心にバイト画像と文データセットを構築し、20のカテゴリに属する​​50の画像をランダムに選択しました。



2.3結果の表示
定性的および定量的な結果を提供します。 2つの段階があります。 1つ目は、画像空間から意味空間へのメソッドのマッピングを示すことです。 2つ目は、予測画像と注釈付き文の結果を評価することであり、最後に定義が示されます。文画像の定性的結果。

残念ながら、私は基本的にこの論文の最も詳細な部分を理解していません。ねえ。 。 。


インターネットから分析を見つけると、ほぼ次のようになります。トリプル(オブジェクト、アクション、シーン)を作成してから、Felzanszwalb検出器を使用する
分類すべてのコード化された画像、Hou Piemei分類は、分類するHOG機能に基づいています。要点ベースのシーン
分類
画像のグローバル情報をエンコードし、SVMを介してノードを識別し、ノードの特性を確立し、トリプレットのコーパス内の単語の正規化された頻度を計算します。 MRFに基づいて、トリプレットの各ノード間の遷移行列は異なり、Good
チューリング平滑化法は、Curran&Clarkを使用して、平滑化を行い、パラメーターを減らします。
パーサーは文を生成するためのテンプレートとして使用され、次にLIN類似性測度が2つの単語間の意味的距離を決定するために使用されます。


(強すぎる、これらの単語と方法はすべて論文に記載されていますが、私はそれらをすべてスキップしました...)