マルチモーダル画像から画像への変換(BicycleGAN)画像の1対多変換テストに向けて



Toward Multimodal Image Image Translation Image One Many Conversion Test



CycleGANの主な寄稿者であるpix2pix、iGANは最近、NIPS 2017でのマルチモーダル画像から画像への変換に向けた記事を発表しました(https://junyanz.github.io/BicycleGAN/、https://arxiv.org /pdf/1711.11586を参照)。 .pdf)、1つの画像から異なるスタイルの複数の画像に同時に変換する方法について説明します。


著者の要約の最初の文から、次のことがわかります。「単一の入力画像が複数の可能な出力に対応する可能性があるため、多くの画像から画像への翻訳の問題はあいまいです。この作業では、条件付き生成モデリング設定で可能な出力の分布をモデル化することを目指しています。 'pix2pixのような画像変換(1対1)は、1つの出力だけに対応することは不可能であるため、あいまいです。したがって、著者は1対多の出力を提案します。つまり、可能な出力画像には特定の分布特性があります。





この論文の主な方法を下の図に示します。つまり、著者は2つのGANを組み合わせてそれを実現します。




主なブロック図は次のとおりです。


その中でcVAE-GAN(条件付き変分自己符号化GAN)、つまり、VAEを介した画像出力の隠れた分布を学習し、マルチスタイルの出力分布方法をモデル化します。上の図(C)に示すように、cVAE-GANはグラウンドトゥルースターゲット画像Bから開始し、それを隠し空間にエンコードします。次に、ジェネレータは、入力画像Aをサンプルzとともに元の画像Bに逆マッピングしようとします。



  • cLR-GAN(条件付き潜在的回帰GAN):ランダムにサンプリングされた暗黙のコーディングから始めて、条件ジェネレーターは出力を生成する必要があります。エンコーダーへの入力として使用する場合、自己整合性を実現するために同じ暗黙のコーディングを返す必要があります。 cLR-GANは、既知の分布から非表示のコードをランダムにサンプリングし、このコードを使用してAを出力Bにマップしてから、出力から非表示のコードを再構築しようとします。

  • 次に、BicycleGANは、上記の2つのモデルを合成したものであり、次のモデルになります。


実験的テスト(公開コードを再コンパイルしてテストし、GPU設定モジュールを削除してテストするには、https://github.com/junyanz/BicycleGAN/を参照してください):



生成された結果を以下に示します。これは非常にクールです。