「単一画像からの3Dオブジェクト再構成のためのポイントセット生成ネットワーク」ペーパーノート_2D画像生成3Dポイントクラウド



Point Set Generation Network



概要

ディープニューラルネットワークを介した3Dデータの生成は、研究コミュニティでますます注目を集めています。ほとんどの既存の作品は、ボリュームグリッドや画像コレクションなどの従来の表現を使用していますが、これらの表現は、幾何学的変換の下での3D形状の自然な不変性を覆い隠し、他の多くの問題に悩まされています。この記事では、 単一画像の3D再構成 出力の直接形式を生成する問題– 点群座標 。この問題に加えて、入力画像のグラウンドトゥルースがあいまいになる可能性があるという、独特で興味深い問題が発生します。この型破りな出力形式とグラウンドトゥルースの固有のあいまいさによって推進され、私たちは斬新で効果的なアーキテクチャ、損失関数、および学習パラダイムを設計しました。私たちの最終的な解決策は 条件付き形状サンプラー 、入力画像に基づくことができます 複数の可能な3D点群を予測する 。実験では、私たちのシステムは、単一の画像に基づく3D再構成ベンチマークに基づく最新の技術を上回るだけでなく、3D形状の完成に関して強力なパフォーマンスを示し、複数の合理的な予測能力を実現する上で有望な未来を持っています。



1はじめに
この記事では、 単一のオブジェクトの3Dジオメトリに基づいてオブジェクトを生成する問題を解決しました 。点群表現に基づく3Dジオメトリ生成ネットワークを探索します。幾何学的プリミティブまたは単純なメッシュを使用するCADモデルと比較して、 点群表現は、基礎となる連続3Dジオメトリを効果的に表現しない場合があります 、しかし、私たちの目的には、多くの利点があります。 クラウドはシンプルで統一された構造であり、複数のプリミティブをエンコードしたり、接続パターンを組み合わせたりする必要がないため、習得が容易です。 また、 幾何学的な変換と変形に関しては、接続を更新する必要がないため、点群により簡単な操作が可能になります 。パイプラインは、3Dフレーム内のポイントの位置を推測します。これは、入力画像と視点の推測された位置によって決定されます。
同じジオメトリが同じ程度の類似性を持つ異なる点群表現を受け入れる可能性があるため、私たちが直面する課題の1つはトレーニング中の損失を測定する方法です。通常のL2タイプの損失とは異なり、Earth Moverの距離(EMD)輸送問題ソリューションを使用して、分散問題を効果的に解決します。 EMDの概算値を使用して速度を提供し、エンドツーエンドのトレーニングの違いを確認します。
これらの場合、2D画像には複数の同等に優れた3D再構成が含まれるため、問題は従来の回帰/分類設定とは大きく異なります。古典的な回帰/分類設定では、各トレーニングサンプルには一意のgroudtruthアノテーションがあります。この場合、最も意味のある結果を得るには、損失を正しく定義することが不可欠です。

最終的なアルゴリズムは条件付きサンプラーです。 与えられた入力画像 の場合、 推定されたグラウンドトゥルース空間から妥当な3D点群をサンプリングする 。合成データと実際のデータで行われた実験は、私たちの方法の有効性を証明しています。私たちの貢献は次のように要約できます。



•ディープラーニングの研究ポイントセットを通じて最初に問題を生成した

•ポイントセット生成ネットワークは、単一の画像からの3D再構成のタスクに適用され、パフォーマンスは既存のテクノロジーよりも大幅に優れています。

•ポイント生成ネットワークのアーキテクチャと損失関数の設計における問題の体系的な調査



•単一の画像タスクから3D再構成を実行する際の、グラウンドトゥルースのあいまいさの問題を解決するための原理的な定式化とソリューションを提案しました。

2.関連作業

幾何学的オブジェクト合成のためのディープラーニング

著者は以前にこの記事を書いていません

単一画像からの3D再構成

ほとんどの研究はマルチビュージオメトリ(SFMやSLAM [11、10]など)に焦点を当てていますが、理想的な状況は、人々が多数のシングルビュー画像から3Dを再構築できることを望んでいることです。

ただし、この場合、問題は不適切であり、先験的である必要があります。 ShapeFromX [13、1]などの初期の研究では、形状や周囲の照明条件について強い仮定がありました。 [12、21]は、単純な幾何学的構造のための学習ベースの方法の使用を開拓しました。画像セットの大まかな対応は、大まかな3D形状推定にも使用できます[15、3]。コモディティ3Dセンサーの人気により、RGBDデータベースが確立され、学習ベースのシステムのトレーニングに使用されています[7、9]。かなりの進歩にもかかわらず、これらの方法では、単一の画像から完全で高品質の形状を確実に再構築することはできません。より強力な事前情報の欠如。
最近、ShapeNet [4]などの3DCADモデルの大規模なリポジトリが導入されました。それらは、3D再構成タスクに大きな可能性を秘めています。たとえば、[22、14]は、既存の形状を変形して新しいモデルに再構成し、観察された画像に合わせるよう提案しました。これらのシステムは、高品質の画像形状の対応に依存していますが、それ自体が困難で不適切な問題です。
それは私たちの仕事により関連性があります[5]。単一の画像が与えられると、ニューラルネットワークを使用して、基になる3Dオブジェクトを3Dボリュームとして予測します。私たちの仕事と[5]の主な違いは2つあります。1つは、[5]の予測オブジェクトが3Dボリュームであり、私たちの予測オブジェクトが点群です。ポイントセットはニューラルネットワークのより良い形状空間を形成するため、予測される形状はより完全で自然になる傾向があります。次に、単一の入力画像に対して複数の再構成候補を許可します。この設計は、単一の画像では3D形状の再構成を完全に決定できないという事実を反映しています。


3.この記事の方法

ネットワーク構造は次のとおりです。

私たちの目標は、単一の2D画像(RGBまたはRGB-D)からオブジェクトの完全な3D形状を再構築することです。順序付けられていないポイントセットを使用します の形式は3D形状を表します。ここで、Nは事前定義された定数です。 N = 1024を使用するほとんどのオブジェクトでは、メイン構造を保持するだけで十分であることがわかります。
ポイントセットの利点の1つは、その無秩序にあります。 。 2Dベースの表現(深度マップなど)とは異なり、表現は トポロジーの制約なし

3Dグリッドと比較して、このポイントセットは、曲面上のポイントのみをエンコードすることにより、より高い効率を享受します。
さらに、オブジェクトを回転またはスケーリングする場合、座標値(xi、yi、zi)は、ボリューム表現の反対である単純な線形変換を受けます。
問題の不確実性をモデル化するために、入力Iを条件とする形状の確率分布としてグラウンドトゥルースを定義します。 。トレーニングでは、各画像IのP(・| I)からサンプルを取得できます。
条件付きサンプラーとしてP(・| I)からニューラルネットワークGをトレーニングします。

ここで、Θはネットワークパラメータを表し、r〜N(0、I)は入力を妨害する確率変数です。テスト中に、rの複数のサンプルを使用してさまざまな予測を生成できます。

ポイントセット間の距離測定

重要な課題は、予測された点群とグラウンドトゥルースを比較するための優れた損失関数を設計することです。
ニューラルネットワークを挿入するには、適切な距離が少なくとも3つの条件を満たす必要があります。1)ポイントの位置を区別できる2)データが何度も転送および逆伝播されるため、計算効率が高い3)堅牢である集中の少数の異常なポイントに(たとえば、ハウスドルフ距離は失敗します)。

R 3のサブセット間の距離dを見つけると、損失関数Lの形式は次のようになります。

EMD距離は、最適化問題、つまり分布問題を解決します。ゼロメトリックサブセットを除くポイントセットペアのすべてのサブセットについて、最適な全単射φは一意であり、ポイントの微小な動きの下で変化しません。したがって、EMDはほとんどどこでも異なります。実際には、グラフィックハードウェアでも、EMDの正確な計算は深層学習にはコストがかかりすぎます。したがって、私たちは与えられた[2]を達成しました おおよそのスキーム。インスタンスごとに一定の時間を割り当て、許容エラー率を徐々に調整して確実に終了します。一般的な入力の場合、アルゴリズムは非常に正確な結果を提供できます(約1%の誤差)。アルゴリズムはGPUで簡単に並列化できます。

形状空間に埋め込まれた並外れた表現力にもかかわらず、ニューラルネットワークはオブジェクトの正確な幾何学的形状を予測するときに必然的に不確実性に遭遇します。この不確実性は、ネットワーク容量の制限、入力解像度の完全な使用、または3D-2D投影での情報の損失によって引き起こされるグラウンドトゥルースのあいまいさが原因である可能性があります。 形状を正確に分析できないという固有の問題に直面して、ニューラルネットワークは平均的な空間的不確実性の「平均的な」形状を予測する傾向があります 。平均的な形状は、距離自体によって特徴付けられます。

不確実性や固有のあいまいさ(たとえば、単一のビューの非表示部分)をより適切にモデル化するために、システムが分散出力を生成できるようにします。確率変数rをGに渡すこと(式(1)を参照)が条件付きGAN(CGAN)[17]と同様になり、グラウンドトゥルース分布の調査に役立つことを願っています。ただし、式(1)のGを損失(2)に挿入して予測します 損失を最小限に抑えるとランダム性が無効になるため、機能しません。ポイントセットを直接消費する弁別子を確立すること自体が未解決の問題であるため、私たちのスキームでCGANを機能させる方法は明確ではありません。

この問題は、補助入力チャネル(別のビューなど)を組み込むことができる、より複雑なフレームワーク(VAEなど)で解決できます。しかし、実際には、MoN損失という単純で効果的な不確実性モデリング手法が見つかりました。次のように損失関数を最小化することにより、ネットワークをトレーニングします。

この損失は、n個の距離の最小値から発生するため、N最小損失(MoN)と名付けます。図2の任意のポイントセット回帰ネットワークは、MoN損失を含む図4のメタネットワークに挿入できます。実際、n = 2に設定することで、私たちの方法でグラウンドトゥルース空間をうまく探索できることがわかりました。 A

実験

当時の3D-R2N2SOTA方式との比較

距離測定の分析損失関数のさまざまな選択は、ネットワークの予測モードにさまざまな影響を及ぼします。図15は、それに応じてCDとEMDによってトレーニングされた2つのネットワークの違いを示しています。 CDによってトレーニングされたネットワークは、不確実な領域(ドアの後ろなど)にいくつかのポイントを広げる傾向がありますが、ハンドルの詳細な形状をより適切に保持できます。対照的に、EMDによってトレーニングされたネットワークは、よりコンパクトな結果を生成できますが、ローカル構造を過度に縮小する場合があります。これは、合成データの実験と一致しています

アプリケーションペーパーとして紹介されましたが、2つの基本的な問題が発生しました。1つは、順序付けられていないエンティティのセットを生成する方法です。より複雑な結合データ構造(グラフなど)の生成モデルを構築するには、セットの生成方法を理解することから始めるとよいでしょう。第二に、回帰問題におけるグラウンドトゥルースのあいまいさをどのように捉えるか。 3D再構成に加えて、多くの回帰問題にはこの固有のあいまいさがあります。既存の損失関数をラップしてMoN損失を構築することにより、これらの問題を一般化できます。