Computer Vision_18_Image Stitching:不変特徴を使用した自動パノラマ画像ステッチ-200 .. ..



Computer Vision_18_image Stitching Automatic Panoramic Image Stitching Using Invariant Features 200



この部分はコンピュータビジョンの一部であり、主に基礎となる特徴抽出、ビデオ分析、追跡、ターゲット検出、および認識の側面に焦点を当てています。たとえば、カメラのキャリブレーションとステレオビジョンは、この分野に特に精通しているわけではなく、Googleに比較的多数の引用文献が掲載されているだけです。個人的に好きな最近公開された記事もいくつかリストされています。

18.画像のステッチ
画像のステッチ、別の関連する単語はパノラマです。 Computer Vision:Algorithms and Applicationsの本で、この問題を議論するための章を捧げました。これは両側の総説です、この領域は古典的な記事です。
[2006Fnd]画像の配置とステッチのチュートリアル
[2007IJCV]不変特徴を使用した自動パノラマ画像ステッチ



引用の場合:ブラウンM、ロウDG。不変特徴を使用した自動パノラマ画像スティッチング[J]。 International Journal of Computer Vision、2007、74(1):59-73。

翻訳



自動パノラマモザイク画像を使用した不変の特徴- http://tongtianta.site/paper/38233

著者:MATTHEW BROWN AND DAVID G. LOWE

概要 -この質問は、自動パノラマ画像スティッチングに関連しています。 1D(単軸回転)の問題はよく研究されていますが、2D以上のステッチラインはより困難です。以前の方法は、一致する画像を作成するために人間の入力または画像のシーケンスを制限するために使用されてきました。この作業では、複数画像のスティッチングマッチング問題として表され、同じローカル機能を使用してすべての画像間の一致を見つけます。したがって、入力画像、向き、スケールを並べ替える私たちの方法は、照明に敏感ではありません。それは画像ノイズに属さず、パノラマに敏感ではなく、順序付けられていない複数のパノラマ画像データセットを識別し得る。自動ゲイン補正と矯正ステップの導入を通じてこの記事よりも詳細を提供することに加えて、私たちの前にこの領域での作業を拡張します(Brown and Lowe、2003)。
キーワード: マルチ画像マッチング、スティッチング、識別

1はじめに

パノラマ画像モザイクには、広範な研究文献(Szeliski、2004 Milgram、1975 Brown and Lowe、2003)といくつかの商用アプリケーション(Chen、1995 Realviz、http://www.realviz.com)があります。
http://www.microsoft.com/products/imaging)。問題の基本的な形状はよく理解されており、各画像は3×3行列またはカメラホモグラフィの推定で構成されています(Hartley and Zisserman、2004 Szeliski and Shum、1997)。推定プロセスを初期化する必要があります。これは通常、ユーザーがほぼ位置合わせされた画像、画像の並べ替え、または固定に対して提供します。たとえば、PhotoStitchソフトウェアがバンドルされたCanonデジタルカメラには、水平または垂直スキャンまたは正方形の画像マトリックスが必要です。 REALVIZ Stitcherバージョン4(http://www.realviz.com)は、自動的に登録される前に、マウスの大まかな位置で画像のユーザーインターフェイスを備えています。そのような初期化を提供する必要がないため、私たちの仕事は非常に革新的です。

文献では、自動画像位置合わせとステッチングプロセスは大きく2つのカテゴリに分けられます-直接(SzeliskiとKang、1995 IraniとAnandan、1999 SawhneyとKumar、1999 ShumとSzeliski、2000)と機能(Zoghlamiベースのet、1997 CapelおよびZisserman、1998 McLauchlan and Jaenicke、2002)。直接法の利点は、利用可能なすべての画像データを使用し、非常に正確な登録を提供できることですが、厳密に初期化する必要があります。信頼性の高いマッチングの欠如により、任意のシーケンスパノラマ画像レジストレーションを実現するために初期化は必要ありませんが、従来の特徴マッチング(Shi and Tomasi、1994)、たとえば、特性の不変性に基づくハリスコーナー周辺の画像ブロックの相関(Harris、1992)。

この記事では、パノラマ画像のスティッチング不変特徴に基づく自動化された方法について説明します。これには、以前の方法に比べていくつかの利点があります。まず、入力の回転、ズーム、照明は画像内で変化しますが、不変機能を使用することで、パノラマ画像のシーケンスを確実に一致させることができます。第二に、マルチ画像マッチング問題と見なされる画像モザイクは、自動的にマッチングすることができ、画像間の関係を見つけ、無秩序なデータセットパノラマを識別します。第3に、結果を使用して混合マルチバンド高品質出力を生成し、シームレスなパノラマを表示しました。ゲイン補正と自動矯正ステップを導入することにより、この分野での初期の作業を拡大します(Brown and Lowe、2003)。また、効果を実現するためのバンドル調整について説明し、任意の数のバンドを持つ複数の重ね合わせたマルチバンド画像のミキシングを実行する方法を示します。

以下の残りの構造。セクション2は、ジオメトリの問題を開発し、不変の機能の選択に影響を与えました。セクション3では、画像マッチング方法(RANSAC)と画像マッチング検証確率モデルについて説明します。セクション4では、各カメラのパラメーターを一緒に最適化する画像調整アルゴリズム(バンドル調整)について説明します。セクション5-7では、自動ストレート化、ミキシング、マルチバンドゲイン補正などのレンダリングパイプラインについて説明します。セクション9では、今後の作業に関する結論とアイデアを示します。

2.機能のマッチング

最初のステップは、パノラマ認識アルゴリズムを抽出し、すべての特徴画像間でSIFT(Lowe、2004)を照合することです。 SIFT機能は、ガウス関数の差分スケール(スペースの最大値/最小値)にあります。各フィーチャーの位置で、方向とスケールは特性を構築します。これにより、測定する類似性不変のフレームが得られます。フレーム内の単純なサンプリングされた強度値にもかかわらず、同様の不変量に​​なりますが、実際には、ローカル勾配方向ヒストグラムで計算された不変量記述子を累積することによって。これにより、記述子ベクトルを変更せずにエッジをわずかに移動して、リモート変更にある程度の堅牢性を提供できます。関心のあるポイントは通常0〜3ピクセルの範囲内でのみ正確であるため、このスペースは累積シフト不変性にとっても重要です(Brown et al、2005 Sivic and Zisserman、2003)。勾配(偏差を除去)と正規化された記述子ベクトル(除去ゲイン)を使用して、照明の不変性を実現します。

回転と変化率のSIFT機能は一定であるため、私たちのシステムは異なる方向とスケーリングの画像を処理できます(図8を参照)。従来の特徴マッチング技術(ハリスコーナーを囲む画像ブロックの相関など)を使用することは不可能であることに注意してください。回転に関連する法線(平行移動)は一定ではなく、スケール変化に対するハリス角度は一定ではありません。

カメラがその光学的回転中心の周りにあると仮定すると、画像は変換の対象となる可能性があり、特別なホモグラフィのセットです。回転ベクトルθ= [θ1、θ2、θ3]および各パラメーターのカメラ設定の焦点距離fを介して。これにより、一対のホモグラフィが得られます その中で


そして 均一な画像位置( 、どこで2次元画像位置です)。 4はカメラモデルのパラメータによって定義されます

そして(ロータリーインデックスを使用して表される)


理想的には、同じ変換で画像機能のセットを使用します。ただし、画像の位置のわずかな変化

または同等のもの 、その中で

uについて線形化することによってi0自然変換によって得られた1つのホモグラフィ。これは、各小さなパッチで画像変換が制限され、不確実性の下で変化するSIFT機能を使用できることを意味します。

n個の画像すべてからの特徴抽出(線形時間)が完了したら、それらを一致させる必要があります。複数の画像が単一の光と重なる可能性があるため、特徴空間内の各特徴はk最近傍と一致します(k = 4を使用)。これは、近似されたk-dツリー最近傍(Beis and Lowe、1997)を使用することにより、O(n log n)時間で見つけることができます。 k-dツリーは、軸方向に整列されたバイナリ空間分割です。これは、分散が最大の次元を持つ特徴空間で再帰的に分割された平均です。

3.画像マッチング

この段階での目標は、一致する(つまり重複する)すべての画像を見つけることです。画像マッチンググループ接続は後のパノラマになります。各画像は各画像と一致する可能性があるため、問題は最初に画像数の2乗に現れました。ただし、画像ジオメトリの適切なソリューションを取得するために、各画像の少量と重ね合わせた画像のマッチングのみを行います。

マッチングステップでは、多数の画像マッチングを特定しました。一致する可能性のある画像があるため、最新の画像特徴が一致する一定数の画像mを検討します(m = 6を使用します)。まず、RANSACを使用して、画像間の単一のポイントと互換性のある内部ポイントのセットを選択します。次に、確率モデルを使用して一致を検証します。

3.1ロバストなRANSACホモグラフィ推定を実行する

RANSAC(Random Sample Consensus)(Fischler and Bolles、1981)は、画像変換パラメーターの推定に対応するランダムサンプルの最小セットを使用し、最良のコンセンサスデータを使用して解を見つけるロバスト推定手順です。パノラマの場合、特徴のセットに対応するr = 4を選択し、直接線形変換(DLT)法を使用して、それらの間の単一のアトピーH(Hartley and Zisserman、2004)を計算します。 n = 500を使用します。これは繰り返し試行され、ポイントの数が最も多いソリューションを選択します(これは許容誤差εHピクセル内の投影と一致します)。を参照してください。図1。正しい画像の一致確率(内部確率)間の一致する特徴のペアが与えられた場合、pn回の試行後に正しい変換を見つける確率は次のとおりです。

徹底的なテストの後、正しいホモグラフィを見つける可能性は非常に高くなります。たとえば、インライア確率pの場合= 0.5、500回の試行の後、約1×10の正しいホモグラフィの確率は見つかりませんでした-14

RANSACのHは、本質的にサンプリングを推定する方法です。内部の数を最大化するのではなく、合計の対数尤度を最大化する場合、結果は最尤推定(MLE)になります。さらに、変換パラメータが事前に利用可能である場合、最大事後推定(MAP)を計算することが可能です。これらのアルゴリズムは、MLESACおよびMAPSACと呼ばれます(Torr、2002)。



図。 1.SIFT特徴はすべての画像から抽出されます。 k-dツリーを使用してすべての特徴を照合した後、チェックの数が最も多い特性は、画像の照合を実行するために特定の画像に照合されます。 RANSACは、最初にホモグラフィを計算するために実行され、次に、一致する内部検証画像の数に基づいて確率モデルを呼び出します。この例では、入力画像は517×374ピクセルであり、247個の正しい特徴が一致しています


3.2画像マッチング確率モデルの検証

画像の各ペアが一致する可能性があるため、オーバーラップ領域に一致する幾何学的特徴のセット(RANSAC内のポイント)と特徴のセット(RANSAC外れ値)がありますが、一貫性がありません。私たちのアイデアは、モデルを比較して、正しい画像または間違った画像の一致の確率が、この内部/外れ値のセットを生成することを確認することです。

与えられた画像に対して、重複領域nを表しますf機能の総数と内部nの数。画像は正しい/正しくない一致イベントmε{0,1}バイナリ変数が表されています。 i番目の機能のマッチングf(私)ε{0,1}は内部イベントです/外れ値は独立したベルヌーイであると想定されているため、二項式の内部の総数

ここでp1正しい画像の場合、内部の特定の確率特性に一致し、p0与えられた特徴に一致する偽の画像の場合、内部の確率です。特徴変数の一致するセット{f(私)、I = 1,2 、。 、N f}はf(1:nとして表されますf)。内のポイント数 そしてB(・)は二項分布です

pの値を選択しました1= 0.6およびp0= 0.1。これで、ベイズの定理を使用して、正しい事後確率に一致する画像を評価できます。

p(m = 1 | fの場合(1:nf))> p一致する画像を受け入れます

値の選択p(m = 1)= 10-6そしてp=与えられた0.999条件

適切なマッチングのために、ここでα= 8.0および = 0.3。実際にはpを選択しましたが0、p1、P(m = 0)、p(m = 1)およびp価値がありますが、原則として、データから学ぶことができます。たとえば、pは、一致スコアが均一であるように正しい単一の大きなデータセットを計算することによって推定できます。1

画像が一致するペア間で確立されると、接続されている画像のパノラマシーケンス一致セットを見つけることができます。これにより、グループ内の複数のパノラマ画像を識別し、一致しない他の画像とのノイズ画像を拒否することができます(を参照)。図2))。

2.FIGパノラマ認識。ノイズの多い特徴マッチングのセットが与えられた場合、RANSAC検証手順と確率を使用して、一貫性のある画像マッチングを見つけます(a)。表示された画像の各ペア間の矢印は、特徴間の一致の一貫したセットを見つけました。接続されたコンポーネント(b)は、画像のマッチングを検出し、パノラマ(c)に継ぎ付けられます。このアルゴリズムはノイズに敏感ではないことに注意してください。パノラマ画像(画像のコネクタアセンブリ1のサイズ)ではありません。



4.バンドル調整

特定の画像セット間でジオメトリの一貫性を保つために、バンドル調整(Triggs et al。、1999)を使用して、すべてのカメラパラメータを共同で解決します。ホモグラフィペア接続は累積エラーを引き起こし、複数の画像間の制約を無視するため、このステップが必要です。たとえば、パノラマの端を一緒に接続する必要があります。画像はビームアジャスターに1つずつ追加され、各ステップで最適な画像(一致の最大数)が追加されました。同じ画像回転の新しい画像と、それに最適な焦点距離を初期化します。次に、Levenberg-Marquardt更新パラメーターを使用します。

私たちが使用する目的関数は、正方形のロバスト化された投影誤差です。つまり、各特徴画像は、そのすべてのマッチングに投影され、画像距離の二乗最小化カメラパラメータの合計に関して投影されます。 (また、(そして実際に統計的に最良の)未知の光線方向Xを明確に示し、推定されたカメラパラメータと一緒に示すことができることに注意してください。アルゴリズムの複雑さを増さないスパースバンドル調整方法を使用している場合( Triggs et al。、1999))u間の対応を考えると.Ulj(u残余のk番目の画像特徴位置を表します)

ここでpijuに対応する画像からのJ画像投影点のI

誤差関数は、残差画像の合計です。

ここで、nは画像の数です。 Iは画像マッチングのセット、F(i、j)は画像iとjのマッチングセット間の特性です。堅牢な誤差関数Huberを使用します(Huber、1981)

誤差関数は、点Lを結合します。迅速な最適化収束ノルム(距離がσ未満)、およびLの外れ値([シグマ]より大きい距離)1堅牢なノルムスキーム。初期化中に外れ値距離σ=αを使用し、最終的な解決策はσ= 2ピクセルを使用します。

これは、Levenberg-Marquardtアルゴリズムを使用する非線形最小二乗問題です。各反復ステップの形式は

Φはすべてのパラメーター、rは残差、J = 。 (対角)共分散行列Cでコーディングしましたp以前の信念のパラメータ

標準偏差の角度がσ=Π/ 16で、焦点距離σf=&macrf / 10(&macrfはこれまでのところ推定平均焦点距離)になるように配置されています。これは、収束を加速するための適切なステップを選択するのに役立ちます。たとえば、球面共分散行列の場合、回転は1ラジアン変化します。これは焦点距離パラメーターの1ピクセルの変化に相当します。最後に、各反復でパラメーターλを変更して、式16の目的関数が実際に減少したことを確認します。

たとえば、導関数は、ルールを分析的に連鎖させることによって計算されます

その中で



直接計算の4.1線形システムの高速解

行列Jはスパースであるため、転置されたJJを明示的に乗算することによって形成されますTJは無効です。実際、これは、O(MN)のコストに対するM×N行列J(Mは測定数の2倍、Nはパラメーター数)の場合、最もコストのかかるバンドル調整ステップになります。)。通常、各画像は他の画像のマッチングのほんの一部であるため、スパース性が生じます。これは、実際には、JTMが乗算よりもはるかに小さい場合、Jは要素ごとに計算できます。

つまり、iとjの間の共分散の逆数は、iとjの間の一致する残差のカメラ機能にのみ依存します。

同様に、JTrを明示的に計算する必要はありませんが、計算することはできます

いずれの場合も、各画像の各単一の特徴が一致する場合、各乗算の合計にはMが必要ですが、実際には、特定の画像に一致する特徴の数はこれよりはるかに少なくなります。したがって、ビーム調整の各反復はO(N3)、これはN×Nの線形システムを解くためのコストです。Nはパラメータの数が画像の数の4倍であり、通常は約100MからN倍です。

5.自動パノラマをまっすぐにする

画像レジストレーションのセクション2-4の手順を使用すると、カメラ間の相対回転が得られますが、選択した座標系では、3D回転の世界はまだ不明です。 R = Iである1つの画像を単純に仮定すると、通常、パノラマで出力波の効果が見つかります。これは、実際のカメラが完全に水平でなく、傾いていない可能性が高いためです。この波の出力を修正し、人々が通常パノラマ画像を撮る方法についてのパノラマヒューリスティックを自動的にまっすぐにすることができます。アイデアは、人が水平カメラに対してねじれることはめったにないということです。そのため、カメラベクトルX(水平軸)は通常、平面に配置されます(を参照)。画像3)。共分散行列Xカメラベクトルのゼロベクトルを見つけることにより、「上向きベクトル」U(カメラの中心と地平線を含む平面に垂直)を見つけることができます。

図3.上向きのベクトルuを見つけます。優れたヒューリスティックアラインメントはパノラマを波打つため、人々が地平線に対してカメラを歪めることはめったにないことに注意してください。したがって、傾斜(b)と回転(C)にもかかわらず、カメラは通常Xベクトルの平面に配置されます。上向きベクトルu(重力方向の反対)は、平面に垂直なベクトルです。


このようなグローバル回転ベクトルuを垂直方向に上向きに適用すると、出力波効果パノラマ(フレーム内でのレンダリング)から効果的に排除されます。図4図。

4.FIG自動パノラマ矯正。ユーザーは、ヒューリスティックアルゴリズムを計算することにより、地平線の歪みに関してカメラを使用することはめったにありません。ベクトル(地平線の中心とカメラを含む平面に垂直)を使用して、波のパノラマをまっすぐにすることができます。

6.補償

前のセクションでは、各カメラの幾何学的パラメーター(方向と焦点距離)を計算する方法について説明しました。このセクションでは、測光パラメータ、つまり画像間の全体的なゲインを解決する方法を示します。これは同様の方法であり、すべての画像の誤差関数の定義です。誤差関数は、正規化された強度誤差のすべての重なり合うピクセルのゲインであり、

ここでg、gjゲインR(i、j)は、画像iとjの間の重なり合う領域です。実際には、重なり合う各領域を通過しました おおよその平均値I(u)。

これにより、計算が簡素化され、小さな画像間の位置合わせが不十分なために生成される可能性のある外れ値にある程度の堅牢性が提供されます。また、g = 0が問題の最良の解決策であるため、ゲインを1に近づけるために、前の項を追加します。したがって、誤差関数は次のようになります。

ここでNij= | R(i、j)|は、画像を重ね合わせた画像i、jのピクセル数に等しくなります。パラメータσNそしてσgそれらは、正規化された強度誤差とゲインの標準偏差です。 σの値を選択しましたN= 10.0、(Iε{0.255})およびσg= 0.1。これは、ゲインパラメータgの2次目的関数であり、微分によって0に設定して、閉じた形式で解くことができます(を参照)。図5)。

5.FIGゲイン補償。ゲイン補正を適用しない場合(a)〜(b)、画像間で輝度に大きな変化が見られることに注意してください。ゲイン補正後、このようなケラレ(c)は効果などをモデル化していないため、画像のエッジの一部が表示されたままになります。マルチバンド(d)を使用して、効果的にスムーズにミキシングします。

6.FIGマルチバンドミキシング。 k = 1,2,3の場合バンドパス画像B(Θ、φ)は左側に表示され、右側には対応するブレンド重量Wが表示されます。(Θ、φ)。初期混合重みは1に割り当てられ、各画像の重みが最大になります。各混合関数を取得するために、空間周波数σでの重みがぼやけ、同じ空間バンドパス周波数の画像が形成されます。一緒に混合(注:わかりやすくするために、これらの混合幅の数値は誇張されています)バンドパスに基づいて重みと重み加重画像を混合します。


7.マルチバンド混合

理想的には、各画像で同じ強度を持つ光線(ピクセル)に沿った各サンプルが交差しますが、実際にはそうではありません。ゲイン補正後でも、モデル化されていない多くの効果があるため、口径食(画像の端に向かって強度が低下する)、光学中心によって引き起こされる望ましくない動きによって引き起こされる視差効果。位置ずれエラーによるエラーのため、一部の画像の端はまだ表示されています。 -カメラモデル、半径方向の変形。したがって、適切なミックス戦略が非常に重要です。

前のステップからn枚の画像を取得しましたI(X、y)(iε{1、n})、既知の登録が与えられた場合、これは共通の(球)座標系Iで表すことができます。(Θ、φ)。複数の画像からの情報を組み合わせるために、we = w(x)w(y)ここで、画像の中心からのw(x)は、各画像の重み関数W( x、y)。 。重み関数は球面座標Wです。(Θ、φ)リサンプリングで。単純な混合方法は、重みと重み関数に沿った各光線の重み付き画像強度を使用して実行されます。

私はどれ線形(Θ、φ)は、線形混合球面形状を使用した合成画像です。ただし、小さな登録エラーが存在する場合、このアプローチでは高周波の詳細がぼやける可能性があります(を参照してください。図7)。これを防ぐために、のマルチバンドハイブリッドアルゴリズムBurt and Adelson(1983)を使用します。マルチバンドハイブリッドの背後にある考え方は、広い空間にわたるハイブリッド低周波数範囲であり、短距離内で高周波が混合されます。

図7.線形ミキシングとマルチバンドミキシングの比較。 5σ= 5ピクセルのバンドを使用し、右側の混合画像をマルチバンドで混合します。左の画像は線形混合です。この場合、マッチングにより、画像間の人物の位置ずれの小さな動きが生じ、線形混合の結果があいまいになりますが、マルチバンド画像の混合は明確です。


重みのある最も責任のあるミックス画像を見つけることにより、各画像ポイントセットを初期化します。

あのW最大(θ、φ)の(Θ、φ)は1であり、画像は最大の重みを有し、i 0であり、他の画像はより高い重みを有する。最大重みファジーマッピングは、重みバンドごとの重みを形成するために継続的に混合されます。


レンダリングされた画像のハイパスバージョンの形成

ここでgσ(Θ、φ)はガウス分布の標準偏差σであり、*演算子は畳み込みを示します。 Bσ(Θ、φ)は、波長範囲λε[0、σ]の空間周波数を表します。画像ぼけによって形成された混合重みマップ混合物の最大重みはバンド画像の間にあります

ここでWσ(Θ、φ)は波長λε[0、σ]バンドブレンドの重みです。バンドパス画像に続くミキシングとさらにミキシングされたファジー重みを使用した低周波数帯域、つまりk≥1

ガウスぼかし核 後続の帯域が同じ波長範囲を持つようにするための標準偏差。

バンドごとに、重なり合う画像の適切な混合重み線形結合を使用します

アルゴリズム:自動パノラマステッチ
入力:n個の順序付けられていない画像
I.n個の画像すべてから抽出されたSIFT特徴
II。 k-dツリーを使用して、各特徴のk最近傍を見つけます
各画像についてIII:。 (I)最大m個の特徴一致候補画像を選択すると画像と一致する
(ii)RANSACを使用して一貫したジオメトリマッチングを見つけることは、アトピーの中の単一の画像を解決するために使用されます
(iii)確率モデル検証画像マッチングの使用
IV画像マッチング接続アセンブリを見つける

V.接続されたコンポーネントのそれぞれについて:(i)すべてのカメラの回転を解決するためにバンドル調整を実行し、焦点距離fθ1θ2θ3
(ii)マルチバンドハイブリッドレンダリングパノラマの使用
出力:パノラマ画像


これにより、短距離で高周波数帯域(小さなkσ)が混合され、広い範囲で低周波数帯域(大きなkσ)が混合されました(を参照)。画像6))。

球面座標θ、φレンダリングされたパノラマを選択することに注意してください。原則として、表面は、レンダリングのために周囲のパラメータ化の任意の2次元ビューで選択できます。良いオプションは、三角形の球体をイメージプレーンでウェイトビルドをブレンドするようにレンダリングすることです。これには、すべての画像を均一に処理できるという利点があり、(グラフィックハードウェアで)もう一方の表面を簡単にリサンプリングすることもできます。パラメータ化された特異点θ、φがあることに注意してください。

8.図スプライシングの回転とスケーリング。画像内で入力回転、ズーム、イルミネーションが変化しますが、同じ機能を使用してステッチを実装できます。ここで、上下のイラスト画像は他の画像の4倍の比率です。

9.半径方向に変形した図の縫合糸。この図は、一次放射状歪みx '= xモザイク効果を示しています。ここで、[カッパ]はκε[-0.5,0.5](単位長さに正規化された画像の高さ)(1 +κ| 2 | x)の範囲です。私たちのアルゴリズムではモデル化されていない放射状歪みに注意してください。テスト画像シーケンス44を使用し、20に放射歪曲値κを適用しました。図。 (D)-(h)は歪んだ画像の例を示しています。縫合糸の性能を評価するために、本発明者らは、(a)図3に示されるRANSAC一貫性のあるマッチング結果の数を計算する。最悪の場合、各特徴の一致数は約3分の1に減少しますが、特徴の正しい一致は高いままであるため(各画像で約500)、画像は引き続き正常に一致する可能性があります。ただし、(b)〜(c)に示すように、放射状の歪みにより、レンダリングで重大なアーティファクトが発生します。これは、パノラマステッチの高品質レンダリングフェーズで修正され、バンドル調整が重要です。

10.図スプライシングの難しい問題。この例(ニューヨークのタイムズスクエアから)には、動くオブジェクトと画像の間の明るさのいくつかの主要な変化が含まれています。これらの課題にもかかわらず、不変の機能セットの一貫した方法と適切に登録された画像を見つけることができます。 FIGの将来の自動スプライサーの放射画像の高ダイナミックレンジは、移動する物体を検出し、シーンを計算する可能性があります。これにより、ユーザーはさまざまな露出設定を使用して、オブジェクトを「再撮影」シーンに移動できます。


8.結果

図2これは、パノラマ認識アルゴリズムの典型的な操作を示しています。 4つおよび4つのパノラマ画像ノイズのセットで構成される入力画像。連結成分を検出し、画像と一致しない画像マッチングアルゴリズムは、4つの混合パノラマを出力します。

図5より大きな例を示します。このシーケンスは、カメラの自動モードを使用してキャプチャされるため、絞りと露光時間を変更でき、特定の画像をフラッシュに表示できます。これらの照明の変更にもかかわらず、SIFT機能は十分に一致させることができ、マルチバンドハイブリッド戦略はシームレスなパノラマを生成できます。出力は360 * 100°で、球面座標(θ、φ)でレンダリングされます。 57の画像はすべて、ユーザー入力なしで完全に自動化されて一致し、最終的な登録により4×57 = 228のパラメーター最適化問題が解決されます。入力画像の2272×1704ピクセルとマッチングが60秒以内に記録され、その後15分間、写真をレンダリングするために8908×2552(23メガピクセル)の出力ビューが表示されます。 57秒でレンダリング2000×573をプレビューします。テストは1.6GHz PentiumMで実施されました。

9.結論

この論文では、新しい自動パノラマステッチシステムを紹介します。同じ局所特徴と検証画像マッチング確率モデルを使用して、複数のパノラマの順序付けられていない画像セットを識別し、ユーザー入力なしでそれらを完全に自動縫合することができます。カメラのズームシステム、入力画像の方向、フラッシュによる照明の変化、露出/絞りの設定は非常に堅牢です。マルチバンドハイブリッド方式は、高周波の詳細を維持しながら、画像間のスムーズな移行、違いにもかかわらず照明を保証します。

将来の職業

将来の作業で考えられる領域には、シーン内のカメラとモーションの補正、さらに高度なカメラの幾何学的モデリングと測光特性が含まれます。

カメラの動き。パノラマの光学中心の小さな動きのために、視差エラーに悩まされることがよくあります。中心点から再レンダリングする前。これは、カメラのパンとシーンの深さを削除することで解決できます。良好なパフォーマンスは、平面と視差の平面を使用している可能性があります(Rother and Carlsson、2002)。カメラのラフな動きは視差アーチファクトを引き起こしますが、撮影中のトリックはモーションブラーを引き起こす可能性があります。モーションブラー画像は、Bascle et al。のように、焦点画像のブレ除去の近くで使用できます。 (1996)。同様の手法を使用して、超解像画像を生成することができます(Capel and Zisserman、1998)。

アクションシーン。マルチバンドハイブリッド戦略は多くの状況でうまく機能しますが、複数の画像をブレンドすると、大きなオブジェクトの動きのシーンが目に見えるアーティファクトをもたらす可能性があります(を参照)。10)。別の方法は、画像領域間の違いに基づいて、最適なシームラインを自動的に見つけます(Davis、1998 Uyttendaele et、2001 Agarwala et al。、2004)。

高度なカメラモデル。ほとんどのカメラの重要な機能は、投影カメラモデル(直線予約)には含まれていません。これは、放射状歪みです(Brown、1971)。私たちのアルゴリズムは明示的にモデル化されていませんが、中程度の半径方向の変形テストのパフォーマンスがあります(を参照してください)。図9)。私たちの実験では、パノラマの歪みは音に対してほぼ放射状に整列していますが、レンダリングされた結果には明らかなアーティファクトがあります。したがって、高品質の画像スティッチングアプリケーションでは、ビームの調整とレンダリング段階を含む少なくとも半径方向の歪みパラメータが必要になります。スティッチャーの理想的な画像は、たとえば、回転点(パノラマなど)、表示平面(白など)、ユークリッド変換(スキャンした画像の位置合わせなど)に関する複数のモーションモデルもサポートします。球形、円筒形、平面など、さまざまなタイプのサーフェスをレンダリングすることもできます。

測光モデリング。原則として、カメラの測光パラメータの数を推定することも可能であるはずです。口径食(画像強度の端に向かって減少する)は、特に空の均一な色などの領域で、アーティファクトの一般的な原因です(Goldman and Chen、2005)。重なり合う画像領域情報、およびトーンマッピングレンダリングまたは合成露光画像から、高いダイナミックレンジ(Debevec and Malik、1997 Seetzen et al。、2004)を取得することもできます。

Autostitchと呼ばれるこの記事のアルゴリズムのC ++実装を開発しました。デモプログラムは以下から入手できます。 http://www.autostitch.net ダウンロード。

参照
Agarwala、A.、Dontcheva、M.、Agarwala、M.、Drucker、S.、Colburn、A.、Curless、B.、Salesin、D.、and Cohen、M.2004。インタラクティブデジタルフォトモンタージュ。グラフィックスのACMトランザクション(SIGGRAPH’04)。
Burt、P。and Adelson、E.1983。画像モザイクへの適用を伴う多重解像度スプライン。グラフィックスでのACMトランザクション、2(4):217–236。
Bascle、B.、Blake、A。、およびZisserman、A.1996。画像シーケンスからのモーションブレ除去と超解像。コンピュータビジョンに関する第4回欧州会議(ECCV96)の議事録。 Springer-Verlag、pp。312–320。
Beis、J。and Lowe、D.1997。高次元空間での近似最近傍探索を使用した形状の索引付け。コンピュータビジョンとパターン認識に関する国際会議(CVPR97)の議事録、1000〜1006ページ。
Brown、M。and Lowe、D.2003。パノラマの認識。議事録
コンピュータビジョンに関する第9回国際会議(ICCV03)の報告。ニース、vol。 2、pp。1218–1225。
ブラウン、D. 1971年。近距離カメラのキャリブレーション。写真測量工学、37(8):855–866。
Brown、M.、Szeliski、R。、およびWinder、S.2005。マルチスケール指向パッチを使用したマルチイメージマッチング。コンピュータビジョンとパターン認識に関する国際会議(CVPR05)の議事録。サンディエゴ。
Chen、S。1995. Quick Time VR—仮想環境ナビゲーションへの画像ベースのアプローチ。 SIGGRAPH’95、vol。 29、29〜38ページ。
Capel、D。and Zisserman、A.1998。超解像ズームによる自動モザイク化。コンピュータビジョンとパターン認識に関する国際会議(CVPR98)の議事録、pp。885–891。
Davis、J.1998。動くオブジェクトのあるシーンのモザイク。コンピュータビジョンとパターン認識に関する国際会議(CVPR98)の議事録、pp。354–360。
Debevec、P。and Malik、J.1997。写真から高ダイナミックレンジ放射輝度マップを復元する。コンピュータグラフィックス、31:369–378。
Fischler、M。and Bolles、R。1981.ランダムサンプルコンセンサス:画像分析と自動地図作成への適用を伴うモデルフィッティングのパラダイム。 ACMの通信、24:381–395。
ゴールドマン、D.B。とチェン、J.H。 2005ビネットと露出のキャリブレーションと補正。コンピュータビジョンに関する第10回国際会議(ICCV05)の議事録、pp。I:899–906。
ハリス、C.1992。視覚運動からの幾何学。ブレイク、A。とユイル、A。、(編)、アクティブビジョン。 MIT Press、pp。263–284。
Huber P.J.1981。ロバスト統計。ワイリー。
Hartley、R。and Zisserman、A。2004. Computer VisionのMultipleView Geometry、第2版。ケンブリッジ大学出版局、ISBN:0521540518。
Irani、M。and Anandan、P.1999。直接法について。 Triggs、B.、Zisserman、A。、およびSzeliski、R。(eds。)、Vision Algorithms:Theory and Practice、番号1883 inLNCS。 Springer-Verlag、コルフ、ギリシャ、pp。267–277。
Lowe、D.2004。スケール不変のキーポイントからの特徴的な画像の特徴。InternationalJournalofComputerVision、60(2):91–110。
Meehan、J.1990。パノラマ写真。 AmphotoBooks。
ミルグラム、D.1975。フォトモザイクを作成するためのコンピュータ手法。コンピュータ上のIEEEトランザクション、C-24(11):1113–1119。
McLauchlan、P。and Jaenicke、A.2002。順次バンドル調整を使用した画像モザイク化。 Image and Vision Computing、20(9–10):751–759。
Microsoft DigitalImagePro。 http://www.microsoft.com/products/imaging。
Rother、C。およびCarlsson、S.2002。参照​​面を使用した線形マルチビュー再構成およびカメラ回復。 International Journal of Computer Vision、49(2/3):117–141。 Realviz。 http://www.realviz.com。
Seetzen、H.、Heidrich、W.、Stuerzlinger、W.、Ward、G.、Whitehead、L.、Trentacoste、M.、Ghosh、A.、and Vorozcovs、A.2004。ハイダイナミックレンジディスプレイシステム。グラフィックスのACMトランザクション(SIGGRAPH’04)。
Szeliski、R。and Kang、S.1995。視覚シーン再構成のための直接的な方法。ビジュアルシーンの表現に関するIEEEワークショップ。マサチューセッツ州ケンブリッジ、26〜33ページ。
Sawhney、H。and Kumar、R.1999。真のマルチイメージアラインメントとそのモザイク化およびレンズ歪み補正への応用。 IEEE Transactios on Pattern Analysis and Machine Intelligence、21(3):235–243。
Szeliski、R。and Shum、H.1997。フルビューのパノラマ画像モザイクと環境マップの作成。 Computer Graphics(SIGGRAPH’97)、31(Annual Conference Series):251–258。
Shum、H。and Szeliski、R.2000。グローバルおよびローカルに配置されたパノラマモザイクの構築。 International Journal of Computer Vision、36(2):101–130。
Shi、J。and Tomasi、C.1994。追跡するのに適した機能。コンピュータビジョンとパターン認識に関する国際会議(CVPR94)の議事録。シアトル。
Sivic、J。and Zisserman、A。2003. Video Google:ビデオ内のオブジェクトマッチングへのテキスト検索アプローチ。コンピュータビジョンに関する第9回国際会議(ICCV03)の議事録。
Szeliski、R。2004.画像の位置合わせとステッチング:チュートリアル。テクニカルレポートMSR-TR-2004-92、MicrosoftResearch。
Triggs、W.、McLauchlan、P.、Hartley、R。、およびFitzgibbon、A.1999。バンドル調整:最新の統合。ビジョンアルゴリズム:理論と実践、LNCSの番号1883。 Springer-Verlag。ギリシャ、コルフ、298〜373ページ。
Torr、P.2002。エピポーラジオメトリと一般的な多様体フィッティングのためのベイズモデルの推定と選択。 International Journal of Computer Vision、50(1):35–61。
Uyttendaele、M.、Eden、A。、およびSzeliski、R.2001。画像モザイクのゴーストと露出のアーティファクトを排除します。コンピュータビジョンとパターン認識に関する国際会議(CVPR01)の議事録。カウアイ島、ハワイ、vol。 2、pp。509–516。
Zoghlami、I.、Faugeras、O。、およびDeriche、R.1997。幾何学的なコーナーを使用して、一連の画像から2Dモザイクを作成します。コンピュータビジョンとパターン認識に関する国際会議の議事録、プエルトリコ。 IEEE。