オープンソースのOLAPエンジンの選択基準
Open Source Olap Engine Selection Criteria
OLAPエンジンについて話すと、最初にOLTPエンジンについて話す必要があります。
OLTPエンジンとは
1970年代には、世界の発展に影響を与えた論文が発表され、リレーショナルデータベースが登場しました。
1980年代、人々はリレーショナルデータベースを非常に愛し、すべてのデータを保存したいと考えていました。多くの企業は、リレーショナルデータベースを使用してビジネスデータを保存および管理し、対応するアプリケーションシステムを確立して日常のビジネスオペレーションをサポートしています。
このアプリケーションの主な目的は、ビジネス処理をサポートすることです。これはオンライントランザクション処理(オンライントランザクション処理、OLTP)アプリケーションと呼ばれ、格納されるデータは運用データまたはビジネスデータと呼ばれます。 。
簡単に言うと、OLTPエンジンは、運用システムデータを管理するために使用されます。
OLAPエンジンとは
また、1970年代には、4Pの概念の出現により、企業が積極的にサービスを提供するための行き詰まりが解消されました。企業の意思決定者は、顧客に応じてパーソナライズされたサービスを提供し、顧客の粘度を高める必要があります。
データの蓄積により、OLTPエンジンは十分ではありません。起業家は、蓄積されたデータから最新かつ最も正確な情報を迅速に取得するための新しいテクノロジーを必要としています。
最後に、1990年代に、画期的な新聞を出版した人– リレーショナルデータベースのゴッドファーザー、エドガーフランクコード( E.F.コッド )。 多次元データベースと多次元分析の概念、つまりオンライン分析処理(OLAP)アプリケーションが提案されています。
OLAP委員会は、オンライン分析処理を次のように定義しています。アナリスト、マネージャー、または経営幹部が、ユーザーが真に理解できるさまざまな視点から生データを解釈できるようにします。また、企業の次元特性を真に反映する情報にすばやくアクセスできます。 、一貫して、インタラクティブに、データをより深く理解したソフトウェアテクノロジのクラスを取得します。
簡単に言うと、OLAPエンジンは分析データの管理に使用されます。
データウェアハウスの時代でも、ビッグデータの時代でも、データ時代の未来でも、クラウドの時代でも、OLAPエンジンは、その特性と歴史的な遺産のために保持されます。
OLAPエンジンのガイドライン
E.F. Coddは、OLAPエンジンに12のガイドラインを設定しました。
-
ガイドライン1OLAPモデルは、多次元の概念ビューを提供する必要があります
-
ガイドライン2透明性ガイドライン
-
ガイドライン3アクセシビリティガイドライン
-
ガイドライン4安定したレポート機能
-
ガイドライン5クライアント/サーバーアーキテクチャ
-
基準6次元等価基準
-
ルール7動的スパース行列処理ルール
-
ガイドライン8マルチユーザーサポート機能ガイドライン
-
ガイドライン9無制限の次元間操作
-
ガイドライン10直感的なデータ操作
-
ガイドライン11柔軟なレポート生成
-
ルール12無制限のディメンションと集計レベル
OLTPエンジンとOLAPエンジンの比較
OLAPとは異なり、OLTPシステムは、データベースのメモリ効率、メモリのさまざまなインジケータのコマンドレート、バインド変数、同時操作、およびトランザクション性を強調します。
OLAPシステムは、データ分析、SQL実行時間、ディスクI / O、およびパーティショニングに重点を置いています。
現在のOLAPエンジンは、HAWQ、Hive、Spark SQL、Presto、Kylin、Impala、Druid、Clickhouse、Greeplumなどです。現在、データ量、柔軟性、パフォーマンスを完璧に実現できるエンジンはないと言えます。選択する必要があります。
MOLAPエンジンとは
MOLAP(多次元OLAP)、多次元OLAPエンジンは、従来のOLAPエンジンとも呼ばれます。
特徴:
- 従来のOLAP分析
- データはキューブに保存されます
代表:
- キリン
- ドルイド
利点:
- 卓越したパフォーマンス
- 複雑な計算をサポートする
短所:
- 寸法は事前に定義する必要があります
- 詳細なデータクエリをサポートしていません
- 高コスト
シナリオ:高いパフォーマンス要件と比較的緩いコストのシナリオに適しています。
ROLAPエンジンとは
RLOAP(リレーショナルOLAP)、リレーショナルOLAPエンジン。
特徴:
- リレーショナルデータベースをコアとして、多次元データはリレーショナル構造で表されます
- SQL where条件を使用して、従来のOLAPスライシングおよびダイシング機能を提示します
代表:
- すぐに
- インパラ
利点:
- 前処理は必要ありません
- 優れたスケーラビリティ
- 大量のデータを効率的に処理する
短所:
- 不十分なパフォーマンス
- より多くのコンピューティングリソースが必要
シナリオ:パフォーマンス要件が比較的低く、クエリの柔軟性が高いアドホッククエリシナリオに適しています。
HOLAPエンジンとは
HLOAP(Hybrid OLAP)、ハイブリッドOLAPエンジン。
特徴:
- MOLAPとROLAPの利点を考慮し、クエリのパフォーマンスと柔軟性を考慮に入れます。
- 集計データをクエリする場合は、詳細データをクエリする場合はMOLAPテクノロジを使用し、ROLAPテクノロジを使用します。与えられた使用シナリオを前提として、クエリのパフォーマンスを最適化します。
総括する
現在、さまざまなシナリオのクエリ要件を満たすことができるOLAPシステムはありません。本質的な理由は、データ量、パフォーマンス、柔軟性の点で同時に完璧なシステムはあり得ず、各システムは設計時に3つから選択する必要があるためです。
アーキテクチャの観点から、MOLAPを使用すると、OLAPアプリケーションがデータウェアハウスから分離され、結合度が低下します。このアーキテクチャは理想的であり、さまざまなコンポーネントが独自のことを実行できます。支払われる価格は、主にETLの複雑さです。
ROLAPエンジンを使用する場合、エンジンのパフォーマンスの大部分はデータウェアハウスの設計とデータガバナンスに依存し、データウェアハウスエンジニアの要件はより高くなります。
写真はYiguanから複製されています。