NiFi、Kafka、Tranquility、Druid、Supersetを使用したツイートのストリーミング
Streaming Tweets With Nifi
からの転送
時間の概念は、すべてのビッグデータ処理テクノロジーの中核ですが、データストリーム処理の世界では特に重要です。確かに、少なくともリアルタイムのストリーム処理の世界では、さまざまなシステムが時間ベースの処理を処理する方法が、小麦ともみ殻を区別するものであると言うのは合理的です。
最近、ストリーム処理の需要が大幅に高まっています。 Hadoopプロジェクト全体で共通のニーズは、ストリーミングデータから最新のインジケーターを構築することです。
ソーシャルメディア分析は、NiFi、Kafka、Tranquility、Druid、Supersetを使用してストリーミング分析を表示するダッシュボードを構築する方法を示すための優れたユースケースです。
この処理フローには、次のステップがあります。
-ApacheNiFiを使用したツイートの取り込み
-ApacheKafkaを使用したストリーム処理
-データと静けさの統合
-Druidを使用したOLAPデータベースストレージ
-Apacheスーパーセットを使用した視覚化
コーディングに取り掛かる前に、各コンポーネントを確認してください。
- 場合を除いて: https://br.hortonworks.com/apache/nifi/
- カフカ: https://br.hortonworks.com/apache/kafka/
- 静けさ: https://github.com/druid-io/tranquility
- ドルイド: https://br.hortonworks.com/apache/druid/
- スーパーセット: https://superset.incubator.apache.org/
- すべてのコンポーネントを手動でインストールすることも、HDFを使用することもできます。
Hortonworks: https://br.hortonworks.com/products/data-platforms/hdf/ - HDF展開を計画するためのガイドライン:
https://docs.hortonworks.com/HDPDocuments/HDF3/HDF-3.0.1/bk_planning-your-deployment/bk_planning-your-deployment.pdf
このHDFクラスターを構築するために、それぞれ16コアと32RAMの4台のマシンが使用されました。私は、1台のマシンに1つのコンポーネントを担当させました。
この環境をセットアップした後、Nifiでフローの構築を開始できます。
http://druid.io/docs/latest/tutorials/tutorial-kafka.html
http://druid.io/blog/2013/08/30/loading-data.html
https://github.com/druid-io/tranquility