知識グラフ構築II。ナレッジグラフの定義とアーキテクチャ



Knowledge Graph Construction Ii



ナレッジグラフによって与えられる用語のウィキペディアの解釈は、依然としてGoogleの定義に従います。つまり、ナレッジグラフは、検索エンジン機能を強化するために使用されるGoogleの補助的なナレッジベースです。しかし、業界の発展の観点からは、この定義は単純すぎるように思われます。 Microsoftが2013年7月にSatoriナレッジベースをリリースした後、Bing検索エンジン製品のシニアディレクターであるWeitzは、Satoriのリリースは、Microsoftがすでに同様のテクノロジを持っていることを示しているだけであると公に述べましたが、既存のテクノロジ自体はまだたくさんあります。問題は、マイクロソフトがグーグルをフォローするのではなく、リーダーシップを獲得したいということです。この声明は、この分野の背後にある激しい技術競争を反映しています。現在開示されている市販製品から、業界は一般的にこれを重視していることがわかる。表1は、以前の主流のナレッジベース製品と関連アプリケーションを示しています。それらの中で、エンティティの最大数はWolframAlphaナレッジベースです。事業体の総数は10兆を超えています。 Googleのナレッジグラフには、5億のエンティティと350億のエンティティがあります。それらと規模との関係は絶えず高まっています。 MicrosoftのProbaseに含まれる概念の総数は1,000万レベルに達しました。現在、最も多くの概念が含まれているのは知識ベースです。 AppleSiri、GoogleNow、およびその他の現在人気のあるスマートアシスタントアプリケーションは、WolframAlphaの知識に基づいています。ライブラリとGoogleのナレッジグラフ。グラフの論理的推論の計算に焦点を当てた捜狗のナレッジキューブなど、いくつかのナレッジグラフ製品とアプリケーションが中国でも登場していることは注目に値します。セマンティックネットワークベースのトリプル推論でエンティティデータを補足し、ユーザークエリや構文分析などをセマンティックに理解できます。



表1からわかるように、従来の検索サービスプロバイダーに加えて、Facebook、Apple、IBMなどのインターネットリーダーも競争に参加しています。関連する技術と標準はまだ成熟しておらず、それらのアプリケーションも調査段階にあるため、知識グラフの概念はまだ開発と変更の過程にあります。この記事では、既存の研究結果を比較および改良することにより、知識グラフの定義を提案します。

1.1。知識グラフの定義



定義1:知識グラフは、構造化されたセマンティック知識ベースであり、概念と、物理世界におけるそれらの相互関係を記号の形式で記述するために使用されます。その基本単位は、「エンティティ-関係-エンティティ」トリプレット、およびエンティティとそれに関連する属性と値のペアであり、エンティティは関係を介して相互に接続され、ネットワーク化された知識構造を形成します。

ナレッジグラフを通じて、WebをWebページリンクから概念リンクに変換し、ユーザーが文字列ではなく主題で検索できるようにすることで、セマンティック検索を真に実装できます。知識グラフに基づく検索エンジンは、構造化された知識をユーザーにグラフィカルにフィードバックできます。ユーザーは、多数のWebページを閲覧することなく、正確に詳細な知識を見つけて取得できます。

定義1には3つの意味があります。



1)ナレッジグラフ自体は、関係によってリンクされた属性を持つエンティティによって形成されたネットワークナレッジベースです。グラフの観点からは、ナレッジグラフは本質的に概念ネットワークであり、ノードは物理世界のエンティティ(または概念)を表し、エンティティ間のさまざまな意味関係がネットワークのエッジを構成します。したがって、ナレッジグラフは物理的な世界の象徴的な表現です。

2)ナレッジグラフの研究価値は、現在のWebに基づいて構築されたオーバーレイネットワーク(overlaynetwork)のレイヤーであるということです。ナレッジグラフの助けを借りて、コストを最小限に抑えるために、Webページ上の概念間のリンク関係を確立することが可能です。インターネットに蓄積された情報は、使用できる知識に編成されます。

3)知識グラフの応用価値は、既存の情報検索方法を変えることができるということです。一方では、(既存の文字列あいまいマッチング方法と比較して)推論による概念検索を実現し、他方では、ユーザーにグラフィカルな方法を提供します。ソートされ構造化された知識を表示して、Webページを手動でフィルタリングして回答を見つけるモードから解放されるようにします。

1.2、ナレッジグラフの構造

ナレッジグラフ自体の論理構造およびナレッジグラフの構築に使用される技術(システム)アーキテクチャを含む、ナレッジグラフの構造。

最初にナレッジグラフの論理構造を紹介し、ナレッジグラフをデータレイヤーとパターンレイヤーの2つのレベルに論理的に分割します。知識グラフのデータ層では、知識は事実の単位でグラフデータベースに保存されます。たとえば、GoogleのGraphdとMicrosoftのTrinityは典型的なグラフデータベースです。 「entity-relationship-entity」または「entity-attribute-propertyvalue」トリプレットを事実の基本表現として使用すると、グラフデータベースに格納されているすべてのデータが巨大なエンティティ関係ネットワークを構成し、「知識 ''。

モデルレイヤーはデータレイヤーの上にあり、ナレッジグラフの中核です。モデル層に格納されるのは洗練された知識であり、通常はオントロジーライブラリを使用して知識グラフのモデル層を管理し、公理、ルール、制約をサポートしてエンティティ、関係、エンティティのタイプと属性を規制するオントロジーライブラリの機能を使用します。接続。知識グラフのオントロジーデータベースの状態は知識ベースの状態と同等であり、オントロジーデータベースを備えた知識ベースは冗長な知識が少ない。

次に、知識グラフ構築の観点から、知識グラフの一般的な技術アーキテクチャを紹介します。図1は、ナレッジグラフテクノロジの全体的なアーキテクチャを示しています。点線の部分は、ナレッジグラフを作成するプロセスであり、ナレッジグラフを更新するプロセスでもあります。図1に示すように、ナレッジグラフの作成プロセスは元のデータに基づいており、一連の自動または半自動の技術的手段を使用して、元のデータからナレッジ要素(つまりファクト)を抽出し、データレイヤーに保存します。ナレッジベースのプロセスとモデルレイヤーのプロセス。これは反復的な更新プロセスです。知識獲得の論理によれば、各反復には、情報抽出、知識融合、知識処理の3つの段階が含まれます。

ナレッジグラフには、トップダウンとボトムアップの2つの構築方法があります。いわゆるトップダウン構築とは、百科事典のWebサイトなどの構造化されたデータソースを使用して、高品質のデータからオントロジーとパターン情報を抽出し、それを知識ベースに追加することを指します。いわゆるボトムアップ構築では、特定のデータを使用します。技術的手段公的に収集されたデータからリソースパターンを抽出し、信頼性の高い新しいパターンを選択し、手作業でレビューした後、ナレッジベースに追加します。

知識グラフ技術の開発当初、ほとんどの参加企業と科学研究機関は、トップダウンアプローチを使用して基本的な知識ベースを構築していました。たとえば、Freebaseプロジェクトでは、ウィキペディアをメインのデータソースとして使用しています。自動知識抽出および処理技術の継続的な成熟により、最新の知識グラフのほとんどはボトムアップ方式で作成されます。最も影響力のある例としては、GoogleのKnowledgeVaultとMicrosoftのSatoriナレッジベースがあり、どちらも公開されています。 Webページデータはデータソースであり、既存のナレッジベースは、リソースを自動的に抽出することによって構築、強化、および改善されます。

次に、ボトムアップの知識グラフ構築技術を紹介します。知識獲得のプロセスによると、それは主に情報抽出、知識融合、知識処理の3つのレベルに分けられますので、ご期待ください。