テキストからの意味の解析



Parsing Meaning From Text



解決:

あなたはまさにこの種のもののためのNaturalLanguageToolkitを見る必要があります。

マニュアルのこのセクションは非常に関連性が高いように見えます:単語の分類とタグ付け-ここに抜粋があります:



>>> text = nltk.word_tokenize( 'そして今は完全に異なるもののために')>>> nltk.pos_tag(text)[( 'And'、 'C​​C')、( 'now'、 'RB')、( ' for '、' IN ')、(' something '、' NN ')、(' completely '、' RB ')、(' different '、' JJ ')]

ここで私達はそれを見る CC、調整接続詞です。 完全に RB、または副詞です。 にとって IN、前置詞です。 なにか NN、名詞です。と 違う 形容詞のJJです。


NLTK、特に情報抽出に関する第7章を使用してください。



意味を抽出したいとおっしゃっていますが、セマンティック分析用のモジュールがありますが、必要なのはIEだけだと思います。正直なところ、NLPコンピューターで現在処理できるのは唯一の領域の1つです。

固有表現抽出(マニーラメレスを人として、ドジャースをスポーツ組織として、ヒューストンアストロズを別のスポーツ組織として、またはドメインに適したものとしてチャンク化および分類するため)および関係抽出のサブトピックに関するセクション7.5および7.6を参照してください。 NLTKをインストールするとプラグインできるNERチャンカーがあります。彼らの例から、地政学的実体(GPE)と人を抽出します。

>>> sent = nltk.corpus.treebank.tagged_sents()[22] >>> print nltk.ne_chunk(sent)(S The / DT(GPE US / NNP)is / VBZ one / CD ...準拠/ VBG to / TO(PERSON Brooke / NNP T./NNP Mossman / NNP)...)

これらのIEタスクに適切な形式でテキストを取得するには、前の章で説明したように、トークン化とタグ付けについて知る必要があることに注意してください。




自然言語処理(NLP)は、自然言語を解析するための名前です。多くのアルゴリズムとヒューリスティックが存在し、それは活発な研究分野です。どのアルゴリズムをコーディングする場合でも、コーパスでトレーニングする必要があります。人間と同じように、私たちは他の人が書いたテキストを読むことによって(および/または他の人が発した文章を聞くことによって)言語を学びます。

実際には、Natural LanguageToolkitをご覧ください。コーディングしようとしているものの理論的基盤については、ChrisManningとHinrichSchützeによる統計的自然言語処理の基礎を確認することをお勧めします。

代替テキスト
(出典:stanford.edu)