GENIATaggerソフトウェアパッケージ
Genia Tagger Software Package
GENIAタガー
- 生物医学テキストの品詞タグ付け、シャローパーサ、および名前付きエンティティの認識-
新着情報
2006年10月20日
に デモページ 利用可能です。
2006年10月6日
バージョン3.0:タガーが名前付きエンティティの認識を実行するようになりました。
概要概要
GENIAタガーは英語の文を分析し、基本フォーム、品詞タグ、チャンクタグ、および名前付きエンティティタグを出力します。タガーは、MEDLINEアブストラクトなどの生物医学テキスト用に特別に調整されています。生物医学文書から情報を抽出する必要がある場合、このタガーは便利な前処理ツールになる可能性があります。あなたはタガーを試すことができます デモページ 。
タガーの使い方
タガーをビルドするにはgccが必要です。
1.タガーの最新バージョンをダウンロードします
2016年2月9日 geniatagger-3.0.2.tar.gz (Unixのソースパッケージ)
2.アーカイブを展開します
tar xvzf geniatagger.tar.gz
3.作る
cd geniatagger /
作る
4.文にタグを付ける
1行に1文を含むテキストファイルを準備してから
./geniatagger TAGGEDTEXT
タガーは、基本フォーム、品詞(POS)タグ、チャンクタグ、および名前付きエンティティ(NE)タグを次のタブ区切り形式で出力します。
word1 base1 POStag1 chunktag1 NEtag1 word2 base2 POStag2 chunktag2 NEtag2 : : : : :
チャンクはIOB2形式で表されます(BEGINの場合はB、INSIDEの場合はI、OUTSIDEの場合はO)。
例
echo「NF-κBの活性化を阻害すると、イソカマエハスミンの抗アポトーシス効果が逆転しました。」 | ./geniatagger
Inhibition Inhibition NN B-NP O of of IN B-PP O NF-kappaB NF-kappaB NN B-NP B-protein activation activation NN I-NP O reversed reverse VBD B-VP O the the DT B-NP O anti-apoptotic anti-apoptotic JJ I-NP O effect effect NN I-NP O of of IN B-PP O isochamaejasmin isochamaejasmin NN B-NP O . . . O O
チャンクタグを見れば、この出力から4つの名詞句(「阻害」、「NF-κB活性化」、「抗アポトーシス効果」、「イソチャマエハスミン」)を簡単に抽出できます。名前付きエンティティタグを使用してタンパク質名を見つけることもできます。
品詞タグ付けのパフォーマンス
汎用品詞タガーは、通常、生物医学テキストではうまく機能しません。これは、生物医学文書の語彙特性が、汎用タガーのトレーニングデータとしてよく使用される新聞記事の語彙特性とはかなり異なるためです。 GENIAタガーは、ウォールストリートジャーナルコーパスだけでなく、GENIAコーパスとPennBioIEコーパス[1]でもトレーニングされているため、さまざまな種類の生物医学文書でうまく機能します。次の表は、さまざまなドキュメントセットでトレーニングされたタガーのタグ付け精度を示しています。パフォーマンスの詳細については、[2]を参照してください(最新バージョンは異なるタグ付けアルゴリズム[3]を使用しており、ペーパーで報告されているよりもわずかに優れたパフォーマンスを提供します)。
GENIAタガー98.26%
ツール | ウォールストリートジャーナル | GENIAコーパス |
---|---|---|
WSJコーパスで訓練されたタガー | 97.05% | 85.19% |
GENIAコーパスでトレーニングされたタガー | 78.57% | 98.49% |
GENIAタガー | 96.94% | 98.26% |
チャンキングパフォーマンス
(評価予定)
固有表現抽出のパフォーマンス
固有表現抽出は、 Col1
エンティティタイプ | 想起 | 精度 | Fスコア |
---|---|---|---|
タンパク質 | 81.41 | 65.82 | 72.79 |
痛風 | 66.76 | 65.64 | 66.20 |
RNA | 68.64 | 60.45 | 64.29 |
細胞株 | 59.60 | 56.12 | 57.81 |
セルタイプ | 70.54 | 78.51 | 74.31 |
全体 | 75.78 | 67.45 | 71.37 |
参考文献
[1] S. Kulick、A。Bies、M。Liberman、M。Mandel、R。McDonald、M。Palmer、A。Schein、L。Ungar。生物医学情報抽出のための統合注釈、HLT / NAACL 2004ワークショップ:Biolink 2004、pp.61-68。
[2]鶴岡義正、立石優香、キム・ジンドン、太田朋子、ジョン・マクノート、ソフィア・アナニアドゥ、辻井潤一、生物医学テキストのためのロバストな品詞タガーの開発、情報学の進歩-第10回汎ヘレニック会議情報学、LNCS 3746、pp。382-392、2005(pdf)
[3]鶴岡義正、辻井潤一、シーケンスデータのタグ付けのための最も簡単な最初の戦略による双方向推論、HLT / EMNLP 2005の議事録、467-474ページ。 (pdf)