WebMGA:超高速ゲノム配列クラスタリングアノテーションオンラインツール



Webmga Ultra Fast Genomic Sequence Clustering Annotation Online Tool



記事のディレクトリ

作成者:周偉中南大学

レビュー:劉永行遺伝学研究所、中国科学院



(マクロ)ゲノミクスは、生物学的機能を研究するためのシーケンシングの新しい分野です。シーケンシング技術は進歩し、コストは劇的に低下し、データは劇的に増加しましたが、データ分析には時間がかかり、(マクロ)ゲノムアノテーションには把握が難しいさまざまな計算ツールが含まれます。いくつかの利用可能なWebサーバーで利用可能なツールには、ログイン要件がある、大量のバッチで分析できない、長時間待機する、アクセサリを構成できないなど、多くの制限があります。上記の問題が発生した場合は、本日紹介するこのツールをお試しください。

WebMGAは、(マクロ)ゲノムを迅速に分析するためのWebサーバーであり、3つのモジュールで一般的に使用される20を超えるツールが含まれています。 URLにアクセス: http://weizhong-lab.ucsd.edu/webMGA/。 (図1)



画像

図1.サーバーのホームページインターフェイス

3つのモジュールは、シーケンスクラスタリング、遺伝子予測、および機能アノテーションです。デモ用に各モジュールからツールを選択します。
(図2)



画像

図2.サーバーの主な機能と対応するオプション

Cd-hitは、タンパク質配列または核酸配列をクラスター化するためのツールであり、配列の類似性に従って配列が配列決定され、冗長な配列が削除されます。約7,000回の参照があります。

画像

シーケンスクラスタリングcd-hit

Cd-hitは、特に時間がかかり、実行時間を大幅に短縮する一連の2対2のアライメントの問題を解決する貪欲なインクリメンタルクラスタリング手法です。まず、分析方法を選択した後、ファイルをアップロードします。適切なパラメータと見なされるように変更できます(一般的なデフォルトパラメータは変更できます)。
(図3)

画像
図3.例としてcd-hit-estを使用して、データとパラメーター設定ページをアップロードします。アップロードされたデータは、標準の核酸fasta形式のファイルです。メールアドレスを入力することをお勧めします。

アップロードが成功すると、次のページが表示されます。ジョブステータスをクリックします。 10Mb入力ファイルの場合、1分後に結果を表示できます。
(図4)
画像
図4.タスク送信の成功ページ

結果は圧縮パッケージにコンパイルされ、圧縮パッケージを直接ダウンロードできます。
(図5)
画像
図5.結果のダウンロードページ

ダウンロードしたtarballを解凍すると、結果は次のようになります。
(図6)
画像
図6.重要な結果として赤いボックスが付いた結果ファイルリストをダウンロードする

Cd-hitには主に2つの出力ファイルがあります。1つはすべての代表的なシーケンス(つまり、重複排除後のシーケンス)のみを含むFASTAファイルです。
(図7)
画像
図7.非冗長の代表的なシーケンスファイルの内容の例

もう1つは、「output-sorted」と呼ばれる.clstrで終わるクラスター情報ファイルです。ファイル内の「>」で始まるのはクラスターグループです。各グループは番号順に並べられており、クラスター1グループに示されているように、19のクラスタリングシーケンスがあります。各クラスタリングシーケンスには、パーセンテージまたは 'があります '、パーセンテージは、シーケンスと代表的なシーケンスの間の類似性を表します。' 'シーケンスを代表的なシーケンスとして表します。別の「output.clstr」ファイルには、シーケンスを表す情報のみが含まれています。
(図8)
画像
図8.クラスタリング情報ファイルの例*は代表的なシーケンスです

遺伝子予測ORF予測

ORF予測は、(マクロ)ゲノム配列から遺伝子を予測し、必要なFASTA形式のDNA配列をアップロードできます。 2Mbアップロードファイルの場合、結果はわずか3秒で表示できます。
(図9)

画像
図9.メタゲノムシーケンスの遺伝子予測ページ

結果ファイルには、次の内容が含まれています。 'OFR.fasta'という名前のファイルは、予測結果ファイルです。
(図10)
画像
図10.メタゲノムシーケンスの遺伝子予測結果ファイル。赤いボックスが主な結果です

この予測結果ファイルは、以下のコメントツールに直接アップロードできます。
(図11)
画像
図11.メタゲノムシーケンスにおける遺伝子予測結果ファイルの内容の例

タンパク質COGアノテーション

注釈ツールでは、例としてCOG注釈を取り上げます。 COG(オーソロガスグループのクラスター)は、異なる人種の遺伝子ペアワイズ類似クラスタリングによってそれらをさまざまなオーソロガスクラスターに分割します。これにより、未知の遺伝子に同じクラスター内の既知の遺伝子の注釈を付けることができます。特徴。その参照番号は現在数千です。

COGアノテーション機能:

  1. 既知のタンパク質による未知の配列の機能アノテーション
  2. 指定されたCOG数に対応するタンパク質の数、有無を調べることにより、特定の代謝経路が存在するかどうかを推測することができます。
  3. 各COG番号はタンパク質の一種であり、クエリのシーケンスは、保存された位置を決定し、その進化的関係を分析するために、アラインメント上のCOG番号のタンパク質とアラインメントされます。

以前の遺伝子予測の結果ファイルをアップロードします。サイズが2Mbのゲノムの場合、アノテーション結果は約3分で表示されます。各シーケンスのCOGアノテーション結果のCOG分類も非常に高速です。 COG関数のコメント結果には、以下のファイルが含まれています。
(図12)
画像
図12.COGコメント結果ファイル

「cog.txt」は、COG相同タンパク質の数に応じて排出される注釈付きの結果です。
(図13)
画像
図13.COGコメントの結果cog.txtファイルの例

'cog-class.txt'は、タンパク質を25の大まかなカテゴリに分類し、各カテゴリでカウントします。
(図14)
画像
図14.COGコメントの結果cog-class.txtファイルの例

分類に従って、数を数え、異なる分類に従って比較することができます。
(図15)
画像
図15.COG分類結果の一般的なヒストグラム表示

(図16)
画像
図16.COG分類結果のヒートマップ表示

本日紹介したツールは非常に便利で、実行速度も速く、ページもとてもフレンドリーで、誰もがグループを簡単に分析できるようになります。

著者について

山東省第一医科大学を卒業した周偉。 2018年、彼は中南大学の資源処理および生物工学部で学び、環境微生物学工学グループで学びました。具体的な研究内容は、極度の好塩性微生物の比較ゲノミクス分析と、廃水中の有機物の分解に関する関連研究です。 root @ xxxxxを批判し、導き、コミュニケーションするすべての人を歓迎します

参照

Wu S、Zhu Z、Fu L、他WebMGA:高速メタゲノムシーケンス分析のためのカスタマイズ可能なWebサーバー[J]。 BMC Genomics、2011、12。

Li W、GodzikA。 Cd-hit:タンパク質またはヌクレオチド配列の大規模なセットをクラスタリングおよび比較するための高速プログラム。[J]。バイオインフォマティクス、2006、22(13):1658。

Noguchi H、Park J、Takagi T. MetaGene:環境ゲノムショットガン配列からの原核生物遺伝子発見。[J]。 Nucleic Acids Research、2006、34(19):5623-30。

タトゥソフ、R。L。 COGデータベース:タンパク質の機能と進化のゲノムスケール分析のためのツール[J]。 Nucleic Acids Research、2000、28(1):33-36。

あなたも好きかも

後ろに書かれている

読者が科学研究の困難を迅速に伝え、解決することを奨励するために、私たちは「マクロゲネージ」専門家ディスカッショングループを設立しました。現在、国内外に5000人以上の第一線の研究者がいます。ディスカッションに参加し、専門家の回答を得て、この記事を友達の輪に共有することを歓迎し、コードとエディターをスキャンしてグループに参加させます。必ず「名前-ユニット-研究の方向性-タイトル/グレード」に注意してください。ヘルプに関する技術的な質問、最初に読む 「エレガントに質問する方法」 問題を解決することを学び、それでもグループディスカッションを解決します。問題はプライベートチャットではなく、仲間を助けます。
画像

アンプリコン、メタゲノム研究のアイデア、実際の戦闘の分析を学び、「マクロジェン」に注意を払う
画像

画像

クリックしてオリジナルを読み、最新の記事ディレクトリにジャンプして読みます
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA