戻る

2 様々なデータベースと配列解析

2-1.バイオインフォマティクスとデータベース


■ 個別から網羅へ

国際ヒトゲノムプロジェクト などのような全ゲノムの塩基配列を網羅的に決定しようということが様々な生物種で行われていたり、 3000種を目標にタンパク質の立体構造を網羅的に明らかにしようという文部科学省の タンパク3000プロジェクトがあったり、 細胞内で発現しているタンパク質の量や相互作用などを網羅的に調べるプロテオーム解析など、 生命の情報を網羅的に調べるということが盛んになっています。
この結果、世界中の研究者から有用な大量のデータが発生するので、 これらを有効に活用できるように様々な機関、目的でデータベース化されています。

■データベース

データベースとは、大量のデータの集まりのことです。 データベースはそれ単体では利用するのが大変です。 そのためデータベースには、 目的のデータにアクセスするためのキーワード検索などのできるインターフェースが存在します。

バイオインフォマティクスには膨大な数のデータベースが存在します。 これらのデータベースは、大きく3つに分類することができます。

  • 測定結果そのもののデータベース
     DNA配列、アミノ酸配列、タンパク質立体構造の座標データ等々
  • 測定結果から得られる情報を整理したデータベース
     タンパク質のアミノ酸配列や立体構造の類似性から分類したデータベース等々
  • 上記2つを組み合わせたデータベース

■生命情報関連の主なデータベース

  • 塩基配列データベース
塩基配列データベースは、DNA、RNAの塩基配列とその説明、文献情報などを記載したデータベースです。 次の3つは、密接な連携のもと「DDBJ/EMBL/GenBank 国際塩基配列データベース」 を構築している3大国際 DNA データバンクであり、お互いのデータに差がないように、 定常的に情報をやりとりしています。
  1. NCBI/GenBank
    米国 NCBI(National Center for Biotechnology Information)が運営。

  2. EMBL/EBI
    欧州 EMBL(European Molecular Biology Laboratory)のEBI(European Bioinformatics Institute)が運営。
  3. DDBJ
    日本の国立遺伝学研究所 生命情報・DDBJ 研究センター(DNA Data Bank of Japan)が運営。
[ 演習 1-1 ]
AB028630 というエントリー ID で登録されている Clostridium perfringens (ウェルシュ菌) 由来の塩基配列を3つのサイトそれぞれで検索し、含まれる情報や形式がどのように異なるか調べてみよう。
※ AB028630:毒素遺伝子発現調節因子 VirR/VirS により制御されている遺伝子

  • アミノ酸配列データベース
アミノ酸配列データベースは、アミノ酸の配列とその説明、文献情報などを記載したデータベースです。
  1. UniProt
    スイス SIB(Swiss Institute of Bioinfomatics)と、EBI(European Bioinfomatics Institute) が共同で構築したアミノ酸配列データベースです。 タンパク質の機能情報なども含まれています。

  2. PIR
    米国ジョージタウン大学により構築されたアミノ酸配列データベースです。 ファミリー、スーパーファミリーの分類とそれらを特徴づけるドメイン情報を含んでいます。
[ 演習 1-2 ]
演習 1-1 で得られた遺伝子にコードされているタンパク質の機能やファミリーについて、 Swiss-Prot、PIR (protein_id で検索)それぞれで調べてみよう。
また、タンパク質名でも検索してみよう。

  • タンパク質立体構造データベース
タンパク質立体構造データベースには、大きく分けて2種類あります。 1つは、タンパク質に含まれる原子の3次元座標データのデータベースであるPDB(Protein Data Bank)で、 もう1つは、構造を分類、比較したデータベースであるSCOPやCATHなどです。
  1. PDB
    RCSB(Research Collaboratory for Structural Bioinfomatics) により構築された、 タンパク質の3次元立体構造データベースです。 各原子の3次元座標データおよび構造の熱振動の程度を表す温度因子のデータ、文献情報などが記載されており、 タンパク質に限らず、核酸のデータも含まれています。

  • タンパク質立体構造分類データベース
タンパク質そのもの、つまりアミノ酸配列は、全体で約10万種類以上あるとも言われていますが、 タンパク質を構成する基本立体構造は、約1万種類程度しかないと考えられています。 この立体構造に着目し、分類、比較を行っているデータベースが SCOP や CATH です。 このような構造分類は、タンパク質の機能を予測・解析するのに非常に重要です。
  1. SCOP
    英国 MRC Laboratory of Molecular Biology により構築されたデータベースで、 SCOP は、Structural Classification of Proteins の略です。
    タンパク質の立体構造を目で比較し、手動で分類しています。次の3つの階層により分類されています。
    1. Class:主に二次構造のタイプにより All α、All β、α/β、α+β、マルチドメインタンパク質、膜タンパク質、小さなタンパク質、コイルドコイル、低解像度、ペプチド、デザインされたタンパク質に分類
    2. Fold:立体構造のみが類似
    3. Superfamily:アミノ酸配列の相同性は低いが、立体構造および機能が類似
    4. Families:アミノ酸配列の相同性が高いグループ

  2. CATH Protein Structure Classification
    University College London により構築されたデータベースです。 タンパク質の立体構造をプログラムによりドメイン単位に分割し、 分割されたドメイン構造をプログラムおよび人の目で分類します。 次に、5つの階層により分類されています。
    1. Class (C):二次構造のタイプにより Mainly Alpha、Mainly Beta、Mixed Alpha-Beta、Few Secondary Structures の4種類に分類
    2. Architecture (A):二次構造の相対的な配置が類似しているもの
    3. Topology (T):二次構造の相対的な配置とつながり方が類似しているもの
    4. Homologous Superfamily (H):共通の進化的起源をもっていると予想されるもの

  3. OLIGAMI
    チェックおよび修正された生物学的4次構造データを、SCOPの階層で、見ることができる。
    藤原研究室が運営。

  • 糖鎖データベース
タンパク質は、様々な修飾を受けますが、その中でも複雑なのが糖鎖です。様々な糖が分岐しながら連結されていきます。 糖の種類、分岐の仕方などによって、働きが変わりますが、糖鎖の並びと働きとの関係性についてはまだ明らかにされていません。 そこで、いくつかの研究機関によって、糖鎖に関するデータベースが構築され、公開されています。
  1. 日本糖鎖科学統合データベース
    産業技術総合研究所 糖鎖医工学研究センターが運営。

  2. RINGS (Resource For INformatics Of Glycomes at Soka)
    創価大学木下研究室が運営。

  • 統合データベース
ライフサイエンスにおける様々な情報を統合したデータベースです。
  1. KEGG: 生命システム情報統合データベース

  2. ライフサイエンス統合データベース
戻る
© kazuo