生命情報計算機演習

塩基配列データベース

塩基配列データベースは、DNA、RNAの塩基配列とその説明、文献情報などを記載したデータベースです。次の３つは、密接な連携のもと「DDBJ/EMBL/GenBank 国際塩基配列データベース」を構築している３大国際 DNA データバンクであり、お互いのデータに差がないように、定常的に情報をやりとりしています。

NCBI/GenBank
米国 NCBI(National Center for Biotechnology Information)が運営。

EMBL/EBI
欧州 EMBL(European Molecular Biology Laboratory)のEBI(European Bioinformatics Institute)が運営。
DDBJ
日本の国立遺伝学研究所生命情報・DDBJ 研究センター（DNA Data Bank of Japan）が運営。

[ 演習 1-1 ]
AB028630 というエントリー ID で登録されている Clostridium perfringens (ウェルシュ菌) 由来の塩基配列を３つのサイトそれぞれで検索し、含まれる情報や形式がどのように異なるか調べてみよう。
※ AB028630：毒素遺伝子発現調節因子 VirR/VirS により制御されている遺伝子

アミノ酸配列データベース

アミノ酸配列データベースは、アミノ酸の配列とその説明、文献情報などを記載したデータベースです。

UniProt
スイス SIB（Swiss Institute of Bioinfomatics）と、EBI（European Bioinfomatics Institute）が共同で構築したアミノ酸配列データベースです。タンパク質の機能情報なども含まれています。

PIR
米国ジョージタウン大学により構築されたアミノ酸配列データベースです。ファミリー、スーパーファミリーの分類とそれらを特徴づけるドメイン情報を含んでいます。

[ 演習 1-2 ]
演習 1-1 で得られた遺伝子にコードされているタンパク質の機能やファミリーについて、 Swiss-Prot、PIR （protein_id で検索）それぞれで調べてみよう。
また、タンパク質名でも検索してみよう。

タンパク質立体構造データベース

タンパク質立体構造データベースには、大きく分けて2種類あります。１つは、タンパク質に含まれる原子の3次元座標データのデータベースであるPDB（Protein Data Bank）で、もう１つは、構造を分類、比較したデータベースであるSCOPやCATHなどです。

PDB
RCSB（Research Collaboratory for Structural Bioinfomatics）により構築された、タンパク質の3次元立体構造データベースです。各原子の3次元座標データおよび構造の熱振動の程度を表す温度因子のデータ、文献情報などが記載されており、タンパク質に限らず、核酸のデータも含まれています。

タンパク質立体構造分類データベース

タンパク質そのもの、つまりアミノ酸配列は、全体で約10万種類以上あるとも言われていますが、タンパク質を構成する基本立体構造は、約１万種類程度しかないと考えられています。この立体構造に着目し、分類、比較を行っているデータベースが SCOP や CATH です。このような構造分類は、タンパク質の機能を予測・解析するのに非常に重要です。

SCOP
英国 MRC Laboratory of Molecular Biology により構築されたデータベースで、 SCOP は、Structural Classification of Proteins の略です。
タンパク質の立体構造を目で比較し、手動で分類しています。次の3つの階層により分類されています。
1. Class：主に二次構造のタイプにより All α、All β、α/β、α+β、マルチドメインタンパク質、膜タンパク質、小さなタンパク質、コイルドコイル、低解像度、ペプチド、デザインされたタンパク質に分類
2. Fold：立体構造のみが類似
3. Superfamily：アミノ酸配列の相同性は低いが、立体構造および機能が類似
4. Families：アミノ酸配列の相同性が高いグループ

CATH Protein Structure Classification
University College London により構築されたデータベースです。タンパク質の立体構造をプログラムによりドメイン単位に分割し、分割されたドメイン構造をプログラムおよび人の目で分類します。次に、5つの階層により分類されています。
1. Class (C)：二次構造のタイプにより Mainly Alpha、Mainly Beta、Mixed Alpha-Beta、Few Secondary Structures の4種類に分類
2. Architecture (A)：二次構造の相対的な配置が類似しているもの
3. Topology (T)：二次構造の相対的な配置とつながり方が類似しているもの
4. Homologous Superfamily (H)：共通の進化的起源をもっていると予想されるもの

OLIGAMI
チェックおよび修正された生物学的４次構造データを、SCOPの階層で、見ることができる。
藤原研究室が運営。

糖鎖データベース

タンパク質は、様々な修飾を受けますが、その中でも複雑なのが糖鎖です。様々な糖が分岐しながら連結されていきます。糖の種類、分岐の仕方などによって、働きが変わりますが、糖鎖の並びと働きとの関係性についてはまだ明らかにされていません。そこで、いくつかの研究機関によって、糖鎖に関するデータベースが構築され、公開されています。

日本糖鎖科学統合データベース
産業技術総合研究所糖鎖医工学研究センターが運営。

RINGS (Resource For INformatics Of Glycomes at Soka)
創価大学木下研究室が運営。

統合データベース

ライフサイエンスにおける様々な情報を統合したデータベースです。

KEGG: 生命システム情報統合データベース

ライフサイエンス統合データベース

２　様々なデータベースと配列解析

２-１．バイオインフォマティクスとデータベース

■ 個別から網羅へ

■データベース

■生命情報関連の主なデータベース

２ 様々なデータベースと配列解析

２-１．バイオインフォマティクスとデータベース

■ 個別から網羅へ

■データベース

■生命情報関連の主なデータベース

２　様々なデータベースと配列解析