2 様々なデータベースと配列解析2-1.バイオインフォマティクスとデータベース■ 個別から網羅へ
国際ヒトゲノムプロジェクト
などのような全ゲノムの塩基配列を網羅的に決定しようということが様々な生物種で行われていたり、
3000種を目標にタンパク質の立体構造を網羅的に明らかにしようという文部科学省の
タンパク3000プロジェクトがあったり、
細胞内で発現しているタンパク質の量や相互作用などを網羅的に調べるプロテオーム解析など、
生命の情報を網羅的に調べるということが盛んになっています。
この結果、世界中の研究者から有用な大量のデータが発生するので、 これらを有効に活用できるように様々な機関、目的でデータベース化されています。 ■データベースデータベースとは、大量のデータの集まりのことです。
データベースはそれ単体では利用するのが大変です。
そのためデータベースには、
目的のデータにアクセスするためのキーワード検索などのできるインターフェースが存在します。 バイオインフォマティクスには膨大な数のデータベースが存在します。
これらのデータベースは、大きく3つに分類することができます。
■生命情報関連の主なデータベース
塩基配列データベースは、DNA、RNAの塩基配列とその説明、文献情報などを記載したデータベースです。
次の3つは、密接な連携のもと「DDBJ/EMBL/GenBank 国際塩基配列データベース」
を構築している3大国際 DNA データバンクであり、お互いのデータに差がないように、
定常的に情報をやりとりしています。
[ 演習 1-1 ]
AB028630 というエントリー ID で登録されている Clostridium perfringens (ウェルシュ菌) 由来の塩基配列を3つのサイトそれぞれで検索し、含まれる情報や形式がどのように異なるか調べてみよう。 ※ AB028630:毒素遺伝子発現調節因子 VirR/VirS により制御されている遺伝子 ![]()
アミノ酸配列データベースは、アミノ酸の配列とその説明、文献情報などを記載したデータベースです。
[ 演習 1-2 ]
演習 1-1 で得られた遺伝子にコードされているタンパク質の機能やファミリーについて、 Swiss-Prot、PIR (protein_id で検索)それぞれで調べてみよう。 また、タンパク質名でも検索してみよう。
タンパク質立体構造データベースには、大きく分けて2種類あります。
1つは、タンパク質に含まれる原子の3次元座標データのデータベースであるPDB(Protein Data Bank)で、
もう1つは、構造を分類、比較したデータベースであるSCOPやCATHなどです。
タンパク質そのもの、つまりアミノ酸配列は、全体で約10万種類以上あるとも言われていますが、
タンパク質を構成する基本立体構造は、約1万種類程度しかないと考えられています。
この立体構造に着目し、分類、比較を行っているデータベースが SCOP や CATH です。
このような構造分類は、タンパク質の機能を予測・解析するのに非常に重要です。
タンパク質は、様々な修飾を受けますが、その中でも複雑なのが糖鎖です。様々な糖が分岐しながら連結されていきます。
糖の種類、分岐の仕方などによって、働きが変わりますが、糖鎖の並びと働きとの関係性についてはまだ明らかにされていません。
そこで、いくつかの研究機関によって、糖鎖に関するデータベースが構築され、公開されています。
ライフサイエンスにおける様々な情報を統合したデータベースです。
|