統合的ゲノム解析のためのWebデータベース『CohesinDB』を開発 東大定量研

NEWS

 先天性疾患の要因のひとつとされるタンパク質複合体「コヒーシン」に関する既存データを網羅的に収集したデータベース “CohesinDB” が開発され、Webサービスとして公開された。ヒトの176 細胞種からなる転写因子結合、遺伝子発現変動、ゲノム立体構造など計 2,043 サンプルが含まれており、Webブラウザを通じ可視化、解析、データダウンロードなどが誰でも可能だ。

 

 「Cohesin(コヒーシン)」は、ゲノムの立体構造制御や遺伝子発現制御に重要な役割を果たすタンパク質複合体であり、この複合体の変異は急性骨髄性白血病や複数の先天性疾患の要因となることが知られている。ゆえに、これらの疾患の発症メカニズムを解明するうえで、コヒーシンの果たす機能を明らかにすることが求められている。次世代シーケンサー(NGS)を用いた全ゲノム解析により、様々な生物種・細胞種を用いた実験が世界中で展開されており、コヒーシンの多彩な役割が明らかにされつつあるが、一方で、公開されたこれら大量の論文データを再解析し、研究活用することは高度な情報解析技術が要求されるため、多くの研究者にとってこれまで困難だった。

図1:CohesinDBの概念図。CohesinDBは、エピゲノム、遺伝子発現、ゲノム立体構造などからなる計2,043のNGSデータを収集・処理した結果得られた3種類の「コヒーシンオブジェクト」をWebブラウザを通じて提供している。利用者はWebブラウザを通じてデータの検索、ダウンロード、可視化などが可能である。

 東京大学定量生命科学研究所中戸隆一郎准教授らの研究グループは、このタンパク質の統合的解析を推進するため、コヒーシンに関する既存ゲノムデータを格納した大規模なデータベース『CohesinDB』を開発した。このデータベースには176のヒト細胞種から生成された2,043のエピゲノム、遺伝子発現、ゲノム立体構造データが含まれており、さらに、独自の解析パイプラインを用いて統一的に再解析し、ゲノム情報に詳細なラベルを与えた「コヒーシンオブジェクト」が付加されている(751,590のコヒーシン結合ゲノム部位、957,868のクロマチンループ、2,229,500のシス制御モジュール※1を含む)。これらのデータはWebブラウザを介して誰でもアクセス可能であり、可視化、機能解析、データダウンロードなどを誰でも簡単に行うことができる。

 研究グループでは、これにより情報解析の非専門家にとってこれまで難しかった大規模ゲノム解析が容易になり、転写制御や疾患関連解析などに関する全ての研究者にとって有用なリソースとして機能し、コヒーシン研究の促進が期待できるとしている。

※1 シス制御モジュール
複数の転写因子が結合し、遺伝子発現を制御するためのゲノム 領域の総称。主として遺伝子のプロモーター領域やエンハンサー領域が該当する。

外部リンク:CohesinDB
論文リンク:CohesinDB: A comprehensive database for decoding cohesin-related epigenomes, 3D genomes and transcriptomes in human cells(Nucleic Acids Research)

関連記事

NEWS

Posted by medit-tech-admin