細胞の機能別分類を実現する遺伝子解析ソフトウェア「ASURAT」開発  オープンソースで利用可能

 疾患に関わる細胞の集積状況とその生物機能を解析できるソフトウェアを、大阪大学と京都大学の共同研究グループが開発した。遺伝子発現量だけではない複数の指標で解析することで、生体組織の機能異常をより精密に捉えることが可能になったという。

公共データベースから「機能アノテーション」の情報取得、多面的解析を可能に

図1 ASURATが可能にする細胞の多面的な機能別分類の概要。
入力した知識データと遺伝子発現データをもとに記号と呼ばれる生物機能に関する変数セットを生成する。
記号の解析により細胞分類と生物学的解釈が同時に実現可能となる。

 大阪大学蛋白質研究所の飯田 渓太 助教、Johannes Nicolaus Wibisana 博士前期課程学生(現 沖縄科学技術大学院大学 博士後期課程学生)、岡田 眞里子 教授らは、京都大学大学院医学研究科の井上 正宏 特定教授、近藤純平 特定助教(現 大阪大学大学院医学系研究科 准教授)との共同研究において、細胞の機能別分類を実現する遺伝子発現解析ソフトウェアASURAT(functional annotation-driven unsupervised clustering of single-cell transcriptomes)を開発し、敗血症、肺がん、膵がんなどの患者データから疾患に関わる細胞集団とその生物機能(代謝異常や薬剤耐性など)を新たに見出すことに成功した。

 細胞内のRNA分子の量(遺伝子発現量)を網羅的に計測することのできる1細胞トランスクリプトーム解析※1の実験技術の精度は、近年飛躍的に向上している。特に最近は細胞の位置情報と発現情報を同時に取得できる「空間トランスクリプトーム解析」※2が注目されている。その結果、生体組織に潜むがん細胞などを分子レベルで同定することが可能になったが、しかし遺伝子発現量に主眼を置く従来のデータ解析手法では、細胞内でどのような生物機能が働いているかまでは推定することが困難という課題がある。そこで研究グループでは今回、「細胞種別」「生化学反応」「分子パスウェイ」などに関する遺伝子の機能アノテーション※3の情報を用いて、細胞を多面的に分類するソフトウェアASURATを開発した(図1)。

図2 ASURATによる膵がん腫瘍のデータ解析例。細胞種別だけでなく、生化学過程やパスウェイなどの細胞機能を網羅的に推定することが可能。 応用例として、敗血症患者の1細胞トランスクリプトームデータから病態の進行に伴い減少するマクロファージの亜集団を新規に発見し、それらが他のマクロファージとは異なる代謝状態にあることを見出した。また、膵がん患者の1細胞トランスクリプトームデータと空間トランスクリプトームデータ※3から、がんの悪性化に関わる細胞集団とその機能的特徴(蛋白質分解能など)を予測し、その結果を組織画像との比較により検証した。公開データの出典:Moncada et al, Nat. Biotechnol. 38, 333-342 (2020)

 このソフトウェアの特徴は、公共データベースから細胞種別、生化学反応、パスウェイなどに関する遺伝子情報を集約し、これらと遺伝子発現データをあわせて生物機能の細胞を機能別に分類するところにある。従来の遺伝子ベースの解析では見落とされてきた細胞集団を新たに発見することが可能になるという。今回、研究グループでは応用例として、膵がん患者の1細胞トランスクリプトームデータと空間トランスクリプトームデータから膵管腺癌の亜集団とその機能的特徴(蛋白質分解能など)を新たに予測し、その結果を組織画像との比較により検証することに成功した(図2)。

 研究グループでは、ASURATはこうした複合的なデータセットに適用可能な本邦初の革新的な解析ツールであり、応用範囲が広く幅広い生命データの解析が可能になるとの展望を示している。例えば、薬剤投与やゲノム変異などが引き起こす生物機能の情報データベースをASURATに入力することが可能になれば、生体組織の機能異常をより精確に検出し、治療効果を予測するなど創薬の研究分野にも貢献できるとしている。

※1 1細胞トランスクリプトームデータ
ヒトの細胞には蛋白質をコードした遺伝子が約20,000個存在しており(Salzberg, BMC Biol., 2018)、この領域から生命維持に必要なRNA分子が産生されている。1細胞トランスクリプトームとは1細胞レベルで得られた細胞内の全RNA分子の情報を指す。次世代シーケンサを用いた細胞内分子の計測技術は最近の10年間で飛躍的に向上しており、今日では一度のサンプル回収で数百万の細胞に対する1細胞トランスクリプトームデータを取得することが可能。
※2 空間トランスクリプトームデータ
先行研究(Moncada et al., 2020)では、スライドガラス上に格子状に整列したマイクロアレイのスポットに膵がん腫瘍の組織切片を貼り付ける方法により、腫瘍に存在する細胞のRNA情報と位置情報を同時にもつ空間トランスクリプトームデータが取得された。ただし、ここで得られた空間トランスクリプトームは1スポットあたり20-70細胞が平均化された粗いデータであり、1細胞レベルにまでは至っていない。そこで先行研究(Moncada et al., 2020)では、同じ組織から1細胞トランスクリプトームデータを取得し、これらのデータを統合することでスポット間でのバイアスの少ない細胞分類を可能にしている。
※3 遺伝子の機能アノテーション
生命科学分野ではヒトやマウスを含むさまざまな生物種を用いた実験と解析により、多くの遺伝子とその機能が明らかにされてきた。これらの知見はデータベース化されており公共利用が可能です。遺伝子の機能アノテーションとは、こうしたデータベースを用いて研究対象とする遺伝子セットに生物機能を割り当てる作業を指す。例えば、KEGG(Kyoto Encyclopedia of Genes and Genomes)のパスウェイデータベースには340個の分子パスウェイとそれに関連する遺伝子セットの情報が登録されており(2020年12月時点)、パスウェイに関する機能アノテーションを行うことが可能。本研究ではこの他にも細胞種別、疾患種別、生化学反応に関するデータベースを取得し、ユーザーが使用しやすい形のテーブルデータとして整理した。

論文リンク:
ASURAT: functional annotation-driven unsupervised clustering of single-cell transcriptomes(Bioinformatics)
ASURAT: Functional annotation-driven unsupervised clustering for single-cell data(Bioconductor)