Machine learningとCRISPR/Cas9 -バイオインフォマティクスの発展と課題-

バイオインフォマティクスの発展
バイオインフォマティクス(Bioinformatics)とは、生命科学(Biology)と情報科学(Informatics)の融合分野である。DNAやRNA、タンパク質といった、生命が持つ様々な「情報」を対象としており、情報科学や統計学などのアルゴリズムを用いた方法論やモデルを開発し、それらを用いた分析から生命現象を解き明かしていくことを目的とした学問分野だ。
バイオインフォマティクスという用語は、もともとは1970年代にBen Hesper 氏とPaulien Hogeweg 氏によって”the study of informatic processes in biotic systems”(=生物学的システムにおける情報的プロセスの学問)と定義された[1]。ここでの情報的プロセスとは、DNAの複製やDNAからタンパク質が発現するまでの一連の流れであるセントラルドグマなど、DNAの持つ情報が関わる生物の様々な機能的プロセスを指している。当初は、主にゲノムデータの比較分析のための用語として使用されてきたが、現在では、生物学、コンピュータサイエンス、情報工学などの様々な分野が組み合わさった分野を指している。
そもそもDNA は、1953年にJ. D. Watoson氏とF. H. Crick氏に発表された論文において、遺伝的情報を持った二重らせん構造であることが提唱された[2]。DNAには、アデニン(A)、グアニン(G)、シトシン(C)、チミン(T)という4種類の塩基が含まれ、この配列によって遺伝子が表現されている。これらの塩基が対となって二重鎖を形成するため、1つの塩基対で2bitのデータを含むことになる。人間の全遺伝子情報であるヒトゲノムは約30億個の塩基対で構成されているため、人間の細胞1つの核には60億bit、つまり約750MBのデータが含まれていることになる。生物の体内で起こる反応は、全てこの膨大なゲノムデータに基づいているため、このデータの性質を理解することは、生物の根本的なメカニズムを理解することに繋がる。
人類はこれまで様々なアプローチにより遺伝情報の解明を試みてきた。1950年代にはSangers氏がインスリンのタンパク質の配列決定の方法を示し、その後のDNAの配列決定の礎を築き上げた [3]。今日では、ゲノムシーケンシング技術などの登場により、多くの生物を対象にゲノム解析プロジェクトが進められ、それに伴い大量のゲノム情報が得られるようになった。
しかし、得られる膨大なデータを手動で解析することは実用的ではないため、コンピュータを用いた解析が必要不可欠となっている。上述した通り、遺伝子情報における核酸配列はデジタル情報に変換可能であり、コンピュータとの親和性が高い。バイオインフォマティクスにおけるコンピュータ解析は、Margaret B. O. Dayhoff氏によるタンパク質配列データベースの編集や解析 [4]、Elvin A. Kabatによる抗体配列の包括的なボリューム解析などが基礎となって進展した[5]。
今日、人間が扱うデータが指数関数的に増加するのに伴い、バイオインフォマティクスは生物学の多くの分野で重要な役割を果たしている。遺伝子やタンパク質の発現調節、代謝経路などの生化学的解析、DNA、RNA、タンパク質等のシミュレーションとモデリングなど、その範囲はとどまるところを知らない。日本では、1999年に日本バイオインフォマティクス協会が立ち上がり、バイオインフォマティクスの普及と推進に向けた活動が行われている[6]。
そこで今回は、バイオインフォマティクスの分野において注目を集めている機械学習とゲノム編集の関わりについて紹介していきたい。
機械学習(Machine learning)とは
機械学習(Machine learning)とは、人工知能の一種であり、過去のデータをもとに、そのデータの特徴を学習してモデル化し、未来のデータを予測したり分類したりする技術を指す。最も有名な機械学習の定義は、Mitchell, T氏による” A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E”(=タスクのクラスTと性能指標Pに関し経験Eから学習することでT内のタスクのPで測った性能を改善するコンピュータプログラム)というものである[7]。
機械学習は統計学(Statistics)と比較されることが多い。統計学も生物学をはじめとする科学研究において最もよく用いられる学問の一つである。統計学も得られたデータから数学的な規則性や不規則性を見出すという点では、機械学習と共通している。しかし、統計学は「データの説明」に、機械学習は「データの予測」をするという点で両者は異なっている。
統計学は対象のデータ(標本データ)が全てのデータ(母集団)を代表したデータであるという仮定のもと、その特徴や性質を見出す(図1)。この例では、標本データ内の遺伝子Aを発現している個体と発現していない個体において、形質Xが発現しているかどうかを検定することで、母集団の遺伝子Aの発現と形質Xの関係を推定している。

一方、機械学習は、得られたデータからデータの特徴をモデル化し、未来のデータの予測や分類をすることを目的とする(図2)。この例では、遺伝子A,B,Cの発現と形質Xの発現の関係がラベル付けされたデータを用いて、各遺伝子の形質Xの発現に対する寄与度を函数としてモデル化する。そこで遺伝子A,B,Cの発現の有無に関する情報を持つ新規のデータが得られた場合、このモデルに適応させることで、この個体が形質Xを発現する確率を予測することができるということだ。

この機械学習は、実に広い範囲で研究され、実際に適応されている。スマートフォンの文字認識やカメラで人を認識する機能、Googleの検索機能、医療画像の解析など、もはや日常生活において機械学習が用いられているツールに遭遇しないことはない。日々様々なモデルが開発されることで、モデルの新規データに対する正解率は更新され続けている。
次項からは、ゲノム編集において機械学習が利用されている事例を見ていこう。
ゲノム編集の技術と課題
現在、ゲノム編集の主要なツールとなっているのは、セツロテックも取り組むCRISPR/Cas9である。CRISPR/Cas9は、2020年のノーベル医学・生理学賞を受賞したEmmanuelle Charpentier氏とJennifer A. Doudna氏らによって提案された技術であり、ZFN, TALENと呼ばれる編集技術に次いで生まれた第三世代のゲノム編集技術である。CRISPR/Cas9は、対象のDNAの配列さえ分かっていれば、それに対応するcrRNAと呼ばれる物質を人工的に設計し、tracrRNAと複合させたガイドRNA(gRNA)やCas9と呼ばれるハサミの役割を持つ物質と一緒に導入し、その配列を特異的に切断できる。それにより目的の遺伝子をノックアウトさせ、形質発現を操作できる。さらに、DNA切断に伴う修復機構を利用すれば、逆に外部からドナーDNA を導入することで目的の遺伝子を発現させることもできる。CRISPR/Cas9についての詳細はセツロテックMEDIAに掲載の筆者執筆の記事を参考にされたい[8]。
CRISPR/Cas9は現在のゲノム編集のメインツールとなっているが、ほとんどの場合で、どのようにして高い活性と特異度を持つgRNAをターゲットにするかということが問題に上がってくる。gRNAはCas9などを染色体上の標的DNA配列に導くRNAであり、CRISPRのDNA配列特異性を決める。そのため、最適なgRNA標的部位やgRNA配列の選択(on-target)は、効率的なCRISPR/Cas9の実現のための非常に重要なファクターの一つである[9]。しかし、本来の標的(on-target)とは異なる別の標的(off-target)を切断してしまえば、予期しない形質発現の変化が起こりうる(オフターゲット効果)。このオフターゲット効果は、不可逆的かつ頻繁に生じうるために、CRISPR/Cas9における最大の懸念事項である。オフターゲット効果の原因の一つは、gRNA配列とオフターゲット部位との間に最大3ntまでのミスマッチの許容性があることとされている[10]。
そこで、CRISPR/Cas9の提唱以降、CRISPR活性と特異度のスコアリングアルゴリズムやgRNA設計ウェブツールなどが開発されてきた[11]。これらのツールの最大の長所は、ゲノム編集のターゲットをin silicoで探索できることにある。(in silicoとは、in vivo (生体内で)や in vitro(試験管内で)などに準じて作られた用語で、「コンピュータを用いて」という意味を持つ)。次項では、そのうち機械学習を用いた配列予測モデルの特徴と問題点を整理する。
機械学習を用いたCRISPR/Cas9の設計モデル
現在、CRISPR/Cas9の設計ツールは主に次の3つが存在する[12]。
1.ゲノム内のPAM配列に基づいてgRNA配列を単純に反復させたものを用いる
2.GC含量(DNA分子中の窒素塩基のうちグアニンとシトシンの割合)などの特定の部分配列からgRNA活性を予測する
3.遺伝子のノックアウト実験のデータを用いて機械学習や深層学習によりモデルを生成し、対象のgRNAの活性や特異度を予測する
このうち3が先に述べた機械学習を用いたモデル予測である。開発されたモデルはバイオインフォマティクスのツールやデータベースを提供するOmics Toolsなどに登録され、CRISPR/Cas9の主要な設計ツールとなりつつある。これらはGUIDE-seq やHTGTSなどの従来の方法と比較してもより効率的で費用対効果が高い[13]。
しかし、2019年にJun Wang氏らによって発表された論文によれば、現在の予測モデルは次のような問題点を抱えている[14]。
1.十分なモデルを生成するためのデータ量が不十分である
2.CRISPR-Cas9メカニズムは包括的に解明されていないために、現在の最先端のアルゴリズムであっても使用できる特徴量が制限されている
3.異なるプラットフォームや細胞から生成されたデータにはデータの均一性が欠けているため、データの整形を行い、より統合されたデータが必要である
4.モデルが複雑化しており、解釈が非常に困難である
一般に、機械学習は学習に用いるデータの数が多ければ多いほどモデルの精度は上がると言われている。さらに、学習に用いる変数(=特徴量)がデータを表す上で適切であることや、欠損値の少ない均一性のあるデータが好ましい。その点、機械学習が登場して日の浅いCRISPR/Cas9の領域においては、学習に用いるデータの精度は高いとは言えないだろう。しかし、今後、機械学習のためのデータが集積されることで、モデルの精度は向上の余地があるだろう。
また、モデルの複雑化により、数学的には対象遺伝子の有意性が示されても、遺伝生物学的に解釈可能かは別問題である。すでに様々なモデルが提唱されているが、CRISPRate[15]などの単純な線形モデルもあれば、DeepCas9 [16]などのCNN(畳み込みニューラルネットワーク)を用いた配列sRNAの活性予測といった複雑なモデルも存在する。後者の深層学習モデルにおいては、モデルにより自動化された特徴量の抽出が行われるため、ある意味でブラックボックスのようなものである。抽出された特徴量やその結果が遺伝生物学的に意味を持つかどうかの機能的な検証は困難である。
以上のように、機械学習によるCRISPR/Cas9の設計モデルは、従来の研究室ベースの設計と比較しても、予測精度の向上、時間・費用面でのコスト改善などの多くのメリットをもたらしうる。しかし、人工知能であれば何でもできるという期待は幻想であり、あくまで機械学習は人間が言語化できる領域内で人間が実行不可能な計算を行うことでモデルを生成しているに過ぎない。そのため、データの質的問題やモデルの解釈など、まだまだ多くの改善の余地がある。進化するバイオインフォマティクスの恩恵を受けるためにも、機械学習(Machine learning)と遺伝生物学(Biogenetics)の両方の知識を深め、お互いの弱点を補うような方向性が求められていくだろう。
(文責:柴田潤一郎)
参考文献
[1] Hogeweg P. The roots of bioinformatics in theoretical biology. PLoS Comput Biol. 2011;7(3):e1002021. doi:10.1371/journal.pcbi.1002021
[2] WATSON JD, CRICK FH. Molecular structure of nucleic acids; a structure for deoxyribose nucleic acid. Nature. 1953;171(4356):737-738. doi:10.1038/171737a0
[3] Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 1977;74(12):5463-5467. doi:10.1073/pnas.74.12.5463
[4] M.O. Dayhoff, R. Schwartz, B.C. Orcutt: A model of Evolutionary Change in Proteins. In: Atlas of protein sequence and structure, 5. Auflage, 3. Ergänzungsband, 1978, Nat. Biomed. Res. Found.
[5] Paul, W., Mage, R. Elvin A. Kabat (1914–2000). Nature 407, 316 (2000).
doi:10.1038/35030291
[6] 日本バイオインフォマティクス協会
[7] Mitchell, T. (1997). Machine Learning. McGraw Hill. pp. 2. ISBN 978-0-07-042807-2
[8] 柴田潤一郎.「CRISPR/Cas9技術を応用したがん治療の未来 -ノーベル賞受賞技術の共演はあるのか-」
[9] Pallarès Masmitjà M, Knödlseder N, Güell M. CRISPR-gRNA Design. Methods Mol Biol. 2019;1961:3-11. doi:10.1007/978-1-4939-9170-9_1
[10] Lin Y, Cradick TJ, Brown MT, et al. CRISPR/Cas9 systems have off-target activity with insertions or deletions between target DNA and guide RNA sequences. Nucleic Acids Res. 2014;42(11):7473-7485. doi:10.1093/nar/gku402
[11] Henry VJ, Bandrowski AE, Pepin AS, Gonzalez BJ, Desfeux A. OMICtools: an informative directory for multi-omic data analysis. Database (Oxford). 2014;2014:bau069. Published 2014 Jul 14. doi:10.1093/database/bau069
[12] Chuai GH, Wang QL, Liu Q. In Silico Meets In Vivo: Towards Computational CRISPR-Based sgRNA Design. Trends Biotechnol. 2017;35(1):12-21. doi:10.1016/j.tibtech.2016.06.008
[13] Peng H, Zheng Y, Zhao Z, Liu T, Li J. Recognition of CRISPR/Cas9 off-target sites through ensemble learning of uneven mismatch distributions. Bioinformatics. 2018;34(17):i757-i765. doi:10.1093/bioinformatics/bty558
[14] Wang J, Zhang X, Cheng L, Luo Y. An overview and metanalysis of machine and deep learning-based CRISPR gRNA design tools. RNA Biol. 2020;17(1):13-22. doi:10.1080/15476286.2019.1669406
[15] Labuhn M, Adams FF, Ng M, et al. Refined sgRNA efficacy prediction improves large-and small-scale CRISPR–cas9 applications. Nucleic Acids Res. 2017;46(3):1375–1385.
[16] Xue L, Tang B, Chen W, et al. Prediction of CRISPR sgRNA activity using a deep convolutional neural network. J Chem Inf Model. 2018;59(1):615–624.