|
内容目次 |
|
● |
序文 (岡田随象) |
|
 |
|
●第1章 遺伝統計学の基礎理論 |
1. |
遺伝統計学の基礎知識
(植木優夫・田宮 元) |
|
メンデルの第一法則が示すように,親から子への遺伝物質の継承は確率的な現象である。ヒトなどの2倍体生物であれば,各親がもつ2つの遺伝子の片方が子に伝達されるが,どちらが伝達されるかは確率的に決まる。したがって,このような不確かさを考慮することが必要となる。この継承法則を統計学によって記述し,データを理解して解析する学問領域が遺伝統計学(statistical genetics)である。確率モデルを通じて遺伝的現象を説明しようとする試みは,近年のように実際のDNA配列がデータとして観察可能となるかなり以前から行われており,統計学が科学の一分野となった時代まで遡る。RA Fisher,JBS Haldane,S Wright,木村資生らによって確立された集団遺伝学は,多くの実りある理論を生み出し,現在の遺伝統計手法の理論的基盤となっている。そして,遺伝子は疾患発症に重要な役割を果たす。家系あるいは集団における疾患発症を説明するために発展した遺伝疫学は,遺伝連鎖分析などの遺伝統計手法を見出し,多くの疾患発症に関わる遺伝因子の特定を導いた。ヒトのみならず家畜や植物などの形質に占める遺伝要因の割合,あるいは環境要因との相乗効果の程度を定量し推測することも重要である。量的遺伝学の理論は,現在の遺伝率推定やリスク予測の基礎としても活用されている。
|
|
2. |
統計遺伝学とヒト進化遺伝学
(大橋 順) |
|
ゲノムワイド関連研究(genome-wide association study:GWAS)によって,多くのありふれた疾患の関連多型が報告されてきたが,それらの多型が維持されている進化力についてはほとんど理解されていない。もし一義的な疾患関連多型を同定することができれば,その派生アリル(ヒト系統において突然変異により誕生したアリル)に着目することで,病気の生物学的・進化学的意義を議論することができる。本稿では,GWASで検出される疾患関連多型の派生アリル頻度や遺伝子型相対リスクについて理論的に考察し,炎症性腸疾患(inflammatory bowel disease:IBD)と一義的に関連する派生アリルの特徴について考える。
|
|
3. |
双生児研究が紐解く遺伝と環境の関わり
(本多智佳・渡邉幹夫・岩谷良則) |
|
米国は2015年に精緻医療(precision medicine)を達成するため100万人以上のゲノムコホート研究を開始した。日本などが行っている10万人レベルのゲノムコホート研究を補完し,さらに精度の高い成果を上げるためには,遺伝的背景を一致させて環境の影響を調べることができる双生児を対象とした研究が必須になるだろう。病気だけでなく性格や能力などに関わるヒトすべての謎を解き明かすための究極の研究対象である双生児を対象とした双生児研究について,古典的双生児デザインと最近注目されている個々の形質の表現型が異なる一卵性双生児を対象としたエピゲノム研究を紹介する。
|
|
4. |
多彩なデータに取り組むために
(山田 亮) |
|
遺伝統計学は,ゲノムから各種オミクスを経て疾患フェノタイプの集合であるフェノームまでのデータを用いて検定・推定・学習を行う。そのデータの様相は非常に多様であり,それらのすべてに精通することは難しい。本稿では,遺伝統計学が扱う広範囲のデータを解析するという観点から,それらのすべてを大づかみにするために有用な考え方である,空間(物理的な空間と情報的な空間)と時間,点と(曲)線と(曲)面,(不均一な)分布,幾何(ユークリッド幾何・非ユークリッド幾何・情報幾何)について概説する。
|
|
5. |
遺伝統計学のこれから
(鎌谷直之) |
|
生物由来のデータを解析するデータサイエンスは,因果が自明な遺伝学の時代,因果が自明でない統計学の時代,結果に基づく原因の確率を許容する情報学の時代を経て新しい時代を迎えた。人工知能の時代に入り,データサイエンスは生物由来のデータの解析から,生物そのものの模倣を開始したと考える。模倣の対象は神経システムであるが,今後ゲノムシステムにも及ぶと予想する。生物における因果の概念を拡張する目的でゲノミクスのための六層構造を提案した。今後,個体層と細胞層の橋渡し,種層と集団層,集団層と家族層の橋渡しを行う研究が重要になると考える。
|
|
●第2章 大規模ゲノムデータ解析の最先端 |
1. |
大規模ゲノムワイド関連解析
(秋山雅人) |
|
手法の開発から15年が経過したゲノムワイド関連解析(genome-wide association study:GWAS)は,驚異的なスピードで大規模化を続けており,100万人規模のGWASも目前である。サンプル数だけではなく,解析の対象となる遺伝的変異の数も著増しており,頻度の低い遺伝的変異の検出も可能となってきた。本稿では,大規模GWASに至るまでの変遷を辿り,最新の手法について概説した後,本邦の大規模GWASの例として,著者らが報告した肥満に対して実施した大規模GWASの結果を紹介する。
|
|
2. |
メンデル遺伝病の原因診断における全エクソーム解析
(山本賢一・岡田随象) |
|
次世代シークエンサーの登場により,ヒトゲノムの網羅的解析が可能となった。アミノ酸配列コード領域であるエクソン領域を調べる全エクソーム解析は,メンデル遺伝病の原因遺伝子同定を中心に普及しており,臨床現場で接する機会は多い。全エクソーム解析によるメンデル遺伝病の診断到達率は25?50%程度とされ,希少難病を集約し,診断率を上げるためのプロジェクトが各国で行われている。日本でも未診断疾患イニシアチブが2015年より開始され,今後の診断率上昇が期待される。また,臨床現場において全エクソーム解析の解釈を行える人材の育成も必要である。
|
|
3. |
全ゲノムシークエンス解析
(岸川敏博・岡田随象) |
|
次世代シークエンサーの急速な発展はゲノム解析の低コスト化と高速化を実現し,ゲノム領域全体を解析対象とする全ゲノムシークエンスの普及を促進している。シークエンサーから得られるビッグデータの解析処理においても,様々な工夫・改良によって精度や速度の飛躍的な向上が達成されてきた。国際コンソーシアムや大型プロジェクトを中心とした大規模解析による網羅的なゲノム情報は,疾患病態など新規知見の蓄積をもたらし,ゲノム医療の実践へとつながりつつある。
|
|
4. |
ゲノムコピー数変異
(久島 周・尾崎紀夫) |
|
2004年に初めて報告されたゲノムコピー数変異(copy number variation:CNV)は,ヒトゲノムの多様性に深く関与することが多数の研究から明らかになっている。マイクロアレイや次世代シーケンスを用いた大規模解析からCNVの形成メカニズムについても新たな知見が得られつつある。疾患との関連では,頻度の稀なCNVが統合失調症などの精神疾患の発症リスクに関連することが明らかになった。本稿では,過去10年余りの研究から明らかになったCNVの知見に関して概説する。
|
|
5. |
HLA・KIR遺伝子の次世代シークエンス解析
(細道一善) |
|
数多くの疾患と強い関連を示すHLA遺伝子およびHLA分子がリガンドとして働き,ナチュラルキラー(NK)細胞の活性と抑制を制御するKIR遺伝子はいずれもゲノム医科学において重要なゲノム領域の1つである。このHLAおよびKIR遺伝子はゲノム上に高度に重複して位置するため,次世代シークエンサー(NGS)による網羅的な解析が有効である。HLAとKIR遺伝子群の特徴とNGSによる解析の意義を紹介する。
|
|
6. |
T細胞受容体レパトア解析
(井元清哉・長谷川嵩矩・山口 類) |
|
獲得免疫のシステムを理解する鍵は,多様な抗原を認識するT細胞受容体,B細胞受容体にある。本稿では,次世代シークエンス技術により得られたシークエンスデータからTCRレパトアを解析する情報解析技術について紹介する。また,これまでにレパトアの多様性やTCR上のCDR領域の解析から見出されたいくつかの研究結果について紹介する。また,免疫グロブリンレパトアの解析についても紹介する。最後に,がん研究におけるTCRレパトア解析を中心とした解析として,neoantigenとの関連について今後の研究動向を含めて検討する。
|
|
7. |
RNAシークエンス
(石垣和慶) |
|
"定量"は生物学において常に重要な要素であり,様々な観測事象に対して可能なかぎり定量化する試みが行われている。遺伝子発現量の定量はその簡便性から精力的に実施され,生物学の発展に貢献してきた。近年,次世代シークエンサー(next generation sequencing:NGS)の普及,運用コストの低下と相まって遺伝子発現量の定量の主流はRNAシークエンスに移行しつつある。RNAシークエンスでは量的評価に加えてスプライシングなどの質的評価も可能であり,遺伝子発現状態を多面的に評価することができる。本稿では,RNAシークエンスの基本的要素,本技術を応用した解析例を紹介する。
|
|
8. |
エピゲノムシークエンス解析
(早野崇英) |
|
次世代シークエンサーによりゲノムのみならずエピゲノムのシークエンス解析も可能になった。エピゲノムシークエンスの中でもDNAメチル化シークエンスやヒストン修飾シークエンスは,国際コンソーシアムによる標準的な実験・解析手法の確立が進められている。染色体3次元構造を解析する手法の発展により,クロマチン3次元ドメイン構造が組織特異的な遺伝子発現を調節していることも示唆されてきている。これらエピゲノムシークエンス解析について概観する。
|
|
9. |
メタゲノムシークエンス解析
(中村昇太) |
|
微生物集団を網羅的に解析するメタゲノムシークエンスがあらゆる分野で用いられるようになった。主に細菌集団を解析する16S rRNA遺伝子の部分配列を標的としたディープシークエンス解析が多用されているが,その実験デザインには多くの落とし穴がある。これまで数多くの共同研究で経験してきた実験プロトコルや患者背景,動物実験環境などがメタゲノムデータに与える深刻な影響を解説し,微生物集団を解析するための研究計画と手法論を実際の研究例とともに紹介する。
|
|
10. |
GWASをトランスオミクスで読み解く
(柚木克之・角田達彦・黒田真也) |
|
トランスオミクスとは,同一条件下で調製した培養細胞や臓器・組織サンプルから測定したマルチオミクスデータを用いてメカニスティックな多階層ネットワークを階層縦断的に再構築する方法論である。本稿では,GWASによって見出された遺伝マーカーと疾患表現型との統計的関連を,トランスオミクスによって分子メカニズムとして読み解く相補的融合アプローチを展望する。さらにその波及効果として,遺伝因子間の相互作用検出やmissing heritabilityの解消,遺伝マーカーのメカニズム別層別化などを検討し,個別医療・精密医療につながる技術としての可能性を議論する。
|
|
●第3章 ゲノム情報の社会実装に向けて |
1. |
ライフデータの統合解析によるヒト・バイオロジーの包括的理解のための地域コホート研究
(田原康玄) |
|
ヒト集団を長期にわたって追跡し,リスク因子とアウトカムとの関連を解明することをめざすコホート研究は,従来は健康診断を基盤に行われ,マクロなリスク因子についての研究が主流であった。現在では,多様な臨床情報を収集し,ゲノムやオミックスなど生体試料の網羅的分析を行って,病因分子を解明し,その病態や病勢への影響を明らかにする研究が主流となりつつある。臨床情報の評価とそれに基づく病態理解,生体分子の網羅的解析,ならびにそれらの統合解析のいずれのステップにおいても更なる技術開発が必要であるが,ヒトのバイオロジーを包括的に理解し,様々な疾患の病因を解明するうえで,このような次世代コホート研究は必要不可欠な学術基盤である。
|
|
2. |
機械学習によるゲノムデータの解釈と予測
(小井土 大) |
|
機械学習とは,人間が設計したアルゴリズムに基づき,データ駆動的に学習を進め,予測やデータマイニングを行うものである。ゲノム解析においても,データのクオリティコントロール(QC)や可視化,そしてゲノムの機能予測にまで幅広く機械学習が用いられてきた。一方で,機械学習の最大の特徴の1つである変数間の非線形的関係性の取り込みについては,ゲノムデータ解析にはまだ活用の余地が残されている。そこで本稿では,ゲノムデータにおけるこれまでの機械学習の活用例を紹介しつつ,それらの中で非線形的関係性がどのようにゲノム解析を進展させられるのか議論する。
|
|
3. |
機械学習によるメンデル遺伝病Variant of Unknown Significanceの解釈
(伊藤 薫) |
|
メンデル遺伝病の診断では非同義置換や機能喪失を引き起こすものを疾患原因遺伝子変異の候補として認識する。しかし,これらの中でRNAスプライシング異常をきたす変異群に関しては,その不完全な理解のためVUS(variant of unknown significance,重要度不明変異)に分類されることが多かった。そこで私たちは遺伝子変異による病的RNAスプライシング変化を検出するために,コンピュータ(ドライ系)と細胞実験系(ウェット系)の方法を組み合わせた2ステップシステムを開発した。しかしながらウェット系の方法は正確であるが即効性に欠けるため,ドライ系のみでより良い診断をできるように機械学習の手法を取り入れて性能向上をめざした。
|
|
4. |
ゲノム情報を活用した臨床研究
(田中紀子) |
|
ヒトゲノム解明から急速にその周辺で発展したオミックス測定技術の臨床研究への応用が近年ますます増加している。ゲノム科学を臨床研究者が,臨床研究をゲノム科学者が,正しく理解し協力するための知識の共有はゲノム情報を活用する研究を円滑に進め,結果を社会に還元するために非常に重要である。そこで本稿では,実際に取り組まれているゲノム情報を活用した臨床研究を概括し,その科学的合理性および社会的正当性の担保に必要となる遵守すべき規制および研究の品質管理の考え方について述べる。
|
|
5. |
製薬企業におけるゲノム創薬への取り組み
(吹田直政) |
|
2003年のヒトゲノムドラフトシーケンスの発表前後から流行語のように使われてきた「ゲノム創薬」というキーワードも,いよいよ現実のものとなってきた。ヒトゲノム情報は,有効性および安全性の観点から創薬標的の妥当性判断に活かせることが報告されている。さらに電子カルテ情報との組み合わせにより,適応疾患の選定に応用できる可能性が見出されている。臨床試験においては,遺伝型に基づいた適切な患者選定も試みられている。本稿では,製薬企業の活動を中心に関連研究を交えて,進化したゲノム創薬を紹介したい。
|
|
6. |
AMEDにおけるゲノム医療実現に向けた新たなアプローチ
- データシェアリングポリシーの策定とその舞台裏 −
(三成寿作・加藤 治・櫻井美佳・齋藤あき) |
|
日本医療研究開発機構(AMED)では,「疾病克服に向けたゲノム医療実現プロジェクト」において,研究者間におけるゲノム情報の共有およびその利活用の促進を重要な取り組みとして位置づけている。このデータシェアリングの実践にあたっては,「非制限公開」や「制限公開」に加え,「制限共有」という新たな仕組みを導入しながら,AMEDとしての方針をデータシェアリングポリシーとして定めている。本稿では,AMEDにおけるデータシェアリングポリシーの策定経緯を振り返り,その背景や事前調査,概要などを紹介するとともに,現状や今後の方向性について提示する。
|
|
●第4章 開発者によるゲノムデータ解析手法紹介 |
|
|
1) |
HLA imputation法 - HLA遺伝子多型をスパコン上で推定 -
(平田 潤) |
|
|
HLA imputation法は,HLA遺伝子型が有する疾患リスクを網羅的に解析する遺伝統計解析手法である。われわれは,日本人集団における同手法の実装を行うとともに,データ可視化手法を駆使することで複雑なHLA遺伝子構造の解釈を試みた。また,バセドウ病や関節リウマチのゲノムワイド関連解析データへのHLA imputation法の適用により,疾患発症の新たなるメカニズムを解明した。本稿ではHLA imputation法の概要と日本人集団における実装およびHLA遺伝子多型の疾患リスク解明について紹介する。
|
|
|
2) |
全ゲノムSNP情報に基づく疾患発症予測
(八谷剛史) |
|
|
ゲノムワイド関連解析によって数多くの疾患感受性多型が同定されたが,疾患感受性多型のみを用いた遺伝的リスクスコアの疾病発症リスク予測能は極めて限定的である。遺伝統計学的手法により,多数の稀でない多型が弱く発症リスクに寄与していることが示され,全SNP情報に基づく遺伝的リスクモデル(ポリジェニックモデル)の研究が活発となっている。本稿では,ポリジェニックモデルについて解説し,さらにポリジェニックモデルの研究における解析方法を解説する。
|
|
|
3) |
HDR法 - ハミング距離に基づく疾患感受性染色体領域の推定 -
(中谷明弘・岡崎敦子・小林香織) |
|
|
次世代シーケンサーによるDNA配列の解読によって,簡便にDNA配列の変異情報が参照できるようになっている。単一の染色体位置での変異の有無に加えて,特定の染色体領域に変異がどのように引き継がれて分布しているかは遺伝性疾患の解析には重要な情報となる。しかしながら,DNA配列上の領域の評価は探索的な情報処理も必要となって必ずしも簡単ではない。常染色体劣性遺伝を想定し,疾患感受性が推定される染色体領域の探索と統計処理を実現する情報処理手法の開発とGUIを備えた解析ソフトウェアとしての実装について紹介する。
|
|
|
4) |
LAMPLINK - SNP間の高次の相乗効果を高速に検出 -
(寺田愛花・瀬々 潤) |
|
|
疾病原因因子の同定に向け,大規模なゲノムワイド関連解析(GWAS)が実施されている。GWASは一定の成果を残しているが,GWASで行われている解析の多くは個々のSNPに着目した解析であるため,複数SNPを考慮した高度な解析を利用することで新たな疾病因子を同定できる余地がある。本稿では,この高度な解析ができる一手法として,複数SNP間の相乗効果を考慮して疾病因子を探索できるソフトウェアLAMPLINK(https://a-terada.github.io/lamplink/)を紹介する。LAMPLINKはGWAS解析ソフトウェアであるPLINKに統計的に有意な相乗効果を検出するLAMPの機能を追加したソフトウェアであり,PLINKを利用したパイプラインを変更することなく相乗効果の検出が可能である。
|
|
|
5) |
MIGWAS - 疾患ゲノム情報を活用したmiRNAスクリーニング -
(坂上沙央里・岡田随象) |
|
|
マイクロRNA(miRNA)は,遺伝子発現調節に重要な役割を果たす。近年,自己免疫疾患や悪性腫瘍など多くの疾患においてmiRNAの関与が注目され,バイオマーカーや創薬対象としての研究が進展している。疾患に関与するmiRNAの同定には一部のmiRNAを対象とした実験的な発現量計測が主に用いられており,網羅的に候補miRNAを検出する手法は未開発であった。本稿では,これまでに蓄積されてきた大規模疾患ゲノム解析結果とmiRNA−標的遺伝子ネットワークとを計算機上で統合解析することによる網羅的miRNAインシリコスクリーニング手法(MIGWAS)の概略を解説する。
|
|
|
6) |
wPGSA法 - 公共ChIP-seqデータを用いて転写因子の影響を推定する -
(川上英良・椙下紘貴) |
|
|
遺伝子発現の網羅的測定データを解釈するうえで,多くの遺伝子の変動を大域的に評価し,生物学的な解釈につなげる際に,Gene Set Enrichment解析という手法が用いられる。Gene Setを「どの転写因子によって制御されているか」という分類で構築してEnrichment解析を行うことで,遺伝子発現に影響を与えている転写因子を特定する手法が転写因子Enrichment解析である。膨大な公共ChIP-seqデータに基づいて転写制御ネットワークを構築し,転写因子Enrichment解析に基づいて転写制御因子の影響を推定する手法を紹介する。
|
|
|
7) |
FANTOM5 - 広範な細胞種におけるプロモーター・エンハンサーアトラス -
(吉原正仁) |
|
|
ヒト由来の多種多様な細胞・組織サンプルを対象に,CAGE法を用いてゲノムワイドに転写開始点を同定・定量し,膨大なトランスクリプトームデータを生み出したFANTOM5プロジェクトの概要と,その解析結果の利用法について解説する。疾患感受性遺伝子変異のデータとFANTOM5によって得られたプロモーターやエンハンサー,非コードRNAなどの情報を統合することで,同定された変異の意義の解釈に役立てていただきたい。
|
|
|
|
1) |
がんゲノムにおける後天的変異の変異シグナチャーのモデリングと可視化について
(白石友一) |
|
|
近年のシークエンス技術の発展により,個々のがんゲノムにおける変異パターンの違いを高精度で検出することが可能になった。本稿では,大量の変異リストから特徴的なパターンのマイニングを行う新たな統計的手法の紹介を行う。本手法は「変異パターンの因子数を増やしても,首尾よく推定が可能である」,「機械学習分野で文書分類に利用されるトピックモデルと類似したモデルとなっており,過去にこれらの分野で蓄積されてきた膨大な知見を利用することができる」などの特徴を備えている。
|
|
|
2) |
多領域シークエンスとがんの進化シミュレーション
- 大腸がんの腫瘍内不均一性の解析を例に -
(新井田厚司) |
|
|
1つの腫瘍の中にはゲノムの異なる複数のクローンの存在することが知られている。この腫瘍内不均一性と呼ばれる現象はがんの治療・診断困難性の一因と考えられ,その理解は臨床的にも重要な問題である。本稿では,腫瘍内不均一性を解明するための,腫瘍の複数の異なる部分からゲノムを抽出しシークエンスを行う多領域シークエンスおよび腫瘍内不均一性を生じる進化原理を理解するためのがんの進化シミュレーションの2種類の相補的な手法について,われわれが行った大腸がんの解析を例に説明する。
|
|
|
3) |
3D permutation法 - タンパク質3次元構造を考慮したがん遺伝子の同定 -
(藤本明洋) |
|
|
がんの発生・進展において直接的に重要な役割を果たす遺伝子はドライバー遺伝子と呼ばれ,発見することで発がんのメカニズムの解明に結びつくと期待されている。一般にドライバー遺伝子は,ゲノムシークエンスにより発見された変異の数を統計的に解析することにより検出される。しかしながら,この解析では低頻度のドライバー遺伝子の検出は困難であると考えられ,変異数以外のデータを用いたドライバー遺伝子の検出が必要となると考えられる。われわれはタンパク質の立体構造を考慮することによりドライバー遺伝子を新たに検出できるのではないかと考え,立体構造を考慮し変異の集積を検出する方法(3D permutation法)を開発した。
|
|
|
4) |
CASTIN - トランスクリプト−ムデータからがん間質相互作用を解析 -
(河村大輔・石川俊平) |
|
|
がん細胞は周囲の間質細胞との相互作用により生存に有利な環境を作り出しており,近年がん間質相互作用をターゲットにした分子標的治療が注目を浴びている。しかし,これまでがん間質相互作用全体の定量的な評価は困難であった。われわれは,ヒトがん細胞をマウスに移植したがんゼノグラフトモデルのトランスクリプトームデータから,がん間質相互作用を網羅的に解析するソフトウェア(CASTIN)を開発した。本稿では,CASTINの原理と解析時の注意点などについて述べる。
|
|
|
5) |
phyC - がん進化を推定・分類するためのデータ駆動型数理アプローチ -
(松井佑介・島村徹平) |
|
|
本稿では,がんの多様性および複雑性を数理的に解き明かすアプローチとして,症例個々のがん進化を推定・分類する方法について解説する。がんは自らのゲノムを改変したサブクローンと呼ばれる多様性をもった細胞群を作り,選択圧に適応するためにサブクローンの組成を変化させ,遺伝的に進化していくことが知られている。近年,複数領域シークエンシングと呼ばれるアプローチにより,同一患者の腫瘍の複数部位から得られた試料において塩基配列を解読した遺伝子変異データから,がん進化の系譜を辿ることが可能となりつつある。まず,近年のがん進化推定の方法論を紹介したのち,筆者らが最近開発したがん進化の分類手法(phyC)について解説する。
|
|
|
6) |
Watson for Genomics:Moving Personalized Medicine Forward
(Kahn Rhrissorrakrai・Takahiko Koyama・Laxmi Parida)
〔翻訳:溝上敏文〕
|
|
|
遺伝子情報処理の技術進展の流れと,コグニティブコンピューティングと呼ばれるAI技術の流れが交差するところに,私たちは個別化医療が世の中で広く使われていく世界への入り口を見出していると言える。Watson for Genomicsのようなシステムは大量のOMICSデータと医療データを統合することで医師が患者一人一人のゲノム情報を解析し治療方針を決定していくことを支援する。
|
|
●●コラム |
1. |
ゼロから始めるバイオインフォマティクス
(藤井庸祐) |
|
|
|
●索引 |