ゲノム・ビッグデータ解析基盤の刷新
理化学研究所(以下、理研)ライフサイエンス技術基盤研究センター様は、ゲノムの受託解析サービス「GeNAS」を通じて、創薬・医療分野から作物ゲノム解析などの農業分野まで、生命科学の様々な領域に関わる産業や研究の発展に貢献されています。
ビッグデータ解析基盤を刷新。解析時間の短縮に成功。
導入背景・目的
ゲノムはまさにビッグデータ
次世代シーケンサー(遺伝子解析装置)の誕生・発展により、ゲノム解析で扱うデータ量は飛躍的に増え続けています。現在の次世代シーケンサーでは、1回の稼動で生成されるデータ量は最大で数百Gbyte。そしてこのデータ量は今後更に増え続けることが予想されています。
ゲノム解析を支えるIT
次世代シーケンサーを活用する鍵は、次世代シーケンサーの性能を十分に引き出す運用方法にあります。その中で情報処理技術とその戦略は大きなウェイトを占めています。
理研ライフサイエンス技術基盤研究センター様のGeNASでは、増え続けるデータ量に対応するために、ストレージ容量を追加して対応されていました。しかし、解析に時間がかかるという別の問題が発生。原因を調べた結果、ボトルネックはCPU速度ではなくI/O速度であり、ストレージシステムの増強と処理速度の向上という2つの課題が浮かび上がりました。
システム概要
- 分散共有ファイルシステムGPFS(General Parallel File System)
- 階層型ストレージ管理TSM(Tivoli Storage Manager)
- ファイル共有サーバ PowerEdge R620
- テープ管理サーバ PowerEdge R720xd
- ディスクストレージ DDN SFA10000
- テープ・ライブラリーIBM System Storage TS3500 基本筐体1台+拡張筐体2台
- Ultriumテープドライブ 6台
- LTO5データカートリッジ 1500本
導入ポイント
並列処理でI/Oを高速化
I/O時間を高速化する為、GPFS(General Parallel File System)を選択。GPFSは1ファイルへの複数ノード同時アクセスが可能なため、並列処理による高速化を実現しました。
階層型ストレージの構築で省電力・省スペースのテープをうまく活用
現在の施設ではディスク設置スペースに限りがあり、電力量の制約もありました。省電力化・省スペース化を考えると全てディスクで構成することは不可能でした。そこでテープの活用を検討。しかし、テープはディスクと比べるとI/O速度が遅い。これをカバーするため、階層型ストレージを構成できるTSM(Tivoli Storage Maneger)を導入しました。
TSMで構成する階層型ストレージでは、事前に定義したポリシーに則ってデータ格納先の自動振り分けや自動待避が可能。
本システムでは、全てのデータは一旦高速アクセスが可能なディスクに格納し、その後ファイルへのアクセス頻度が低いものは自動的にテープに待避することで大容量かつ高速ストレージを実現しました。
容量は、ディスク300TB、テープ2.25PBを保存可能。更にテープ領域はカートリッジを追加することで最大4.0PBまで拡張可能。
導入効果
4日かかっていたゲノム解析が2日に。
GeNAS施設長の近藤直人様は、「課題となっていたI/O時間は2倍にまで向上しました。ゲノム解析は長いもので3~4日を要しますので、それが2日になるということになります。これは大きな成果です。」と評価されています。
将来的な解析精度向上に耐えうるストレージ容量の確保。
また、「省電力・省スペースという制約の中、テープストレージを併用することで将来を見据えたストレージ容量の確保ができました。」
「導入にあたって予期せぬトラブルもありましたが、迅速にご対応頂き、無事に本格運用に入りました。また、設定を全体に反映するのもとてもやり易く満足しており、運用も問題ありません。導入時には困難なネットワークの構成変更もお願いしましたが、すべて要望通りにご対応頂きました。」と、システムの管理をご担当されている北倉様、武田様はおっしゃっています。
- ※
-
本事例の記事内容は掲載当時のものとなっております。
関連ソリューション
関連事例
お問い合わせ