TEXT SIZE

  • 小
  • 中
  • 大

CLOSE

Digital Biology

ソフトウェア 機器 試薬・受託サービス
パスウェイ解析IPA フローサイトメーターCytek Aurora 標識抗体・試薬BioLegend
ヒト遺伝子変異データベースHGMD® Professional 一分子リアルタイムDNAシークエンサーPacBio® Sequel/Sequel II システム 試薬・消耗品Spherotech
配列情報マルチ解析ソフトウェアGeneious 高速細胞イメージングシステムCeligo DNA精製キットPrinceton(プリンストン)
次世代シーケンスデータ解析ソフトウェアStrand NGS ハイスループット自動細胞カウンターCellaca MX エンドペプチターゼPrinceton(プリンストン)
マイクロアレイデータ解析GeneSpring 細胞自動カウント・生死判別Cellometer(セロメーター) NGSライブラリ調製関連キットSwift Biosciences
オリゴプローブモデリングVisual OMP シングルセルディスペンサーNamo NGSライブラリ 調製キットLOOP GENOMICS
顕微鏡イメージ解析・
Fig作成支援ソフトウェア
Cytosketch
3次元培養Synthecon(シンセコン) NGSライブラリ調製関連キットShoreline Biome
  微小電気信号検出・解析Alpha Omega(アルファオメガ) ゲノムアセンブリ受託サービスDovetail Genomics
  モンキーチェア / レコーディング
チャンバー etc.
Crist(クリスト)
ヒトゲノム構造解析受託サービスDovetail Genomics
  レーザーマイクロダイセクションCellCut Plus  
  キャピラリーシングルセルソーティングシステムCellEctor Plus  

ホーム > 製品情報 > 【サービス】 De Novo ゲノムアセンブリ完全受託サービス FAQ(よくあるご質問)

De Novo ゲノムアセンブリ完全受託サービス FAQ(よくあるご質問)

Dovetail社 De Novo ゲノムアセンブリサービスに関するFAQ

用語について

  • シカゴメソッドとは?
    Dovetail社が独自の、インビトロ・長鎖シークエンスライブラリ作製法です。Chicago(Cell-free Hi-C for Assembly and Genome Organization)™メソッドは、インビトロの中でクロマチン構造を再構築する方法を応用し、抽出したDNAの長さと同じ距離をカバーすることのできるライブラリを作製する方法です。 参照論文: Putnam et al. (2016) Chromosome-scale shotgun assembly using an in vitro method for long-range linkage. Genome Res. 26, 342.
  • シカゴライブラリとは?
    シカゴメソッドによって作製されたシークエンスライブラリのことです。現在、Dovetail社でのみ作製しています。
  • ライブラリの複雑性とは?
    シークエンスライブラリひとつから推定される、ユニークなDNAライブラリ分子のでき具合です。複雑性が高いほど、同じ場所を読むライブラリは少ないことを示し、ゲノムをより均一にカバーできるので理想的です。
  • HiRise™とは?
    Dovetail社が独自に開発した、ゲノムスキャフォルドのためのソフトウェアです。詳細は「アセンブリ」の質問項目を参照。
  • Dovetail™ Hi-Cとは?
    Dovetail社が独自プロトコル化したHi-C技術です。試薬キットの販売もございます。
  • Contig(コンティグ)とは?
    ゲノムアセンブリの結果、塩基配列が連続している部分です。A,T,C,G,いずれかの塩基配列から構成されます。
  • Scaffold(スキャフォルド)とは?
    複数の隣り合うコンティグの向きを揃えて、真ん中のギャップをNで埋めた配列です。
  • N50とは?
    ゲノムアセンブリにおけるスキャフォルドやコンティグのサイズを評価する統計的な指標のひとつです。スキャフォルドまたはコンティグ配列を長いほうから積算していって、アセンブルの全体のサイズの50%を超えるときの長さを、N50といいます。一般的に、N50の値が大きいほど、アセンブリ結果が良いとされます。
  • 物理カバレッジとは?
    単にカバレッジといった場合、リード配列をゲノム配列にアラインさせたとき、ゲノム配列のヌクレオチドが平均で何回読まれているかという意味です。深度と呼ぶ場合もあります。ゲノムのあるヌクレオチドの場所に30本のリードがアラインした場合、その場所は30カバレッジ読まれたといいます。
    一方、物理カバレッジとは、ゲノムのある場所をリードペアが平均で何回カバーしているかを示します。メイトペアライブラリやBAC-endライブラリのように、数キロ~数十キロ塩基離れた両端を読むシークエンス情報をゲノム配列にアラインしたとき、実際は読まれていないインサート配列を含めてその領域を何回カバーしたかが物理カバレッジの考え方です。例えば、1,000bp離れた配列の両端100bpをシークエンスした配列データをアラインした場合、物理カバレッジの計算に使われる配列の範囲は、200bp(100bpx2)と中間の1,000bpです。

サービス全般

  • サービスの価格はいくらですか?
    ゲノムサイズ3Gbの生物の場合、金額の目安としては250万円~300万円です。
    実際は、DNA抽出方法、ゲノムサイズ、生物種、シークエンスラン数などによって変わります。
    詳細はお客様との打ち合わせの後、お見積もり致します。
  • 納期はどれくらいかかりますか?
    サービス内容や時期によりますが、アメリカにサンプルが到着してからデータ納品までの納期はおよそ3ヶ月です。シークエンスをお客様自身がご希望される場合は、お客様のランスケジュールに依存します。
  • 生物種によって送ることのできないサンプルはありますか?
    組織サンプルを送付頂く場合、生物種によっては輸出・輸入制限がある場合があります。本サービスに興味をお持ちになった時点で、できるだけ早く生物種(学名も)と、野生種か否かの情報をお知らせ下さい。その情報をもとに、アメリカ側で輸入許可が下りるかどうかを先に確認致します。確認には数週間かかる場合があります。あらかじめご了承下さい。
  • サンプルはどのように輸送されますか?
    国内輸送(お客様からトミーデジタルバイオロジー社まで)はお客様のご負担で、冷凍または冷蔵便(サンプルによります)で弊社宛にお送り下さい。弊社からDovetail社までは、ワールド・クーリア社のサービスを使い輸送します。日本発は月曜または火曜で、Dovetail社には火曜または水曜に到着します。
  • ゲノムアセンブリのQCはどのように行なっていますか?
    ゲノムアセンブリのクオリティチェックはいくつかあり、お客様は以下のチェックポイントごとの報告を受けることがあります。
    1. DNA QC: 抽出されたDNAの質、量、濃度がシカゴライブラリを作製するのに十分かどうか。このQCはDovetail社が抽出した場合も、お客様が抽出したDNAを送付した場合も、どちらも行なわれます。
    2. ライブラリ QC: シカゴ/Dovetail™ Hi-Cライブラリが作製されたあと、Dovetail社にて、少量のシークエンス(~1-2 million pairs)を行ない、ドラフトアセンブリに対してマッピングします。Dovetail社は、このマッピング・アライメント情報を使用し、ライブラリの複雑性、リードペアの距離の分布、シグナルノイズ比を精査します。その結果、シカゴライブラリが次に行なうディープシークエンスで、ゲノムを50回以上物理的にカバーするデータを出力すると推測できる場合、このクオリティチェックを通過します。以上のQCを通過した場合、次のディープシークエンスに進みます。
    3. ドラフトアセンブリ QC: ご提供頂いたドラフトアセンブリの結果がHiRise™を使ったスキャフォルディングに使用できるかどうかをチェックします。
    4. スキャフォルドアセンブリ QC (HiRise™): HiRise™ パイプラインを使ってスキャフォルド解析を行った後、これまで過去の結果を照らし合わせて、今回のアセンブリ結果が期待される結果だったかどうかを最終チェックされます。これが、お客様の元に納品される前の最後のQCです。
  • データはどのように納品されますか?
    インターネット経由のダウンロード形式にて提供します。ご要望に応じて、日本のお客様向けには、ハードディスクで納品されます。

必要組織サンプル・DNA量

  • どれくらいの量のサンプルが必要ですか?
    シカゴライブラリを作製するには最低500 ngの精製された高分子DNA(濃度100 ng/µl)が必要です。この条件に合致させるため、以下の必要量で組織サンプルをお送り下さい。Dovetail社にてDNA抽出から行ないます。
    • お客様が動物由来組織サンプルを送付する場合: 脳や肝臓など細胞密度の高い部位から新鮮なうちに急速冷凍された組織、500 mg程度が必要。
    • お客様が植物由来組織サンプルを送付する場合: 新芽や実生などできるだけ若い部位を、新鮮なうちに急速冷凍した組織、5 g 程度が必要。
    • お客様が高分子DNAを送付する場合: RNAや酵素などの不純物を含まない 2 µgのDNA分子。濃度は100 ng/µl、平均DNA長は50 kbp 以上(100 kbp 以上であれば尚良い)。 キアゲン社製Blood & Cell Culture DNA Midi キットまたは、バイオラッド社製CHEFゲノムDNAプラグキット、を使って抽出・精製することを推奨。
    Dovetail™ Hi-C受託サービス実施の場合は、組織をお送りいただきます。
    サンプル準備・保存に関する詳細は、別途、ガイドライン(Customer Sample Prep Guidelines)がありますのでご連絡下さい。

アセンブリとスキャフォルドについて

  • シカゴライブラリのリードペアはどのようにスキャフォルドに使用されていますか?
    HiRise™は、ドラフトアセンブリ上に推定される、偽結合箇所を切り離し、シカゴライブラリのリードペアで再結合し、より大きなサイズのスキャフォルド配列を作成することができます。そのために、HiRise™はプロジェクトごとに、作製したシカゴライブラリのインサートサイズ分布のモデル式を作ります。このモデル式は、最初にマップした少量シークエンスから作られます。その後、そのモデルの推定値から、どの場所が切り離されどの場所が再結合されるかが決定されます。シカゴライブラリでは、その多くはライブラリの2つのリードペア間距離が短く、長い距離をスパンするライブラリは少ししか存在しません。 その結果、HiRise™は多数の短いリードペアと少量の長いリードペアを使用して、アセンブリのコンティグまたはスキャフォルドを、向きと順序をそろえてつなぎます。HiRise™は、様々な異なる向きと順序をテストして、その中で、想定されるインサートサイズ分布に最も適したスキャフォルド結果を返します。

    このグラフは典型的なシカゴライブラリのインサート距離の分布を示します。HiRise™によって導き出されたコンティグ(またはスキャフォルド)の向きと順番が正しければ正しいほど、2本のコンティグ(またはスキャフォルド)をつなぐリードペアの距離が、このインサート距離の分布モデルに一致するようになります。
  • シカゴライブラリのシークエンスデータを、メイトペアのデータと同じように、一般のデノボアセンブリに使用できますか?
    シカゴデータを、メイトペアデータと同じように取り扱うのは難しいでしょう。なぜなら、ほとんどのアセンブラーは、メイトペアライブラリのインサート距離の分布が、正規分布を示すことを仮定しているからです。一方シカゴライブラリのインサート距離分布は、指数分布を示します。HiRise™は、このようなシカゴライブラリ特徴的な距離分布に基づいて設計されたアルゴリズムを搭載しています。そのためシカゴライブラリを用いたスキャフォルディングには、HiRise™が必要です。

HiRise™スキャフォルディングに必要なデータについて

  • Dovetail社で作製したシカゴライブラリのシークエンスデータのほかに、HiRise™スキャフォルドに必要なデータは何ですか?
    HiRise™パイプラインへのインプットデータは以下の通りです。
    1. HiRise™必要最低限以上のドラフトアセンブリ結果。
    2. シカゴシークエンスデータ。
    3. ショットガン生データ(ご自身でお持ちのお客様のみ)。必須ではありませんが、最後のギャップクロージングに用いられ、このデータがあるとより良い結果が期待できます。もし複数のサイズのインサート、リード長のデータがある場合、リード長が長いものを使用します。インサートサイズに制限はありません。
  • もしメイトペアやフォスミド、BACライブラリなどからのシークエンスデータを持っている場合、これらのデータをアセンブリに使用できますか?
    これら追加データは、現在のところHiRise™パイプラインに直接使用しません。しかしこれら追加データは、ドラフトアセンブリの結果を良くするかもしれませんので、全体的に見れば、アセンブリに貢献します。また、オプティカルマッピングデータなどをお持ちの場合、HiRise™の後のスキャフォルド配列を改善するのに役に立つ可能性があります。さらに、カバレッジの低いBAC-endシークエンスや、RNA-Seqデータなども、最終アセンブリ結果のバリデーションに使えるでしょう。
  • HiRise™のインプットデータに必要なドラフトアセンブリは、何か特別な方法で行なう必要がありますか?
    いいえ。ドラフトアセンブリに使用するツールには、例えば、Discovar De Novo, SGA, Meraculous, Falconなどの色々なアセンブラーがありますが、これでなければいけないという制限はありません。また、データタイプについても、ショットガンデータやPacBioデータなど、HiRiseの必要条件に合致すれば制限はありません。しかし最初のドラフトアセンブリの正確さが、次のスキャフォルディングの完成度に影響し、ひいてはアセンブリ全体の精度にも影響しますので、最初のドラフトアセンブリは、正確であればあるほど望ましいです。
  • HiRise™へ持ち込むためのドラフトアセンブリの必要最低条件は?
    HiRise™には、ドラフトアセンブリの絶対的な条件はありません。より精度の高いドラフトアセンブリから、良い最終アセンブリ結果が作られるのはもちろんのこと、多くの断片に分かれたアセンブリからは、連続性においてあまり改善は見られないかもしれません。具体的な目安として、1)スキャフォルドまたはコンティグのN50が1Mb以上かつN90が20kb以上、2)フローサイトメトリーなどで確認した推定ゲノムサイズの少なくとも75%がドラフトアセンブリに含まれることを推奨します。これらはひとつのガイドラインで、ゲノムの特徴によって大きく変わります。いずれにせよ、HiRise™解析を開始する時点で、お客様は、ドラフトアセンブリの状態と、スキャフォルドによる予想結果についてDovetail社とメールあるいはウェブを介しての打ち合わせをすることを推奨します。
  • お客様がドラフトアセンブリをする場合に、必要なデータ量はどれくらいですか?
    イルミナシークエンサーを行なう場合の目安として、2x150bp (non-overlapping)のペアエンドで最低60X カバレッジ、2x100bpの場合は90Xカバレッジのデータ量が必要です。
  • 性染色体に興味がある場合は気をつけることはありますか?
    性染色体の配列、性染色体上の遺伝子を特に解析したい場合、単純に2倍のカバレッジが必要になります。
  • ドラフトアセンブリについて、N50は長いがエラーも大きいアセンブリと、エラーは小さいがN50も短いアセンブリがある場合、どちらを優先したら良いですか?
    一般的には、HiRise™の必要条件に合致する限り、N50は短くともエラーが少ない方を優先します。

シカゴライブラリのシークエンシング

  • シカゴライブラリはどのようにシークエンスされますか?
    ライブラリそのものは、どんなシークエンサーでも読むことはできます。Dovetail社のサービスでは、HiSeq X シークエンサーを使用しています。
  • シカゴライブラリをシークエンスするために必要な条件は?
    ペアエンドまたはシングルリードのシークエンスで、最低100bpあることが、HiRise™ソフトウェアによる解析に必要です。Dovetail社のサービスでは、2x150bpでシークエンスします。より長いリード長(例:2x250bp)であれば、フェージングの検出には効果的かもしれませんが、スキャフォルドの長さや質に大きく貢献するわけではありません。
  • HiRise™アセンブリに必要なシカゴライブラリデータの条件は?
    シカゴライブラリの必要データ量は、ゲノムや生物種によって様々です。これに影響を及ぼす要因は以下のものがあります。
    • ゲノム:サイズ、リピート配列の割合、GC含量、ヘテロ接合性
    • シカゴライブラリ:複雑性、シグナルノイズ比、リードペアの距離分布(インプットDNAのサイズ)
    • ドラフトアセンブリ: コンティグの長さと精度
    シカゴライブラリの配列データは、ゲノム均一に50~100倍の物理カバレッジが必要です。たいていは真核生物のゲノムの場合、1億5,000万~3億リードペア(~1-2 HiSeq 2500レーン)程度です。
  • シカゴライブラリのデータはたくさんあればあるほど、アセンブリ結果が良くなるものでしょうか?
    私たちは現在も、シカゴライブラリのデータ量がアセンブリの結果にどう影響するか、調査していますが、100カバレッジまでで十分な結果を得ています。サンプルに依存しますが、これ以上のデータを増やして改善する場合もあるかもしれません。

解析結果

  • 最終納品物はどのようなものですか?
    インターネット経由のダウンロード形式にて提供します。ご要望に応じて、日本のお客様向けには、ハードディスクで納品されます。
    • HiRise™によるアセンブリ配列(FASTAフォーマット)
    • アセンブリ結果のサマリーレポート(英語)
    • ドラフトアセンブリにて推定されるミスジョイント情報
    • ドラフトアセンブリに対してマップされたシカゴライブラリの位置情報
  • ゲノムアセンブリによって結果が異なるのはなぜでしょうか?
    ゲノムアセンブリの結果には複数の要因が複雑に関係しますので、結果は様々です。HiRise™アセンブリの結果に最も影響が大きいのは、インプットに使われるドラフトアセンブリの精度です。ドラフトアセンブリのコンティグ配列が長く、精度が高いほど、最終結果も良くなります。ドラフトアセンブリのクオリティは、リピートの種類やヘテロ接合性、サイズなど、ゲノムの特徴に大きく依存します。またインプットデータの量や種類、使用したアセンブリアルゴリズム(Meraculous, Discovar De Novo, SGAなど)にもアセンブリ結果は影響を受けるでしょう。
    HiRise™アセンブリの結果は、これらの要因に加え、シカゴライブラリの配列データにも左右されます。シカゴデータで特にアセンブリに影響が大きいのは、ライブラリのゲノムカバレッジ均一性、リードペア間の距離の分布、シグナルノイズ比です。これらが最適な値を常に示すようなライブラリ調製を行なっています。シカゴライブラリにおいては、ほとんどの要因はプロトコルで既に最適化されています。どれだけ長くてきれいなDNAを抽出できるかが最も影響が大きくコントロール可能な要因です。
  • アセンブリ結果はどのように評価できますか?
    プロジェクトとしては稀なケースですが、標準的な参照ゲノム配列がある生物種の場合、アセンブル結果配列を参照配列と比較することでエラーの種類や頻度を算出できます。これまでDovetail社では、HiRise™アセンブリの精度を高めるため、ゴールドスタンダードの参照配列がある生物種をシークエンスし、アセンブリ結果を評価し、プロトコルや解析アルゴリズムを最適化してきました。
    Dovetailアセンブリサービスを頼まれるお客様のほとんどは、参照配列が未知の生物種だと思います。これらのアセンブリ結果を評価するためには、まず対象ゲノムアセンブリ結果と、進化的に近く既知のゲノム配列との間で、シンテニー(染色体上の遺伝子座の並び・順番)を比べます。もし近縁種で既知のゲノム配列が無い場合、BAC-ends配列やトランスクリプトームデータを利用することもできます。BAC-endデータは数十kbから数百kbに及ぶ長鎖配列です。これらのデータはHiRise™アセンブリの結果配列にアラインすることで、予想インサートサイズやリードの向きを精査し、エラー頻度を算出することに用いることができます。アセンブリそのものに使われることはありません。

FAQで必要な情報が見つからない場合は、お手数をおかけしますが
< > までお問い合わせください。

お気軽にお問い合わせ下さい

pageTop