このExerciseではサンガーシーケンス由来の生シーケンスデータの取り扱いと編集を更に練習します。
ヨシキリ(Acrocephalus)のシーケンスリストには3つの異なるAcrocephalusヨーロッパヨシキリの核の遺伝子のフォワード・リバースシーケンスが入っています。種を識別するために、シーケンスは3文字のコードで名前を付けています(aru = A. arundinaceus, great reed warbler; dum = A. dumetorum, Blyth's reed warbler; ort = A. orientalis, Oriental reed warbler)。また、'F' や 'R'はフォワード・リバースプライマーのどちらでシーケンスしたかを表しています。
Acrocephalus sequencesリストをダブルクリックして新しいウィンドウで開きます。スクロールしてシーケンスを見渡してみましょう。いくつかのシーケンスで一部のシーケンスの品質が落ちていることに注意して下さい(e.g. dum2 と dum4)。
Annotate and Predict>Trim Endsをクリックしてシーケンス末端のクオリティの低い部分をトリムします。この時、トリムされた領域は消してしまわず、annotateしたいので、"Annotate new trimmed regions"を選択します。Error probability limitを0.01に設定してOKをクリックして下さい。シーケンスリストをSaveすると、トリミングが終わりシーケンスリストのウィンドウが閉じます。
今からリードの方向を設定したり、ヘテロザイガスを見つける機能を使用したりするので、リストからシーケンスファイルを抽出する必要があります(シーケンスリストではこれらのオプションが使えません)。sequence listを選択し、Sequence>Extract Sequences from Listをクリックして下さい。Acrocephalus Sequencesと名付けたサブフォルダ内にシーケンスをSaveするようにして下さい。
これから同じ位置で2つの異なるコールがされた塩基を特定しアノテートするために、各シーケンスファイルにHeterozygote Finderを実行します。2つのアレルを示す核シーケンスがあるので、ヘテロザイゴスなポジションがあるはずです。そこには異なる塩基の2つのアレルがあり、二重のクロマトグラムのピークが存在します。Acrocephalus Sequencesフォルダ内の全てのファイルを選択し、Annotate and Predict>Find Heterozygotesをクリックして下さい。Search in Trimmed Regionsのチェックを外し、シーケンスの品質が悪い領域が結果に出てこないようにします。Peak Similarityを50%に設定し、Annotateを選択してヘテロザイゴスの箇所にアノテーションするようにします。
OKをクリックし、解析が終了したらSaveをクリックしてシーケンスを保存します。フォワード・リバースシーケンスをアセンブルした後で、ヘテロザイゴスとしてアノテートされた塩基にまた戻ります。
これから各個体のフォワード・リバースシーケンスをアセンブルします。確実に各ペアで同じ配向性でシーケンスをアセンブルするために、最初にリード方向を設定する必要があります。commandかcntrlキーを押しながら、フォルダ内の全てのフォワードシーケンス(名前の最後にFの文字がある)を選択し、Sequence>Set Read Directionを選択して下さい。Forwardチェックボックスにチェックを入れ、OKをクリックします。リバースリードの方向は、フォワードと同じ様に設定する必要はありません。
では、フォルダ内の全てのシーケンスを選択してAlign/Assemble>De Novo Assembleを選んで下さい。Assemble byをクリックし、1st part of name、separated by underscore選択します。これでフォワード・リバースシーケンスの各ペアにつき一つのコンティグが作られるようになります。sensitivityをHighest Sensitivity/Slowに設定し、Save assembly reportを選択していることを確認し、Save list of unused reads, Save in sub-folder, Save contigsにチェックを入れて下さい。Remove existing trim regionsを選択します。これによりトリム部分としてアノテーションされた領域を無視してアセンブルしますが、その後シーケンス上でその領域を見ることができます。OKをクリックします。
Read Assemblyというサブフォルダには作成されたコンティグとAssembly Reportが入ります。アセンブルされなかったシーケンスが入った、使われていないリードのシーケンスリストも見ることができます。シーケンスリストを見てみましょう。短くもクオリティの良いシーケンス(dum2 と dum4)のみが含まれていることがわかると思います。