アセンブルされたシーケンスのチェックとコンセンサスの抽出

Read Assemblyフォルダからaru2コンティグを開き、どのようにフォワード・リバースシーケンスがアセンブルされたかを見てみます。

シーケンスビューワーの右のDisplayタブで、コンセンサスシーケンスのコールのオプション(ConsensusのThreshold)を確認します。同じ遺伝子由来のフォワード・リバースシーケンスをアセンブルする際、一番クオリティの高い各塩基のシーケンスからコンセンサスをコールすると理にかなうので、Consensusの下でHighest Qualityを選択して下さい。

Advancedタブで、NumberingAll sequencesに設定します。各シーケンス上のオリジナルシーケンス由来の塩基のナンバーを表示できます。また、2つのシーケンスがどのようにアセンブルされたかを見られるようになります。今はRシーケンスが逆方向になっているのが分かると思います。

Graphsで、CoverageIdentityにチェックを入れて下さい。Coverage Graphにはコンセンサスシーケンスの元となったシーケンスがどのくらい多くあったかが示されます。Identity Graphでは、寄与しているシーケンス同士が相同であったか否か示されます。トリム部分としてアノテートされた(ピンクのバー)品質の低いシーケンスが未だに見えていますが、アセンブラがコンセンサスシーケンスのコールやカバレッジの計算にこのシーケンスをしていないことがわかります。 - その領域の良いシーケンス一か所のみが使用されています。

Aru2については、一つだけフォワードシーケンスとリバースシーケンスで異なる塩基があります。ズームインしてその塩基を見つけましょう。cntrl/command +Dのショートカットキーで、異なる塩基にすぐジャンプすることができます。このポジションではリバースシーケンスの塩基が間違ってコールされています。 - Aのはずが、Cとなっているのです。

このポジションにある間違えたシーケンスコールを編集することもできますが、一番高い品質の塩基によるコンセンサスシーケンスをコールする選択をしたため、コンセンサスシーケンスの塩基は正しいと言えます。コンセンサスシーケンスは下流の解析に使用するので、コンセンサスが正しいのであれば、各リードの異なる塩基を編集する必要はありません。Consensusをクリックしてコンセンサスシーケンスを選択し、Extractをクリックして下さい。抽出されたシーケンスに名前を付け(e.g. aru2 consensus)、OKをクリックします。

では、ort1アセンブリを開いて下さい。このシーケンスにはアノテーションされたいくつかのヘテロザイゴズな塩基があります。これらが正確にコールされたものなのかを確かめなければなりません。ort1_Rシーケンスの最初のヘテロザイガスアノテーション(コンセンサスの68塩基目)をクリックして、100%にズームインします。この塩基で、一つの"G"ピークが正確にコールされているので、隣の"C"と少しオーバーラップしたためにヘテロザイゴスな塩基として同定されたのは間違いだったということになります。アノテーション上で右クリックしてAnnotation>Deleteを選択し、このアノテーションを除いて下さい。

cntrl/command+Dを使って、次のヘテロザイゴスな塩基に飛びましょう。この塩基(コンセンサスシーケンスの170塩基目)では、フォワードシーケンスでもリバースシーケンスでも、両方で2重のピークが出ています。CとTのピークの頂点が重なっています。これは本当にヘテロザイゴスな塩基だということを示しています。コンセンサスシーケンスでコールされた塩基は、CとTのヌクレオチド両方を含むポジションであることを示す"Y"になります。(IUPAC Notation参照)


それではこのアセンブリでヘテロザイゴスな塩基が残っているかチェックし、ヘテロザイゴスのポジションを反映する必要がある場合はIUPAC ambiguity codesを加えてコンセンサスシーケンスを編集しましょう。変更を加える前に、必ずAllow Editingをクリックして下さい。変更をオリジナルシーケンスに適用したい場合は、Save をクリックし、Yesを選択します。その後、コンセンサスシーケンスを選択してExtractを選択し、コンセンサスシーケンスを抽出して下さい。

他のコンティグも各一つずつ開き、フォワード・リバースリードの間の違いやヘテロザイゴスな塩基をチェックします。必要があれば編集します。その後、各コンセンサスシーケンスを抽出して下さい。


Exercise 2c: リファレンスへのアセンブル
Exercise 2d: コンセンサスシーケンスの解析