マルチプルシーケンスアラインメント

シーケンスの比較には、シーケンスのアラインメントが必要です。 2つのシーケンスが全く同じゲノム領域由来で、同じ長さで、どちらにも挿入も欠失もないような場合は計算は単純です。その場合、2つのシーケンスを同一のヌクレオチドサイトに自動でアラインします。

BLASTサーチの結果でクエリーシーケンスとデータベースシーケンスを比較したことがあればご存知かと思いますが、残念ながら上記のようなシンプルな状態はあまり見つかりません。 いくつかの理由でシーケンス同士のミスアラインメントが起こりえます。シーケンスはゲノム領域の少しずれた、しかしながらオーバーラップもした箇所由来です。もしくは、シーケンスが同じゲノム領域由来でも、変異の結果、片方もしくは両方のシーケンスには一つ以上の塩基の挿入もしくは欠失が入っているのが一般的です。

シーケンスアラインメントの目的は、2つ以上のシーケンス間で相同の塩基をアラインすることです。これは各サイトで類似性を高めるためにギャップを一つもしくは両方のシーケンスに入れることで解決します。そのため、最小数のギャップを挿入します。 一つのシーケンス内のある塩基の場所におけるギャップは、そのシーケンス内の欠失か、もう一方のシーケンスの挿入を表します。普通はどちらのイベントが起こったのかが不明のため、イベントは indels (insertion か deletion)として保存されます。indelは塩基の変異と比較すると稀なので、ギャップは控えめに挿入されます。ギャップの始まりと伸長に"コスト"を割当て、2つのシーケンスの相同性の高まりについてコストを課すという方法で行われます。


Next page: Geneiousを使用した植物DNAシーケンスのアライン

Exercise 3: 系統樹