Section 2: 結果の見方

検索が完了したら、GeneiousはNCBIから全ての結果をダウンロードし、新しく作成されたフォルダに保存します。デフォルトでは、検索結果は偶然に各アラインメントが起こる期待度を示すE Value順に並んでいます。hit tableは下記のように見えるはずですが、いつもGenbankに新しいシーケンスが加わっているため、実際のヒットは少し違うかもしれません。


E valueは小さければ小さいほど良く、指数を使用して表示されています。2.05e-106と表示されているトップヒットは、2.05x10-106と同じ意味になります。これはかなり小さい数字を表し、このアラインメントが偶然に起こりにくい可能性が高いことを示しています。もしE Valueが0.00e+00だとすると、そのアラインメントが統計的に偶然には起こり得ないことが言えます。これらの統計値を基準としなければなりませんが、有意とは言えなくても興味深いアラインメントがまだまだ残っています。

E Valueに加え、他に% Pairwise Identityとラベルされたカラムがあります。こちらもまたデータベースで見つかったシーケンスがどれだけクエリーとして投げたシーケンスに似ているかを示す指標です。アラインメント全体に渡って、この例の中で多くのヒットがクエリーに100%相同であることがわかると思います。しかし、Sequence Lengthsは異なっています。これは生成されたアラインメントが局所的なアラインメントであり、2つのシーケンス間で最大の領域をアラインしたためです。相同性はアラインされた領域だけにフォーカスしているので、短いアラインメントであれば相同性が高くなる可能性があります。これがアラインメントが相同性(identity)よりもE Valueでランク付けされる理由です。GeneiousはGradeスコアを生成します。これはクエリーカバレッジ、E Value、相同性をそれぞれ0.5、0.25、0.25で重みづけした数値で、一番長く相同性が高いヒットを決定できるようになります。

今、検索結果のセットが表示され、いくつかアラインメントが見られるようになっているはずです。ELR51936をクリックすると、下図のように見えます。


alignment viewにはアノテーションや色付けの設定のような追加情報が入っています。単純化するために、ColorsをSimilarityに変更し、Annotationのチェックボックスを外してアノテーションを非表示にします。シーケンス相同性のグラフ(Identify)は役に立つので、Graphにはチェックを入れておきます。

2つのシーケンスが1塩基違うだけで大体相同であることがわかると思います。これらのシーケンスがどれほど似ているかを考慮すれば、この1塩基の違いはタンパク質の構造や機能に特に重要な影響を与えなそうだと考えられます。

おおまかな見方: 相同性が高いシーケンス間の違いは、小さな進化距離で変化でできたものなので、そこが重要な領域ではないことを示しています。逆にあまり似ていないシーケンス間の相同部位は、大きな進化距離で変化したものなので、その塩基群が重要であるということになります。


Query-centric view

Query-centric viewでは一つのウィンドウでクエリー配列に対する全てのヒットを見ることができる便利な図です。クエリーシーケンスのどの領域が変化したか見られます。 Query Centric View をクリックし、Annotationsのチェックボックスをオフにして、Displayタブを選択してHilightingをDisagreements to Referenceにします(上部のレファレンス配列と異なる部分をハイライトする)。すると、下図のように見えるはずです。:


トップヒットのシーケンスはとてもクエリー配列に似ていることがわかると思いますが、これはタンパク質がその長さの大部分でよく保存されていることを示しています。クエリー配列の最初の20塩基の保存性はあまり高くありません。大体のヒットがこの領域まで広がっていないためです。シーケンスはE-valueで並べられていて、画面をスクロールして下に行くと、E-valueが下がるにつれてクエリー配列に対して相同性が低くなっていく様子が見られます。

Section 3: バッチ検索

Section 4: 検索オプション