分子配列の相同領域の決定は、その機能と進化のさらなる推論に使用されることが多いため、核酸およびタンパク質配列の正確な複数の配列アライメント(MSA)が重要です。, したがって、異なるMSAアルゴリズムの開発と実装には、結果として得られるアライメント精度を改善するための別個のアプローチを使用して多大な

MSAプログラムの精度評価は、BAliBASE、PREFAB、SABmarkなどの手動(または半自動的)キュレーションされたシーケンスデータベースを使用することによって行われることが多い。 これまでに、BAliBASEとして使用されることが最も多い配列データベースの性能を評価する異なるMSAます。 既知の三次元構造を有するタンパク質配列またはモデルを用いて構築した。, 最後の開始であるバージョン3.0では、利用可能なシーケンスとアライメントの数が増加しました。 そのような改良が見ついては、主な関心事Karplusについては,の使用に関するBAliBASEのベンチマーキングMSAアルゴリズム

整列データベースは、さまざまなプログラムの精度と速度を測定するための正確な整列のソースを提供しますが、いくつかの欠点もあります。 データベースのアライメントは手動でキュレーションされていますが、アライメントのずれが生じ、精度評価の問題が生じる可能性があります。, のアライメントが続くない場合は、全てのシナリオのタンパク質化されたもの。 さらに、アライメントデータベースの使用の主な欠点は、アルゴリズムを潜在的に開発し、これらのデータセットにのみ存在するアライメントに調整できる

最近、MySSPやDAWGなどのindelを組み込んだDNA配列シミュレーションパッケージがいくつかあります。 MySSPは、DNAアライメント精度と相まって、系統発生推論と進化的距離推定の異なる研究で広く使用されています。, タンパク質については、msaアルゴリズムの以前の比較でLassmannとSonnhammerは、シミュレーションプログラムによって生成された人工的に作成された配列セット Roseは、インデルの発生を可能にするタンパク質の配列をシミュレートする。 データセットを生成により上昇し、自らの限界を調べるためのアライメント精度. Roseでは、indelのサイズと数は、異なる進化の時間のために分岐したタンパク質の経験的データを適切に表していません。 また、プログラムは均等進化率は、全ての蛋白質である。,

ここでは研究を紹介していま改善アプローチを評価するアライメント精度によるシミュレーションを用いタンパク質のアミノ酸配列が生成Simprot. Simprotは、QianおよびGoldstein insertion and deletion(indel)分布のパラメータ化されたバージョンを使用する高度なシミュレーションプログラムです。 元の分布は経験的に高度に分岐したタンパク質配列の整列のサブセットから派生したが、パラメータ化されたバージョンは、シーケンス発散のすべてのレ, Simprotもできる変数置換は、indel率の異なるサイトの実施によりガンマ分布サイトです。 アミノ酸置換の三つのモデル(PMB、PAMおよびJTT)も利用可能である。 私たちは、Simprotを使用して、さまざまな進化パラメータを持つ既知のアライメントを生成するだけでなく、キュレーションされたアライメントの最新のBAliBASEデータベース,

アライメントプログラム

タンパク質配列のMsaを生成する多くの利用可能なコンピュータパッケージがあります。 Clustal W、Dialign2.2、T-Coffee、POA、Muscle、Mafft、ProbCons、Dialign-T、Kalignの順に、現在最も頻繁に使用されているプログラムを選択しました。

Clustal W version1.8

これはおそらく最も広く使用されているアライメントプログラムであり、テストされたパッケージの中で最も古いものです。 のソフトウェアを先進的なアライメント、最初に採用pairwise配列による比較計算距離行列を格納する配列の乖離がある。, この行列が得られた後,隣接結合を用いてツリーガイドを構築し,その後,シーケンスがガイドツリー内の分岐順序に従って整列する第三および最後のステップが続く。 プログラムは、そのアライメント手順で二つのギャップペナルティを採用しています:ギャップ開口とギャップ延長、およびポリペプチドの場合には、 これらのギャップペナルティは、主に重み行列、シーケンスの長さ、類似性などの要因に依存します。, 単純なケースでは、Clustal Wは、既知の二次構造または三次構造の対応するドメインおよび配列を正確に整列させることができ、より複雑なケースでは、さらな

Dialign2.2バージョン2.2.1

このプログラムは、シーケンスをローカルおよびグローバルに整列させるために対角メソッドを使用します。 Dialign2.2は、単一の残基を比較するのではなく、二つの配列のドットマトリックス比較で対角線を形成する残基の全体が中断されない(ギャップ、ミスマッチは許されない)。, したがって、それはギャップの挿入と延長を罰することはなく、無関係なセグメントを整列させないままにすることが 手順の最初のステップでは、すべての可能なペアワイズ整列を作成し、残基の二重割り当てまたは交差割り当てが競合することなく、特定の整合性基準 保存されたすべての対角線は、最大の重みの合計でエントリを定義するために重み付けされ、重複の程度を決定するためにソートされ、複数のシーケンスに存在する対角線の存在が強調されます。, 貪欲のようなアルゴリズムは最終的な処理を行い、対角線のスコアを上から下にチェックして最終的な多重整列を作成します。 すべての現在の残余が接続されるまでギャップはMSA作成の終わりに挿入されます。

T-Coffee(アライメント評価のためのツリーベースの一貫性の目的関数)バージョン3.27

T-Coffeeは、シーケンスを整列させる際に進歩的な戦略を採用しています。 Clustal Wからのグローバル整列とLalignからのローカル整列:プログラムは、最初の二つの異なるソースからライブラリを作成します。, シーケンスの各ペアについて、グローバルアライメントとペアワイズローカルアライメントは、トップスコアの非交差セグメントから作成され のプログラムプロセスのグローバル地域の情報に割り当ウェイトのすべてのpairwiseアライメントが相対的に配列。 この後、単一のライブラリにマージされるグループの組み合わせが続きます。 この結合されたライブラリーの拡張フェーズがあり、任意の残基のペアの最終重みがライブラリー全体に含まれる情報の一部を反映するようにします。, アライメントは拡張ライブラリに格納されている重みに従ってツリー上の二つの最も近いシーケンスを整列させることによってプログレッシブ戦略 最初のペアは固定され、既存のギャップは後でシフトすることはできません。 の配置まで毎にシーケンスが揃います。

POA(Partial Order Alignment)バージョン2.0

POAは、一般化されたプロファイルを使用せずにプログレッシブアライメントアルゴリズムを使用する別のMSAパッケージです。, このプログラムは、配列を表現するために部分的な順序-多重配列アライメント(PO-MSA)形式の使用を導入し、より正確に生物学的内容を反映する。 この形式は、従来のMSAで利用可能なすべての情報を含む、最小のノードとエッジ数のための圧縮されたグラフとして整列を格納します。 配列として格納されている線形シリーズの各ノード接続による。 POAは従来の動的計画法アルゴリズムを使用しており、線形シーケンスは半順序(PO)グラフに置き換えられます。, これらのPO構造は通常の2D行列で変換され、セルの各組み合わせは、従来のスミス-ウォーターマンシーケンスアライメント手順のように後方にスコア これらの行列は、任意の方向(対角、水平、垂直)に拡張され、接合点上のペアワイズアライメントを生成することができます。 MSAは、最初のペアに連続して他の配列を追加して、最初の二つの配列のアライメントから得られます。

Muscle(対数期待による多重配列比較)バージョン3。,6

筋肉はペアワイズプロファイルアライメントアプローチを使用します。 プログラムは、最初に二つのその後の段階で改善され、洗練されたプログレッシブアライメント シーケンスの類似性の後にプログレッシブアライメントが作成され、距離推定とUPGMAツリーが計算されます。 筋肉は二つの距離測定を使用しています:整列していないシーケンスペアのためのk mer距離と整列したペアのためのKimura距離。 プログレッシブアライメント改善ステージでは、既に計算されたKimura距離行列を使用して新しいツリーを作成し、この改善されたツリーに基づいてより良い, 最後の絞り込み段階では、ツリー依存制限分割の変形を使用します。 この方法は,ツリーエッジのいずれかを削除し,アライメントを双方向に分割し,両方のパーティションのプロファイルを抽出し,プロファイル-プロファイル すべてのツリーエッジは反復的に訪問され、各シーケンスペアの更新された合計されたペアワイズスコアとの整列は保持されます。 エッジは、ルートからの距離が減少する順に訪問され、個々のシーケンスの再配置が行われ、より密接に関連するシーケンスのグループに移動します。,

Mafft(Multiple sequence alignment based on Fast Fourier Transform)version5.732

Mafftは、プログレッシブアライメントのみ(高速フーリエ変換による)、またはプログレッシブアライメントの後に反復的な改良を行う、さまざまなアライメントアプローチで使用できるプログラムです。 Mafftの基本実行には最大三つのステップがありますが、デフォルトの手順では最初の二つのステップが実行されます。 第一に、先進的なアラインメント作成の目安の距離毎に配列ペアに基づく共通の6個のタプル., ガイドツリーは、修正されたリンケージを持つUPGMAによっても生成され、シーケンスはツリーの分岐順序に従って整列されます(このステップのみは戦略FFT-NS-1と呼ばれます)。 次のステップでは、前のステップで収集された情報に基づいて距離行列を再計算し、新しい行列から得られたツリーを出発点としてプログレッシブアライメントを再実行します(このステップまでは、戦略はFFT-NS-2として知られており、ソフトウェアで使用されるデフォルトです)。, 最後のフェーズは,グループ間アライメントとツリー依存制限分割手法を用いて,Gotohの重み付きペア和(WSP)スコアを最適化する反復微細化である。 つまり、FFT法を使用して配列中に存在する相同領域を迅速に同定し、その後に繰り返し洗練された段階が続くことを意味します。, FFTは、配列中に存在するすべてのアミノ酸を、置換事象の重要な要因である体積と極性を表すベクトルに変換し、ソフトウェアがそのような発生を正確に予測することを可能にする。

Mafftには、L-INS-i、G-INS-i、およびE-INS-iの三つの追加の洗練アルゴリズムも含まれています。 これらの戦略を増や必要な手順をMSA配なのです。 このような場合、最初のステップでは、6タプルを使用せずに距離行列の構築も必要です。, FFT-NS-*アプローチとは異なり,計算されたUPGMA木の再構成はなく,プログラムは第二段階に移り,ギャップフリーセグメントを分割し,各ギャップフリーセグメントのスコア配列をあるシーケンスから別のシーケンスに格納する。 次に、Mafftは、セグメントのスコアから”重要度”値を計算し、他のセグメントに残基がどのくらいの頻度で現れるかを格納します。, すべての”重要度”値をスコア行列から得られたグループ間アライメントとNeedleman-Wunschアルゴリズムに基づく重み付けスキームによって迅速に続くステップ三の”重要度”行列に集めた。 最後のステップでは、得られた整列を反復的に洗練し、wspスコアと以前に計算された”重要度”値を最適化します。

ProbCons(Probabilistic Consistency-based multiple sequence alignment)バージョン1.1

ProbConsは、アライメントの確率的整合法を使用する唯一のプログラムです。, これは、伝統的なペアの合計スコアリングシステムの修正であり、さらにペア隠れマルコフモデルベースのプログレッシブアライメントアルゴリズム アライメント手順は,シーケンスのすべてのペアに対する事後確率行列の計算から始まる四つのステップに分割される。 これに続いて、すべてのペアワイズアライメントの予想精度の動的計画法計算が行われます。 次に、一致精度スコアを再推定するために、確率的整合性変換が採用される。, ガイドツリーの計算階層的クラスタリングの類似性により定義された加重平均値の配列の各クラスター ガイドツリーは、プログレッシブアプローチを使用してシーケンスを整列 より良いアライメント領域をチェックするために,生成されたアライメントのランダムな双方向パーティションが再調整される後処理フェーズも行われる。 ProbConsは、位置固有のギャップスコアリング、進化ツリー構築、および他のパッケージで一般的に使用される他の機能などの生物学的概念を組み込んでいない,

Dialign-Tバージョン0.2.1

このプログラムは、Dialign2.2で開発された手順の再実装ですが、フラグメントチェーンを含む矛盾したフラグメントに対処するためのより良いソリューションを備えています。 また、整列するシーケンス内に存在する各フラグメントのランダムな発生の確率を推定するための新しいアプローチを実装します。 Dialign-Tは、重みスコアを取得するために事前計算されたテーブルを使用しません:いくつかの置換行列から確率テーブルを計算します。 さらに、Dialign2からの貪欲なような多重整列アルゴリズム。,2は、偽の局所的類似性を避けるために変更されました。

Kalignバージョン1.04

Kalignは、可能な限り最高のMSAを得るためにプログレッシブアライメントアプローチを使用する別のプログラムです。 さらにこのアルゴリズムのその他の方法ではWu-Manber近似文字列照合アルゴリズムを計算する際の距離の中でdnaの塩基配列を決定した。 Wu-Manberアルゴリズムは、Levenshtein編集距離を使用して二つの文字列の間の距離を測定し、シーケンスに存在する不一致(共有または非)とパターンを効率的に検索でき, Kalign開発者によると、この方法論は、kタプルアルゴリズムと同じくらい高速ですが、より正確な距離推定を可能にします。 アライメント手順の最初のステップは、Wu-Manberアプローチを使用してペアワイズ距離を計算することです。 ペアワイズ距離推定に続いて,シーケンス/プロファイルを整列させるための大域的動的計画法に用いられるUPGMAを用いてガイドツリーの構築を行った。, さらに、プログラムは、動的プログラミング行列を介して最も一貫性のあるパスを見つけるためにNeedleman-Wunschの修正バージョンを使用して、アライメントに挿入できるシーケンス一致の最大のセットを定義するために整合性チェックを実行します。 また、Kalignはパターンマッチングの位置を更新し、シーケンス内で見つかったマッチングの絶対位置を生成されたプロファイル内の相対位置に調整します。