Die Genauigkeit mehrerer Multiple Sequence Alignment Programme für Proteine / BMC Bioinformatik

Die Bestimmung von homologen Regionen molekularer Sequenzen wird häufig für die weitere Inferenz ihrer Funktion und Entwicklung verwendet, und daher ist eine genaue Multiple Sequence Alignment (MSA) von Nukleinsäure-und Proteinsequenzen von entscheidender Bedeutung., Folglich gab es enorme Anstrengungen bei der Entwicklung und Implementierung verschiedener MSA-Algorithmen, wobei unterschiedliche Ansätze zur Verbesserung der resultierenden Ausrichtungsgenauigkeit verwendet wurden.

Die Genauigkeitsbewertung von MSA-Programmen erfolgt häufig durch den Einsatz von manuell (oder halbautomatisch) kuratierten Sequenzdatenbanken wie BAliBASE, PREFAB und SABmark . Bisher war BAliBASE die am häufigsten verwendete Ausrichtungsdatenbank bei der Bewertung der Leistung verschiedener MSA-Programme. Es wurde unter Verwendung von Proteinsequenzen oder Modellen mit bekannten dreidimensionalen Strukturen konstruiert., Die letzte Gründung, Version 3.0, hatte eine Zunahme der Anzahl der verfügbaren Sequenzen und Ausrichtungen. Solche Verbesserungen haben offenbar die Hauptanliegen von Karplus und Hu in Bezug auf die Verwendung von BAliBASE zum Benchmark von MSA-Algorithmen angesprochen.

Ausrichtungsdatenbanken bieten eine Quelle für genaue Ausrichtungen, um die Genauigkeit und Geschwindigkeit verschiedener Programme zu messen, weisen jedoch auch einige Nachteile auf. Obwohl die Ausrichtungen der Datenbanken manuell kuratiert werden, besteht immer noch die Möglichkeit von Fehlausrichtungen, die zu Problemen bei der Genauigkeitsbewertung führen würden., Die Sätze von Ausrichtungen bleiben immer noch ziemlich klein und stellen möglicherweise nicht die gesamte Bandbreite von Szenarien der Proteinentwicklung dar. Darüber hinaus besteht ein wesentlicher Nachteil der Verwendung von Ausrichtungsdatenbanken darin, dass Algorithmen möglicherweise entwickelt und auf die Ausrichtungen abgestimmt werden können, die ausschließlich in diesen Datensätzen vorhanden sind.

In letzter Zeit gab es mehrere DNA-Sequenzsimulationspakete, die Indels wie MySSP und DAWG enthalten . MySSP wurde in verschiedenen Studien zur phylogenetischen Inferenz und evolutionären Distanzschätzung in Verbindung mit der Genauigkeit der DNA-Ausrichtung weit verbreitet verwendet ., Für Proteine verwendeten Lassmann und Sonnhammer in einem früheren Vergleich von MSA-Algorithmen künstlich erzeugte Sequenzsätze, die durch das Simulationsprogramm Rose erzeugt wurden . Rose simuliert Sequenzen von Proteinen, die das Auftreten von Indels ermöglichen. Von Rose generierte Datensätze weisen ihre eigenen Grenzen für die Untersuchung der Ausrichtungsgenauigkeit auf. Darüber hinaus stellen Indel-Größe und-Anzahl empirische Daten für Proteine, die für verschiedene Evolutionszeiten divergiert sind, nicht ausreichend dar. Außerdem nimmt das Programm gleiche Evolutionsraten aller Stellen im Protein an.,

In dieser Studie stellen wir einen verbesserten Ansatz zu beurteilen, die Genauigkeit durch die Verwendung von simulierten protein-Sequenzen generiert Simprot . Simprot ist ein fortschrittliches Simulationsprogramm, das eine parametrisierte Version der Qian und Goldstein Insertion and Deletion (indel) Distribution verwendet. Obwohl die ursprüngliche Verteilung empirisch aus einer Teilmenge von Ausrichtungen stark divergierter Proteinsequenzen abgeleitet wurde, erlaubt die parametrisierte Version eine sehr flexible Simulation von Indels in Sequenzen für alle Stufen der Sequenzdivergenz., Simprot ermöglicht auch variable Substitutions-und Indel-Raten an verschiedenen Standorten durch Implementierung von Gamma Distributed Sites-Raten . Drei Modelle der Aminosäuresubstitution (PMB, PAM und JTT) sind ebenfalls erhältlich. Wir haben Simprot verwendet, um bekannte Ausrichtungen mit einer Vielzahl von evolutionären Parametern sowie die neueste BAliBASE-Datenbank kuratierter Ausrichtungen zu generieren, um die Genauigkeit und Geschwindigkeit populärer und öffentlich verfügbarer Protein-Multiple-Sequence-Alignment-Softwareprogramme zu untersuchen.,

Ausrichtungsprogramme

Es gibt viele verfügbare Computerpakete, die MSAs von Proteinsequenzen erzeugen. Wir wählten neun der derzeit am häufigsten verwendeten Programme (in der Reihenfolge der Veröffentlichung Datum): Clustal W, Dialign2.2, T-Kaffee -, POA -, Muskel -, Mafft, ProbCons, Dialign-T und Kalign.

Clustal W Version 1.8

Dies ist wahrscheinlich das am weitesten verbreitete Ausrichtungsprogramm und das älteste unter den getesteten Paketen. Die Software führt eine progressive Ausrichtung durch, wobei zunächst ein paarweiser Sequenzvergleich verwendet wird, indem eine Entfernungsmatrix berechnet wird, die Sequenzdivergenz speichert., Nachdem diese Matrix erhalten wurde, wird eine Baumführung unter Verwendung der Nachbarverbindung erstellt, gefolgt von dem dritten und letzten Schritt, bei dem Sequenzen gemäß der Verzweigungsreihenfolge im Führungsbaum ausgerichtet werden. Das Programm verwendet in seinem Ausrichtungsverfahren zwei Spaltgrößen: Spaltöffnung und Spaltverlängerung und im Fall von Polypeptiden eine vollständige Aminosäure-und Gewichtsmatrix. Diese Spaltmaße hängen hauptsächlich von Faktoren wie der Gewichtsmatrix, der Sequenzlänge und der Ähnlichkeit ab., In einfachen Fällen kann Clustal W entsprechende Domänen und Sequenzen bekannter sekundärer oder tertiärer Struktur genau ausrichten, während es in komplexeren Fällen als guter Ausgangspunkt für die weitere Verfeinerung verwendet werden kann.

Dialign2. 2 Version 2.2.1

Dieses Programm verwendet eine diagonale Methode, um Sequenzen lokal und global auszurichten. Dialign2.2 vergleicht keine einzelnen Rückstände, sondern ganze ununterbrochene (keine Lücken, nicht Übereinstimmungen erlaubt) Strecken von Rückständen, die Diagonalen in einem Punktmatrix-Vergleich von zwei Sequenzen bilden würden., Folglich wird das Einfügen und Erweitern von Lücken nicht bestraft und es können nicht verwandte Segmente nicht ausgerichtet bleiben. Der erste Schritt des Verfahrens erstellt alle möglichen paarweisen Ausrichtungen und speichert eine Sammlung von Diagonalen, die bestimmte Konsistenzkriterien erfüllen, ohne dass doppelte oder Crossover-Zuordnungen von Rückständen in Konflikt stehen . Alle gespeicherten Diagonalen werden gewichtet, um Einträge mit der maximalen Summe der Gewichte zu definieren, und dann sortiert, um den Grad der Überlappung zu bestimmen, wobei die Existenz von Diagonalen in mehreren Sequenzen hervorgehoben wird., Ein gieriger Algorithmus führt eine endgültige Verarbeitung durch und überprüft die Diagonalwerte von oben nach unten, um eine endgültige Mehrfachausrichtung zu erstellen. Am Ende der MSA-Erstellung werden Lücken eingefügt, bis alle vorhandenen Rückstände verbunden sind.

T-Coffee (Tree-based consistency objective function for alignment evaluation) version 3.27

T-Kaffee beschäftigt eine schrittweise Strategie der Angleichung der Sequenzen. Das Programm erstellt zunächst eine Bibliothek aus zwei verschiedenen Quellen: globale Ausrichtungen aus Clustal W und lokale Ausrichtungen aus Lalign ., Für jedes Sequenzpaar werden globale Ausrichtungen und die paarweisen lokalen Ausrichtungen aus den zehn Top-Scoring-Segmenten erstellt, die sich nicht schneiden. Das Programm verarbeitet die globalen und lokalen Informationen und weist allen paarweisen Ausrichtungen relativ zur Sequenzidentität Gewichtungen zu . Es folgt die Kombination von Gruppen, die zu einer einzigen Bibliothek zusammengeführt werden. Es gibt eine Erweiterungsphase für diese kombinierte Bibliothek, in der das Endgewicht eines Paares von Rückständen einen Teil der in der gesamten Bibliothek enthaltenen Informationen widerspiegelt., Ein letzter Schritt erfordert eine Berechnung einer Abstandsmatrix und eines Nachbarverbindungsbaums, da die Ausrichtung mit einer progressiven Strategie erzeugt wird, indem die beiden nächsten Sequenzen auf dem Baum entsprechend dem in der erweiterten Bibliothek gespeicherten Gewicht ausgerichtet werden. Das Anfangspaar wird dann fixiert und vorhandene Lücken können später nicht verschoben werden. Die progressive Ausrichtung wird fortgesetzt, bis jede Sequenz ausgerichtet ist.

POA (Partial Order Alignment) Version 2.0

POA ist ein weiteres MSA-Paket, das einen progressiven Ausrichtungsalgorithmus ohne Verwendung verallgemeinerter Profile verwendet., Dieses Programm führt die Verwendung eines Partial Order-Multiple Sequence Alignment (PO-MSA) – Formats (Partial Order-Multiple Sequence Alignment, PO-MSA) zur Darstellung von Sequenzen ein und spiegelt den biologischen Inhalt genauer wider. Dieses Format speichert die Ausrichtung als verdichtetes Diagramm für minimale Knoten-und Kantenzahlen und enthält weiterhin alle Informationen, die in einem herkömmlichen MSA verfügbar sind. Sequenzen werden als lineare Reihe von Knoten gespeichert, die jeweils durch zwei Kanten verbunden sind. POA verwendet einen traditionellen dynamischen Programmieralgorithmus, bei dem lineare Sequenzen durch Diagramme partieller Ordnung (PO) ersetzt werden., Diese PO-Strukturen werden in übliche 2D-Matrizen transformiert und jede Kombination von Zellen wird wie bei einem herkömmlichen Smith-Waterman-Sequenzausrichtungsverfahren rückwärts bewertet . Diese Matrizen werden dann in jede Richtung (diagonal, horizontal, vertikal) verlängert, wodurch die paarweise Ausrichtung an Kreuzungspunkten ermöglicht wird. Das MSA wird aus der Ausrichtung von zwei Sequenzen am Anfang mit der Addition anderer Sequenzen nacheinander zum Anfangspaar erhalten.

Muscle – (Multiple sequence comparison by log-expectation), version 3.,6

Muskel verwendet einen paarweisen Profilausrichtungsansatz. Das Programm erstellt zunächst eine progressive Ausrichtung, die dann in zwei nachfolgenden Stufen verbessert und verfeinert wird. Die progressive Ausrichtung wird erstellt, nachdem die Sequenzähnlichkeiten, eine Entfernungsschätzung und ein UPGMA-Baum berechnet wurden. Muscle verwendet zwei Distanzmaße: einen k mer-Abstand für nicht ausgerichtete Sequenzpaare und einen Kimura-Abstand für ausgerichtete Paare . Die Stufe zur Verbesserung der progressiven Ausrichtung erstellt einen neuen Baum mit der bereits berechneten Kimura-Entfernungsmatrix und erstellt dann eine bessere Ausrichtung basierend auf diesem verbesserten Baum., Die letzte Verfeinerungsstufe verwendet eine Variante der baumabhängigen eingeschränkten Partitionierung . Diese Methode löscht eine der Baumkanten, partitioniert die Ausrichtung und extrahiert die Profile beider Partitionen, die dann mit einer Profil-Profil-Ausrichtung neu ausgerichtet werden. Jede Baumkante wird iterativ besucht und die Ausrichtung mit einer aktualisierten summierten paarweisen Punktzahl jedes Sequenzpaares wird beibehalten. Die Kanten werden in der Reihenfolge des abnehmenden Abstands von der Wurzel besucht, wobei einzelne Sequenzen neu ausgerichtet werden und sich zu eng verwandten Sequenzgruppen bewegen .,

Mafft (Multiple sequence alignment based on Fast Fourier Transform) Version 5.732

Mafft ist ein Programm, das mit verschiedenen Ausrichtungsansätzen verwendet werden kann, entweder mit progressiver Ausrichtung allein (mit schneller Fourier-Transformation) oder progressiv gefolgt von iterativer Verfeinerung. Der Grundlauf von Mafft kann bis zu drei Schritte umfassen, die Standardprozedur führt jedoch die ersten beiden Schritte aus. Zunächst wird eine progressive Ausrichtung basierend auf einem groben Abstand zwischen jedem Sequenzpaar basierend auf gemeinsam genutzten 6-Tupeln erstellt., Ein Führungsbaum wird ebenfalls von UPGMA mit modifizierter Verknüpfung generiert und Sequenzen werden dann gemäß der Verzweigungsreihenfolge des Baums ausgerichtet (dieser Schritt allein wird als Strategie FFT-NS-1 bezeichnet). Der zweite Schritt berechnet eine Entfernungsmatrix basierend auf den im vorherigen Schritt gesammelten Informationen neu, und die progressive Ausrichtung wird unter Verwendung eines Baums, der aus der neuen Matrix als Ausgangspunkt erhalten wurde, erneut durchgeführt (bis zu diesem Schritt wird die Strategie als FFT-NS-2 bezeichnet und ist die Standardeinstellung, die von der Software verwendet wird)., Die letzte Phase ist die iterative Verfeinerung, die den WSP-Score (Weighted Sum of Pairs) des Gotoh mit einer Gruppen-zu-Gruppen-Ausrichtung und der baumabhängigen Restriktionspartitionstechnik optimiert . Wenn alle drei Schritte verwendet werden, wird das Verfahren als FFT-NS-i bezeichnet, dh es verwendet eine FFT-Methode, um homologe Regionen in den Sequenzen schnell zu identifizieren, auf die eine iterative Phase der Verfeinerung folgt., FFT konvertiert jede einzelne Aminosäure, die in einer Sequenz vorhanden ist, in einen Vektor, der Volumen und Polarität darstellt, was wichtige Faktoren für Substitutionsereignisse sind, sodass die Software solche Ereignisse genau vorhersagen kann.

Mafft enthält auch drei zusätzliche Verfeinerungsalgorithmen: L-INS-i, G-INS-i und E-INS-i. Diese Strategien erhöhen die Anzahl der Schritte, die zum Erstellen einer MSA-Ausrichtung erforderlich sind, auf fünf. In diesen Fällen erfordert der erste Schritt auch die Konstruktion einer Abstandsmatrix, die keine 6-Tupel verwendet., Anders als bei den FFT-NS -*-Ansätzen gibt es keine Rekonstruktion des berechneten UPGMA-Baums und das Programm bewegt sich zum zweiten Schritt, teilt die spaltfreien Segmente auf und speichert Score-Arrays für jedes spaltfreie Segment von einer Sequenz zur anderen. Mafft berechnet dann aus dem Score des Segments einen“ Wichtigkeit “ – Wert und speichert, wie häufig Rückstände in anderen Segmenten auftreten., Alle „Wichtigkeit“ – Werte werden dann in Schritt drei in einer „Wichtigkeit“-Matrix gesammelt, auf die schnell eine Gruppen-zu-Gruppen-Ausrichtung aus den Score-Matrizen und ein Gewichtungsschema basierend auf einem Needleman-Wunsch-Algorithmus folgen. Ein letzter Schritt verfeinert iterativ die erhaltenen Ausrichtungen, optimiert einen WSP-Score und die zuvor berechneten“ Wichtigkeit “ – Werte.

ProbCons (Probabilistic Consistency-based multiple sequence alignment) version 1.1

ProbCons ist das einzige Programm, das verwendet eine probabilistische Konsistenz Methode der Ausrichtung., Es ist eine Modifikation des traditionellen Sum-of-pairs Scoring-System, und zusätzlich enthält ein Paar versteckte Markov Modell-basierte progressive Ausrichtung Algorithmus. Das Ausrichtungsverfahren ist in vier Schritte unterteilt, beginnend mit einer Berechnung der Posterior-Wahrscheinlichkeitsmatrizen für jedes Sequenzpaar. Es folgt eine dynamische Programmierberechnung der erwarteten Genauigkeit jeder paarweisen Ausrichtung. Die probabilistische Konsistenztransformation wird dann verwendet, um die Übereinstimmungsgenauigkeitswerte neu zu schätzen., Ein Führungsbaum wird mit hierarchischem Clustering berechnet, wobei die Ähnlichkeit durch einen gewichteten Durchschnitt von Werten zwischen Sequenzen jedes Clusters definiert wird. Der Führungsbaum wird verwendet, um die Sequenzen mit einem progressiven Ansatz auszurichten. Eine Nachbearbeitungsphase wird ebenfalls durchgeführt, in der zufällige Bi-Partitionen der generierten Ausrichtung neu ausgerichtet werden, um nach besseren Ausrichtungsbereichen zu suchen. ProbCons unterscheidet sich von anderen Ausrichtungsprogrammen, da es keine biologischen Konzepte wie positionsspezifische Lückenbewertung, evolutionäre Baumkonstruktion und andere Funktionen enthält, die üblicherweise von anderen Paketen verwendet werden.,

Dialign-T Version 0.2.1

Dieses Programm ist eine Re-Implementierung des in Dialign2.2 entwickelten Verfahrens, jedoch mit einer besseren Lösung für inkonsistente Fragmente, einschließlich Fragmentverkettung. Es implementiert auch einen neuen Ansatz zur Schätzung der Wahrscheinlichkeiten des zufälligen Auftretens jedes Fragments, das in der auszurichtenden Sequenz vorhanden ist. Dialign-T verwendet keine vorberechneten Tabellen, um Gewichtswerte zu erhalten: Es berechnet Wahrscheinlichkeitstabellen aus mehreren Substitutionsmatrizen. Zusätzlich der gierige Mehrfachausrichtungsalgorithmus von Dialign2.,2 wurde geändert, um falsche lokale Ähnlichkeiten zu vermeiden.

Kalign Version 1.04

Kalign ist ein weiteres Programm, das einen progressiven Ausrichtungsansatz verwendet, um den bestmöglichen MSA zu erhalten. Der Hauptunterschied dieses Algorithmus zu anderen Methoden besteht darin, dass er den Wu-Manber approximate String Matching Algorithmus verwendet, wenn er den Abstand zwischen Sequenzen berechnet. Der Wu-Manber-Algorithmus misst den Abstand zwischen zwei Zeichenfolgen mithilfe einer Levenshtein-Bearbeitungsentfernung, wodurch eine effiziente Suche nach Nicht Übereinstimmungen (gemeinsam oder nicht) und Mustern in den Sequenzen ermöglicht wird., Laut den Kalign-Entwicklern ermöglicht diese Methode eine Entfernungsschätzung, die so schnell ist wie ein k-Tupel-Algorithmus, aber genauer ist . Der erste Schritt im Ausrichtverfahren besteht darin, die paarweisen Entfernungen mit dem Wu-Manber-Ansatz zu berechnen. Auf die paarweise Distanzschätzung folgt die Konstruktion eines Führungsbaums unter Verwendung von UPGMA, das in einer globalen dynamischen Programmiermethode zum Ausrichten der Sequenzen/Profile verwendet wird., Zusätzlich führt das Programm eine Konsistenzprüfung durch, um den größten Satz von Sequenzübereinstimmungen zu definieren, die in die Ausrichtung eingefügt werden können, wobei eine modifizierte Version des Needleman-Wunsches verwendet wird, um den konsistentesten Pfad durch die dynamische Programmiermatrix zu finden. Außerdem aktualisiert Kalign die Positionen von Musterübereinstimmungen, wodurch die absolute Position von Übereinstimmungen innerhalb von Sequenzen an ihre relativen Positionen innerhalb generierter Profile angepasst wird .

Die Genauigkeit mehrerer Multiple Sequence Alignment Programme für Proteine