Dokładność kilka multiple Sekwencja wyrównywanie programy dla proteiny/BMC Bioinformatics

determinacja homologiczny regiony molekuła sekwencje często używać dla dalszy wnioskowanie ich funkcja i ewolucja, i w ten sposób dokładny multiple Sekwencja wyrównywanie (MSA) nukleinowy kwas i proteina sekwencje jest kluczowy., W związku z tym nastąpił ogromny wysiłek w opracowywaniu i wdrażaniu różnych algorytmów MSA, przy użyciu różnych podejść w celu poprawy dokładności wyrównania.

ocena dokładności programów MSA jest często wykonywana przez wykorzystanie ręcznie (lub półautomatycznie) kuratorowanych sekwencyjnych baz danych , takich jak BAliBASE, PREFAB i SABmark . Do tej pory BAliBASE był najczęściej używaną bazą danych wyrównań w ocenie wydajności różnych programów MSA. Został zbudowany przy użyciu sekwencji białek lub modeli o znanych strukturach trójwymiarowych., Ostatnie wprowadzenie, Wersja 3.0, miało wzrost liczby dostępnych sekwencji i wyrównań. Takie ulepszenia najwyraźniej rozwiązały główne obawy Karplus i Hu dotyczące wykorzystania BAliBASE do porównywania algorytmów MSA.

bazy danych wyrównań stanowią źródło dokładnych wyrównań do pomiaru dokładności i prędkości różnych programów, ale mają również kilka wad. Mimo że wyrównania baz danych są ręcznie dobierane, nadal istnieje możliwość niewspółosiowości, która spowodowałaby problemy z oceną dokładności., Zestawy wyrównań nadal pozostają raczej małe i mogą nie reprezentować pełnego zakresu scenariuszy ewolucji białek. Ponadto główną wadą wykorzystania baz danych wyrównań jest to, że algorytmy mogą być potencjalnie opracowane i dostrojone do wyrównań obecnych wyłącznie w tych zbiorach danych.

ostatnio pojawiło się kilka pakietów symulacji sekwencji DNA, które zawierają indele, takie jak MySSP i DAWG . MySSP był szeroko stosowany w różnych badaniach wnioskowania filogenetycznego i estymacji odległości ewolucyjnej w połączeniu z dokładnością dopasowania DNA ., W przypadku białek Lassmann i Sonnhammer w poprzednim porównaniu algorytmów MSA wykorzystali sztucznie tworzone zestawy sekwencji generowane przez program symulacyjny Rose . Rose symuluje sekwencje białek pozwalając na występowanie indeli. Zbiory danych generowane przez Rose przedstawiają własne ograniczenia dotyczące badania dokładności dopasowania. W badaniu Rose, wielkość indel i liczba nie reprezentują odpowiednio danych empirycznych dla białek, które różniły się dla różnych czasów ewolucyjnych. Również program zakłada równe tempo ewolucyjne wszystkich miejsc w białku.,

w tym badaniu Wprowadzamy ulepszone podejście do oceny dokładności wyrównania za pomocą symulowanych sekwencji białkowych generowanych przez Simprot . Simprot to zaawansowany program symulacyjny, który wykorzystuje sparametryzowaną wersję dystrybucji Qian i Goldstein insertion and delesion (indel). Chociaż oryginalna dystrybucja została empirycznie wyprowadzona z podzbioru wyrównań wysoce rozbieżnych sekwencji białkowych, wersja parametryzowana pozwala na bardzo elastyczną symulację indeli w sekwencjach dla wszystkich poziomów rozbieżności sekwencji., Simprot pozwala również na zmienne stawki substytucji i indel w różnych miejscach, wdrażając stawki rozproszonych witryn gamma . Dostępne są również trzy modele substytucji aminokwasów (PMB, PAM i JTT). Użyliśmy Simprot do generowania znanych wyrównań z szeroką gamą parametrów ewolucyjnych, a także najnowszej bazy danych dopasowanych wyrównań balibase, aby zbadać dokładność i szybkość popularnych i publicznie dostępnych programów do wyrównywania wielu sekwencji białek.,

programy wyrównujące

istnieje wiele dostępnych pakietów komputerowych, które generują MSA sekwencji białek. Wybraliśmy dziewięć najczęściej używanych programów (w kolejności od daty publikacji): Clustal w, Dialign2.2, T-Coffee, POA, Muscle, Mafft, ProbCons, Dialign-T i Kalign.

Clustal w wersji 1.8

jest to prawdopodobnie najczęściej używany program wyrównujący i najstarszy spośród testowanych pakietów. Oprogramowanie wykonuje progresywne wyrównanie, najpierw stosując parowe porównanie sekwencji poprzez obliczanie macierzy odległości, która przechowuje rozbieżność sekwencji., Po uzyskaniu tej macierzy, prowadnica drzewa jest budowana za pomocą łączenia sąsiada, a następnie trzeci i ostatni krok, w którym sekwencje są wyrównywane zgodnie z kolejnością gałęzi w drzewie prowadnicy. Program wykorzystuje dwie kary gap w swojej procedurze wyrównania: otwarcie gap i rozszerzenie gap, a w przypadku polipeptydów, pełną matrycę wagi aminokwasowej. Kary te zależą głównie od takich czynników, jak macierz wagi, długość sekwencji i podobieństwo., W prostych przypadkach Clustal W może dokładnie wyrównać odpowiednie domeny i sekwencje znanej struktury drugorzędnej lub trzeciorzędnej, podczas gdy w bardziej złożonych przypadkach może być używany jako dobry punkt wyjścia do dalszego udoskonalania.

Dialign2.2 Wersja 2.2.1

Ten program używa metody diagonalnej do wyrównywania sekwencji lokalnie i globalnie. Dialign2. 2 nie porównuje pojedynczych pozostałości, ale całych nieprzerwanych (nie dopuszcza się luk, niedopasowań) odcinków pozostałości, które tworzyłyby przekątne w porównaniu z macierzą punktową dwóch sekwencji., W związku z tym nie penalizuje wstawiania i rozszerzania luk i może pozostawić niepowiązane segmenty bez wyrównania. Pierwszy etap procedury tworzy wszystkie możliwe wyrównania parami, przechowując zbiór przekątnych spełniających określone kryteria spójności bez sprzecznych podwójnych lub krzyżowych przypisań reszt . Wszystkie zapisane przekątne są ważone w celu zdefiniowania wpisów z maksymalną sumą wag, a następnie sortowane w celu określenia stopnia nakładania się, podkreślając istnienie przekątnych obecnych w wielu sekwencjach., Chciwy algorytm wykonuje ostateczne przetwarzanie, sprawdzając wyniki przekątnych od góry do dołu, tworząc ostateczne wyrównanie wielokrotne. Luki są wstawiane na końcu tworzenia MSA, dopóki wszystkie obecne pozostałości nie zostaną połączone.

T-Coffee (Tree-based consistency objective function for alignment evaluation) wersja 3.27

T-Coffee wykorzystuje progresywną strategię wyrównywania sekwencji. Program najpierw tworzy bibliotekę z dwóch różnych źródeł: Global alignments z Clustal w I local alignments z Lalign ., Dla każdej pary sekwencji wyrównania globalne i wyrównania lokalne są tworzone z dziesięciu najwyżej punktowanych, nie przecinających się segmentów. Program przetwarza informacje globalne i lokalne, przypisując wagi do wszystkich wyrównań pary względem tożsamości sekwencji . Następnie następuje kombinacja grup, które są scalane w jedną bibliotekę. Istnieje Faza rozbudowy tej połączonej biblioteki, dzięki której ostateczna waga każdej pary pozostałości odzwierciedla część informacji zawartych w całej bibliotece., Ostatni krok wymaga obliczenia macierzy odległości i Drzewa łączącego sąsiada, ponieważ wyrównanie jest generowane z progresywną strategią poprzez wyrównanie dwóch najbliższych sekwencji na drzewie zgodnie z wagą przechowywaną w rozszerzonej bibliotece. Początkowa para jest wtedy stała i wszelkie istniejące luki nie mogą być przesunięte później. Progresywne wyrównanie trwa do momentu wyrównania każdej sekwencji.

Poa (partial Order Alignment) Wersja 2.0

POA to kolejny pakiet MSA, który wykorzystuje algorytm progresywnego wyrównywania bez użycia uogólnionych profili., Program ten wprowadza użycie formatu Partial Order-Multiple Sequence Alignment (po-MSA) do reprezentowania sekwencji i dokładniej odzwierciedla zawartość biologiczną. Format ten przechowuje wyrównanie jako zwarty wykres dla minimalnej liczby węzłów i krawędzi, nadal zawierający wszystkie informacje dostępne w tradycyjnym MSA. Sekwencje są zapisywane jako liniowa seria węzłów połączonych dwoma krawędziami. POA wykorzystuje tradycyjny algorytm programowania dynamicznego, w którym sekwencje liniowe są zastępowane wykresami częściowego porządku (po)., Te struktury PO są przekształcane w zwykłe macierze 2D, a każda kombinacja komórek jest punktowana do tyłu, jak w tradycyjnej procedurze wyrównania sekwencji Smitha-Watermana . Matryce te są następnie rozszerzane w dowolnym kierunku (przekątna, pozioma, pionowa), umożliwiając uzyskanie wyrównania pary w punktach połączeń. MSA otrzymuje się z wyrównania dwóch sekwencji na początku z dodaniem kolejnych sekwencji kolejno do pary początkowej.

Muscle (Multiple sequence comparison by log-expectation) version 3.,6

Muscle wykorzystuje podejście do wyrównania profilu w parach. Program najpierw buduje progresywne wyrównanie, które następnie jest ulepszane i udoskonalane w dwóch kolejnych etapach. Stopniowe wyrównanie jest tworzone po podobieństwach sekwencji, obliczaniu odległości i Drzewa UPGMA. Muscle wykorzystuje dwie miary odległości: odległość K mer dla niezaliczonych par sekwencji i odległość Kimura dla wyrównanych par . Stopniowy etap poprawy wyrównania tworzy nowe drzewo z już obliczoną macierzą odległości Kimura, a następnie buduje lepsze wyrównanie w oparciu o to ulepszone drzewo., Ostatni etap udoskonalania wykorzystuje wariant ograniczonego partycjonowania zależnego od drzewa . Ta metoda usuwa jedną z krawędzi drzewa, dzieląc wyrównanie na dwie partycje i wyodrębniając profile obu partycji, które są następnie wyrównywane za pomocą wyrównania profil-profil. Każda krawędź drzewa jest odwiedzana iteracyjnie, a wyrównanie ze zaktualizowanym sumowanym wynikiem pary każdej pary sekwencji jest zachowywane. Krawędzie są odwiedzane w kolejności malejącej odległości od korzenia, z wyrównaniem poszczególnych sekwencji, przechodząc do bliżej spokrewnionych grup sekwencji .,

Mafft (Multiple sequence alignment based on Fast Fourier Transform) version 5.732

Mafft to program, który może być używany z różnymi podejściami wyrównania, albo tylko progresywne wyrównanie (z szybką transformatą Fouriera), lub progresywne, a następnie iteracyjne udoskonalenie. Podstawowe uruchomienie Mafft może składać się z maksymalnie trzech kroków, ale domyślna procedura wykonuje dwa początkowe kroki. Po pierwsze, progresywne wyrównanie jest tworzone na podstawie przybliżonej odległości między każdą parą sekwencji w oparciu o wspólne 6-krotki., Drzewo przewodników jest również generowane przez UPGMA ze zmodyfikowanym powiązaniem, a sekwencje są następnie wyrównywane zgodnie z kolejnością gałęzi drzewa (sam ten krok nazywa się strategy FFT-NS-1). Drugi krok przeliczaÄ ‡ macierz odlegĹ ' oĹ „ci, na podstawie informacji zebranych na poprzednim kroku, a progresywne wyrównanie jest ponownie wykonane przy uĹźyciu drzewa uzyskanego z nowej macierzy jako punktu poczÄ …tkowego (do tego kroku strategia jest znana jako FFT-NS-2 i jest to domyĹ” lne uĺźywane przez oprogramowanie)., Ostatnia faza to udoskonalenie iteracyjne, które optymalizuje wynik ważonej Sumy par Gotoh (WSP), z wyrównaniem grup do grup i zależną od drzewa techniką partycji ograniczeń . Jeśli wszystkie trzy kroki są stosowane, procedura nazywa się FFT-NS-i, co oznacza, że wykorzystuje metodę FFT do szybkiego identyfikowania regionów homologicznych obecnych w sekwencjach, po której następuje iteracyjna Faza udoskonalania., FFT przekształca każdy pojedynczy aminokwas obecny w sekwencji do wektora reprezentującego objętość i polaryzację, które są ważnymi czynnikami na podstawienie zdarzeń, umożliwiając oprogramowanie przewidywać takie zdarzenia z precyzją.

Mafft zawiera również trzy dodatkowe algorytmy udoskonalania: L-INS-i, G-INS-i I E-INS-i . Strategie te zwiększają liczbę kroków wymaganych do utworzenia wyrównania MSA do pięciu. W takich przypadkach pierwszy krok wymaga również zbudowania macierzy odległości, a nie użycia krotek 6., W odróżnieniu od podejścia FFT-NS-* nie ma rekonstrukcji obliczonego drzewa UPGMA i program przechodzi do drugiego etapu, dzieląc segmenty wolne od gap i przechowując tablice wyników dla każdego segmentu wolnego od gap z jednej sekwencji do drugiej. Mafft następnie oblicza wartość „znaczenie” z wyniku segmentu i zapisuje, jak często pozostałości pojawiają się na innych segmentach., Wszystkie wartości ” ważności „są następnie gromadzone w macierzy” ważności ” w kroku trzecim, po którym szybko następuje wyrównanie grup do grup uzyskane z macierzy punktowych i schemat ważenia oparty na algorytmie Needlemana-wunscha. Ostatni etap iteracyjnie udoskonala uzyskane wyrównania, optymalizując wynik WSP i wartości” znaczenie ” obliczone wcześniej.

ProbCons (Probabilistic Consistency-based multiple sequence alignment) Wersja 1.1

ProbCons jest jedynym programem, który wykorzystuje probabilistyczną metodę wyrównywania., Jest to modyfikacja tradycyjnego systemu punktacji sum-of-pairs, a ponadto zawiera algorytm progresywnego wyrównywania opartego na modelu Markowa. Procedura wyrównania jest podzielona na cztery etapy, zaczynając od obliczenia macierzy prawdopodobieństwa tylnego dla każdej pary sekwencji. Następnie następuje dynamiczne programowanie obliczeń oczekiwanej dokładności każdego wyrównania pary. Następnie stosuje się probabilistyczną transformację konsystencji w celu ponownego oszacowania wyników dokładności dopasowania., Drzewo przewodników jest obliczane za pomocą hierarchicznego klastrowania z podobieństwem określonym przez średnią ważoną wartości między sekwencjami każdego klastra. Drzewo przewodników służy do wyrównywania sekwencji przy użyciu podejścia progresywnego. Odbywa się również Faza przetwarzania końcowego, w której losowe bi-partycje wygenerowanego wyrównania są wyrównywane w celu sprawdzenia lepszych regionów wyrównania. ProbCons różni się od innych programów wyrównywania, ponieważ nie zawiera koncepcji biologicznych, takich jak punktacja szczelin specyficznych dla pozycji, ewolucyjna Budowa drzewa i inne funkcje powszechnie używane przez inne pakiety.,

Dialign-t wersja 0.2.1

Ten program jest re-implementacją procedury opracowanej w Dialign2.2, ale z lepszym rozwiązaniem do radzenia sobie z niespójnymi fragmentami, w tym fragment-chaining. Wdraża również nowe podejście do szacowania prawdopodobieństwa wystąpienia losowego każdego fragmentu obecnego w sekwencji, która ma być wyrównana. Dialign-T nie używa wstępnie obliczonych tabel w celu uzyskania wyników wagowych: oblicza tabele prawdopodobieństwa z kilku matryc substytucyjnych. Dodatkowo algorytm wielokrotnego wyrównywania z Dialign2.,2 został zmieniony w celu uniknięcia fałszywych podobieństw lokalnych.

Kalign Wersja 1.04

Kalign to kolejny program, który wykorzystuje podejście progresywnego wyrównywania w celu uzyskania najlepszego możliwego MSA. Główną różnicą tego algorytmu w stosunku do innych metod jest to, że wykorzystuje on przybliżony algorytm dopasowywania ciągu Wu-Manber przy obliczaniu odległości między sekwencjami. Algorytm Wu-Manber mierzy odległość między dwoma ciągami za pomocą Levenshteina, co pozwala na skuteczne wyszukiwanie niedopasowań (współdzielonych lub nie) i wzorów obecnych w sekwencjach., Według twórców Kalign metodologia ta pozwala na oszacowanie odległości, która jest tak szybka jak algorytm K-krotki, ale jest bardziej dokładna . Pierwszym krokiem w procedurze wyrównania jest obliczenie odległości parami za pomocą podejścia Wu-Manber. Estymacja odległości w parach następuje po konstrukcji drzewa prowadzącego za pomocą UPGMA, który jest wykorzystywany w globalnej dynamicznej metodzie programowania w celu wyrównania sekwencji / profili., Dodatkowo program wykonuje sprawdzanie spójności w celu zdefiniowania największego zestawu dopasowań sekwencji, które można wstawić do wyrównania, używając zmodyfikowanej wersji needlemana-Wunscha, aby znaleźć najbardziej spójną ścieżkę przez dynamiczną macierz programowania. Ponadto Kalign aktualizuje pozycje dopasowań wzorców, co dostosowuje bezwzględną pozycję dopasowań znalezionych w sekwencjach do ich względnych pozycji w wygenerowanych profilach .

dokładność kilka multiple Sekwencja wyrównywanie programy dla proteiny