determinarea omoloage regiuni moleculare secvențe este adesea folosit pentru mai multe inferență de funcția lor și evoluție, și, prin urmare, precis mai multe sequence alignment (MSA) de acid nucleic și proteine secvențe este crucială., În consecință, a existat un efort extraordinar în dezvoltarea și implementarea diferiților algoritmi MSA, folosind abordări distincte pentru a îmbunătăți precizia de aliniere rezultată.

evaluarea preciziei programelor MSA se face adesea prin utilizarea manuală (sau semi-automat) baze de date secventa curate , cum ar fi BAliBASE, PREFAB și SABmark . Până în prezent, BAliBASE a fost cea mai des utilizată bază de date de aliniere în evaluarea performanței diferitelor programe MSA. Acesta a fost construit folosind secvențe de proteine sau modele cu structuri tridimensionale cunoscute., Ultimul început, versiunea 3.0, a avut o creștere a numărului de secvențe și aliniamente disponibile. Se pare că astfel de îmbunătățiri au abordat preocupările majore ale Karplus și Hu în ceea ce privește utilizarea BAliBASE pentru a compara algoritmii MSA.bazele de date de aliniere oferă o sursă de alinieri precise pentru a măsura precizia și viteza diferitelor programe, dar prezintă și câteva dezavantaje. Chiar dacă aliniamentele bazelor de date sunt întreținute manual, există totuși posibilitatea unor alinieri incorecte care ar duce la probleme de evaluare a preciziei., Seturile de aliniamente rămân încă destul de mici și pot să nu reprezinte gama completă de scenarii de evoluție a proteinelor. În plus, un dezavantaj major al utilizării bazelor de date de aliniere este faptul că algoritmii pot fi potențial dezvoltați și reglați la aliniamentele prezente exclusiv în aceste seturi de date.recent au existat mai multe pachete de simulare a secvenței ADN care încorporează indels, cum ar fi MySSP și DAWG . MySSP a fost utilizat pe scară largă în diferite studii de inferență filogenetică și estimarea distanței evolutive cuplat cu precizia de aliniere a ADN-ului ., Pentru proteine, Lassmann și Sonnhammer într-o comparație anterioară a algoritmilor MSA utilizate seturi de secvențe create artificial generate de programul de simulare a crescut . Rose simulează secvențe de proteine care permit apariția indels. Seturile de date generate de Rose prezintă propriile limitări pentru studiul preciziei de aliniere. În Rose, mărimea și numărul indel nu reprezintă în mod adecvat date empirice pentru proteinele care s-au divergent pentru diferite perioade evolutive. De asemenea, programul presupune rate evolutive egale ale tuturor siturilor din proteină.,în acest studiu introducem o abordare îmbunătățită pentru a evalua precizia alinierii prin utilizarea secvențelor de proteine simulate generate de Simprot . Simprot este un program de simulare avansat, care utilizează o versiune parametrizată a inserției Qian și Goldstein și ștergerea (indel) distribuție. Deși distribuția inițială a fost derivată empiric dintr-un subset de aliniamente de secvențe de proteine foarte divergente, versiunea parametrizată permite o simulare foarte flexibilă a indels în secvențe pentru toate nivelurile de divergență de secvență., Simprot permite, de asemenea, rate variabile de substituție și indel la diferite site-uri prin implementarea gamma distribuite site-uri tarife . Trei modele de substituție a aminoacizilor (PMB, PAM și JTT) sunt de asemenea disponibile. Am folosit Simprot pentru a genera cunoscut aliniamente cu o mare varietate de evoluție a parametrilor, precum și cele mai recente BAliBASE bază de date întreținută de aliniamente, pentru a investiga acuratețea și viteza de populare și disponibile publicului proteine mai multe sequence alignment programe software.,

programe de aliniere

există multe pachete de calculator disponibile care generează MSAs de secvențe de proteine. Am selectat nouă în prezent cele mai des utilizate programe (in ordinea data): Clustal W, Dialign2.2, T-Cafea, POA, Musculare, Mafft, ProbCons, Dialign-T și Kalign.

Clustal w versiunea 1.8

acesta este probabil cel mai utilizat program de aliniere și cel mai vechi dintre pachetele testate. Software-ul efectuează o aliniere progresivă, folosind mai întâi o comparație de secvențe în perechi prin calcularea unei matrice de distanță care stochează divergența secvenței., După ce se obține această matrice, un ghid de copac este construit folosind Unire vecin, urmat de al treilea și ultimul pas în cazul în care secvențele sunt aliniate în conformitate cu ordinea de ramură în arborele de ghidare. Programul folosește două penalități de decalaj în procedura sa de aliniere: deschiderea gap și extensia gap, iar în cazul polipeptidelor, o matrice completă de greutate a aminoacizilor. Aceste penalități de decalaj depind în principal de factori precum matricea de greutate, lungimea secvenței și similitudinea., În cazuri simple, Clustal W ar putea alinia cu precizie domeniile și secvențele corespunzătoare ale structurii secundare sau terțiare cunoscute, în timp ce în cazuri mai complexe poate fi folosit ca un bun punct de plecare pentru rafinarea ulterioară.

Dialign2.2 versiunea 2.2.1

Acest program utilizează o metodă diagonală pentru a alinia secvențe la nivel local și global. Dialign2. 2 nu compară reziduurile unice, ci întregi neîntrerupte (fără goluri, nepotriviri permise) întinderi de reziduuri care ar forma diagonale într-o comparație dot-matrix a două secvențe., În consecință, nu penalizează inserarea și extinderea golurilor și poate lăsa segmente fără legătură nealiniate. Primul pas în procedură creează toate aliniamentele posibile în perechi, stocând o colecție de diagonale care îndeplinesc anumite criterii de coerență fără misiuni duble sau încrucișate conflictuale ale reziduurilor . Toate diagonalele salvate sunt ponderate pentru a defini intrările cu suma maximă de greutăți și apoi sortate pentru a determina gradul de suprapunere, subliniind existența diagonalelor prezente în mai multe secvențe., Un algoritm lacom ca face o prelucrare finală, verificarea diagonalelor scoruri de sus în jos creând o aliniere multiplă finală. Golurile sunt introduse la sfârșitul creării MSA până când toate reziduurile prezente sunt conectate.

t-Coffee (funcție obiectivă de consistență bazată pe arbore pentru evaluarea alinierii) versiunea 3.27

T-Coffee folosește o strategie progresivă în alinierea secvențelor. Programul creează mai întâi o bibliotecă din două surse diferite: aliniamente globale de la Clustal W și aliniamente locale de la Lalign ., Pentru fiecare pereche de secvențe, aliniamentele globale și aliniamentele locale pereche sunt create din cele zece segmente de top care nu se intersectează. Programul procesează informațiile globale și locale, atribuind greutăți tuturor aliniamentelor pereche în raport cu identitatea secvenței . Aceasta este urmată de combinația de grupuri care sunt îmbinate într-o singură bibliotecă. Există o fază de extensie pentru această bibliotecă combinată, ceea ce face ca greutatea finală a oricărei perechi de reziduuri să reflecte o parte din informațiile conținute în întreaga bibliotecă., Un pas final necesită un calcul al unei matrice distanță și un vecin care unește copac, deoarece alinierea este generată cu o strategie progresivă prin alinierea celor două secvențe cele mai apropiate pe copac în funcție de greutatea stocată în biblioteca extinsă. Perechea inițială este apoi fixată și eventualele lacune existente nu pot fi schimbate ulterior. Alinierea progresivă continuă până când fiecare secvență este aliniată.

POA (aliniere parțială a ordinii) versiunea 2.0

POA este un alt pachet MSA care utilizează un algoritm de aliniere progresivă fără a utiliza profiluri generalizate., Acest program introduce utilizarea unui format parțial de aliniere ordine-multiple secvență (PO-MSA) pentru a reprezenta secvențe, și reflectă mai precis conținutul biologic. Acest format stochează alinierea ca un grafic compactat pentru numărul minim de noduri și margini, conținând în continuare toate informațiile disponibile într-un MSA tradițional. Secvențele sunt stocate ca o serie liniară de noduri conectate fiecare prin două margini. POA utilizează un algoritm tradițional de programare dinamică, unde secvențele liniare sunt înlocuite cu grafice parțiale (PO)., Aceste structuri PO sunt transformate în matrice 2D obișnuite și fiecare combinație de celule este notată înapoi ca într-o procedură tradițională de aliniere a secvenței Smith-Waterman . Aceste matrice sunt apoi extinse în orice direcție (diagonală, orizontală, verticală), permițând producerea alinierii pereche pe punctele de joncțiune. MSA se obține din alinierea a două secvențe la început cu adăugarea succesivă a altor secvențe la perechea inițială.

musculare (mai multe secvențe comparație de log-așteptare) versiunea 3.,6

mușchiul folosește o abordare de aliniere a profilului în perechi. Programul construiește mai întâi o aliniere progresivă, care este apoi îmbunătățită și rafinată în două etape ulterioare. Alinierea progresivă este creată după asemănările secvenței, se calculează o estimare a distanței și un arbore UPGMA. Musculare utilizează două măsuri de distanță: o distanță k Mer pentru perechi de secvențe nealiniate și o distanță Kimura pentru perechi aliniate . Etapa de îmbunătățire progresivă a alinierii creează un nou arbore cu matricea de distanță Kimura deja calculată și apoi construiește o aliniere mai bună pe baza acestui arbore ameliorat., Ultima etapă de rafinare folosește o variantă a partiționării restricționate dependente de arbore . Această metodă șterge una dintre marginile arborilor, bi-partiționând alinierea și extragând profilurile ambelor partiții care sunt apoi realiniate cu o aliniere profil-profil. Fiecare margine copac este vizitat iterativ și alinierea cu un scor actualizat însumate perechi de fiecare pereche secvență este păstrată. Marginile sunt vizitate în ordinea descrescătoare a distanței față de rădăcină, cu o realiniere a secvențelor individuale, trecând la grupuri de secvențe mai strâns legate .,

Mafft (mai Multe sequence alignment bazat pe transformata Fourier Rapidă) versiune 5.732

Mafft este un program care poate fi utilizat cu diferite aliniere abordări, fie alinierea progresivă singur (Fast Fourier Transform), sau progresivă urmată de iterativ de rafinare. Rularea de bază a Mafft poate avea până la trei pași, dar procedura implicită efectuează primii doi pași. În primul rând, o aliniere progresivă este creată pe baza unei distanțe brute între fiecare pereche de secvențe bazată pe 6-tupluri partajate., Un arbore de ghidare este, de asemenea, generat de UPGMA cu legătură modificată și secvențele sunt apoi aliniate urmând ordinea ramurii arborelui (acest pas singur se numește strategie FFT-NS-1). A doua etapă recalculează o matrice de distanță, pe baza informațiilor colectate la pasul anterior, iar alinierea progresivă este refăcută folosind un arbore obținut din noua matrice ca punct de plecare (până la această etapă, strategia este cunoscută sub numele de FFT-NS-2 și este implicit utilizată de software)., Ultima fază este rafinarea iterativă care optimizează scorul sumei ponderate a perechilor (WSP) a lui Gotoh, cu o aliniere grup-grup și tehnica de partiție de restricție dependentă de copac . Dacă toate cele trei etape sunt utilizate, procedura se numește FFT-NS-i, ceea ce înseamnă că folosește o metodă FFT pentru a identifica rapid regiunile omoloage prezente în secvențe, care este urmată de o fază iterativă de rafinare., FFT convertește fiecare aminoacid prezent într-o secvență la un vector care reprezintă volumul și polaritatea, care sunt factori importanți asupra evenimentelor de substituție, permițând software-ului să prezică astfel de evenimente cu precizie.Mafft include, de asemenea, trei algoritmi suplimentari de rafinare: L-INS-i, G-INS-i și e-INS-i . Aceste strategii cresc numărul de pași necesari pentru a crea o aliniere MSA la cinci. În aceste cazuri, primul pas necesită, de asemenea, construirea unei matrice de distanță, fără a utiliza 6-tupluri., În mod diferit față de abordările FFT-NS-* nu există o reconstrucție a arborelui UPGMA calculat, iar programul trece la a doua etapă, împărțind segmentele fără goluri și stocând matricele de scor pentru fiecare segment fără goluri de la o secvență la alta. Mafft calculează apoi o valoare „importanță” din scorul segmentului și stochează cât de des apar reziduuri pe alte segmente., Toate valorile ” importanței „sunt apoi adunate într-o matrice” importanță ” în pasul trei, care este urmată rapid de o aliniere grup-la-grup obținută din matricele score și o schemă de ponderare bazată pe un algoritm Needleman-Wunsch. Un pas final rafinează iterativ aliniamentele obținute, optimizând un scor WSP și valorile” importanței ” calculate anterior.

ProbCons (Probabilistic Consistenta pe baza de mai multe sequence alignment) versiunea 1.1

ProbCons este singurul program care folosește un probabilistic consecvență metoda de aliniere., Este o modificare a sistemului tradițional de notare a sumei de perechi și, în plus, încorporează un algoritm de aliniere progresivă bazat pe modelul Markov ascuns în perechi. Procedura de aliniere este împărțită în patru etape, începând cu un calcul al matricelor de probabilitate posterioară pentru fiecare pereche de secvențe. Aceasta este urmată de un calcul de programare dinamic al preciziei așteptate a fiecărei alinieri pereche. Transformarea consistenței probabilistice este apoi utilizată pentru a re-estima scorurile de precizie ale meciului., Un arbore de ghidare este calculat cu gruparea ierarhică cu similitudinea definită de o medie ponderată a valorilor dintre secvențele fiecărui cluster. Arborele de ghidare este utilizat pentru alinierea secvențelor folosind o abordare progresivă. De asemenea, se realizează o fază post-procesare, în care bi-partițiile aleatorii ale alinierii generate sunt realiniate pentru a verifica regiunile de aliniere mai bune. ProbCons diferă de alte aliniere programe deoarece nu încorporează concepte biologice, cum ar fi poziția specifice diferența de notare, evolutivă construcții și alte caracteristici frecvent utilizate de alte pachete.,acest program este o re-implementare a procedurii dezvoltate în Dialign2.2, dar cu o soluție mai bună pentru a face față fragmentelor inconsistente, inclusiv înlănțuirea fragmentelor. De asemenea, implementează o nouă abordare pentru estimarea probabilităților de apariție aleatorie a fiecărui fragment prezent în secvența de aliniat. Dialign-T nu utilizează tabele pre-calculate pentru a obține scoruri în greutate: calculează tabelele de probabilitate din mai multe matrice de substituție. În plus, algoritmul de aliniere multiplă de la Dialign2.,2 a fost schimbat pentru a evita asemănările locale false.Kalign este un alt program care utilizează o abordare de aliniere progresivă pentru a obține cel mai bun MSA posibil. Principala diferență a acestui algoritm față de alte metode este că utilizează algoritmul de potrivire a șirului Wu-Manber la calcularea distanței dintre secvențe. Algoritmul Wu-Manber măsoară distanța dintre două șiruri folosind o distanță de editare Levenshtein, care permite o căutare eficientă a nepotrivirilor (partajate sau nu) și a modelelor prezente în secvențe., Potrivit dezvoltatorilor Kalign, această metodologie permite o estimare a distanței care este la fel de rapidă ca un algoritm k-tuplu, dar este mai precisă . Primul pas în procedura de aliniere este de a calcula distanțele pereche folosind abordarea Wu-Manber. Estimarea distanței pereche este urmată de o construcție a unui arbore de ghidare prin utilizarea UPGMA, care este utilizată într-o metodă de programare dinamică globală pentru alinierea secvențelor/profilurilor., În plus, programul efectuează o verificare a consistenței pentru a defini cel mai mare set de potriviri de secvențe care pot fi inserate în aliniere, folosind o versiune modificată a Needleman-Wunsch pentru a găsi calea cea mai consistentă prin matricea de programare dinamică. De asemenea, Kalign actualizează pozițiile potrivirilor de model, care ajustează poziția absolută a potrivirilor găsite în secvențe la pozițiile lor relative din profilurile generate .