stanovení homologních oblastí molekulární sekvence je často používán pro další odvozování jejich funkce a evoluce, a proto přesné multiple sequence alignment (MSA) nukleové kyseliny a proteinových sekvencí je zásadní., V důsledku toho došlo k obrovskému úsilí při vývoji a implementaci různých algoritmů MSA pomocí odlišných přístupů ke zlepšení výsledné přesnosti zarovnání.

hodnocení přesnosti programů MSA se často provádí použitím ručně (nebo částečně automaticky) kurátorských sekvenčních databází , jako jsou BAliBASE, PREFAB a SABmark . Dosud byla BAliBASE nejčastěji používanou databází zarovnání při hodnocení výkonu různých programů MSA. Byl konstruován pomocí proteinových sekvencí nebo modelů se známými trojrozměrnými strukturami., Poslední Počátek, verze 3.0, měl nárůst počtu dostupných sekvencí a zarovnání. Tato zlepšení zjevně řešila hlavní obavy společností Karplus a Hu týkající se použití Balibázy k benchmarku algoritmů MSA.databáze zarovnání

poskytují zdroj přesných zarovnání pro měření přesnosti a rychlosti různých programů, ale také představují několik nevýhod. I když databází,‘ seřízení ruční kurátor, je zde stále možnost nesouososti, které by mělo za následek přesnost hodnocení problémy., Sady zarovnání stále zůstávají poměrně malé a nemusí představovat úplný rozsah scénářů vývoje bílkovin. Hlavní nevýhodou použití databází zarovnání je navíc to, že algoritmy mohou být potenciálně vyvinuty a naladěny na zarovnání přítomná pouze v těchto datových sadách.

V poslední době existuje několik balíčků simulace sekvence DNA, které obsahují indely, jako jsou MySSP a DAWG . MySSP byl široce používán v různých studiích fylogenetické inference a evolučního odhadu vzdálenosti spolu s přesností zarovnání DNA ., Pro proteiny Lassmann a Sonnhammer v předchozím srovnání algoritmů MSA použili uměle vytvořené sekvenční sady generované simulačním programem Rose . Rose simuluje sekvence proteinů umožňující výskyt indelů. Datové sady generované Rose představují svá vlastní omezení pro studium přesnosti zarovnání. V růži velikost a počet indelů dostatečně nepředstavují empirická data pro proteiny, které se lišily pro různé evoluční časy. Také program předpokládá stejnou evoluční míru všech míst v proteinu.,

v této studii představujeme lepší přístup k posouzení přesnosti zarovnání pomocí simulovaných proteinových sekvencí generovaných Simprotem . Simprot je pokročilý simulační program, který využívá parametrizovanou verzi distribuce Qian a Goldstein insertion and delece (indel). I když původní distribuce byla empiricky odvozena z podskupiny zarovnání vysoce rozcházely proteinových sekvencí, parametrizované verze umožňuje velmi flexibilní simulace indels v sekvencích pro všechny úrovně sekvenční divergence., Simprot také umožňuje variabilní substituční a Ind sazby na různých místech zavedením gama distribuovaných lokalit sazeb . K dispozici jsou také tři modely substituce aminokyselin (PMB, PAM a JTT). Použili jsme Simprot generovat známý zarovnání s širokou škálu evolučních parametrů, stejně jako nejnovější BAliBASE databáze kurátor zarovnání, zkoumat přesnost a rychlost populární a veřejně dostupných bílkovin multiple sequence alignment softwarových programů.,

programy zarovnání

existuje mnoho dostupných počítačových balíčků, které generují MSAs proteinových sekvencí. Vybrali jsme devět aktuálně nejčastěji používané programy (v pořadí podle data vydání): Clustal W, Dialign2.2, T-Káva, POA, Svalů, Mafft, ProbCons, Dialign-T a Kalign.

Clustal w verze 1.8

toto je pravděpodobně nejpoužívanější zarovnávací program a nejstarší z testovaných balíčků. Software provádí progresivní zarovnání, nejprve pomocí párové sekvenční srovnání výpočtem matice vzdálenosti, která ukládá sekvenční divergenci., Po této matice je dosaženo, strom průvodce je postaven s použitím Soused Vstupu, následuje třetí a poslední krok, kdy sekvence jsou zarovnány podle pobočky, aby v příručce strom. Program využívá dvě mezery sankce ve svém postupu zarovnání: otevření mezery a rozšíření mezery, a v případě polypeptidů, Plná aminokyselina bodování hmotnost matrice. Tyto mezery sankce jsou závislé hlavně na faktorech, jako je hmotnost matice, délka sekvence a podobnost., V jednoduchých případech může Clustal W přesně zarovnat odpovídající domény a sekvence známé sekundární nebo terciární struktury, zatímco ve složitějších případech může být použit jako dobrý výchozí bod pro další zdokonalení.

Dialign2.2 verze 2.2.1

Tento program používá diagonální metoda zarovnání sekvencí lokálně a globálně. Dialign2.2 neporovnává jeden zbytky, ale celý nepřerušovaný (bez mezer, nesoulad povoleno) úseky zbytků, které by se tvoří úhlopříčky v dot-matrix srovnání dvou sekvencí., V důsledku toho penalizuje Vložení a rozšíření mezer a může ponechat nesouvisející segmenty nevyrovnané. Prvním krokem v procesu, vytváří všechny možné párové zarovnání, ukládání kolekce úhlopříčky splňují určitá kritéria konzistence bez konfliktní s manželskou postelí nebo crossover úkoly reziduí . Všechny uložené úhlopříčky jsou váženy, aby bylo možné definovat položky s maximálním součtem hmotností, a pak seřazeny za účelem určení stupně překrytí, s důrazem na existenci úhlopříček přítomných ve více sekvencích., Chamtivý podobný algoritmus provádí konečné zpracování a kontroluje skóre úhlopříček shora dolů a vytváří konečné vícenásobné zarovnání. Mezery jsou vloženy na konci vytvoření MSA, dokud nejsou spojeny všechny přítomné zbytky.

T-Coffee (Tree-based konzistence objektivní funkce pro zarovnání hodnocení) verze 3.27

T-Káva zaměstnává progresivní strategie v zarovnání sekvencí. Program nejprve vytvoří knihovnu ze dvou různých zdrojů: globální zarovnání z Clustal W a místní zarovnání z Lalign ., Pro každou dvojici sekvencí jsou vytvořeny globální zarovnání a párová místní zarovnání z deseti nejlepších bodovacích neprotínajících se segmentů. Program zpracovává globální a místní informace a přiřazuje váhy všem párovým zarovnáním vzhledem k sekvenční identitě . Následuje kombinace skupin, které jsou sloučeny do jedné knihovny. Pro tuto kombinovanou knihovnu existuje fáze rozšíření, takže konečná hmotnost každého páru zbytků odráží část informací obsažených v celé knihovně., Poslední krok vyžaduje výpočet matice vzdáleností a Soused Spojení strom, protože vyrovnání je generován s progresivní strategie spojením dvou nejbližších sekvencí na strom, v závislosti na hmotnosti uložených v rozšířené knihovně. Počáteční pár je poté fixován a všechny existující mezery nelze později posunout. Progresivní zarovnání pokračuje, dokud není každá sekvence zarovnána.

Poa (částečné zarovnání objednávek) verze 2.0

POA je další balíček MSA, který používá progresivní algoritmus zarovnání bez použití zobecněných profilů., Tento program zavádí použití formátu částečného pořadí-Vícenásobné zarovnání sekvencí (po-MSA) pro reprezentaci sekvencí a přesněji odráží biologický obsah. Tento formát ukládá zarovnání jako zhutněný graf pro minimální počet uzlů a hran, stále obsahuje všechny informace dostupné v tradičním MSA. Sekvence jsou uloženy jako lineární série uzlů, z nichž každý je spojen dvěma hranami. POA používá tradiční dynamický programovací algoritmus, kde jsou lineární sekvence nahrazeny grafy částečného řádu (PO)., Tyto struktury PO jsou transformovány v obvyklých 2D matricích a každá kombinace buněk je zaznamenána dozadu jako v tradičním postupu zarovnání sekvence Smith-Waterman. Tyto matice jsou pak rozšířeny v libovolném směru (diagonální, horizontální, vertikální), což umožňuje vytvoření párového zarovnání na spojovacích bodech. MSA se získává ze zarovnání dvou sekvencí na začátku přidáním dalších sekvencí postupně k počátečnímu páru.

sval (Vícenásobné porovnání sekvencí podle log-očekávání) verze 3.,6

sval používá párový přístup k zarovnání profilu. Program nejprve vytvoří progresivní zarovnání, které se pak zlepší a zdokonalí ve dvou následujících fázích. Progresivní zarovnání je vytvořeno po podobnostech sekvence, vypočítá se odhad vzdálenosti a strom UPGMA. Sval používá dvě distanční opatření: vzdálenost k mer pro nevyrovnané sekvenční páry a vzdálenost Kimura pro vyrovnané páry . Fáze postupného zlepšování zarovnání vytváří nový strom s již vypočtenou maticí vzdálenosti Kimura a na základě tohoto vylepšeného stromu vytváří lepší zarovnání., Poslední fáze zdokonalování využívá variantu stromu závislého na omezeném dělení . Tato metoda odstraní jeden z okrajů stromu, bi-rozdělení zarovnání a extrahování profilů obou oddílů, které jsou pak zarovnány s zarovnáním profilu a profilu. Každý strom hrana je navštívil iterativně a uvedení do souladu s aktualizovanou shrnul párového skóre každé sekvence dvojice je zachován. Hrany jsou navštěvovány v pořadí klesající vzdálenosti od kořene, s přeřazením jednotlivých sekvencí, pohybující se do blíže příbuzných skupin sekvencí .,

Mafft (Multiple sequence alignment na základě Rychlé Fourierovy Transformace) verze 5.732

Mafft je program, který může být použit s různými zarovnání přístupy, a to buď progresivní zarovnání sám (Rychlá Fourierova Transformace), nebo progresivní následuje iterativní zpřesňování. Základní běh Mafft může mít až tři kroky, ale výchozí postup provede počáteční dva kroky. Za prvé, progresivní zarovnání je vytvořeno na základě hrubé vzdálenosti mezi každým párem sekvencí založeným na sdílených 6-tuplech., Vodicí strom je také generován UPGMA s modifikovaným vazbou a sekvence jsou pak zarovnány podle pořadí větve stromu (tento krok sám se nazývá strategie FFT-NS-1). Druhý krok přepočítá vzdálenost matice, na základě informací získaných v předchozím kroku, a progresivní zarovnání znovu udělat pomocí stromu získaná z nové matice jako výchozí bod (na tento krok, tato strategie je známá jako FFT-NS-2 a to je výchozí nastavení, které používá software)., Poslední fáze je iterační zpřesnění, která optimalizuje Gotoh je vážený součet párů (WSP) skóre, se skupinou-skupina zarovnání a strom-závislá omezení, oddílu technika . Pokud jsou všechny tři kroky jsou zaměstnáni, postup se nazývá FFT-NS-i, což znamená, že používá FFT metoda rychle určit homologní regiony přítomny v sekvencích, které následuje iterativní fáze zdokonalování., FFT převede každý aminokyselin přítomných v sekvenci do vektoru představující objem a polarity, které jsou důležité faktory, na střídání událostí, což umožňuje software předvídat takové události s přesností.

Mafft obsahuje také tři další zdokonalovací algoritmy: L-INS-i, G-INS-I A E-INS-i . Tyto strategie zvyšují počet kroků potřebných k vytvoření zarovnání MSA na pět. V těchto případech první krok také vyžaduje konstrukci distanční matice, která nepoužívá 6-tuples., Jinak z FFT-NS-* přístupy nemáme žádné rekonstrukce vypočtené UPGMA strom a program se přesune na druhý krok, dělící mezery-zdarma segmenty a ukládání skóre pole pro každou mezeru-zdarma segmentu z jedné sekvence do jiné. Mafft pak vypočítá hodnotu „důležitosti“ ze skóre segmentu a ukládá, jak často se zbytky objevují na jiných segmentech., Všechny hodnoty “ důležitosti „jsou pak shromážděny v matici“ důležitosti “ v kroku tři, po kterém rychle následuje zarovnání skupiny ke skupině získané z matic skóre a schéma vážení založené na algoritmu Needleman-Wunsch. Poslední krok iterativně vylepšuje získané zarovnání, optimalizuje skóre WSP a hodnoty“ důležitosti “ vypočtené dříve.

ProbCons (Pravděpodobnostní Konzistence-based multiple sequence alignment) verze 1.1

ProbCons je jediný program, který využívá pravděpodobnostní konzistence způsob zarovnání., Jedná se o modifikaci tradičního součtu párů bodovací systém, a navíc obsahuje dvojici skryté Markov modelu založené progresivní zarovnání algoritmus. Postup zarovnání je rozdělen do čtyř kroků, počínaje výpočtem matric zadní pravděpodobnosti pro každý pár sekvencí. Následuje dynamický programovací výpočet očekávané přesnosti každého párového zarovnání. Pravděpodobnostní transformace konzistence se pak používá k opětovnému odhadu skóre přesnosti zápasu., Vodicí strom se vypočítá s hierarchickým shlukováním s podobností definovanou váženým průměrem hodnot mezi sekvencemi každého clusteru. Vodicí strom se používá k zarovnání sekvencí pomocí progresivního přístupu. Provádí se také fáze post-zpracování, kde jsou náhodné bi-oddíly generovaného zarovnání zarovnány, aby se zkontrolovaly lepší oblasti zarovnání. ProbCons se liší od jiných zarovnání programů, protože to neobsahuje biologické pojmy jako poloha-specifické mezery bodování, evoluční strom, stavba a další funkce běžně používá jiné balíčky.,

Dialign-T verze 0.2.1

Tento program je re-implementace postup, který byl vyvinut v Dialign2.2, ale s lepší řešení jednat v rozporu s fragmenty, včetně fragment-řetězení. Implementuje také nový přístup pro odhad pravděpodobnosti náhodného výskytu každého fragmentu přítomného v sekvenci, která má být zarovnána. Dialign-T nepoužívá předem vypočtené tabulky za účelem získání skóre hmotnosti: vypočítává pravděpodobnostní tabulky z několika substitučních matic. Navíc chamtivý algoritmus vícenásobného zarovnání z Dialign2.,2 byl změněn, aby se zabránilo falešným místním podobnostem.

Kalign Verze 1.04

Kalign je další program, který používá postupný přístup zarovnání získat co nejlepší MSA možné. Hlavní rozdíl tohoto algoritmu s jinými metodami je, že to zaměstnává Wu-Manber přibližná řetězec odpovídající algoritmus při výpočtu vzdáleností mezi sekvencemi. Wu-Manber algoritmus měří vzdálenost mezi dvěma řetězci pomocí Levenshteinova editační vzdálenost, která umožňuje efektivní hledání nesouladu (sdílená nebo ne) a vzory přítomné v sekvencích., Podle vývojářů Kalign tato metodika umožňuje odhad vzdálenosti, který je stejně rychlý jako algoritmus k-Tice, ale je přesnější . Prvním krokem v postupu zarovnání je výpočet párových vzdáleností pomocí přístupu Wu-Manber. Párového odhad vzdálenosti následuje výstavba průvodce stromu pomocí UPGMA, který je zaměstnán v globální dynamické programování metoda zarovnání sekvencí/profily., Navíc, program provádí kontrolu konzistence s cílem definovat největší nastavit pořadí zápasů, která může být vložena do vyrovnání, pomocí upravené verze Needleman-Wunsch najít nejvíce konzistentní cestu přes dynamické programování matrix. Taky, Kalign aktualizuje pozice vzorových zápasů, který upravuje absolutní polohu zápasů nalezených v sekvencích na jejich relativní pozice v generovaných profilech .