Articles

Páronként összehangolása nukleotid szekvenciák használata maximális pontosan megegyezik


Megközelítés

A javasolt algoritmus, az első lépés a felé, hogy igazító, sorozatok, hogy a kivonat MEMs között szekvenciák által közvetlenül összehasonlítani őket. A 3a. ábra egy olyan példa, amely összehasonlít egy célt és egy lekérdezési sorrendet, ahol a CTC és AAA az összehasonlítással azonosított két MEMs. Az összehasonlításban a folyamatos azonos szimbólumok minden csoportja MEM-et eredményez, még akkor is, ha csak egyetlen megfelelő szimbólumból áll., Annak érdekében, hogy az összes MEMs-t kinyerjük a szekvenciák között, a lekérdezési szekvenciát egyszerre jobbra és balra kell eltolni (Lásd az ábrát. 3b). Minden egyes műszak után meg kell ismételni az összehasonlító lépést az új MEMs azonosításához. Például a harmadik sor az ábrán. A 3B azt az esetet jelöli, amikor a lekérdezési szekvencia jobbra tolódik, és összehasonlításra kerül a célszekvenciával. Az összehasonlítás eredménye az aaaagc-t új MEM-ként azonosítja. A shift és compare műveletekkel kivont összes többi MEMs-t az ábra is kiemeli. 3b., Három MEMs (Mx,My and Mz) van kiemelve különböző színekkel kell használni a későbbi magyarázatot.

ábra. 3

MEM extraction using shift and compare operations. a azonosítani MEMs közvetlen összehasonlítása szekvenciák. b a lekérdezés balra tolódik, amíg a lekérdezéssorozat utolsó szimbóluma a célsorozat első szimbólumához igazodik. Ezután a lekérdezési sorrend jobbra tolódik, amíg a lekérdezési sorrend első szimbóluma a célsorozat utolsó szimbólumához nem igazodik., Minden egyes műszak után a lekérdezés és a célsorozatok egymást átfedő részét összehasonlítjuk az új MEMs azonosításával. Három MEMs (MX, My and Mz) vannak kiemelve különböző színekkel kell használni a későbbi magyarázat

az affine-gap pontozási modell, az igazítási pontszám, mint számítjuk Eq., 1 ahol Nm a mérkőzések száma minden kap egy mérkőzés pontszám Rm, Nx száma eltéréseket minden részesülő mismatch büntetés Px, nem száma rés nyílások minden részesülő rés nyílt büntetés Po és Ng teljes hossza az összes hiányosságok, minden rés kap egy rés kiterjesztése büntetést Pg. A folyamatos rés minden csoportja számára rés nyílna. Például, ha két rés van az igazításban, ahol az első rés hossza három, a második rés hossza pedig négy, akkor két rés nyílás van (No=2), a rés teljes hossza pedig hét (Ng=3+4=7).,

$ {} AS = (N_{m} \ times R_{m})- ((N_{x} \ times p_{x}) + (N_{o} \ times p_{o}) + (n_{g} \ times p_{g})) $
(1)

az összes mem listája alapján az igazítás részleges igazításokkal számítható ki. Vegyük például a MEMs Mx-et, az én-t és az MZ-t az ábrán. 3b.az MX, Az én és az Mz különböző kombinációinak, valamint a mérkőzések számának, az eltéréseknek és a hiányosságoknak, valamint az így kapott igazítási pontszámoknak a részleges igazítása az ábrán látható. 4. Az igazítás, amely csak az Mx-et és az Mz-t tartalmazza, a legmagasabb igazítási pontszámot eredményezi., Vegye figyelembe, hogy az én és az Mz átfedik egymást, és ha mindkettőt ugyanabban az igazításban veszik figyelembe, az átfedés kizárt az MZ-ből. Figyelembe véve az összes MEMs ábra. A 3b sokkal több kombinációt eredményez, ahol egyikük sem ér el magasabb pontszámot.

ábra. 4

minden lehetséges kombinációját MEMs a nyomvonal

minden lehetséges kombinációja MEMs kimerítő lenne., Az “igazítási algoritmus” részben egy új dinamikus programozási algoritmust, a DP-MEM-et írunk le, amely hatékonyan megtalálja a legjobb kombinációt anélkül, hogy minden esetet figyelembe vennénk. A DP-MEM-nek tudnia kell, hogy a szekvenciák mely részei egyeznek, de nem a szekvenciák tényleges szimbólumai. A DP-MEM bemenete a MEMs pozícionálása a célban és a lekérdezési szekvenciákban, amelyeket a MEM extrakciós folyamat során kapunk, a “MEM extraction” szakaszban leírva., Hogyan MEMs képviseli álláspontjukat, hogy a szám egyezik, eltéréseket, illetve a hiányosságok vannak számított, amikor MEMs kombinált egy igazítás után kifejtette, a fennmaradó ez a szakasz. 5. ábra egy másik példa igazítás hat MEMs (M1 – M6), amelyek alkotják az igazítás között cél szekvencia T lekérdezés szekvencia Q. az egyszerűség kedvéért nincs átfedés a MEMs ebben a példában. Minden MEM Mi az egész számok hármasaként van ábrázolva: a T-ben és a Q-ban (STi és SQi sorrendben), valamint annak hossza (Li)., A t és Q végződési pozícióit később lehet kiszámítani (a 2. algoritmus Φ2E). Az 1. táblázat az M1-M6 hosszát és pozicionálását sorolja fel T-ben és Q-ban.

ábra. 5

egy példa igazítás kiemelt MEM

1.táblázat a MEMS kezdő és záró pozíciója az ábrán., 5
2.táblázat a MEMs közötti eltérések és hiányosságok számítási száma az ábrán. 5

amennyiben az Mi és az Mj közötti eltérések és hiányosságok is fennállnak, az összes rést folyamatosnak tekintik a rés csökkentése érdekében nyílt büntetés (csak egy rés nyílt büntetést alkalmaznak egy folyamatos rés esetén). Így minden olyan szomszédos MEMs esetében, amelyek között rések vannak, csak egy rés nyílt büntetést alkalmaznak., Az eltérések elhelyezése és az egyetlen folyamatos rés nem fontos, mivel ez nem befolyásolná az igazítási pontszámot. Feltételezzük, hogy az eltérés büntetése állandó (ez a DNS-szekvenciák esetében szokásos).

MEM extraction

vannak módszerek a maximális pontos egyezések kinyerésére a hosszadalmas szekvenciák, például egy teljes genom között. Ezek a módszerek azonban egy vagy mindkét szekvencia előfeldolgozásán és indexelésén alapulnak, ami időigényes művelet. Például a DNS read aligner-ben a referencia-genomot egyszer indexelik, és ugyanazt az indexet használják minden alkalommal, amikor egy új olvasást igazítanak., Egy gyors algoritmust keresünk, amely azonosítja a MEMs-t az egyes igazításokhoz változó viszonylag rövid szekvenciák között. A brute force módszer erre a problémára (további fájl 1: szakasz II) lassú és nem hatékony(a komplexitás O (n3)). Gyors bitszintű párhuzamos módszert javasolunk a MEM extrakciós folyamat felgyorsítására. A MEM extrakciós módszerünk az ábrán látható eltolódáson és összehasonlításon alapul. 3b. az első lépés a bitvektorokkal rendelkező szekvenciák ábrázolása, ahol az A, C, T és G kódolása 00, 01, 10, illetve 11 (további 1.fájl: III. szakasz)., A 6. ábra egy példasorozatpárt ábrázol, a megfelelő bitvektor-ábrázolásokkal együtt. Egy árucikk számítógép, a gép szó általában 64 bit, amely képes befogadni 32 nukleotid szimbólumok. Mivel egy szekvencia általában nagyobb, mint 32 szimbólum, a megfelelő bitvektor több gépi szóban tárolódik. Minden művelet bitvektorok szekvenciák mérete n szimbólumok hat \(\lceil \frac {N}{32} \rceil \) gép szavak.

ábra., 6

Bitvektorokkal rendelkező sorozatok ábrázolása. XOR kimenet (X) kiemelt MEMs. Élek bit-vektor (E) azonosítja a start és a végén minden MEMs

bit-Vektorok ábrázolása szekvenciák, változó egy szekvencia egy szimbólum ugyanaz, mint a változó a bit-vektor két bit, és összehasonlítjuk szekvenciák lehet tenni XOR utasítás (32 szimbólumok egy időben). A XOR kimeneten (X) a 00 azt jelenti, hogy a szimbólumok egyeznek, a 00-as évek sorozata pedig egy MEM-et mutat., Az 1. algoritmus szerinti eltolás és bitenkénti műveletek halmaza kiszámítja az X-et, majd az edge bitvektort (E), amelyben az egyes MEM-ek kezdete és vége meghatározott bitekkel van kiemelve (egy értékű bitek). A 6. ábra az X és az E bitvektorokat mutatja kiemelt MEMs-ekkel. A MEMs helymeghatározását szekvenciákban ezután az edge bit-vektorból számítják ki (további 1.fájl: IV. szakasz).,

igazítási algoritmus

a “megközelítés” szakaszban megmutatjuk, hogy a MEMs különböző kombinációinak figyelembe vételével és a megfelelő igazítási pontszám kiszámításával azonosíthatjuk a MEMs kombinációját, amely a maximális igazítási pontszámot eredményezi. A MEMs minden lehetséges kombinációjának vizsgálata azonban naiv megoldás. Az összehangolás hatékonyabb megtalálásának szisztematikusabb módja a dinamikus programozás használata.

A dinamikus programozás az a módszer, amellyel a kisebb alproblémák meghatározásával, megoldásával közelítünk a probléma megoldásához., Az alproblémák megoldásait egy nagyobb probléma megoldására használják minden lépésben. A folyamatot addig ismételjük, amíg az összes alprobléma meg nem oldódik. Végül az egyik alprobléma megoldása lenne a kezdeti probléma megoldása. Amikor minden probléma megoldódik, a visszalépési folyamat számos olyan megoldást azonosít, amelyek hozzájárulnak a végső megoldáshoz. A dinamikus programozásban meg kell rendelni a bemeneti adatokat, amelyek mentén a rekurziós eljárás folytatódik.

az összes MEMs-t a végük pozíciója szerint rendezzük lekérdezési sorrendben (EQ)., Az ugyanabban a helyzetben végződő MEMs tetszőleges módon kerül megrendelésre. A jth alproblem a jth MEM Mj (t, illetve Q) végződésű t és Q alproblem összehangolását jelenti. Megmutatjuk, hogy ez a MEM megrendelés elegendő a helyes rekurzió támogatásához.

a MEMs rendezett listájában az EQi = EQj azt jelzi, hogy az egyik Mi vagy Mj teljesen átfedi a másik MEM-et a lekérdezési sorrendben. Mivel a 2. algoritmus Φ2B-jében az átfedési tartomány kizárt, az Mi és az Mj nem lehet ugyanabban az igazításban., Így az ith és jth alproblémák egymástól függetlenül oldódnak meg, és a rendezett listában az I és j sorrendje tetszőleges lehet. Ha eqk>EQj (k> j a rendezett listában), az Mk nem lehet az MJ-ben végződő igazítás része. Így a JTH alproblémák a megoldástól a kth alproblémáig függetlenül megoldhatók. Vegye figyelembe, hogy a MEMs-t a célsorozatban (ET) végződő pozíciójuk alapján is hasonló indoklás alapján lehet rendezni.

a javasolt dinamikus programozási algoritmusunk (DP-MEM) a 2.algoritmusban kerül kidolgozásra., A példa MEMs kivont ábra. 3b, az algoritmusban kiszámított dinamikus programozási táblázat és közbenső érték füge-ben látható. 7, illetve 8. A DP-MEM bemenete a MEMs listája, ahol minden MEM (Mj) egész számok hármasa . A második n bemenet a MEMs száma a listában. Az S kimenet a szekvenciák igazítási pontszáma. Az algoritmus kiírja az összes olyan MEMs indexet, amely az igazítást képezi, ahol az első és az utolsó nyomtatott számok a jobb szélső, illetve a bal szélső MEMs indexei az igazításban., A 2. algoritmus minden lépését a következőképpen kommentáljuk:

ábra. 7

dinamikus programozási táblázat használt algoritmus 2 feldolgozni extrahált MEMs ábra. 3b. az I. és a j cella a \(s_{I}^{j}\) értékét jelenti. Az üres cellákat nem értékelik Φ2-ben. Értékelése sejtek keresztjel kihagyjuk Φ2A. kezdeti értéke SJ számítjuk Φ1. Az SJ és annak forrása (mi maximalizálja az Sj-T) végső értéke minden sorban kiemelésre kerül. A legmagasabb Sj (S13) az igazítási pontszám., Az M13 az utolsó mem az igazításban, a MEM pedig előtte MW=M3. Mivel W=-1, Az M3 az első mem az igazításban. Az igazítás pontozási rendszere Rm=2,Px=3, Po=4 és PE=1

ábra. 8

Intermediate values to compute \(s_{I}^{j}\) in Fig. 7. Vegye figyelembe, hogy ebben az ábrán a Sij a \(s_{i}^{j}\)

  • Φ1: minden MEM pontozása az összes megfelelő szimbólumra., Vegye figyelembe, hogy vannak Lj megfelelő szimbólumok Mj. Az SJ az MJ-nél végződő igazítás legmagasabb igazítási pontszámát jelenti. Az SJ inicializálása ebben a lépésben hasonló a részleges igazítási pontszám kiszámításához, ha csak az MJ szerepel az igazításban. W használják backtracking. A -1 értéke azt jelzi, hogy az aktuális Sj-t úgy kapjuk meg, hogy csak az MJ-t vesszük figyelembe az igazításban.

  • Φ2: SJ kiszámítása minden MEM (Mj) esetében., Az SJ kiszámításához minden MEM Mi-hez, ahol a mi megjelenik az MJ előtt a listában, az algoritmus hozzáadja az MJ-t a mi-hez végződő igazításhoz (kiterjesztve a korábban talált nyomvonalakat), és megkeresi az SJ-T maximalizáló kiterjesztést (egy nagyobb alprobléma megoldása korábban megoldott alproblémák segítségével).

  • Φ2A: kihagyja a kiterjesztést, ha ez nem lehetséges. Ha az ETi > ETj akkor a mi a célsorozat azon részét tartalmazza, amely túlmutat az MJ-nél végződő igazításon, és a kiterjesztés nem lehetséges. Ha EQi = EQj vagy ETi = ETj vagy SQI≥SQj vagy STi≥STj akkor az egyik MEMs teljesen átfedi a másik MEM., Ebben az esetben a Mi és az Mj nem lehet együtt.

  • Φ2B: a mi és az Mj közötti átfedés hosszának kiszámítása. Ha a \({Mo} _ {i}^{j}\) kisebb vagy egyenlő nullával,akkor nincs átfedés.

  • Φ2C: az MJ másolatának megtartása az átfedés kizárása előtt.

  • Φ2D: ha van átfedés, kivéve az átfedéseket Mj

  • Φ2E: MJ számítási véghelyzete T-ben és Q.

  • Φ2F: a mi és MJ közötti távolság (szimbólumok száma) kiszámítása T-ben és Q.

  • Φ2G: a mi és Mj közötti eltérések és rések számítási száma.,

  • Φ2H: a mi és az MJ közötti eltérések és rések büntetésének kiszámítása (\(p_{I}^{j}\)). Ha rés létezik, csak egy rés nyílt büntetés levonásra kerül.

  • Φ2I: számítási igazítási pontszám \(\bal (s_{I}^{j} \ jobb)\), amikor az MJ-t hozzáadják a mi-nél végződő igazításhoz. A pontszám az összes megfelelő szimbólumok Mj (Lj×Rm) adunk az igazítás pontszám az igazítás végződő Mi (Si). Ezután levonásra kerül a mi és Mj\(\bal (P_{I}^{j}\jobb) \ közötti különbségekre és eltérésekre vonatkozó büntetés.,

  • Φ2J: ha az MJ-nek a mi-ben végződő igazításra való kiterjesztése \(\bal (s_{I}^{j}\jobb)\) pontszámot eredményez, akkor az új pontszámot SJ-ben tárolják. Szintén w van beállítva, hogy én nyomon követni a Mi, hogy maximalizálja a pontszám Mj.

  • Φ2K: az MJ értékének visszaállítása kizárás előtt, hogy az MJ más igazítási kiterjesztésekben is használható legyen.

  • Φ3: keresi a MEM a legmagasabb Sj. Ez a MEM az utolsó mem az igazításban (Me)., A legmagasabb pontszámot (Se) s-ként adják vissza, amely az adott szekvenciák legmagasabb igazítási pontszáma. A MEM indexe, amely maximalizálja az Sj-t, az e-ben tárolódik, hogy visszamenjen tőlem.

  • Φ4: az igazításban a közvetlen előző MEM számomra az, amely maximalizálja számomra az igazítási pontszámot. Az ilyen MEM indexe W-ben van tárolva, ennek eredményeként az f←W iterációja meglátogatja az összes mem indexét az igazításban. Ha W egyenlő -1-gyel, az MF az első mem az igazításban, és az iteráció leáll.,

algoritmusunkban nem büntetjük az eltéréseket és hiányosságokat az első MEM előtt és az utolsó mem után az igazításban. Ez egy helyi igazítási algoritmust eredményez. Figyelembe véve ezeket a szankciókat az algoritmus generál egy globális igazítás (további fájl 1: V szakasz).

Az egyenlet, hogy kiszámolja \(P_{i}^{j}\) a Φ2H az Algoritmus 2 feltételezi, hogy nincs megfelelő szimbólum között, T, Q a terület között, Mi pedig Mj (minden szimbólum számítanak eltéréseket, vagy hiányos)., Bár ez a feltételezés nem igaz, minden Mi mindig igaz az, hogy Mi vezet a maximális \(S_{i}^{j}\), amely érvényteleníti a hatás a feltételezés, hogy helytelen más Mi. Bizonyítékként tegyük fel, hogy van egy megfelelő szimbólum a mi és Mj közötti területen. A megfelelő szimbólum MEM (Mk) lenne. Az Mk-t már kiterjesztették a mi-nél végződő igazításra. Így, amikor az Mj-t Mk-re terjesztjük, magasabb pontszámot érünk el, mint az Mj-t a Mi-re.

a kolineáris magok Láncolását, amint azt az alábbiakban tárgyaltuk, széles körben alkalmazták a nagy szekvenciák, azaz a genom-Genom összehangolásában., Azt is használják, hogy azonosítsa jelölt régiók olvasási adott egy sor MEMs BWA. A pontozási algoritmusok láncolása hasonló az általunk javasolt dinamikus programozási algoritmushoz (DP-MEM). Vannak azonban különbségek, amelyek miatt a DP-MEM alkalmas a rövid szekvenciák páros igazítására. A DP-MEM figyelembe veszi, hogy egy bizonyos résméreten belül minden mem megtalálható a bemenetben, és optimalizálja az algoritmus iterációjának számát. A DP-MEM heurisztikus megközelítést alkalmaz a bemeneti listáról eltávolított rövid MEMs hatásának kompenzálására, ami a MEMs közötti réseket eredményezi.,

Optimalizálás

az Adott szekvenciák hossza n, az algoritmus kivonat MEMs (feltéve, hogy a “MEM extrakciós” részt) szükséges 2(n−1) a shift billentyűt, majd 2n−1 hasonlítsa össze műveletek kicsit-vektorok (minden törvény a \(\lceil \frac {n}{32} \rceil \) gép szavak), hogy az eredmény egy algoritmust bonyolultsága O(n2) hogy termel széle kicsit-vektorok az adott pár sorozatok. Még hozzá kell adni annak a függvénynek a bonyolultságát, amely kiszámítja a MEMs pozícionálását az edge bit-vektorból, majd az EQ alapján rendezi őket. Továbbá, ha m MEMs extraháljuk, Φ2 algoritmus 2 (DP-MEM) a komplexitás O(m2)., Figyelembe véve a MEM extrakció és a DP-MEM bonyolultságát, a MEM-Align sokkal lassabb, mint a rendelkezésre álló igazítási algoritmusok. A folyamat felgyorsítása érdekében számos optimalizálást mutatunk be a MEM-Align számára, amely a pontosság feláldozásával gyorsabb futási időt ér el. Másrészt olyan módszereket vezetünk be, amelyek javítják a pontosságot minimális teljesítményveszteséggel.

sávos igazítás

sávos igazítás ismert heurisztikus módszer az igazítási folyamat felgyorsítására. Ez a technika korlátozza az igazítás réseinek mintáját (további 1.fájl: Vi. szakasz)., Következésképpen, ha a két szekvencia közötti igazítás nem követi ezt a mintát, az algoritmus nem fogja azonosítani az igazítást. A hagyományos dinamikus programozásban az igazítás a táblázat összes cellájának értékének kiszámítása után érhető el. A sávos igazítás optimalizálásával azonban csak az átmérőn lévő és az átlóhoz közeli cellákat értékeljük. gl a sáv szélessége sávos igazításban, ahol a GL-nél távolabb lévő cellákat nem értékelik. Sötétebb sejtek ábra. 1 mutassa meg azt az esetet, ahol gl=1.,

a hagyományos dinamikus programozási megközelítéssel ellentétben a MEM-Align nem rendelkezik hasonló táblával a sávos igazítás alkalmazásához. Megállapítottuk azonban, hogy ugyanazt a hatást szimulálhatjuk, ha korlátozzuk a MEM extrakciós folyamat műszakműveleteinek számát. Ha például a lekérdezési sorrendet GL-re jobbra vagy balra toljuk, akkor sávos igazítást érünk el a gl sávjával. Sávos-igazítás csökkenti a MEM extrakció összetettségét O(n2) – ról O(n.(2GL+1)) – ra, ahol a gl kicsi és rögzített érték. Így a MEM extrakció összetettsége O(n), ha sávos igazítást alkalmaznak., Is, az említett sávos igazítás, valószínű, hogy kevesebb MEMs kivonjuk, amely felgyorsítja a későbbi algoritmikus lépéseket.

Short MEM removal

megfigyeltük, hogy a kivont Memek többsége rövid, és véletlenszerűen illeszkedő szimbólumok eredménye. A MEM-Align felgyorsítása érdekében az sl-nél rövidebb MEMs-t kiszűrik a MEM extrakciós folyamat során. Ez csökkenti a kibontandó és feldolgozandó MEMs-ek számát (ezt követően gyorsítja az algoritmust). A rövid MEM szűrése úgy történik, hogy az 1.algoritmust egy sor shift és bitwise művelettel kiterjesztjük (további 1. fájl: VII szakasz).,

másrészt vannak olyan ritka esetek, amikor a rövid MEMs az igazítás része; például egy megfelelő szimbólum, amelyet eltérések vesznek körül. Anélkül, hogy az összes MEMs a beviteli listában, DP-MEM nem tudja megtalálni ugyanazt az igazítást, mint azt találja, ha az összes MEMs létezik a beviteli listában. Annak érdekében, hogy kompenzálja az elveszett rövid MEMs a bemenet, módosítjuk Φ2H a DP-MEM, hogy fontolja meg annak lehetőségét, hogy rövid mérkőzések között MEMs (további fájl 1: szakasz VIII).

lehetnek nehezebb esetek, amikor az összehangolásban több rövid MEMs létezik két MEMs között (lásd az ábrát. 9)., Az egyetlen módja annak, hogy helyesen azonosítsuk a mi és MJ közötti területet Φ2H-ban, ha globális igazítást alkalmazunk erre a régióra. A Φ2H azonban gyakori művelet, és gyorsnak kell maradnia. Következésképpen úgy döntöttünk, hogy részben leküzdjük a problémát a lehetséges esetek korlátozásával (heurisztikus módszer).

ábra., 9

egy példa, amely több rövid MEM-et mutat a Mi és Mj közötti kis területen

Ha a mi és a div közötti területen hiányosságok vannak MJ, feltételezzük, hogy csak egy folyamatos rés van a terület bal vagy jobb vége felé. Ezután csak két igazítás lehetséges a területen., A megfelelő szimbólumok számát mindkét esetben szekvenciális módon számoljuk, és azt, amely maximális egyezést eredményez, az Mi és az Mj közötti mérkőzések számának tekintjük (további 1.fájl: IX. szakasz). A szekvenciális összehasonlítás drága művelet, ezért kidolgozunk egy módszert a szekvenciális összehasonlítás elkerülésére, ha lehetséges (további 1. fájl: X szakasz).

bármely más eset, amely nem felel meg a fenti feltételezésnek, alacsonyabb pontszámot eredményez., Figyelembe véve azonban a hiányosságok és az eltérések alacsony arányát, alacsony annak a lehetősége, hogy egy kis területen több rés és eltérés legyen.

hatékony igazítás kiterjesztés

a Φ2 a DP-MEM, Mj kiterjeszti az összes nyomvonalakat, hogy a végén {M1…Mj-1} (ha lehetséges). Azonban minden MJ esetében van egy kisebb részhalmaza Ωj {{M1 … Mj-1} úgy, hogy az MJ kiterjesztésével a mi∈Ωj-ben végződő összes nyomvonalakra megtaláljuk az MJ-ben végződő igazítást (Eq. 2). Más szavakkal, kevesebb\ (s_{I}^{j}\) értékelhető lenne. Az Ωj halmaz meghatározása és az Eq igazolása. Az 2 további fájlban található 1: szakasz XI., Az Ωj definícióját befolyásolja a rövid MEM eltávolítási optimalizálás alkalmazása (további 1. fájl: XII. szakasz).

$ \max\limits_{m_{i} \in \Omega_{j}}{s_{I}^{j}} = \max\limits_{1 \leq I \leq j-1}{s_{I}^{j} $
(2)

hibrid igazítás

az algoritmus pontosságának fenntartása érdekében úgy döntött, hogy egy hibrid módszert alkalmaz, amely a mem-align és a Smith-Waterman algoritmus kombinációja. Három olyan esetet határozunk meg, amikor a MEM-Align pontatlan lehet., Ha egy pár szekvencia összehangolása ezen esetek egyikébe esik, akkor a Smith-Waterman algoritmust használjuk a szekvenciák összehangolására. Ezek az esetek a következők:

  • amikor a szekvenciák ismétlődnek, és az extrahált Memek száma meghaladja a TM küszöbértéket. Azt találtuk, hogy a Mem-Align valószínűleg pontatlan igazítást eredményez az ismétlődő szekvenciák összehangolásakor. A megfelelő TM érték csökkenti a pontatlan igazítás bejelentésének esélyét az átlagos feldolgozási idő elhanyagolható növekedésével.,

  • Ha a MEM-Align által generált igazítás számított igazítási pontszáma alacsonyabb, mint egy TS küszöbérték. Ez az eset leginkább akkor fordul elő, ha van egy rés az igazításban, amelyet a sávos igazítás miatt nem lehet azonosítani.

  • Ha az SL-nél nem hosszabb MEM létezik kivonásra (ritka eset)., Ha az sl nagy értékre van állítva, és a szekvenciák közötti hasonlóság alacsony,

bár a szekvenciapárok külső algoritmushoz történő küldése további számítást eredményez, a külső algoritmushoz küldött szekvenciák száma kicsi marad, ha a TM és TS számára megfelelő értékeket választanak.

távoli MEMs

kihagyása ha a Mi és az Mj közötti távolság nagy, nem valószínű, hogy a mi és az Mj szomszédos MEMs-ekként vannak az igazításban., Ezért az algoritmus kihagyja a kiterjesztést, ha az Mi és az Mj közötti távolság hosszabb, mint egy küszöbérték TD (tovább csökkentve az értékelendő \(s_{I}^{j}\) számát). Ez az optimalizálás kissé javítja a teljesítményt, elhanyagolható mellékhatással a pontosságra.