Articles

Pairwise linjaus nukleotidin sekvenssit käyttäen maksimaalinen tarkka ottelut

Toimintamalli

– meidän ehdotettu algoritmi, ensimmäinen askel kohti kohdistamalla sekvenssit on ote MEMs välillä sekvenssit suoraan vertaamalla niitä. Kuvassa 3 on esimerkki, jossa verrataan kohteen ja kyselyn järjestyksessä, jossa CTC-ja AAA-ovat kaksi MEMs tunnistaa vertailu. Kunkin ryhmän jatkuva samanlaista symbolia vertailu, tulos MEM vaikka se koostuu vain yhden matching symboli., Jotta poimia kaikki MEMs välillä sekvenssit, kyselyn sekvenssi on siirrettävä kaikki oikealle ja vasemmalle yksi merkki kerrallaan (ks. 3 B). Jokaisen vuoron jälkeen vertailuvaihe on toistettava uusien MEMs-arvojen tunnistamiseksi. Esimerkiksi kolmas rivi Fig. 3b edustaa tapausta, jossa kyselyn sekvenssi on siirtynyt oikealle yksi merkki ja verrataan kohde-järjestyksessä. Vertailun tulos tunnistaa AAAAAGC: n uudeksi MEM: ksi. Kaikki muut vuoro-ja vertailutoiminnot poimitaan myös Kuvassa. 3 B., Kolme MEMs (Mx,My ja Mz) on korostettu erivärisiä käytetään myöhemmin selitys.

Kuva. 3

MEM louhinta käyttämällä shift ja vertailla toimintaa. tunnista Meems vertaamalla suoraan sekvenssejä. B kysely siirretään vasemmalle, kunnes viimeinen symboli kyselyjaksossa on kohdistettu ensimmäiseen symboliin kohdejaksossa. Sitten kyselyjakso siirretään oikealle, kunnes kyselyjakson ensimmäinen symboli on kohdistettu kohdejakson viimeiseen symboliin., Jokaisen vuoron jälkeen kyselyn ja kohdesarjojen päällekkäistä osaa verrataan uusien MEMs-arvojen tunnistamiseen. Kolme MEMs (Mx,My ja Mz) on korostettu eri väreillä voidaan käyttää myöhemmin selitys

Vuonna affine-aukko pisteytys malli, tasauksen pisteet on laskettu käyttämällä Eq., 1, jossa Nm on määrä vastaa kunkin vastaanottavan ottelun pisteet Rm,Nx on useita keskinäisiä eroja kunkin vastaanottavan epäsuhta rangaistus Px,Ei on määrä aukko aukot kunkin vastaanottavan aukon auki rangaistus Po ja Ng on kokonaispituus kaikki aukot, jokainen rako saa gap extension penalty Pg. Jokaiselle yhtäjaksoisen aukon ryhmälle avautuisi aukko. Esimerkiksi, jos on kaksi aukkoja linjaus, jossa pituus ensimmäinen kuilu on kolme ja pituus toinen ero on neljä, sitten on kaksi aukko aukot (N=2) ja kokonaispituus ero on seitsemän (Ng=3+4=7).,

$$ {}AS = (N_{m} \times R_{m}) – ((N_{x} \times P_{x}) + (N_{o} \times P_{o}) + (N_{g} \times P_{g})) $$
(1)

Koska luettelo kaikista MEMs, linjaus voidaan laskea käyttämällä osittaista linjauksia. Ajatellaan esimerkiksi MEMs-Mx, My ja Mz Kuvassa. 3b. Osittainen linjauksia on tehty ottamalla erilaisia yhdistelmiä Mx, My ja Mz yhdessä määrä otteluita, kohtaanto-ongelmia ja puutteita, sekä tuloksena linjaus tulokset on esitetty Kuviossa. 4. Linjaus, joka sisältää vain Mx: n ja Mz: n, johtaa korkeimpaan linjauspisteeseen., Huomaa, että My ja Mz päällekkäin ja kun molemmat pidetään sama linjaus päällekkäisyys on jätetty pois Mz. Ottaen huomioon kaikki Helmitaulut. 3b johtaa moniin muihin yhdistelmiin, joissa yksikään niistä ei saa korkeampaa pistemäärää.

Kuva. 4

Kaikki mahdolliset yhdistelmä MEMs-linjaus

Tutkitaan kaikki mahdollinen yhdistelmä MEMs olisi tyhjentävä., ”Linjausalgoritmi” – osiossa kuvaillaan uutta dynaamista ohjelmointialgoritmia DP-MEM, joka löytää tehokkaasti parhaan yhdistelmän ottamatta huomioon kaikkia tapauksia. DP-MEM: n on tiedettävä, mitkä sekvenssien osat vastaavat toisiaan, mutta ei sekvenssien varsinaisia symboleita. Tulo DP-MEM-on paikannus MEMs kohde ja kyselyn sekvenssit, jotka on saatu aikana MEM louhinta prosessi on kuvattu ”MEM louhinta” – osiossa., Miten MEMs ovat edustettuina niiden kantoja ja miten määrä otteluita, kohtaanto-ongelmia ja puutteita ovat lasketaan kun MEMs on yhdistetty linjaus selitetään jäljempänä tässä osassa. Kuvassa 5 on toinen esimerkki linjaus kuusi MEMs (M1-M6), jotka muodostavat linjaus välillä kohdesekvenssin T ja kyselyn järjestyksessä Q. yksinkertaisuuden välillä ei ole päällekkäisyyttä MEMs-tässä esimerkki. Jokainen MEM Mi on edustettuina kolmikon kokonaisluku numerot: lähtökohdat vuonna T ja Q (STi ja SQi vastaavasti) ja sen pituus (Li)., Loppupisteet T: ssä ja Q: ssa voidaan laskea myöhemmin (Φ2E algoritmista 2). Taulukossa 1 luetellaan pituus ja paikannus M1-M6 T ja Q.

Kuva. 5

esimerkki linjaus, jossa korostetaan MEM

Taulukko 1, joka Alkaa ja päättyy sijainti MEMs-Kuviossa., 5
Taulukko 2 Computing määrän epäsuhta ja erot MEMs-Kuviossa. 5

tapauksessa on sekä kysynnän ja tarjonnan kohtaamattomuus ja erot Mi ja Mj, kaikki aukot pidetään jatkuvasti vähentää aukon auki rangaistus (vain yksi aukko auki rangaistus sovelletaan edelleen kuilu). Näin ollen kaikkiin vierekkäisiin Emeihin, joiden välillä on aukkoja, sovelletaan vain yhtä avointen rangaistusten aukkoa., Sijoittaminen kohtaanto-ongelmaan ja vain jatkuva ero ei ole merkittävä, koska se ei vaikuta kohdistus pisteet. Oletamme, että epäsuhta rangaistus on vakio (tämä on tavallista DNA sekvenssejä).

MEM louhinta

On olemassa menetelmiä poimia maksimaalisen tarkka otteluiden välillä pitkiä sekvenssejä, kuten koko genomin. Nämä menetelmät perustuvat kuitenkin yhden tai molempien sekvenssien esikäsittelyyn ja indeksointiin, mikä on aikaa vievää toimintaa. Esimerkiksi DNA lukea aligner, viite-genomi on indeksoitu kerran, ja sama indeksi käytetään aina, kun uusi luku on linjassa., Etsimme nopeaa algoritmia, jolla voidaan tunnistaa meemit suhteellisen lyhyiden sekvenssien välillä, jotka muuttuvat jokaiselle linjaukselle. Brute force menetelmä tähän ongelmaan (Lisätiedosto 1: Jakso II) on hidas ja tehoton(kanssa monimutkaisuus O (n3)). Ehdotamme nopeaa bittitason rinnakkaista menetelmää MEM-uuttoprosessin nopeuttamiseksi. MEM-uuttomenetelmämme perustuu Fig: ssä esitettyyn shift-ja compare-operaatioihin. 3b. Ensimmäinen askel on edustaa sekvenssit bit-vektorit, kun A, C, T ja G ovat koodattu 00, 01, 10 ja 11, vastaavasti (Lisää tiedosto 1: Kohta III)., Kuva 6 havainnollistaa esimerkkisarjaparia sekä vastaavia bittivektorin representaatioita. Vuonna hyödyke, tietokone, kone sana on yleensä 64 bittiä johon mahtuu 32 nukleotidin symbolit. Koska sekvenssi on yleensä suurempi kuin 32 symbolia, vastaava bittivektori tallennetaan useisiin konesanoihin. Jokainen toiminta bit-vektorit sekvenssit koko n symbolit toimii \(\lceil \frac {n}{32} \rceil \) kone sanoja.

Kuva., 6

– Edustus-sekvenssien kanssa bit-vektorit. Xor-tuloste (X) korostetuilla MEMs-laitteilla. Reunat bit-vector (E) tunnistaa alussa ja lopussa kunkin MEMs –

bit-vektorit edustus sekvenssit, siirtyminen sekvenssi, jonka yksi merkki on sama kuin siirtyminen bit-vector kaksi bittiä, ja vertaamalla sekvenssejä voidaan tehdä XOR ohje (32 symbolit kerrallaan). XOR-ulostulossa (X) 00 tarkoittaa, että symbolit täsmäävät, ja 00-luvun sekvenssissä näytetään MEM., Joukko vaihto-ja bitwise-operaatioita, kuten on esitetty Algoritmi laskee 1 X ja sen jälkeen edge-bit-vector (E), jossa alussa ja lopussa kunkin MEM on korostettu aseta bittiä (bitit, joilla on arvo yksi). Kuvassa 6 on X-ja E-bittivektorit korostetuilla MEMs-laitteilla. MEMs: n asemointi sekvensseissä lasketaan sitten edge bit-vektorista (lisätiedosto 1: IV jakso).,

Tasaus algoritmi

”Lähestymistapa” – osiossa, me osoittavat, että ottamalla huomioon eri yhdistelmiä MEMs-ja tietotekniikan yhdenmukaistaminen pisteet vastaava linjaus, yksi voi tunnistaa yhdistelmä MEMs, että tulokset suurin kohdistus pisteet. Kaikkien mahdollisten MEMs-yhdistelmien tutkiminen on kuitenkin naiivi ratkaisu. Järjestelmällisempi tapa löytää linjaus tehokkaasti on käyttää dynaamista ohjelmointia.

Dynaaminen ohjelmointi on menetelmä lähestyy ratkaisu ongelmaan määrittelemällä ja ratkaisemalla pienempiä subproblems., Aliprobleemien ratkaisuja käytetään isomman ongelman ratkaisemiseen jokaisessa vaiheessa. Prosessi toistetaan, kunnes kaikki aliprobleemit on ratkaistu. Lopulta ratkaisu yksi subproblems olisi ratkaisu alkuperäiseen ongelmaan. Kun kaikki aliprobleemit on ratkaistu, taustaprosessi tunnistaa joukon ratkaisuja, jotka edistävät lopullista ratkaisua. Dynaamisessa ohjelmoinnissa olisi määrättävä syöttötiedot, joita pitkin rekursiomenettely etenee.

lajittelemme kaikki meemit niiden lopun sijainnin mukaan kyselyjaksossa (EQ)., Samaan asentoon päättyvät meemit tilataan mielivaltaisesti. Jth osaongelma on löytää yhdenmukaistaminen subsequences t ja Q jotka päättyvät jth MEM Mj (t ja Q vastaavasti). Osoitamme, että tämä MEM: n tilaus riittää tukemaan oikeaa rekursiota.

lajiteltu luettelo MEMs, EQi=EQj osoittaa, että yksi Mi tai Mj täysin päällekkäinen muiden MEM kyselyn järjestyksessä. Koska Φ2B Algoritmin 2 päällekkäisyys alueella ei tule kyseeseen, Mi ja Mj eivät voi olla samassa linjassa., Näin ith ja jth-aliprobleemit ratkaistaan toisistaan riippumatta ja lajitellun luettelon I ja j järjestys voi olla mielivaltainen. Jos EQk>EQj (k>j lajiteltu luettelo), Mk voinut olla osa linjaus, joka päättyy Mj. Näin ollen jth-aliproblemit voidaan ratkaista riippumatta KTH-osaongelman ratkaisusta. Huomaa, että on myös mahdollista lajitella MEMs niiden päättyvän sijainnin perusteella kohdejärjestyksessä (ET) käyttäen samanlaista perustelua.

ehdotettu dynaaminen ohjelmointialgoritmimme (DP-MEM) laaditaan algoritmissa 2., Esimerkiksi MEMs uutetaan Viikunana. 3B, algoritmissa laskettu dynaaminen ohjelmointitaulukko ja väliarvo esitetään viikunoissa. 7 ja 8 vastaavasti. Tulo DP-MEM on luettelo MEMs jossa jokainen MEM (Mj) on kolmikon kokonaislukuja . Toinen tulolähde n on luettelossa olevien MEMs-arvojen määrä. Lähtö S on kohdistus pisteet sekvenssien. Algoritmi tulostaa indeksit kaikki MEMs, joka muodostaa linjaus, jossa ensimmäinen ja viimeinen painettu numerot ovat indeksit oikealta ja vasemmalta MEMs-linjaus vastaavasti., Kaikki vaiheet Algoritmi 2 on kommentoitu seuraavasti:

Kuva. 7

Dynaaminen ohjelmointi taulukko käytetään Algoritmia 2-prosessi on uutettu MEMs-Kuviossa. 3b. solu i ja j edustavat arvoa \(s_{i}^{j}\). Tyhjiä soluja ei arvioida Φ2: ssa. Arviointi solujen rajat merkki sivuutetaan Φ2A. Alkuarvo Sj on laskettu vuonna Φ1. SJ: n ja sen lähteen lopullinen arvo (mikä maksimoi Sj: n) korostetaan jokaiselle riville. Korkein SJ (S13) on linjauspisteet., M13 on linjauksen viimeinen MEM ja sitä edeltävä MEM=M3. Koska W=-1, M3 on ensimmäinen mem linjauksessa. Pisteytysjärjestelmä tämä linjaus on Rm=2,Px=3,Po=4 ja Pe=1,

Kuva. 8

Väli-arvot laske \(S_{en}^{j}\) Kuviossa. 7. Huomaa, että Sij tässä kuvassa viittaa \(S_{en}^{j}\)

  • Φ1: Pisteytys kunkin MEM kaikille sen matching symbolit., Huomaa, että Mj: ssä on LJ-vastaavat symbolit. SJ edustaa korkeinta linjauspistettä linjaus päättyy MJ. Alustus Sj tämä vaihe on samanlainen computing osittainen yhdenmukaistaminen pisteet, kun vain Mj sisältyy linjaus. W: tä käytetään taustatukena. Arvo -1 osoittaa, että nykyinen Sj saadaan tarkastelemalla MJ yksin linjauksessa.

  • Φ2: Tietojenkäsittelyn Sj kunkin MEM (Mj)., Laskea Sj, kunkin MEM Mi, missä Mi näkyy ennen Mj-luettelossa, algoritmi lisää Mj linjaus päättyy Mi (laajennetaan aiemmin todettiin, linjaukset) ja etsii laajennus, joka maksimoi Sj (ratkaisemaan isompi subproblem käyttäen aiemmin ratkaistu subproblems).

  • Φ2A: Skip extension when it is not possible. Jos ETi>ETj sitten Mi sisältää osan kohde-sekvenssi, joka on yli linjaus päättyy Mj ja laajennus ei ole mahdollista. Jos EQi=EQj tai ETi=ETj tai SQi≥SQj-tai STi≥STj sitten yksi MEMs täysin päällekkäinen muiden MEM., Tällöin Mi ja Mj eivät voi olla linjassa keskenään.

  • Φ2B: lasketaan Mi: n ja Mj: n päällekkäisyyden pituutta. Jos \({MO}_{i}^{j}\) on nolla tai yhtä suuri, päällekkäisyyksiä ei ole.

  • Φ2C: MJ: n kopion säilyttäminen ennen päällekkäisyyksien poissulkemista.

  • Φ2D: Jos päällekkäisyys on olemassa, ilman päällekkäisiä alkaen Mj

  • Φ2E: Tietojenkäsittelyn päättyy asema Mj T ja Q.

  • Φ2F: Tietojenkäsittelyn etäisyys määrä (symbolit) välillä Mi ja Mj: T ja Q.

  • Φ2G: Computing määrän epäsuhta ja erot Mi ja Mj.,

  • Φ2H: Tietojenkäsittelyn rangaistus epäsuhta ja erot Mi ja Mj (\(P_{i}^{j}\)). Jos aukko on olemassa, vain yksi aukko avoin rangaistus vähennetään.

  • Φ2I: Tietojenkäsittelyn kohdistus pisteet \(\left (S_{en}^{j}\right)\), kun Mj on lisätty linjaus päättyy Mi. Pisteet kaikki vastaavat symbolit Mj (Lj×Rm) on lisätty kohdistus pisteet linjaus päättyy Mi (Si). Sitten rangaistus aukkoja ja kohtaamattomuudesta Mi ja Mj\(\left (P_{i}^{j}\right)\) on vähennetty.,

  • Φ2J: Jos laajentaa Mj linjaus päättyy Mi tulokset osaksi pisteet \(\left (S_{en}^{j}\right)\) on suurempi kuin nykyinen pisteet Mj (Sj) sitten uudet pisteet tallennetaan Sj. Myös W on asetettu I seurata Mi, joka maksimoi pisteet Mj.

  • Φ2K: Palauttaa arvon Mj, ennen kuin syrjäytymistä niin, että Mj voidaan käyttää muissa linjaus laajennukset.

  • Φ3: Etsitkö MEM korkein Sj. Tämä MEM on viimeinen mem linjauksessa (Me)., Korkein pistemäärä (Se) palautetaan S, joka on korkein kohdistus pisteet annettujen sekvenssien. SJ: n maksimoivan MEM: n indeksi tallennetaan e: hen, jotta se alkaa jäljitellä minua.

  • Φ4: linjaus, välittömästi edellisen MEM Minulle on yksi, joka maksimoi linjaus pisteet Minulle. Tällaisen MEM: n indeksi tallennetaan W. Tämän seurauksena F←W: n iteraatio vierailee kaikkien MEMs: n indeksissä linjauksessa. Kun W on yhtä suuri kuin -1, MF on ensimmäinen mem linjauksessa ja iterointi lopetetaan.,

– meidän algoritmi, emme rankaise kohtaanto-ongelmia ja puutteita ennen ensimmäistä MEM ja sen jälkeen, kun viimeinen MEM linjaus. Tästä seuraa paikallinen linjausalgoritmi. Tarkastelemalla näitä seuraamuksia algoritmi luo globaalin linjauksen (lisätiedosto 1: Jakso V).

yhtälö laske \(P_{i}^{j}\) vuonna Φ2H Algoritmin 2 oletetaan, että ei ole vastaavan symbolin välillä T ja K välisellä alueella Mi ja Mj (kaikki symbolit lasketaan kohtaanto-ongelmia tai puutteita)., Vaikka tämä oletus ei ole totta, kaikki Mi, se on aina totta Mi, joka johtaa enintään \(S_{en}^{j}\), joka mitätöi vaikutus oletus on virheellinen muita Mi. Todisteena oletetaan, että Mi: n ja Mj: n välisellä alueella on vastaava symboli. Vastaava symboli olisi MEM (Mk). Mk: ta laajennetaan jo linjaukseen, joka päättyy Mi: hen. Niinpä, kun laajentaa Mj Mk korkeammat pisteet saavutetaan, kun verrattuna laajentaa Mj-Mi.

Ketjutus colinear siemenet kuten edellä on käytetty laajalti linjaus suuria sekvenssit, eli genomi-to-genomin linjaus., Sitä on käytetty myös tunnistamaan ehdokasalueita lukea tietyn joukon MEMs BWA. Ketjuttaminen algoritmeja pisteytys ovat samanlaisia dynaaminen ohjelmointi algoritmi ehdotimme (DP-MEM). On kuitenkin eroja, jotka tekevät DP-MEM sopiva pairwise linjaus lyhyitä sekvenssejä. DP-MEM ottaa huomioon, että kaikki MEMs tietyn aukon koko esitetään tulo-ja optimoi määrä iteraation algoritmi. DP-MEM myös toteuttaa heuristinen lähestymistapa kompensoimaan vaikutus lyhyen MEMs poistetaan input list tuloksena erot MEMs.,

Optimointi

Koska sekvenssien pituus on n, algoritmi poimia MEMs (jos ”MEM louhinta” – osiossa) vaatii 2(n−1) vaihto-ja 2n−1 vertaile toimintansa bit-vektorit (jokainen teko on \(\lceil \frac {n}{32} \rceil \) kone sanoja), jotka johtavat algoritmi monimutkaisuus O(n2) tuottaa reuna bit-vektorit annetaan pari jaksoa. Kompleksisuus funktio, joka laskee asemointi Meems reunasta bit-vektori ja lajittelee ne perustuu taajuuskorjain on vielä lisättävä. Edelleen, jos m MEMs uutetaan, Φ2 Algoritmin 2 (DP-MEM) on monimutkaisuus O(m2)., Koska mem louhinta ja DP-MEM monimutkaisuus, MEM-Align on paljon hitaampi kuin käytettävissä linjaus algoritmeja. Voit nopeuttaa prosessia, esittelemme useita optimointeja MEM-Align, joka saavutetaan nopeammin runtime uhraamalla tarkkuutta. Toisaalta otamme käyttöön menetelmiä tarkkuuden parantamiseksi minimaalisella suorituskyvyn menetyksellä.

Porrastettuja tasaus

Porrastettuja linjaus on tunnettu heuristinen menetelmä nopeuttaa kohdistusprosessi. Tämä tekniikka rajoittaa kuvio aukkoja linjaus (Lisää tiedosto 1: VI Jakso)., Näin ollen, jos kahden sekvenssin välinen linjaus ei noudata tätä kaavaa, algoritmi ei tunnista linjausta. Perinteisessä dynaamisessa ohjelmoinnissa linjaus saadaan laskettuaan taulukon kaikkien solujen arvon. Kuitenkin banded linjaus optimointi, vain solut halkaisija ja lähellä lävistäjä arvioidaan. gl on kaistan leveys banded-linjauksessa, jossa GL: ää kauempana halkaisijaltaan olevia soluja ei arvioida. Tummempia soluja viikunalla. 1 Näytä tapaus, jossa gl=1.,

toisin Kuin perinteiset dynaaminen ohjelmointi lähestymistapa, MEM-Kohdista ei ole samanlainen pöytä soveltaa porrastettuja linjaus. Havaitsimme kuitenkin, että voimme simuloida samaa vaikutusta rajoittamalla mem: n louhintaprosessissa tapahtuvaa vuorotyötä. Jos esimerkiksi siirrämme kyselyjakson gl: ään oikealle ja vasemmalle, saavutamme banded-linjauksen gl: n kaistan kanssa. Porrastettuja-linjaus vähentää monimutkaisuutta MEM uuttamalla O(n2) O(n.(2gl+1)), jossa gl on pieni ja kiinteä arvo. Näin ollen mem-uuttamisen monimutkaisuus on O (n), kun käytetään banded-linjausta., Myös, sanoi porrastettuja linjaus, on todennäköistä, että vähemmän MEMs uutetaan joka nopeuttaa myöhemmin algoritmista vaiheet.

Lyhyt MEM poisto

havaitsimme, että suurin osa uutetaan MEMs ovat lyhyitä ja ovat seurausta satunnaisesti matching symbolit. Mem-linjauksen nopeuttamiseksi sl: ää lyhyemmät MEMs-arvot suodatetaan pois MEM-uuttoprosessin aikana. Tämä vähentää louhittavien ja käsiteltävien modeemien määrää (nopeuttaa algoritmia). Suodatus lyhyt MEM tehdään laajentamalla algoritmi 1 joukko shift ja bitwise toiminnot (Lisätiedosto 1: jakso VII).,

toisaalta, on olemassa harvinaisia tapauksia, joissa lyhyt MEMs ovat osa linjaus; esimerkiksi matching symboli, jota ympäröi epäsuhta. Ilman kaikkia MEMs-input list, DP-MEM ei voi löytää sama linjaus kuin se löydöt, kun kaikki MEMs olemassa tulo-luettelosta. Jotta kompensoida menetetty lyhyt MEMs-tulo, me muuttaa Φ2H DP-MEM harkitsemaan mahdollisuutta ottaa lyhyt väliset ottelut MEMs (Lisää tiedosto 1: Kohta VIII).

saattaa olla vaikeampaa tapauksissa, joissa linjaus, useita lyhyitä MEMs välillä kaksi MEMs (ks. 9)., Ainoa tapa tunnistaa oikein pisteet välisellä alueella Mi ja Mj Φ2H on soveltaa globaali linjaus tällä alueella. Φ2H on kuitenkin usein käytössä ja sen pitäisi pysyä nopeana. Niinpä päätimme osittain ratkaista ongelman rajoittamalla mahdollisia tapauksia (heuristinen menetelmä).

Kuva., 9

esimerkki, joka osoittaa useita lyhyitä MEM vuonna pieni alue välillä Mi ja Mj yhdenmukaistaminen

Jos on puutteita välisellä alueella Mi ja Mj, oletamme, siellä on vain yksi jatkuva kuilu joko vasemmalle lopussa tai oikealla end alueella. Silloin alueelle on mahdollista saada vain kaksi erää., Määrä matching symbolit lasketaan molempien tapausten juokseva tavalla, ja yksi, että tulokset suurin otteluissa on otettu kuin määrä otteluiden välillä Mi ja Mj (Lisää tiedosto 1: Pääluokka IX). Peräkkäinen vertailu on kallis toimenpide ja laadimme menetelmän, jolla vältetään peräkkäinen vertailu mahdollisuuksien mukaan (lisätiedosto 1: osa X).

mikä tahansa muu tapaus, joka ei sovi edellä esitettyyn oletukseen, johtaa tasaantumiseen alhaisemman pistemäärän kanssa., Kun otetaan huomioon puutteiden ja kohtaanto-ongelmien vähäinen määrä, on kuitenkin epätodennäköistä, että pienellä alueella olisi useita aukkoja ja eroavuuksia.

Tehokas tasaus-tiedostotunnistetta

Φ2 DP-MEM -, Mj ulottuu kaikki linjauksia, jotka päättyvät {M1…Mj−1} (jos mahdollista). Kuitenkin, kunkin Mj on pienempi osajoukko Ωj⊆{M1…Mj−1} sellainen, että laajentamalla Mj kaikkia linjauksia päättyy Mi∈Ωj linjaus, joka päättyy Mj on löytynyt (Eq. 2). Toisin sanoen arvioitavia \(S_{i}^{j}\) olisi vähemmän. Joukon Ωj määritelmä ja Eq: n todiste. 2 esitetään lisätiedostossa 1: XI jakso., Ωj: n määritelmään vaikuttaa lyhyen MEM-poiston optimointi (lisätiedosto 1: XII jakso).

$$ \max\limits_{M_{i} \in \Omega_{j}}{S_{en}^{j}} = \max\limits_{1 \leq i \leq j-1}{S_{en}^{j}} $$
(2)

Hybridi tasaus

säilyttää tarkkuus algoritmi, päätimme hyödyntää hybridi-menetelmä, joka on yhdistelmä MEM-Kohdista ja Smith-Waterman-algoritmi. Määrittelemme kolme tapausta, joissa MEM-Align voi olla epätarkka., Jos linjaus parin sekvenssejä putoaa alas yksi näistä tapauksista, käytämme Smith-Waterman algoritmi yhdenmukaistaa sekvenssejä. Nämä tapaukset ovat:

  • Kun sekvenssit ovat toistuvia, ja määrä uuttaa MEMs ylittää kynnysarvon TM. Havaitsimme MEM-Align on todennäköisesti tuottaa epätarkka linjaus, kun kohdistetaan toistuvia sekvenssejä. Asianmukainen TM arvo pienenee mahdollisuus raportointi epätarkka linjaus, jossa vähäinen kasvu keskimääräinen käsittelyaika.,

  • Kun lasketaan kohdistus pisteet linjaus syntyy MEM-Kohdista on pienempi kuin kynnysarvo, TS. Tässä tapauksessa enimmäkseen tapahtuu, kun siellä on aukko linjaus, jota ei voida tunnistaa, koska porrastettuja linjaus.

  • Kun ei ole MEM kauemmin kuin sl olemassa olevan uutettu (harvinainen tapaus)., Jos sl on asetettu korkea arvo ja samankaltaisuuden sarjoja on alhainen,

Vaikka lähettää järjestyksessä paria ulkoiseen algoritmin tulokset ylimääräisiä laskenta, määrä sekvenssit lähettää ulkoisiin algoritmi on edelleen pieni, jos asianmukaiset arvot ovat valittu TM ja TS.

Ohita kaukainen MEMs

Kun etäisyys Mi ja Mj on suuri, se ei todennäköisesti ole Mi ja Mj kuten viereisen MEMs-linjaus., Näin ollen algoritmi ohittaa tiedostotunnistetta, jos etäisyys Mi ja Mj on pidempi kuin kynnys TD (edelleen vähentämällä \(S_{en}^{j}\) voidaan arvioida). Tämä optimointi parantaa suorituskykyä hieman vähäisellä tarkkuuteen kohdistuvalla sivuvaikutuksella.