Sekuentzien lerrokatze: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
No edit summary
Savh (eztabaida | ekarpenak)
t AritzD wikilariaren aldaketak ezabatuz, Kirito wikilariaren azken bertsiora itzularazi da.
Etiketak: lehengoratzea Lehengoratua SWViewer [1.4]
10. lerroa:
Sekuentzien lerrokatze hauek hainbat textu formatuetan biltegiratu daitezke. Formatu hauek askotan programa bat edo lerrokatze baten implementazio batekin batera garatuak izan dira. Web herraminta gehienak hainabt sarrera eta irteera formatu onartzen dituzte FASTA edo GenBank. Herraminta espezifikoen erabilera laborategi baloitzean konplikatu daiteke konpatibilitate baxuaren ondorioz. Konbertsio generikoko programak existitzen dira SEQRETen edo DNA Baseren
 
== Erreferentziak ==
== Lerrokatze lokala eta globalak ==
{{erreferentzia_zerrenda}}
 
== Bikoteen lerrokatzea ==
 
=== Puntu matrizeen metodoak ===
 
=== Programazio dinamikoa ===
 
=== Hitz motzen metodoa ===
 
== Sekuentzien lerrokatze multiplea ==
 
=== Programazio dinamikoa ===
 
=== Metodo progresiboak ===
 
=== Metodo iteratiboak ===
 
=== Helburuen bidezko aurkikuntza ===
 
=== Konputazio zientzietan oinarritutako teknikak ===
 
== Lerrokatze estrukturala ==
 
=== DALI ===
 
=== SSAP ===
 
=== Hedapen konbinatorioa ===
 
== Analisi filogenetikoa ==
Filogenia eta sekuentzien lerrokatzea lotura estua duten eremuak dira, sekuentzien arteko ahaidetasuna ebaluatzeko behar partekatua dutelako. Filogeniak zuhaitz filogenetikoen eraikuntzan eta interpretazioan sekuentzien lerrokatzeen erabilera estentsiboa egiten du, espezie dibergenteen genoman irudikatutako gene homologoen arteko erlazio ebolutiboak sailkatzeko erabiltzen direnak. Arazo multzo baten sekuentziak zein mailatan diren desberdinak, horien arteko distantzia ebolutiboarekin lotuta dago kualitatiboki. Modu sinplifikatuan, sekuentzien identitate altu batek, konparatiboki, arbaso komun berriago bat dutela iradokitzen du, identitate baxu batek, dibergentzia, urrunagokoa dela iradokitzen duen bitartean. Hurbilketa honek, "Erloju molekularraren" hipotesia islatzen du (eboluzio aldaketaren erritmo gutxi gorabehera konstantea hartzen duen hipotesia, bi geneen lehen dibergentziatik igarotako denbora estrapolatzeko erabil daitekeena, edo "koaleszentzia" denbora), mutazioaren eta hautespen naturalaren eraginak sekuentzia leinuen luzeran konstanteak direla onartzen duena. Beraz, ez ditu kontuan hartzen DNA konpontzeko erritmoetan organismo edo espezieen artean egon daitezkeen desberdintasunak, edo sekuentzia batean eskualde espezifikoen kontserbazio funtzionala. (Nukleotidoen sekuentzien kasuan, erloju molekularraren hipotesi oinarrizkoenak alde batera uzten du mutazio isilen (kodoi jakin baten esanahia aldatzen ez dutenak) eta proteinan aminoazido desberdin bat sartzean sortzen diren beste mutazio batzuen arteko onarpen-tasen diferentzia). Zehaztasun estatistiko handiagoko metodoek zuhaitz filogenetikoaren adar bakoitzean eboluzio-erritmoa aldatzea ahalbidetzen dute, horrela geneen koaleszentzia-denboren estimazio hobeak eginez.
 
Lerrokatze anizkoitz progresiboko teknikek zuhaitz filogenetiko bat sortzen dute nahitaez, lerrokatze gero eta handiagoari sekuentziak gehitzen baitizkiote ahaidetasun-ordenaren arabera. Sekuentzia eta zuhaitz filogenetikoen lerrokadura anitzak biltzen dituzten beste teknika batzuk, zuhaitzak puntuatzen eta ordenatzen dituzte lehenik, eta, ondoren, sekuentzien lerrokatze anizkoitza kalkulatzen dute puntuazio handiagoko zuhaitzetik abiatuta. Zuhaitz filogenetikoak eraikitzeko metodo komunak heuristikoak dira nagusiki. Zuhaitz optimoa aukeratzeko arazoa, sekuentzia optimoen lerrokatze anizkoitza aukeratzeko arazoa bezala, NP-konplexuak dira.
 
== Garrantziaren balorazioa ==
Sekuentzien lerrokatzeak erabilgarriak dira bioinformatikan sekuentzien arteko antzekotasunak identifikatzeko, zuhaitz filogenetikoak sortzeko eta proteinen egituren gaineko homologia ereduak garatzeko. Hala ere, lerrokatzeen garrantzi biologikoa ez da beti argia. Askotan onartzen da lerrokadurek eboluzio-aldaketaren maila islatzen dutela arbaso komun batetik datozen sekuentzien artean; baina formalki posible da konbergentzia ebolutiboa gertatzea, eboluzioaren aldetik lotuta ez dauden baina antzeko funtzioak betetzen dituzten eta antzeko egiturak dituzten proteinen artean itxurazko antzekotasunak sortzeko.
 
Datu-baseetako bilaketetan, BLASTekin bezala, metodo estatistikoek sekuentzien edo sekuentzia-eskualdeen arteko kasualitatezko lerrokatze partikularraren probabilitatea zehaztu dezakete, datu-basearen tamaina eta osaera kontuan hartuta. Balio horiek nabarmen alda daitezke bilaketa-espazioaren arabera. Zehazki, kasualitatez lerrokadura jakin bat aurkitzeko probabilitatea handitu egiten da baldin eta datu-basea arazo-sekuentziaren organismo beraren sekuentzietaz bakarrik beteta badago. Datu-baseko edo kontsultako sekuentzia errepikakorrek ere desitxuratu egin ditzakete emaitzen bilaketa eta haien esangura estatistikoaren balorazioa. BLASTek automatikoki iragazten ditu sekuentzia errepikakor horiek kontsultan, estatistika-artefaktuei dagozkien itxurazko arrakastak saihesteko.
 
=== Puntuazio-funtzioak ===
Lerrokadura onak sortzeko, garrantzitsua da sekuentzia ezagunei buruzko behaketa biologikoak edo estatistikak islatzen dituen puntuazio-funtzio bat aukeratzea. Proteinen sekuentziak maiz ordezkapen-matrizeak erabiliz lerrokatzen dira. Matrize horiek karaktereen araberako ordezkapen partikularren probabilitateak islatzen dituzte. Pam matrize izeneko matrize batzuk (ingelesezko Point Accepted Mutationetik, onartutako mutazio puntuala, jatorrian Margaret Dayhoffek zehaztua, eta, beraz, batzuetan Dayhoff matrizeak deitzen direnak), hurbilketa ebolutiboak esplizituki kodetzen dituzte, aminoazidoen mutazio partikularren maiztasun eta probabilitateak kontuan hartuz. Beste puntuazio-matrize arrunt batek, BLOSUM izenaz ezagutzen direnak (ingelesezko Blocks Substitution Matrix, blokeen ordezkapen-matrizea), enpirikoki deribatutako ordezkapen-probabilitateak kodetzen ditu. Bi matrize mota horien aldaerak erabiltzen dira dibergentzia-maila desberdinak dituzten sekuentziak detektatzeko; horrela, BLAST edo FASTAren erabiltzaileei aukera ematen zaie beren bilaketak hurbilago lotutako kointzidentzietara mugatzeko edo hedatzeko sekuentzia dibergenteagoak detektatzeko. Gapen bidezko penalizazioek nukleotidoen eta proteinen sekuentzietan hutsuneak sartzea adierazten dute (eredu ebolutiboan, txertatze edo ezabatze bidezko mutazio bat), eta, beraz, penalizazio-balio horiek mutazio horietatik espero den maiztasunarekiko proportzionalak izan beharko lukete. Sortutako lerrokatzeen kalitatea, beraz, puntuazio-funtzioaren kalitatearen araberakoa da.
 
Oso baliagarria eta irakasgarria izan daiteke puntuazio-matrizeen eta/edo hutsuneen araberako penalizazio-balioen aukeraketa desberdinekin, lerrokatze berbera saiatzea eta emaitzak alderatzea. Soluzioa oso sendoa ez den edo bakarra ez den eskualdeak sarri identifika daitezke lerrokatze-parametroen aldakuntzekiko sendoak diren lerrokatze-eskualdeak behatuz.
 
== Erabilpen ez biologikoak ==
Sekuentzia biologikoak lerrokatzeko erabilitako metodoek beste eremu batzuetan ere aurki ditzakete aplikazioak. Oso nabarmena da lengoaia naturalen prozesamenduan. Elementu taldeak sortzen dituzten teknikak, nondik hitzak hautatzeko erabiltzen dituzten lenguai naturalen algoritmoek, sekuentzien lerrokatzeko teknikak eskatu dituzte bioinformatikari, ordenagailuz egingo diren prueba matematikoen bertsio linguistikoak sortzeko. Hizkuntzalaritza historiko eta konparatiboaren arloan, sekuentzien lerrokatzea erabili da hizkuntzalariek lengoaiak berreraikitzeko erabili ohi duten metodo konparatiboa partzialki automatizatzeko. Halaber, sekuentziak lerrokatzeko teknikak aplikatu dira negozioen ikerketan eta marketinean, erosketen aldi baterako serieak aztertuta.
 
== Softwarea ==
 
Sekuentziak lerrokatzeko zeregin orokorretarako erabiltzen diren software-tresna arruntak ClustalW eta T-coffee dira lerrokatzeko, eta BLAST datu-baseetan bilatzeko. Eskuragarri dagoen softwarearen zerrenda askoz osoagoa da, algoritmo eta lerrokadura motaren arabera kategorizatua dagoena.
 
Lerrokatze algoritmoak eta softwarea zuzenean kontrastatu daitezke benchmark multzo estandarizatu bat erabiliz sekuentzia anitzen lerrokaduretarako, BAliBASE izenekoa. Datu-multzoa egitura-lerrokaduretan datza. Lerrokadura horiek estandar gisa har daitezke, eta haren aurka alderatzen dira sekuentzietan oinarritutako metodoak. Lerrokatze arazoetan maiz aurkitutako lerrokatze metodo komun askoren errendimendu erlatiboa tabulatua izan da, eta emaitzarik esanguratsuenak online argitaratu dira BAliBASEn. STRAP proteinen lan bankuan, lerrokatze tresna ezberdinetarako BAliBASE puntuazio zerrenda zehatz bat konputatu daiteke.
 
<br />
== Kanpo estekak ==
 
* [[Bioinformatika]]
* [[Azido desoxirribonukleiko|ADN]]
* [[Azido erribonukleiko|ARN]]
* [[Hizkuntzaren prozesamendu|Hizkuntzaren prozesamendua]]
 
== Erreferentziak ==
{{erreferentzia_zerrenda}}
 
{{autoritate kontrola}}