Hizkuntzaren prozesamendu: berrikuspenen arteko aldeak
Ezabatutako edukia Gehitutako edukia
esteka |
tNo edit summary |
||
15. lerroa:
* [[Informazio erauzketa|Informazio-erauzketa]]. Datuak erauztea dokumentuetatik (IE, Information Extraction).
* [[Testu-meatze]]a (text mining). Informatikaren munduan azken urteetan indarra hartu duen arloa dugu ''data mining'' edo ''text mining'' izenekoa. Datu-masa handietatik ondorioak ateratzea da funtsa, eta aplikazio asko du: maileguen arriskuak, gaixotasunen arrisku-taldeak... Datu horiek testuak direnean ''text mining'' terminoa erabiltzen da, datuak orokorrean Internetetik hartzen direnean, aldiz, ''web mining''. Guzti horietan erabiltzen diren metodoak antzekoak dira, baina testuekin arazo bat dago: ezaugarriak edo adierazleak asko dira eta ez daude agerian. Medikuntzan edo finantzatan ezaugarri argiak daude, diru-mugimenduak esaterako, eta gehienetan jasota. ''Text mining'' eta [[informazio erauzketa]] automatikoa sinonimotzat har daitezke.
* [[
* [[Dokumentu-sailkatzaileak]]. Testu bat emanda bere kategoria edo gaia asmatzea da helburua. IEren ataza gisa ikus daiteke eta modu automatikoan edo semiautomatikoan egin daiteke.
* [[Dokumentu-multzokatzaileak]] (Clustering). Arlo askotan erabiltzen den teknika-multzo honek antzekotasuna duten dokumentuak erlazionatzea du helburutzat, berreskuratzea ahaltsuagoa egiteko asmoz askotan. Erauzketaren 2. fasea izaten da batzuetan, multzo berean sartzen baitira erauzitako ezaugarriren bat komunean duten dokumentuak. Terminologia-erauzketa automatikoan adibidez, ''clustering'' egin ohi da bigarren fase batean, terminoen hierarkia bat sortzearren erauzitako terminoetatik abiatuta. Aurreko aplikazioetan makina bat dokumentu aldez aurretik ezarritako kategoria multzo txiki baten arabera sailkatu behar ziren. Baina clustering egiten denean, aldez aurretik ez daude definituta kategoria posibleak. Abiapuntuan, hainbat dokumentu dauzkagu, eta bukaeran dokumentu horiek guztiak sailkatuta, haien arteko antzekotasunen arabera. Jakin beharko da geroago interpretatzen zergatik proposatu diren multzo horiek, zer adierazten duten azpimultzo horiek.
|