Dokumentuen sailkapena
Dokumentuen sailkapena informazioaren zientziaren arloa da, informazioa eskuratzeko teknikekin lotu ohi dena. Dokumentu elektroniko baten edukietan oinarrituz, berau kategoria bat edo gehiagotan sailkatzean datza. 1960ko hamarkadan lehen urratsak izan zituen ikerketa ildo honen lehen hurbilketak ezagutzaren ingeniaritzan oinarritzen ziren, eta ondorioz, pertsona baten beharra zegoen sailkapenaren azken urratsa eskuz egiteko. 1990eko hamarkadaz geroztik, ordea, ikasketa automatikoan oinarritutako teknikak nagusitu dira, prozesu osoa automatizatuz.
Ikasketa automatikoan oinarritutako dokumentuen sailkapenerako bi prozesu mota ezberdindu daitezke:
- Ikasketa gainbegiratuan oinarritutako dokumentuen sailkapena: sailkapen prozesua burutu aurretik, aurrez sailkatutako dokumentu sorta bat eskuragarri dago, eta berau erabiltzen da sistema entrenatzeko.
- Ikasketa ez-gainbegiratuan oinarritutako dokumentuen sailkapena: ez dago aurrez sailkatutako dokumentu sortarik eskuragarri, eta sailkapena itsu-itsuan burutzen da. Honako hau ez da sailkapen atazatzat hartzen askotan, eta taldekatzea edo clustering bezala ere ezagutu ohi da.
Hala eta guztiz ere, azken urteotan gero eta gehiagotan erabiltzen den aukera da ikasketa erdi-gainbegiratuan oinarritutako dokumentuen sailkapena. Aukera hau oso baliagarria da aurrez sailkatutako dokumentu sorta oso txikia denean sorta osoarekiko, esate baterako, Webaren kasuan. Aurrez sailkatutako dokumentuak ikasteko erabiltzeaz gain, sailkatu gabe dauden dokumentuak ere baliatu egiten dira kasu honetan sailkatzailearen ikasketa prozesurako. Sailkatutako dokumentuekin ikasi, eta sailkatu gabekoekin findu egiten da[1].
Dokumentuen sailkapenerako tresna bat garatzerako orduan, hiru dira gainditu beharreko erronkak[2]:
- Dokumentuen indexazioa, eta ondorioz, hauen adierazpenerako formatua.
- Sailkatzailea sortzea.
- Emaitzen ebaluazioa.
Sailkapenak lengoaia dokumental hierarkikoak dira, harreman hierarkikoa dagoelako bertako indizeen artean. Eta bere antolamendua orokorretik zehatzera doa, indizeen esanahiaren arabera. Oro har, sailkapenetan agertzen diren indizeek aurre koordinazioa dute, hau da, elementu semantikoak lotzen doaz indizeak gero eta zehatzagoak bihurtuz (adibidez, seriea, umorezko seriea).
Teknikak
aldatuIkasketa gainbegiratua
aldatuIkasketa erdi-gainbegiratua
aldatuIkasketa ez-gainbegiratua
aldatuGainbegiratu gabeko ikasketa sistemek sailkatu beharreko kategorien metadaturik ez dutenez, sailkapena itsu-itsuan egin ohi da, eta honenbestez, ez da berezko sailkapen sistematzat hartzen, taldekatzea edo clustering izena hartzen duelarik.
Aplikazioak
aldatuIragazketa sistemak
aldatuSailkapen automatikoak iragazketarako duen aplikaziorik ezagunena spam mezuen baztertzea da, zeinak sailkapenaren bitartez zabor-posta iragazten duen. Sailkapen hau mota ezberdinetakoa izan daiteke: posible da mezuak zaborra diren edo ez besterik zehazten ez duen sistema garatzea, edo baita zaborra ez diren mezu horiek nahi bezainbeste kategoriatan sailkatzea ere, beharren arabera.
Zabor-postaren kasu konkretuaz gain, beste edozein iragazketa sistema garatzeko erabil daiteke sailkapen automatikoa; adibidez, profil pertsonalizatuak baliatuz, albisteak erabiltzaile konkretu batentzako interesgarriak izan daitezkeen edo ez sailkatzea.
Web katalogo hierarkikoak
aldatuWebak duen tamaina izugarria eta hazkunde etengabea kontuan izanik, argi dago ezinezkoa dela bertan dauden dokumentu guztiak eskuz sailkatzea. Horrexegatik, lan hauek prozesu automatikoen bidez egiten dira gaur egun, baliabide askotarako interesgarriak direnak; esate baterako, web bilatzaileentzako informazio gehigarri gisa. Web katalogoak sailkatzerakoan bi era ezberdinetan bideratu daiteke arazoa, web orrialdeak banaka edota webguneak bere osotasunean sailkatuz[3].
Web katalogo hierarkikoak sortzeak eskain ditzakeen abantailen artean hurrengo aplikazioak nabarmen daitezke:
- Web bilatzaileen emaitzak hobetzea.
- Galderei erantzuteko sistemei laguntzea.
- Web bilatzaile bertikalak sortzea.
Hitzen adiera-desanbiguazioa (Word Sense Disambiguation)
aldatuMota honetako sistemek adieraren arabera sailkatzen dituzte hitz polisemikoak, eta honenbestez, posible da hitz zehatz batek kasu bakoitzean duen esanahia antzematea.
Hizkuntzaren identifikazioa
aldatuSailkatu beharreko dokumentu sorta hizkuntza ezberdineko testuez osatuta egon daiteke, esate baterako, Webaren kasuan. Horrelakoetan oso interesgarria izaten da testuok hizkuntzaren arabera sailkatzea, kategoria bakoitzean hizkuntza bakarreko dokumentuak bilduz. N-gramak baliatuz honako hau egiten duen sistema ezagunenetakoa TextCat da.
Sentimenduen sailkapena
aldatuAzken urteotan gero eta gehiagotan erabiltzen den zerbaita sentimenduen sailkapena. Honi esker, testu batean erakusten den jarrera positiboa edo negatiboa sailkatu ohi da. Esate baterako, filmeen kritika ezberdinak onak edo txarrak diren definitu daiteke, eta ondorioz, balorazio orokorrak atera.
Erreferentziak
aldatu- ↑ Zhu, X. Semi-Supervised Learning Literature Survey. Wisconsingo Unibertsitatea. 2007.
- ↑ Sebastiani, F. Machine learning in automated text categorization[Betiko hautsitako esteka]. ACM Computing Surveys. 2002.
- ↑ Qi, X. and Davison, B. D. Web Page Classification: Features and Algorithms. Technical Report. 2007.
Ikus, gainera
aldatuKanpo estekak
aldatu- (Ingelesez) Dokumentuen sailkapenari buruzko sarrera
- (Ingelesez) Testuen sailkapen automatikoari buruzko bibliografia
- (Ingelesez) Kontsulten sailkapenari buruzko bibliografia
Datu sortak
aldatu- (Ingelesez) TechTC - Testuen sailkapenerako datu sortak
- (Ingelesez) David D. Lewisen datu sortak
- (Ingelesez) UCI Machine Learning Repository[Betiko hautsitako esteka]