Dokumentuen sailkapena

Dokumentuen sailkapena informazioaren zientziaren arloa da, informazioa eskuratzeko teknikekin lotu ohi dena. Dokumentu elektroniko baten edukietan oinarrituz, berau kategoria bat edo gehiagotan sailkatzean datza. 1960ko hamarkadan lehen urratsak izan zituen ikerketa ildo honen lehen hurbilketak ezagutzaren ingeniaritzan oinarritzen ziren, eta ondorioz, pertsona baten beharra zegoen sailkapenaren azken urratsa eskuz egiteko. 1990eko hamarkadaz geroztik, ordea, ikasketa automatikoan oinarritutako teknikak nagusitu dira, prozesu osoa automatizatuz.

Ikasketa automatikoan oinarritutako dokumentuen sailkapenerako bi prozesu mota ezberdindu daitezke:

  • Ikasketa gainbegiratuan oinarritutako dokumentuen sailkapena: sailkapen prozesua burutu aurretik, aurrez sailkatutako dokumentu sorta bat eskuragarri dago, eta berau erabiltzen da sistema entrenatzeko.
  • Ikasketa ez-gainbegiratuan oinarritutako dokumentuen sailkapena: ez dago aurrez sailkatutako dokumentu sortarik eskuragarri, eta sailkapena itsu-itsuan burutzen da. Honako hau ez da sailkapen atazatzat hartzen askotan, eta taldekatzea edo clustering bezala ere ezagutu ohi da.

Hala eta guztiz ere, azken urteotan gero eta gehiagotan erabiltzen den aukera da ikasketa erdi-gainbegiratuan oinarritutako dokumentuen sailkapena. Aukera hau oso baliagarria da aurrez sailkatutako dokumentu sorta oso txikia denean sorta osoarekiko, esate baterako, Webaren kasuan. Aurrez sailkatutako dokumentuak ikasteko erabiltzeaz gain, sailkatu gabe dauden dokumentuak ere baliatu egiten dira kasu honetan sailkatzailearen ikasketa prozesurako. Sailkatutako dokumentuekin ikasi, eta sailkatu gabekoekin findu egiten da[1].

Dokumentuen sailkapenerako tresna bat garatzerako orduan, hiru dira gainditu beharreko erronkak[2]:

  • Dokumentuen indexazioa, eta ondorioz, hauen adierazpenerako formatua.
  • Sailkatzailea sortzea.
  • Emaitzen ebaluazioa.

Sailkapenak lengoaia dokumental hierarkikoak dira, harreman hierarkikoa dagoelako bertako indizeen artean. Eta bere antolamendua orokorretik zehatzera doa, indizeen esanahiaren arabera. Oro har, sailkapenetan agertzen diren indizeek aurre koordinazioa dute, hau da, elementu semantikoak lotzen doaz  indizeak gero eta zehatzagoak bihurtuz  (adibidez, seriea, umorezko seriea).

Teknikak aldatu

Ikasketa gainbegiratua aldatu

Sakontzeko, irakurri: «Sailkapen gainbegiratua»

Ikasketa erdi-gainbegiratua aldatu

Sakontzeko, irakurri: «Sailkapen erdi-gainbegiratua»

Ikasketa ez-gainbegiratua aldatu

Sakontzeko, irakurri: «Datuen taldekatzea»

Gainbegiratu gabeko ikasketa sistemek sailkatu beharreko kategorien metadaturik ez dutenez, sailkapena itsu-itsuan egin ohi da, eta honenbestez, ez da berezko sailkapen sistematzat hartzen, taldekatzea edo clustering izena hartzen duelarik.

Aplikazioak aldatu

Iragazketa sistemak aldatu

Sailkapen automatikoak iragazketarako duen aplikaziorik ezagunena spam mezuen baztertzea da, zeinak sailkapenaren bitartez zabor-posta iragazten duen. Sailkapen hau mota ezberdinetakoa izan daiteke: posible da mezuak zaborra diren edo ez besterik zehazten ez duen sistema garatzea, edo baita zaborra ez diren mezu horiek nahi bezainbeste kategoriatan sailkatzea ere, beharren arabera.

Zabor-postaren kasu konkretuaz gain, beste edozein iragazketa sistema garatzeko erabil daiteke sailkapen automatikoa; adibidez, profil pertsonalizatuak baliatuz, albisteak erabiltzaile konkretu batentzako interesgarriak izan daitezkeen edo ez sailkatzea.

Web katalogo hierarkikoak aldatu

Webak duen tamaina izugarria eta hazkunde etengabea kontuan izanik, argi dago ezinezkoa dela bertan dauden dokumentu guztiak eskuz sailkatzea. Horrexegatik, lan hauek prozesu automatikoen bidez egiten dira gaur egun, baliabide askotarako interesgarriak direnak; esate baterako, web bilatzaileentzako informazio gehigarri gisa. Web katalogoak sailkatzerakoan bi era ezberdinetan bideratu daiteke arazoa, web orrialdeak banaka edota webguneak bere osotasunean sailkatuz[3].

Web katalogo hierarkikoak sortzeak eskain ditzakeen abantailen artean hurrengo aplikazioak nabarmen daitezke:

Hitzen adiera-desanbiguazioa (Word Sense Disambiguation) aldatu

Sakontzeko, irakurri: «Hitzen adiera-desanbiguazioa»

Mota honetako sistemek adieraren arabera sailkatzen dituzte hitz polisemikoak, eta honenbestez, posible da hitz zehatz batek kasu bakoitzean duen esanahia antzematea.

Hizkuntzaren identifikazioa aldatu

Sakontzeko, irakurri: «Hizkuntzaren identifikazioa»

Sailkatu beharreko dokumentu sorta hizkuntza ezberdineko testuez osatuta egon daiteke, esate baterako, Webaren kasuan. Horrelakoetan oso interesgarria izaten da testuok hizkuntzaren arabera sailkatzea, kategoria bakoitzean hizkuntza bakarreko dokumentuak bilduz. N-gramak baliatuz honako hau egiten duen sistema ezagunenetakoa TextCat da.

Sentimenduen sailkapena aldatu

Azken urteotan gero eta gehiagotan erabiltzen den zerbaita sentimenduen sailkapena. Honi esker, testu batean erakusten den jarrera positiboa edo negatiboa sailkatu ohi da. Esate baterako, filmeen kritika ezberdinak onak edo txarrak diren definitu daiteke, eta ondorioz, balorazio orokorrak atera.

Erreferentziak aldatu

  1. Zhu, X. Semi-Supervised Learning Literature Survey. Wisconsingo Unibertsitatea. 2007.
  2. Sebastiani, F. Machine learning in automated text categorization[Betiko hautsitako esteka]. ACM Computing Surveys. 2002.
  3. Qi, X. and Davison, B. D. Web Page Classification: Features and Algorithms. Technical Report. 2007.

Ikus, gainera aldatu

Kanpo estekak aldatu

Datu sortak aldatu