Hitz-bektoreak

Hitzen esanahia zenbakizko bektoreen bidez errepresentatzeko modua. (word embedding)

Hitz-bektoreak, word embedding-ak edo bektore distribuzionalak hizkuntzaren prozesamenduan erabiltzen diren zenbakizko bektoreak dira, hitz edo esaldien esanahia modu abstraktuan errepresentatzeko balio dutenak. Corpuseko hitz bakoitzari bere esanahiaren errepresentazio abstraktu bat esleitzen diote, hitz bakoitza bektore-espazio batean kodetzen da. Gauzak horrela, eragiketa matematikoen bidez hitzen arteko antzekotasunak eta erlazioak erraz neurtu daitezke. Gainera, bektore-espazio horiek hizkuntza bat baino gehiagorekin lan egiteko aukera ematen dute, eta, ondorioz, ale desberdinen arteko eragiketak ahalbidetzen dituzte.

Euskarazko 500 hitzen bi dimentsiotako errepresentazioa

Mapaketa hau sortzeko neurona-sareak, probabilitate modeloak, zein beste metodo batzuk erabili ohi dira.

Hobekuntza nabarmenak izan dira hizkuntzaren prozesamenduaren alorretan hitz-bektoreak eta esaldi-bektoreak erabiliz, besteak beste, itzulpen automatiko neuronalean, sentimenduen analisian eta azterketa sintaktikoan.

Teknikaren garapena aldatu

Hizkuntzalaritzan hitz embedding-ak semantika distribuzionalaren ikerketa esparruan aztertzen dira. Testu-corpus erraldoietatik; hots, neurona-sareek, hipotesi distribuzionalean oinarrituta, corpuseko hitz bakoitzari bere esanahiaren errepresentazio abstraktu bat esleitzen diote. Oinarrian, "Hitz baten esanahia haren auzokideen bidez ezagutuko duzu!" Firth-ek esan bezala.

1960ko hamarkadan garatu zen hitzen errepresentazio bektoriala erabiltzearen teknika, informazioa berreskuratzeko bektore-eremu semantikoaren garapenarekin batera. 2000. hamarkadan Bengio et al [1] artikuluaren bidez testuinguruko hitzen errepresentazioen dimentsioak murrizteko "hitzen errepresentazio distribuzionala ikasiz". Alorra garatzen joan zen eta 2010. hamarkadan aurrerapen handiak egin ziren, bektoreen kalitatearen hobekuntza eta ereduen entrenatzeko abiadurari esker.

Ikerkuntza talde asko daude hitz-bektoreen inguruan lanean. 2013. urtean, Google enpresako talde batek, Tomas Mikolov buru,[2] word2vec sortu zuten, inoiz sortu zenik erremintarik azkarrena hitzen errepresentazioak entrenatzeko.

Esanahi-bektoreak aldatu

Esanahi-bektoreak (thought vectors ingelesez) hitz-bektoreen luzapen bat dira, zeinen esaldi edo dokumentu guztiaren errepresentazioa diren. N dimentsioz osatutako bektoreak dira, zeinen dimentsio bakoitza ezaugarri abstraktu bat den. Bektore hauek hitzen auzokide guztien ezaugarriak jasotzen dituzte; honi esker, N dimentsiodun bektore-espazioan kokatzen dira, eta hitzen arteko antzekotasun eta ahaidetasunak aztertzea bideratzen du. Ikertzaile askoren arabera hizkuntza naturalaren prozesamenduaren kalitatea hobetuko da honi esker.[3][4]

Erlazio semantiko eta sintaktikoa aldatu

Bektore distribuzionalen ezaugarri garrantzitsu bat erlazio semantiko eta sintaktikoen kontserbazioa da. Mikolov et al-ek bektore aritmetikoak erabiliz patroi semantiko eta sintaktikoak erreproduzitzea posible zela baieztatu zuten. Honi esker, harrigarria dirudien arren, eragiketa aritmetikoak erabili daitezke ondorengo erlazioak burutzeko, "Emakumea Gizonari Arreba Anaiari bezala da" bektoreak erabiliz, Arreba - Emakumea + Gizona = Anaia lortuko genuke. Hau oso erabilgarria izan da zuzentzaile automatikoak sortzeko, orainaldiko eta lehenaldiko aditzen arteko erlazioak mantentze baitira.

Aplikazioak aldatu

Gaur egun, hizkuntza naturalen prozesamendurako zenbait atazatan aplikatzen dira eredu semantiko distribuzionalak, besteak beste, sentimendu analisia egiteko, hitzen arteko antzekotasunak bilatzeko, informazioaren-erauzketa burutzeko. Zenbait atazatan emaitzak hobetu dira, baina ikertzen dihardute aurretik azaldutako atazen emaitzen mailara heltzeko.

Itzulpen automatikoa aldatu

Azken urtean aurrera pausu handia eman da bektore-espazio eleaniztunen inguruan. Hizkuntza desberdinetako hitz-bektoreen arteko linealtasuna ustiatu da. Artikulu desberdinek baieztatu duten bezala, bi hizkuntza desberdinetako ezagutza-baseak hartuz eta bakoitza bere kaxa entrenatu ezkero, bi hizkuntzen esanahi-bektoreen arteko linealtasuna dago.[5] Azken urtea, ildo beretik jarraiki, inon gainbegiratze metodorik gabe, bi hizkuntzen arteko mapaketa ikasten duen eredu proposatu zen.[6] Honi esker, hiztegi murritzekin mapaketa onak egitea posible da, itzulpen automatikoaren arazoetako bat testu-corpusen tamaina izan baita orain arte.

Anbiguotasuna aldatu

Hitzen anbiguotasuna hizkuntza naturalen prozesamenduaren erronketako bat da aspaldidanik. 2016. urtean, Iacobacci et al[7], hitz-bektoreak erabiltzea proposatu zuten hitzen adiera-desanbiguazioa burutzeko. Ikertzaile talde honek ordura arte HAP ezaugarriz soilik osatutako sistemen artearen-egoera hobetzea lortu zuten, erakutsiz hitz-bektoreen ahalmena ataza honetan. Hala eta guztiz ere, esan behar da ez direla lortu beste ataza batzuetan lortu diren emaitzak, eta ikertzaileak hau hobetzeko lanean hari dira gaur egun.

Kanpo estekak aldatu

Erreferentziak aldatu

  1. (Ingelesez) Bengio, Yoshua; Schwenk, Holger; Senécal, Jean-Sébastien; Morin, Fréderic; Gauvain, Jean-Luc. (2006). «Neural Probabilistic Language Models» Innovations in Machine Learning (Springer, Berlin, Heidelberg): 137–186.  doi:10.1007/3-540-33486-6_6. ISBN 3540334866. (Noiz kontsultatua: 2018-02-20).
  2. Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey. (2013-10-16). «Distributed Representations of Words and Phrases and their Compositionality» arXiv:1310.4546 [cs, stat] (Noiz kontsultatua: 2018-02-20).
  3. Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard S.; Torralba, Antonio; Urtasun, Raquel; Fidler, Sanja. (2015-06-22). «Skip-Thought Vectors» arXiv:1506.06726 [cs] (Noiz kontsultatua: 2018-02-20).
  4. (Ingelesez) team, Chris V. Nicholson, Adam Gibson, Skymind. «Thought Vectors, Deep Learning & the Future of AI - Deeplearning4j: Open-source, Distributed Deep Learning for the JVM» deeplearning4j.org (Noiz kontsultatua: 2018-02-21).
  5. .
  6. Artetxe, Mikel; Labaka, Gorka; Agirre, Eneko; Cho, Kyunghyun. (2017-10-30). «Unsupervised Neural Machine Translation» arXiv:1710.11041 [cs] (Noiz kontsultatua: 2018-02-21).
  7. Iacobacci, Ignacio. (2016). «Embeddings for Word Sense Disambiguation: An Evaluation Study» aclweb (http://www.aclweb.org).