Lankide:Unaihv/Proba orria

Artikulu hau, osorik edo zatiren batean, ingelesezko wikipediako «Machine learning» artikulutik itzulia izan da. Jatorrizko artikulu hori GFDL edo CC-BY-SA 3.0 lizentzien pean dago. Egileen zerrenda ikusteko, bisita ezazu jatorrizko artikuluaren historia orria.

Ikasketa automatikoa (ingelesez Machine learning) ikerketa-eremu bat da esperientziatik ikasteko gai diren metodoak ulertzera eta eraikitzera bideratuta dagoena^[1]. Metodo hauek datuak erabiltzen dituzte zeregin batzuen errendimendua hobetzeko. Ikasketa automatikoko algoritmoek eraikitzen dute eredu bat data-multzoetan oinarrituta. Data-multzo hauek algoritmoa entrenatzeko erabiltzen dira. Behin algoritmoa entrenatuta dagoenean datu horiekin, ikasitakoaren arabera erabakiak hartzeko gai da, esplizituki programatuta egon gabe^[2].

Adimen artifizialaren adar bat da. Horren ondorioz, askotan nahastu egiten da ikasketa automatikoaren terminoa adimen artifizialarekin zerikusia duten beste termino batzuekin; hala nola, datuen analisia edo ikasketa sakona. Terminoa 1959an erabili zen lehen aldiz. Hala ere, azken urteetan garrantzia irabazi du gaitasun konputazionala handitu egin delako eta datuen booma bizi ari garelako^[3]. Hori dela eta, gaur egun ikasketa automatikoa hedatu da hainbat esparrutara; hala nola, medikuntzara, finantza-sektorera, segurtasunera, gidatze autonomora edo laguntza birtualera^[4].

Ikaskuntza motak

Ikaskuntza automatikoko algoritmoak biltzen dira taxonomia batean horien irteeraren arabera. Hona hemen algoritmo mota batzuk:

Gainbegiratutako ikaskuntza

Gainbegiratutako algoritmoek datuei lotutako etiketa-sistema batean oinarrituta daude^[5]. Sarrerako datuak dagozkien etiketekin erlazionatzeko gai dira, eta, hortik aurrera, erabakiak hartuko dituzte edo iragarpenak egingo dituzte. Adibidez, spam detektagailu bat da, mezu elektroniko bat spam gisa etiketatzen duena edo ez posta-historikotik ikasi dituen patroien arabera (bidaltzailea, testua/irudiak erlazioa, gaiaren gako-hitzak, etab).

Gainbegiratu gabeko ikaskuntza

Gainbegiratu gabeko algoritmoen data-multzoak ez daude sailkatuta etiketen bidez. Datuen egitura aurkitzen saiatzen dira patroiak aurkitzeko. Algoritmo hauek, beraz, etiketatu, sailkatu edo kategorizatu gabeko datuetatik ikasten dute. Helburua ez da datuak bereiztea eta hauek etiketekin sailkatzea, gainbegiratutako ikaskuntzan bezala. Algoitmo hauen helburua datuen arteko erlazioak bilatzea da, antzekotasunak aurkitzeko.

Erdi gainbegiratutako ikaskuntza

Erdi-gainbegiratutako ikaskuntza gainbegiratu gabeko ikaskuntzaren (etiketatutako datu-multzorik gabe) eta gainbegiratutako ikaskuntzaren (erabat etiketatutako datu-multzoekin) arteko nahasketa da. Batzuetan data-multzoen etiketak falta dira. Hala ere, makina-ikaskuntzako ikertzaile askok aurkitu dute etiketatu gabeko datuek, etiketatutako datu kopuru txiki batekin batera erabiltzen direnean, ikasketaren zehaztasuna nabarmen hobetu dezaketela^[6].

Indargarri bidezko ikaskuntza

Algoritmoak inguratzen duen mundua behatuz ikasten du. Bere hasierako informazioa feedback edo atzeraelikadura da, kanpoko mundutik lortzen duena, bere ekintzen erantzun gisa. Beraz, sistemak saiakuntza-errore bidez ikasten du.

Indargarri bidezko ikaskuntza algoritmorik orokorrena da. Instruktore batek agenteari zer egin adierazi beharrean, agente adimendunak ikasi behar du inguruneak nola jokatzen duen. Helburu nagusia da agente adimendunari sari-seinalea maximizatzen lagunduko dion balio-funtzioa ikastea. Horrela, bere politikak optimizatuko ditu, ingurunearen portaera ulertuko du eta bere helburu formalak lortuko ditu erabaki onak hartzeko.

Ereduen sailkapena

Makina bidezko ikaskuntza egiteak eskatzen du eredu bat sortzea. Prestakuntza-datu batzuekin entrenatuko da, geroago, datu gehigarriak prozesatzeko eta iragarpenak egiteko. Ikaskuntza automatikoko sistemetarako hainbat eredu mota erabili eta ikertu dira.

Neurona-sare artifizial baten diagrama

Neurona-sare artifizialak

Neurona-sare artifizialak (NSA) ikaskuntza automatikoaren paradigma dira, animalien nerbio-sistemen neuronetan oinarrituta. NSA bat, nodo edo neurona artifizial konektatuen bilduma batean oinarritutako eredu bat da, burmuin biologiko batean neuronak lasai-lasai modelatzen dituena. Konexio bakoitzak, informazioa transmiti dezake, "seinale" bat, nodo batetik bestera. Nodoen arteko lotura baten seinalea zenbaki erreal bat da, eta nodo bakoitzaren irteera, bere inputen baturaren funtzio ez-linealen baten bidez kalkulatzen da. Sare neuralen garrantzia 2000ko hamarkadaren amaieran handitu zen, ikasketa sakona iritsi zenean.

Erabaki-zuhaitzak

Erabaki-zuhaitz baten atalak

Erabaki-zuhaitza ikaskuntza-algoritmo gainbegiratu ez-parametrikoa da. Sailkapen-zereginetarako zein erregresio-zereginetarako erabiltzen da. Egitura hierarkikoa du, erro-nodo bat, adarrak, barne-nodoak eta hosto-nodoak dituena.

Erabaki-zuhaitza nodo errodun batekin hasten da, adarrik jasotzen ez duena. Erro-nodoaren adar irtenek barne-nodoak elikatzen dituzte, erabaki-nodo ere esaten zaienak. Dauden ezaugarrien arabera, bi nodo hauek azpimultzo homogeneoak osatzen dituzte, nodo hostoen edo nodo terminalen bidez adierazten dira. Hosto-nodoek adierazten dituzte datu guztien barruan egon daitezkeen emaitza guztiak.

Erregresio-analisia

Erregresio-analisiak metodo estatistiko ugari hartzen ditu, sarrerako aldagaien eta horiei lotutako ezaugarrien arteko erlazioa kalkulatzeko. Bere forma ohikoena erregresio lineala da. Forma honetan, lerro bakar bat marrazten da emandako datuak irizpide matematiko baten arabera ahalik eta hobekien egokitzeko.

Bayes sareak

Bayes sareek aldagai ezagunen multzo bat irudikatzen dute eta haien arteko mendekotasun-erlazioak adierazten dituzte grafiko baten bidez. Grafiko honek deskribatzen du ausazko aldagaien multzo bat gobernatzen duen baterako probabilitate-banaketa. Nodoek edozein aldagai mota adieraz dezakete; hala nola, parametro neurgarri bat, aldagai latenete bat edo hipotesi bat.

Mugak

Ikaskuntza automatikoa alor batzuetan eraldatzailea izan arren, ikaskuntza automatikoko programek askotan ez dute lortzen esperotako emaitzak^[7]^[8]^[9]. Urteetan zehar hobetu arren, oraindik ez da behar adina garatu lan-karga murrizteko, ikerketarako beharrezkoa den sentsibilitatea mugatu gabe^[10].

Joera

Makinak ikasteko planteamenduek datu aurreiritzi desberdinak izan ditzakete. Algoritmoak gizakiak egindako datuekin entrenatzen direnean, litekeena da makina bidezko ikaskuntzak gizartean jada dauden joera konstituzional eta inkontzienteak jasotzea^[11]. Adibidez, frogatuta dago datuetatik ikasitako hizkuntza-ereduek gizakien antzeko joera dutela^[12]^[13].

Gehiegizko doikuntza

Gehiegizko doikuntza ikaskuntza automatikoaren hutsunetako bat da ereduaren zehaztasuna eta errendimendua zailtzen duena. Esaten da estatistika-eredu bat gehiegi doituta dagoela datu askorekin entrenatzen dugunean. Eredu bat hainbeste datuekin entrenatzen denean, gure datu-multzoan dauden zaratatik eta datu-sarrera zehaztugabeetatik ikasten hasten da. Beraz, ereduak ez ditu datuak behar bezala sailkatzen, xehetasun eta zarata gehiegi dagoelako.

Software

Programazio-lengoaia asko erabil daitezke ikaskuntza automatikoko algoritmoak ezartzeko. Gaur egun, R eta Python dira ezagunenak^[14]. Alde batetik, R eremu akademikoan erabiltzen da, eta, bestetik, Python enpresa pribatuan ezagunagoa da.

Ikaskuntza automatizatuko algoritmoak dituzten software-paketeen artean, honako hauek daude:

Kode irekiko softwarea

TensorFlow: Googlek garatutako plataforma
Apache Mathout: Javan dauden kasketa automatikoko algoritmo eskalagarrien plataforma.
Scikit-learn: Python-eko liburutegia, NumPy eta SciPyrekin elkar eragiten duena.
Spark MLlib: Apache Spark-en parte den liburutegia.
OpenCV

Software patentatua

SPSS Modeler
Mathematica
MATLAB
Microsoft Azure Machine Learning
Neural Designer
Oracle Data Mining

Erreferentziak

↑ Mitchell, Tom. (1997). «Machine Learning textbook» www.cs.cmu.edu (Noiz kontsultatua: 2022-11-28).
↑ The definition "without being explicitly programmed" is often attributed to Arthur Samuel, who coined the term "machine learning" in 1959, but the phrase is not found verbatim in this publication, and may be a paraphrase that appeared later. Confer "Paraphrasing Arthur Samuel (1959), the question is: How can computers learn to solve problems without being explicitly programmed?" in Koza, John R.; Bennett, Forrest H.; Andre, David; Keane, Martin A. (1996). "Automated Design of Both the Topology and Sizing of Analog Electrical Circuits Using Genetic Programming". Artificial Intelligence in Design '96. Artificial Intelligence in Design '96. Springer, Dordrecht. pp. 151–170. doi:10.1007/978-94-009-0279-4_9 ISBN 978-94-010-6610-5.
↑ «BBVA IT | Aprendizaje Automático, el poder de los algoritmos» www.bbvaitspain.com (Noiz kontsultatua: 2022-11-28).
↑ (Gaztelaniaz) NexusAdmistraIntegra. (2020-01-30). «Las 9 aplicaciones de machine learning que deberías conocer» Nexus Integra (Noiz kontsultatua: 2022-11-28).
↑ Russell, Stuart J.; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (Third ed.). Prentice Hall. ISBN 9780136042594
↑ Alex Ratner; Stephen Bach; Paroma Varma; Chris. "Weak Supervision: The New Programming Paradigm for Machine Learning". hazyresearch.github.io. referencing work by many other members of Hazy Research. Archived from the original on 2019-06-06. Retrieved 2019-06-06.
↑ "Why Machine Learning Models Often Fail to Learn: QuickTake Q&A". Bloomberg.com. 2016-11-10. Archived from the original on 2017-03-20. Retrieved 2017-04-10
↑ "The First Wave of Corporate AI Is Doomed to Fail". Harvard Business Review. 2017-04-18. Retrieved 2018-08-20.
↑ "Why the A.I. euphoria is doomed to fail". VentureBeat. 2016-09-18. Retrieved 2018-08-20.
↑ Reddy, Shivani M.; Patel, Sheila; Weyrich, Meghan; Fenton, Joshua; Viswanathan, Meera (2020). "Comparison of a traditional systematic review approach with review-of-reviews and semi-automation as strategies to update the evidence". Systematic Reviews. 9 (1): 243. doi:10.1186/s13643-020-01450-2. ISSN 2046-4053. PMC 7574591. PMID 33076975.
↑ Garcia, Megan (2016). "Racist in the Machine". World Policy Journal. 33 (4): 111–117. doi:10.1215/07402775-3813015. ISSN 0740-2775. S2CID 151595343.
↑ (Ingelesez) Caliskan, Aylin; Bryson, Joanna J.; Narayanan, Arvind. (2017-04-14). «Semantics derived automatically from language corpora contain human-like biases» Science 356 (6334): 183–186. doi:10.1126/science.aal4230. ISSN 0036-8075. (Noiz kontsultatua: 2022-11-28).
↑ Wang, Xinan; Dasgupta, Sanjoy (2016), Lee, D. D.; Sugiyama, M.; Luxburg, U. V.; Guyon, I. (eds.), "An algorithm for L1 nearest neighbor search via monotonic embedding" (PDF), Advances in Neural Information Processing Systems 29, Curran Associates, Inc., pp. 983–991, retrieved 2018-08-20
↑ (Ingelesez) «Four main languages for Analytics, Data Mining, Data Science» KDnuggets (Noiz kontsultatua: 2022-11-28).

Ikus, gainera

Kanpo estekak

[1] Mitchell, Tom. (1997). «Machine Learning textbook» www.cs.cmu.edu (Noiz kontsultatua: 2022-11-28).

[2] The definition "without being explicitly programmed" is often attributed to Arthur Samuel, who coined the term "machine learning" in 1959, but the phrase is not found verbatim in this publication, and may be a paraphrase that appeared later. Confer "Paraphrasing Arthur Samuel (1959), the question is: How can computers learn to solve problems without being explicitly programmed?" in Koza, John R.; Bennett, Forrest H.; Andre, David; Keane, Martin A. (1996). "Automated Design of Both the Topology and Sizing of Analog Electrical Circuits Using Genetic Programming". Artificial Intelligence in Design '96. Artificial Intelligence in Design '96. Springer, Dordrecht. pp. 151–170. doi:10.1007/978-94-009-0279-4_9 ISBN 978-94-010-6610-5.

[3] «BBVA IT | Aprendizaje Automático, el poder de los algoritmos» www.bbvaitspain.com (Noiz kontsultatua: 2022-11-28).

[4] (Gaztelaniaz) NexusAdmistraIntegra. (2020-01-30). «Las 9 aplicaciones de machine learning que deberías conocer» Nexus Integra (Noiz kontsultatua: 2022-11-28).

[5] Russell, Stuart J.; Norvig, Peter (2010). Artificial Intelligence: A Modern Approach (Third ed.). Prentice Hall. ISBN 9780136042594

[6] Alex Ratner; Stephen Bach; Paroma Varma; Chris. "Weak Supervision: The New Programming Paradigm for Machine Learning". hazyresearch.github.io. referencing work by many other members of Hazy Research. Archived from the original on 2019-06-06. Retrieved 2019-06-06.

[7] "Why Machine Learning Models Often Fail to Learn: QuickTake Q&A". Bloomberg.com. 2016-11-10. Archived from the original on 2017-03-20. Retrieved 2017-04-10

[8] "The First Wave of Corporate AI Is Doomed to Fail". Harvard Business Review. 2017-04-18. Retrieved 2018-08-20.

[9] "Why the A.I. euphoria is doomed to fail". VentureBeat. 2016-09-18. Retrieved 2018-08-20.

[10] Reddy, Shivani M.; Patel, Sheila; Weyrich, Meghan; Fenton, Joshua; Viswanathan, Meera (2020). "Comparison of a traditional systematic review approach with review-of-reviews and semi-automation as strategies to update the evidence". Systematic Reviews. 9 (1): 243. doi:10.1186/s13643-020-01450-2. ISSN 2046-4053. PMC 7574591. PMID 33076975.

[11] Garcia, Megan (2016). "Racist in the Machine". World Policy Journal. 33 (4): 111–117. doi:10.1215/07402775-3813015. ISSN 0740-2775. S2CID 151595343.

[12] (Ingelesez) Caliskan, Aylin; Bryson, Joanna J.; Narayanan, Arvind. (2017-04-14). «Semantics derived automatically from language corpora contain human-like biases» Science 356 (6334): 183–186. doi:10.1126/science.aal4230. ISSN 0036-8075. (Noiz kontsultatua: 2022-11-28).

[13] Wang, Xinan; Dasgupta, Sanjoy (2016), Lee, D. D.; Sugiyama, M.; Luxburg, U. V.; Guyon, I. (eds.), "An algorithm for L1 nearest neighbor search via monotonic embedding" (PDF), Advances in Neural Information Processing Systems 29, Curran Associates, Inc., pp. 983–991, retrieved 2018-08-20

[14] (Ingelesez) «Four main languages for Analytics, Data Mining, Data Science» KDnuggets (Noiz kontsultatua: 2022-11-28).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]