Datu Meatzaritza

Data

Datu meatzaritza estatistikaren (datu-analisiaren) eta konputazio-zientzien esparru bat da, datu-multzo erraldoietan ereduak aurkitzea helburu duena; informazioaren erauzte-prozesu horretan adimen artifizialeko, estatistikako eta ikasketa automatikoko metodoak erabiltzen dira. KDD (Knowledge discovery in databases) izenez ezagutzen den prozesuaren zati bat besterik ez da. Izan ere, KDD prozesuak datu-meatzaritza aplikatu aurretik datuak biltzea, aukeratzea, garbitzea eta eraldatzea eskatu ohi du, eta ondoren emaitzak ebaluatu, interpretatu eta azken erabakiak hartu behar izaten dira.

Datu-multzo erraldoi horietan ezezagunak diren ereduak aurkitzearen ataza modu automatikoan edo erdi-automatikoan egiten da. Mota desberdineko ereduak izan ohi dira: datuen multzokatzea (clustering analisia), ohikoak ez diren instantzien (kasuen) detekzioa (outlier detection), mendekotasunak aurkitzea etab. Aurkitutako eredu horiek sarrerako datu-multzo erraldoien interpretazio bat eskaintzen dute eta gerora aplika daitezkeen analisi gehigarrietan (ikasketa automatikoa edota analisi iragarlea, adibidez) lagungarri izan daitezke.

Ezagutza aurkitzeko prozesuaren urratsak

Datu-meatzaritza datu-multzo handietan ezagutza aurkitzeko prozesuaren (KDD, Knowledge discovery in databases) zati bat da. Prozesu osoaren urratsak honakoak dira:

Datu-multzoa aukeratzea: datu-multzoa osatzen duten kasuei (instantziei) buruzko informazioa bildu behar da, aldagaiak (aldagai iragarleak eta klase-aldagaiak) kontuan izanik.
Datuen ezaugarrien analisia egitea: Histogramen analisia, sakabanatze-diagramen azterketa, ez-ohikoak diren balioen detekzioa edota falta diren datuen tratamendua egitea bereziki garrantzitsua izaten da.
Datu-multzoa eraldatzea: Mota askotarikoa izan daiteke, problema bakoitzaren arabera erabaki beharrekoa izaten da datuei ondoen doakien eraldaketa egiteko. Urrats honen helburua datuak ahalik eta ondoen prestatzea da, ondoren datu-meatzaritzako teknikak aplikatzeko prest egon daitezen. Hori dela eta, urrats honi aurre-prozesaketa ere esan ohi zaio.
Datu-meatzaritza aplikatzea. Ezagutza erauztea. Aukeratzen den datu-meatzaritza teknikaren araberakoa izango da eraikiko den ezagutza-eredua.
Interpretazioa eta ebaluazioa egitea: Datu-multzotik erauzi den ezagutza-eredua ebaluatu behar da, baliagarria eta sinesgarria dela egiaztatzeko. Teknika desberdinak erabili izanagatik eredu desberdinak lortu badira, haien arteko konparaketa egitea komeni da, egokiena aukeratzeko. Datu-multzoaren ezagutza-arloan aditua den norbaiten laguntza beharrezkoa izan daiteke azken urrats honetan.

Ereduak ebaluazioaren azken urratsa gaindituko ez balu, prozesu osoa hasieratik edo tarteko urratsen batetik aurrera errepika liteke.

Datu-meatzaritzako teknikak aplikatzen hasi ziren lehen urte haietan, egitura jakin bat zuten datu-baseetan gordeta egoten ziren datuak; enpresa ugari izan dira munduan zehar halako datu-baseak sortu eta elikatu izan dituztenak. Gaur egun ordea, gero eta arruntagoa da datu-meatzaritzako teknikak egiturarik gabeko datu-multzoei aplikatzea, hots: testu-fitxategi, interneteko web-orri (web-meatzaritza), etab.

Datu meatzaritzako teknikak

Datu-multzoko datuekin egin nahi den analisiaren arabera, sailkapen gainbegiratua (a priori datu-baseko kasuen klasea ezaguna da, ikus “aprendizaje supervisado”) edo sailkapen gainbegiratu-gabea (a priori datu baseko kasuen klasea ez da ezaguna, ikus “aprendizaje no supervisado”) bereiz daitezke. Hona hemen sailkapen gainbegiraturako teknika adierazgarrienetariko batzuk:

k-NN (K-Nearest Neighbour): Distantzian oinarritutako sailkatzailea da. Kasu berri bat sailkatzerakoan bere hurbileneko k auzokideen klaseen artean sarrien agertzen den klasea egokituko zaio. Inplementazioa erraza da.
Sailkatzaile Bayestarrak: Estatistika klasikoko probabilitate-teorian oinarritutako sailkatzaileen familia bat da. Kasu berriarentzat egindako iragarpenari probabilitate bat egokitzen zaio. Konputazionalki oso garestiak izan daitezkeenez, ereduari sinplifikazioak egin ohi zaizkio aldagai iragarleak haien artean independente direla suposatuz.
Erregresio lineala: Oinarria estatistika klasikoan duen sailkatzailea da.
Sailkatze-zuhaitzak: Zuhaitz-egitura duen sailkatze-ereduak sortzeko teknikak dira. Zuhaitza adierazten duen diagramak erpinak (aldagai iragarleak), ertzak (aldagaien balio desberdinetarako zabalduko direnak) eta hostoak (klase-aldagairako balioak) ditu. Erabaki-zuhaitzak eraikitzeko algoritmo ezagunenak ID3 eta C4.5 dira.
Neurona-sare artifizialak: Animalien nerbio-sistemaren simulazio moduan sortutako sailkatze-eredu konputazionalak dira. Elkarri konektatutako neuronen sare batez osaturik daude. Adibide ezagunak: perceptron, geruza anitzeko perceptron, mapa autoantolatuak.

Sailkapen gainbegiratu gaberako teknika ezagunenak hauek dira:

Datuen multzokatzea (Clustering): Datuak multzoetan banatzea helburu duten teknikak dira. Normalean distantzian oinarritutako irizpideak erabiltzen dira multzoak aurkitzeko. Algoritmo ezagunenak: “K-means clustering” eta “clustering hierarkikoa” dira.

Software erremintak

Datu meatzaritzako ereduak sortzeko software ugari existitzen dira, libre zein komertzialak. Hemen adibide batzuk:

Orange
R

Ikusi

Almacén operacional de los datos
Análisis predictivo
Aprendizaje automático
Data warehousing o Almacenamiento de datos
Estadística
Facts and authorities
Inteligencia Empresarial
Iconografía de las correlaciones
Minería de datos espacial
Minería de grafos
Minería de procesos
Minería de textos
Reglas de asociación
Sistemas de información ejecutiva
Sistemas de soporte a decisiones
Web mining
Weka (aprendizaje automático)

Lankide:Manex Darceles/Proba orria

Eduki-taula

Datu Meatzaritza

Ezagutza aurkitzeko prozesuaren urratsak

Datu meatzaritzako teknikak

Software erremintak

Ikusi