Naive Bayes sailkatzaile

Datu meatzaritzan, Naive Bayes sailkatzailea Bayes-en teoreman eta aldagaien arteko independentziaren hipotesian oinarritzen den sailkatzaile probabilistiko bat da. Aldagaiak independente direla suposatzeak eragiten duen sinplifikazioagatik hartzen du, hain zuzen ere, Naive izena.

Sarrera aldatu

Naive Bayes sailkatzailean suposatzen da, ezaugarriak elkarren artean independenteak direla, klase aldagaia emanda. Adibidez, fruta bat sagarra dela esan genezake gorria bada, biribila, eta gutxi gorabehera 7 cm-ko diametroa badu. Naive Bayes sailkatzailearen arabera, ezaugarri horietako bakoitzak modu independentean eragiten du sagar izateko probabilitatean. Koloreari buruzko ezaugarriak, formari buruzkoak eta diametroari buruzko informazioa ematen duten aldagaien artean Korrelaziorik ez dela existitzen suposatzen da, hortaz.

Aldagaien independentziaren hipotesiak eragiten duen sinplifikazioari esker, sailkapena egiteko behar diren parametroak estimatzeko datu kopuru txikia behar da entrenamenduan, eta hori abantaila handia da.

Kontzeptu probabilistikoa aldatu

Naive bayes sailkatzailea eredu probabilistiko bat da:   bektorearen bidez adierazitako kasu berria izanik,

 

probabilitateak kalkulatuko ditu   klase-aldagaiaren   balio bakoitzerako.   balioek   aldagai iragarleri edo ezaugarriri buruzko informazioa ematen dute,  ren iragarpenean aldagai horiek independenteak direla suposatuz. Ereduaren formulazio horrek duen arazoa da, aldagai iragarle kopurua handia denean edo aldagaiek har ditzaketen balio kopurua handia denean, eredua probabilitateen taula batean oinarritzea bideraezina gertatzen dela. Bideragarria izan dadin, ereduaren beste formulazio bat ematen da.

Bayesen teorema erabiliz, baldintzazko probabilitatea horrela idatz daiteke:

 

Adierazpen horretan, garrantzi handiena duen balioa zenbakitzailea da. Izan ere, izendatzaileak ez du   klase aldagaiarekiko mendekotasunik, eta beraz, konstantea da. Zenbakitzailea baterako probabilitatearen bidez adieraz daiteke:

 

Katearen erregela aplikatuz eta baldintzazko probabilitatearen definizioa behin eta berriz erabiliz, adierazpena honela berridatz daiteke:

 
 
 
 
 

eta horrela guztietarako. Orain, aldagaien arteko baldintzazko independentzia "naïve" edo sinplea hartuko da kontuan. Aintzat hartuko dugu aldagai iragarle guztiak independenteak direla beraien artean, ez dutela elkarrekiko eraginik, hau da, edozein   independentea izango dela beste edozein  -rekiko,   izanik. Beraz,

 

izanik, probabilitate konposatua horrela adieraz daiteke:

 
 

Hortaz,   klase aldagaiaren baldintzazko banaketa horrela adierazita geratuko da:

 ,

non  -ren balioa aldagai iragarleen araberakoa den soilik; beraz,   balioak ezagunak direnean   konstantea da.

Eredu probabilistikotik sailkatzailea eraikitzea aldatu

Aurreko atalean, Bayesen teorematik eta aldagai iragarleen independentziaren hipotesitik Naive Bayes eredu probabilistikoa garatu da.

Naive Bayes sailkatzailea eraikitzeko, eredu hori erabakitze-erregela batekin konbinatzen da. Normalean probabilitate handieneko hipotesia aukeratzen da, ingelesez Maximum a posteriori estimation edo MAP izenez ezagutzen dena. Horren arabera, Naive Bayes sailkatzaileak   klasea esleituko dio   klase-aldagaiari, non

 


Probabilitateen estimazioen zuzenketa aldatu

  probabilitateen estimazioak entrenamendurako datu-base batean oinarrituz egiten direnean, kontatu egiten da   klasekoak diren kasuen artean zenbatetan hartzen duen aldagai iragarleak   balioa, hau da,

 ,

non,   den   klaseko kasuen artean zenbatek duten dagokion aldagai iragarlean   balioa, eta   den   klasekoa den kasu kopurua.

Baina, gerta daiteke bilatutako balioa datu-basean ez aurkitzea. Hori arazo bat da, biderkatzean probabilitatearen estimazio osoa zero bihurtzen delako, hau da:

 

Arazo hori ekiditeko, ohikoa da estimazioen zuzenketa egitea. Probabilitate teorian, probabilitateen estimazioen zuzenketak egiteko Pierre-Simon Laplace matematikariak proposatutako formula erabili ohi da. Ingelesez Rule of succession izenez ezagutzen da, eta diotenez, Laplacek eguzkia zeruertzetik ateratzeko zegoen probabilitatearen bila ari zenean eman zuen.

Zuzenketa aplikatuta, probabilitatearen estimazioa horrela kalkulatzen da:

 

non,

 :   klaseko kasuen artean zenbatek duten   balioa aldagai iragarlean
 :   klaseko kasu kopurua
  aldagai iragarlearen balio kopurua

Eztabaida aldatu

Nahiz eta irismen handiko sailkatzaileak askotan oso zehatzak ez izan, Naive Bayes sailkatzailea, dituen hainbat ezaugarriri esker, praktikan oso erabilgarria gertatzen da. Aldagaiak independenteak direla suposatzeari esker, probabilitateak modu independentean estima daitezke. Horrela, ezaugarri kopurua handitzearekin batera esponentzialki haziko litzatekeen datu kopuruaren beharra arintzea lortzen da.

Naive Bayes sailkatzaileak probabilitateen estimazio zehatza itzultzen ez duen arren, aplikazio askotan hori ez da beharrezkoa gertatzen. Izan ere, Naive Bayes sailkatzailearen iragarpena MAP erabakitze-erregelaren arabera egiteko, nahikoa da   handieneko klasea aukeratzea. Iragarpena egokia izango da eta sailkatzailea sendoa, nahiz eta probabilitatearen balio zehatza ez eman, proportzionala den balio bat baizik.

Erreferentziak aldatu

Artikulu honetako edukia wikipediako gaztelerazko es:Clasificador bayesiano ingenuo artikulutik itzuli da.

Kanpo estekak aldatu

Ikus, gainera aldatu

Bayesen teorema Datu-meatzaritza Ikasketa automatiko