Naive Bayes sailkatzaile

Datu meatzaritzan, Naive Bayes sailkatzailea Bayes-en teoreman eta aldagaien arteko independentziaren hipotesian oinarritzen den sailkatzaile probabilistiko bat da. Aldagaiak independente direla suposatzeak eragiten duen sinplifikazioagatik hartzen du, hain zuzen ere, Naive izena.

Sarrera

Naive Bayes sailkatzailean suposatzen da, ezaugarriak elkarren artean independenteak direla, klase aldagaia emanda. Adibidez, fruta bat sagarra dela esan genezake gorria bada, biribila, eta gutxi gorabehera 7 cm-ko diametroa badu. Naive Bayes sailkatzailearen arabera, ezaugarri horietako bakoitzak modu independentean eragiten du sagar izateko probabilitatean. Koloreari buruzko ezaugarriak, formari buruzkoak eta diametroari buruzko informazioa ematen duten aldagaien artean Korrelaziorik ez dela existitzen suposatzen da, hortaz.

Aldagaien independentziaren hipotesiak eragiten duen sinplifikazioari esker, sailkapena egiteko behar diren parametroak estimatzeko datu kopuru txikia behar da entrenamenduan, eta hori abantaila handia da.

Kontzeptu probabilistikoa

Naive bayes sailkatzailea eredu probabilistiko bat da: $\mathbf {x} =(x_{1},\dots ,x_{n})$ bektorearen bidez adierazitako kasu berria izanik,

p(C_{k}\vert x_{1},\dots ,x_{n})\,

probabilitateak kalkulatuko ditu $C$ klase-aldagaiaren $C_{k}$ balio bakoitzerako. $x_{1},\dots ,x_{n}$ balioek $n$ aldagai iragarleri edo ezaugarriri buruzko informazioa ematen dute, $C$ ren iragarpenean aldagai horiek independenteak direla suposatuz. Ereduaren formulazio horrek duen arazoa da, aldagai iragarle kopurua handia denean edo aldagaiek har ditzaketen balio kopurua handia denean, eredua probabilitateen taula batean oinarritzea bideraezina gertatzen dela. Bideragarria izan dadin, ereduaren beste formulazio bat ematen da.

Bayesen teorema erabiliz, baldintzazko probabilitatea horrela idatz daiteke:

p(C_{k}\vert x_{1},\dots ,x_{n})={\frac {p(C_{k})\ p(x_{1},\dots ,x_{n}\vert C_{k})}{p(x_{1},\dots ,x_{n})}}.\,

Adierazpen horretan, garrantzi handiena duen balioa zenbakitzailea da. Izan ere, izendatzaileak ez du $C$ klase aldagaiarekiko mendekotasunik, eta beraz, konstantea da. Zenbakitzailea baterako probabilitatearen bidez adieraz daiteke:

p(C_{k},x_{1},\dots ,x_{n})\,

Katearen erregela aplikatuz eta baldintzazko probabilitatearen definizioa behin eta berriz erabiliz, adierazpena honela berridatz daiteke:

p(C_{k},x_{1},\dots ,x_{n})\,

=p(C_{k})\ p(x_{1},\dots ,x_{n}\vert C_{k})

=p(C_{k})\ p(x_{1}\vert C_{k})\ p(x_{2},\dots ,x_{n}\vert C_{k},x_{1})

=p(C_{k})\ p(x_{1}\vert C_{k})\ p(x_{2}\vert C_{k},F_{1})\ p(x_{3},\dots ,x_{n}\vert C_{k},x_{1},x_{2})

=p(C_{k})\ p(x_{1}\vert C_{k})\ p(x_{2}\vert C_{k},x_{1})\ p(x_{3}\vert C_{k},x_{1},x_{2})\ p(x_{4},\dots ,x_{n}\vert C_{k},x_{1},x_{2},x_{3})

eta horrela guztietarako. Orain, aldagaien arteko baldintzazko independentzia "naïve" edo sinplea hartuko da kontuan. Aintzat hartuko dugu aldagai iragarle guztiak independenteak direla beraien artean, ez dutela elkarrekiko eraginik, hau da, edozein $x_{i}$ independentea izango dela beste edozein $x_{j}$ -rekiko, $j\neq i$ izanik. Beraz,

p(x_{i}\vert C_{k},x_{j})=p(x_{i}\vert C_{k})\,

izanik, probabilitate konposatua horrela adieraz daiteke:

p(C_{k},x_{1},\dots ,x_{n})=p(C_{k})\ p(x_{1}\vert C_{k})\ p(x_{2}\vert C_{k})\ p(x_{3}\vert C_{k})\ \cdots \,

=p(C_{k})\prod _{i=1}^{n}p(x_{i}\vert C_{k}).\,

Hortaz, $C$ klase aldagaiaren baldintzazko banaketa horrela adierazita geratuko da:

p(C_{k}\vert x_{1},\dots ,x_{n})={\frac {1}{Z}}p(C_{k})\prod _{i=1}^{n}p(x_{i}\vert C_{k})

,

non $Z$ -ren balioa aldagai iragarleen araberakoa den soilik; beraz, $x_{i}$ balioak ezagunak direnean $Z=p(\mathbf {x} )=p(x_{1},\dots ,x_{n})=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ konstantea da.

Eredu probabilistikotik sailkatzailea eraikitzea

Aurreko atalean, Bayesen teorematik eta aldagai iragarleen independentziaren hipotesitik Naive Bayes eredu probabilistikoa garatu da.

Naive Bayes sailkatzailea eraikitzeko, eredu hori erabakitze-erregela batekin konbinatzen da. Normalean probabilitate handieneko hipotesia aukeratzen da, ingelesez Maximum a posteriori estimation edo MAP izenez ezagutzen dena. Horren arabera, Naive Bayes sailkatzaileak ${\hat {y}}=C_{k}$ klasea esleituko dio $C$ klase-aldagaiari, non

{\hat {y}}={\underset {k\in \{1,\dots ,K\}}{\operatorname {argmax} }}\ p(C_{k})\displaystyle \prod _{i=1}^{n}p(x_{i}\mid C_{k}).

Probabilitateen estimazioen zuzenketa

$p(x_{i}\mid C)$ probabilitateen estimazioak entrenamendurako datu-base batean oinarrituz egiten direnean, kontatu egiten da $C$ klasekoak diren kasuen artean zenbatetan hartzen duen aldagai iragarleak $x_{i}$ balioa, hau da,

p(x_{i}\vert C)={\frac {N(x_{i},C)}{N(C)}}

,

non, $N(x_{i},C)$ den $C$ klaseko kasuen artean zenbatek duten dagokion aldagai iragarlean $x_{i}$ balioa, eta $N(C)$ den $C$ klasekoa den kasu kopurua.

Baina, gerta daiteke bilatutako balioa datu-basean ez aurkitzea. Hori arazo bat da, biderkatzean probabilitatearen estimazio osoa zero bihurtzen delako, hau da:

\ p(C_{k})\displaystyle \prod _{i=1}^{n}p(x_{i}\mid C_{k})=0.

Arazo hori ekiditeko, ohikoa da estimazioen zuzenketa egitea. Probabilitate teorian, probabilitateen estimazioen zuzenketak egiteko Pierre-Simon Laplace matematikariak proposatutako formula erabili ohi da. Ingelesez Rule of succession izenez ezagutzen da, eta diotenez, Laplacek eguzkia zeruertzetik ateratzeko zegoen probabilitatearen bila ari zenean eman zuen.

Zuzenketa aplikatuta, probabilitatearen estimazioa horrela kalkulatzen da:

p(x_{i}\vert C)={\frac {N(x_{i},C)+1}{N(C)+m}}

non,

N(x_{i},C)

:

C

klaseko kasuen artean zenbatek duten

x_{i}

balioa aldagai iragarlean

N(C)

:

C

klaseko kasu kopurua

m:

aldagai iragarlearen balio kopurua

Eztabaida

Nahiz eta irismen handiko sailkatzaileak askotan oso zehatzak ez izan, Naive Bayes sailkatzailea, dituen hainbat ezaugarriri esker, praktikan oso erabilgarria gertatzen da. Aldagaiak independenteak direla suposatzeari esker, probabilitateak modu independentean estima daitezke. Horrela, ezaugarri kopurua handitzearekin batera esponentzialki haziko litzatekeen datu kopuruaren beharra arintzea lortzen da.

Naive Bayes sailkatzaileak probabilitateen estimazio zehatza itzultzen ez duen arren, aplikazio askotan hori ez da beharrezkoa gertatzen. Izan ere, Naive Bayes sailkatzailearen iragarpena MAP erabakitze-erregelaren arabera egiteko, nahikoa da ${\hat {y}}=C_{k}$ handieneko klasea aukeratzea. Iragarpena egokia izango da eta sailkatzailea sendoa, nahiz eta probabilitatearen balio zehatza ez eman, proportzionala den balio bat baizik.

Erreferentziak

Artikulu honetako edukia wikipediako gaztelerazko es:Clasificador bayesiano ingenuo artikulutik itzuli da.

Kanpo estekak

With Perl Document Classification Using Naive Bayes Classifier

Datuak: Q812530

Ikus, gainera

Bayesen teorema Datu-meatzaritza Ikasketa automatiko