Aldagai anitzeko banaketa normal

Probabilitatean eta estatistikan, aldagai anitzeko banaketa normalaaldagai anitzeko banaketa gaussarra ere deitua— dimentsio bakarreko banaketa normalaren dimentsio handiagoetara orokortzea da.

Definizioa

aldatu

Notazioa

aldatu

  dimentsioko ausazko bektore bat baldin bada   aldagai anitzeko banaketa normal normalarekin, orduan idazten dugu:

 

edo     dimentsioaren bektorea dela esan nahi badugu, orduan, erabiliko dugu:

 

Ausazko bektorea,  , aldagai anitzeko banaketa normalari jarraitzen dio baldintza baliokide hauek betetzen baditu:

  • Edozein konbinazio lineal   normal banatuta dago.
  • Ausazko bektore bat dago,  , eta bere osagaiak estandar normalaren arabera banatutako ausazko aldagai independenteak dira, bektore bat,  , eta matrize bat,   , hala nola   .
  • Bektore bat dago,  , eta matrize erdidefinitu positibo simetriko bat,  ; beraz, funtzio ezaugarria   da
 

  matrize ez-singular bat bada, orduan, banaketa dentsitate-funtzio honen bidez deskriba daiteke:

 

non  -k   matrizearen determinantea adierazten duen. Kontuan har nola goiko ekuazioa banaketa normalera murrizten den baldin eta   eskalar bat bada (hau da, 1x1 matrizea).

Bektorea,   egoera hauetan,  -ren itxaropena da, eta   matrizea   osagaien kobariantza matrizea da.

Kobariantza matrizea singularra izan daitekeela ulertzea garrantzitsua da (nahiz eta goiko formulak horrela deskribatzen ez duen, zeinarentzat   definituta dagoen).

Egoera hori maiz agertzen da estatistiketan; adibidez, erregresio linealeko problema arruntetan hondar bektorearen banaketan. Kontuan har, oro har, Xi-ak ez direla, orokorrean, independenteak,   aldagai arrunten bilduma batera   transformazio lineala aplikatzearen emaitza gisa ikus baitaiteke.

Banaketa funtzioa

aldatu

Banaketa funtzioa   definitzen da ausazko  bektore baten balio guztiak  -ri dagozkion bektorearenak baino txikiagoak edo berdinak izateko probabilitatea bezala. Hala ere,  -k formularik ez badu ere, zenbakizko zenbatespena ahalbidetzen duten algoritmo batzuk daude[1].

Kontrako adibide bat

aldatu

Izan ere, bi ausazko aldagaik,   eta  , bakoitzak banaketa normal bat jarraitu arren, ez du esan nahi bikoteak (X , Y) banaketa normal bateratua jarraitzen duenik. Adibide sinple bat ematen da   Normala (0,1),     eta     . Hori ausazko bi aldagai baino gehiagotan ere egia da[2].

Normalki banatua eta independentzia

aldatu

  eta   normal banatuta eta independenteak badira, haien banaketa bateratua ere normal banatuta dago; hau da, bikoteak (X , Y ) aldagai biko banaketa bat izan behar du. Nolanahi ere, normal banatutako ausazko aldagai pare bat ez du zertan independentea izan behar elkarrekin kontuan hartzerakoan.

Aldagai biko egoera

aldatu

Bi dimentsioen egoera partikularrean, dentsitate-funtzioa (0, 0 batebestekoarekin) da:

 

non   eta   arteko korrelazio-koefizientea   den. Egoera honetan:

 

Eraldaketa afina

aldatu

 , izan ere,  -ren eraldaketa afina bada. non     konstanteen bektorea den eta   den   matrizea, orduan,  -k aldagai anitzeko banaketa normala du  itxaropenarekin eta  bariantzarekin, hau da,  . Bereziki,  -renedozein azpimultzok banaketa marjinal bat du, aldagai anitzeko normala ere badena.

Hori ikusteko, kontuan har honako adibide hau:  azpimultzoa ateratzeko, erabili

 

nahi diren elementuak zuzenean ateratzen dituena.

  banaketaren beste ondorio bat izango litzateke   bektorea  -ren luzera berekoa dela, eta puntuak biderketa bektoriala adierazten du, eta dimentsio bakarreko banaketa gaussarra izango litzateke  rekin. Emaitza hau erabiliz lortzen da:

 

eta produktuaren lehen osagaia soilik kontuan hartuta ( -ren lehen lerroa   bektorea da). Kontuan har nola  -ren definizio positiboak gurutzatutako produktuaren bariantza positiboa izan behar dela esan nahi duen.

Interpretazio geometrikoa

aldatu

Aldagai anitzeko banaketa normal baten ekidensitate-kurbak elipsoideak dira (hau da, hiperesferen transformazio linealak) batezbestekoan zentratuta[3]. Elipsoideen ardatz nagusien norabideak   kobariantza matrizearen bektore propioek ematen dituzte. Ardatz nagusien karratuen luzera erlatiboak dagozkien bektore propioek ematen dituzte.

  deskonposizio espektral bat bada, non U-ren zutabeak unitate-bektore propioak diren eta   balio propioen matrize diagonal bat den, orduan, dugu:

 

Era berean, U biraketa-matrize bat izan dadin hauta daiteke  -n ardatz bat alderantziz egiteak eraginik izango ez duena baina, zutabe bat irauliz, U' -ren determinatzailearen zeinua aldatuko duena.   banaketa da, hain zuzen,    -tik eskalatua, U-rekin biratua eta  -tik itzulia.

Alderantziz,  -ren edozein aukerak U maila osoko matrizea, eta   balio diagonal positiboak bide ematen dio banaketa normal ez singular bati. Edozein   zero bada eta U karratua bada,  -ren kobariantza matrizea singularra da. Geometrikoki, horrek esan nahi du kurba elipsoide bakoitza infinitu mehea dela eta bolumen nulua duela n dimentsioko espazioan, betiere, gutxienez ardatz nagusietako batek luzera nulua badu.

Korrelazioak eta independentzia

aldatu

Oro har, ausazko aldagaiak korrelaziorik gabekoak izan daitezke, baina oso menpekoak izan daitezke. Baina, ausazko bektore batek aldagai anitzeko banaketa normala badu, korrelaziorik gabeko bere osagaietako bi edo gehiago independenteak dira.

Baina ez da egia (bereizita, marjinalki) normal banatuta eta korrelaziorik gabeko bi ausazko aldagai independenteak direnik. Normalki banatuta dauden bi ausazko aldagai baliteke elkarrekin ez egotea. Erlazionatu gabe baina independenteak ez diren banatzen diren bi aldagairen adibide bat ikusteko, ikus: Normalki banatuak eta korrelazionatuak ez dira independentzia suposatzen .

Momentu gorenak

aldatu

X -ren k-garren ordenako momentu estandarra honela definitzen da

 

non  

k ordenako momentu zentralak honela ematen dira:

(a) k bakoitia bada,  .

(b) k bikoitia bada, k-rekin, orduan,  

 

non batura multzoen xedapen guztien gainean hartzen den     bikotetan (ordenatu gabeak). Hau da, k-garren bat badugu ( ) une nagusia   kobariantzaren produktuak gehituko ditugu (-  notazioa irakurgarritasunagatik alde batera utzi da):

 

Horrek sorrarazten du   terminoak baturan (15 goiko kasuan), bakoitzaren produktua   (3 kasu honetan) kobariantza izanik. Laugarren ordenako mementuetarako (lau aldagai), hiru termino daude. Seigarren ordenako momentuetarako, 3 × 5 = 15 termino daude, eta zortzigarren ordenako momentuetarako 3 × 5 × 7 = 105 termino dira.

Ondoren, kobariantzak   zerrendako terminoak, izan ere, batzuk  zerrendari dagozkion terminoekin ordezkatuz zehazten dira, orduan   biak, etab... Hau argitzeko, kontuan har hurrengo laugarren ordenako momentu zentralaren kasua:

 
 
 
 
 

non     Y  -ren kobariantza den. Goiko metodoaren ideia da lehen kasu orokorra aurkitzen dugula da  -garrena mementorako, non   aldagai desberdinak   -   dauden, eta, gero, modu egokian sinplifikatu daitezke.   baduzu, gero,   izan dadila, eta hortik   dator.

Banaketa baldintzatuak

aldatu

  eta   honela banatzen badira:

   neurriekin
  neurriekin  

orduan,  -ren banaketa   baldintzatuta, aldagai anitzeko normala da   non

 

eta kobariantza matrizea

 

Matrize hori  -ren Schur-en osagarria da  -en. Horrek esan nahi du baldintzapeko kobariantza-matrizea kalkulatzeko kobariantza-matrize globala alderantzikatu egiten dela, baldintzatzen den aldagaiei dagozkien errenkadak eta zutabeak alde batera uzten direla eta, ondoren, berriro alderantzikatzen dela baldintzapeko kobariantza-matrizea lortzeko.

Kontuan har jakina dela   bariantza aldatzen duela, nahiz eta bariantza berria ez den   balio zehatzaren araberakoa; agian, harrigarriagoa dena, batezbestekoa  -tik aldatzen da; Konparatu hori ezagutzen ez den   balioaren egoerarekin; kasu horretan,  -ek banaketa gisaizango luke:

 

  matrizea erregresio-koefizienteen matrize bezala ezagutzen da.

Baldintzazko itxaropena aldagai bikoa

aldatu

Bada

 

gero

 

non azken ratio horri alderantzizko Mills ratioa deitu ohi zaio.

Fisher-en informazio matrizea

aldatu

Fisher Information Matrix-ek (FIM) formulazio berezi bat hartzen du banaketa normal baterako. FMI-ren elementua    -rentzako da:

 

non

  •  
  •  
  •  
  •   matrize baten aztarna funtzioa da.

Kullback-Leibler dibergentzia

aldatu

Kullback-Leiblerren dibergentzia   a   da:

 

Logaritmoa e oinarriarekin hartu behar da bi terminoetan (logaritmo neperiarrak); logaritmoari jarraituz, dentsitate-funtzioaren faktore biak diren adierazpenen logaritmo naturalak daude, edo, bestela, modu naturalean sortzen dira. Goiko dibergentzia nat-etan neurtzen da. Goiko adierazpena loge 2 artean zatituz biten dibergentziari bide ematen zaio.

Parametroen estimazioa

aldatu

Aldagai anitzeko banaketa normal baten kobariantza matrizearen probabilitate maximoaren estimatzailearen deribazioa da, agian harrigarriro, sotila eta dotorea. Ikus kobariantza matrizeen estimazioa.

Laburbilduz, N dimentsioko aldagai anitzeko normal baten probabilitate-dentsitate-funtzioa da:

 

eta kobariantza matrizearen MV estimatzailea n behaketetako lagin baterako da:

 

laginaren kobariantza matrizea besterik ez dena. Hau Itxaropena duen estimatzaile alboratuarena da:

 

Laginaren kobariantza alboragabea da:

 

Entropia

aldatu

Aldagai anitzeko banaketa normalaren entropia diferentziala[4] da:

 

non   den   kobariantza matrizearen determinatzailea.

Aldagai anitzeko normaltasun-probak

aldatu

Aldagai anitzeko normaltasun probek datu multzo jakin batek aldagai anitzeko banaketa normalarekin duen antzekotasuna egiaztatzen du. Hipotesi nulua da datu multzoa banaketa normalaren antzekoa dela, beraz, p-balio nahiko txiki batek datu ez-normalak adierazten ditu. Aldagai anitzeko normaltasun proben artean, Cox-Small proba[5] eta Smith eta Jain-en[6] Friedman-Rafsky probaren egokitzapena daude.

Banaketa-balioak simulatzea

aldatu

Ausazko bektore bat simulatzeko oso erabilia den metodoa   aldagai anitzeko banaketa normaletik   -dimentsioa batez besteko bektorearekin   eta kobariantza matrizea   (simetrikoa eta definitu positiboa izateko eskatua) honela funtzionatzen du:

  1.  -ren Choleskyren deskonposizioa kalkulatzen da; hau da, beheko matrize triangeluar bakarra   hala nola   aurkitzen dugu. Kontuan har beste edozein   matrize baldintza hori betetzen duena, hau da,  -ren erro karratua dela, erabil liteke, baina, askotan, halako matrize bat aurkitzea, Cholesky-ren deskonposizioaz gain, dezente zailagoa izango litzateke konputazionalki.
  2. Dela   osagaiak dituen bektorea   aldagai normalak eta independenteak aldatzen direnak (sor daitezkeenak, adibidez, Box-Muller metodoa erabiliz.
  3. Dela   

Erreferentziak

aldatu
  1. Véase MVNDST en (incluye código FORTRAN) o (incluye código MATLAB).
  2. Véase también normalmente distribuidas e incorreladas no implica independencia
  3. Nikolaus Hansen. The CMA Evolution Strategy: A Tutorial. .
  4. Gokhale, DV; NA Ahmed, BC Res, NJ Piscataway. (mayo de 1989). «Entropy Expressions and Their Estimators for Multivariate Distributions» Information Theory, IEEE Transactions on 35 (3): 688–692.  doi:10.1109/18.30996..
  5. Cox, D. R.; N. J. H. Small. (agosto de 1978). «Testing multivariate normality» Biometrika 65 (2): 263–272.  doi:10.1093/biomet/65.2.263..
  6. Smith, Stephen P.; Anil K. Jain. (septiembre de 1988). «A test to determine the multivariate normality of a dataset» IEEE Transactions on Pattern Analysis and Machine Intelligence 10 (5): 757–761.  doi:10.1109/34.6789..

Kanpo estekak

aldatu