Estatistika: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
tNo edit summary
tNo edit summary
1. lerroa:
{{HezkuntzaPrograma|Matematika}}
[[Fitxategi:Loess curve.svg|thumb|300px|'''Estatistikak''' [[datu (estatistika)|datuetan]] dauden joerak eta erregulartasunak bilatzen eta zehazten ditu, natura eta giza fenomenoak argitze aldera. Irudian, errealitatetik jasotako [[datu- multzo]] bati estatistika-teknika batez egokitutako lerroa.]]
 
'''Estatistika''' [[matematika]]ren adar bat da, [[datu (estatistika)|datuak]] biltzeaz, sailkatzeaz, aztertzeaz, interpretatzeaz eta aurkezteaz arduratzen dena.<ref name=Dodge>{{en}} Dodge, Y. (2006) ''The Oxford Dictionary of Statistical Terms'', Oxford University Press. {{isbn|0-19-920613-9}}</ref><ref>{{erreferentzia | hizkuntza = en | izena = Jan-Willem | abizena = Romijn | urtea = 2014 | izenburua = Philosophy of statistics | argitaletxea = Stanford Encyclopedia of Philosophy | url=http://plato.stanford.edu/entries/statistics/}}</ref> Helburutzat du datu horien baitan dauden erregulartasunak eta erlazioak hautematea, horietarako [[eredu (argipena)|ereduak]] eratzea, iragarpenak egitea, konklusio zehatzak ematea, eta erabaki egokiak hartzea. Labur, estatistikaren helburua da jasotako datuetatik informazio baliagarria eskuratzeko teknikak garatu eta aplikatzea. Horretarako, [[matematika]], [[probabilitate teoria]] eta [[erabaki-teoria]] oinarritzat hartzen ditu. Estatistikaren teknikak maila bitan erabiltzen dira: [[estatistika deskribatzaile]]an teknika sinple eta errazak erabiltzen dira datuak irudikatu eta laburtzeko; [[inferentzia estatistiko]]ak, berriz, azterketa konplexuago eta zorrotzagoa egiten du, datuak eredu matematiko batera egokitu eta berarekin duten [[errore estatistiko]]a neurtuz, [[probabilitate]] kontzeptuan oinarrituz horretarako. Egun funtsezko metodologia da ikerketa zientifikoan eta alor guztietan zabaltzen da bere erabilera, hala nola [[ekonomia]]n, [[medikuntza]]n, [[soziologia]]n eta [[meteorologia]]n. Hala ere, erabilera oker batengatik estatistika manipulazio eta erroreen iturburua izan da sarri; hori dela eta, estatistikaren emaitzak behar bezala interpretatzeko garrantzitsutzat jotzen dira estatistikaren [[dibulgazio|jendarteratzea]] eta estatistika-hezkuntza zorrotza, estatistika teknikak eta horietarako programa informatikoen aukerak tentuz baliatzeko.
 
Beste alde batetik, ''estatistikak'' terminoa edonolako [[datu multzoakmultzo]]ak, baina gehienetan erakunde publikoek argitaratutako datu ofizialak, adierazteko ere erabili ohi da (langabetuen estatistikak eta osasun estatistikak, esaterako). Estatistika ez da, ordea, datuak jasotzera mugatzen, harago doa eta datuen azterketarako metodologia ere hartzen du bere baitan.
 
== Historia ==
{{sakontzeko|Estatistikaren historia}}
XVII. eta XVIII. mendeetan estatistika terminoa sortu eta oinarrizko metodologia zientifiko bilakatu aurretik, anitzetan burutzen ziren datu bilketak. [[Antzinako Egipto]]n eta beste zibilizazio zaharretan ohizkoak ziren zentsuak. [[Erdi Aroa]]n ere ezagunak dira egindako datu bilketa batzuk, Ingalaterran egindako [[Domesday Book]] delakoa esaterako. Estatistika datuen azterketa moduan ikusi zuen lehenengo bidegilea [[John Graunt]] ingelesa izan zen XVII. mendean; Londresko datu [[demografia|demografikoak]] erabiliz, aurresanak eta beste ondorioak ateratzen ditu datuetatik. Demografiari buruzko ikerketak eta estatuei buruzko datu ekonomiko eta politikoen bilketa eta azterketa ugaldu ziren XVIII. mendean, Alemanian sortu berria zen ''{{lang|de|statistik}}'' arloaren, datu-bilketa hutsa zena, eta, datuak biltzeaz gainera, horiek aztertu ere egiten zituen ''aritmetika politikoa'' delakoaren baitan, [[William Petty]] ingeles zientza gizonak garatu zuena. XVIII. mendean probabilitate teoria garatu zen eta horrela XIX. mendearen hasierarako estatistika probabilitate teoriarekin uztartzeko teoria osaturik zegoen, [[Pierre-Simon Laplace]] zientzia gizonari esker, besteak beste, [[banaketa normal]]ean eta beste kontzeptu batzuetan oinarrituz. XIX. mendea aplikazioak zientzia anitzetara hedatu ziren. [[Adolphe Quételet]] izan zen mende horretan estatistikaren erabileraren zabalkuntza bultzatzen dutenetako bat. XX. mendean, [[Ronald Fisher]] estatistikariak [[inferentzia estatistiko]]aren teoria garatu eta [[Andrei Kolmogorov]] sobietar matematikoak [[probabilitate]]aren axiomatika eratu zuen. [[Bayestar estatistika]] izeneko adarra ere mendean zehar garatutako [[erabaki-teoria]]n oinarritzen da. Hainbat [[aldagai (argipena)|aldagai]] batera aztertzen duen [[aldagai anitzeko analisi]]ko teknikak ere garatzen dira. Horiei guztiei eske, estatistikaren eraikin kontzeptuala osatu eta teknika eta eredu berrietarako oinarria finkaturik geratzen da XX. mendeko erdialderako. Hala ere, [[informatika]]ren garapenak aukera berriak zabaltzen ditu [[datu-multzo]] itzelak jaso eta aztertzeko, aldagai anitzeko analisiaren aplikazio masiborako bidea zabalduz eta [[datu-meatzaritza]] izeneko teknikak baliatuz.
 
== Estatistika zientzian ==
Errealitatea ezagutzeko eta zientziaren garapenerako [[enpirismo]] eta [[positibismo]] korronte [[epistemologia|epistemologikoak]] dira estatistika tresna zientifiko moduan balioesten dutenak. Korronte horien arabera ezaguera zentzumenezko esperientzian oinarritu behar da eta esperientzia horren analisia da, [[logika induktibo]] batean oinarritua, errealitatearen fenomenoak ulertzen ahalbidetzen duena. Logika induktiboan gertaeren errepikapenak ezaguera sendoak eratzeko balio du, maiz azaldu den gertaera batek etorkizunean ere gertatzeko aukera handiak baititu, kondizio berdinak gauzatzen badira; hain zuzen ere, estatistikaren oinarria gertaeren [[maiztasun (estatistika)|maiztasun]] eta [[probabilitate]]etan datza, eta horrela, logika induktibozko teknika moduan, hartzen du metodo zientifikoaren funtsezko osagaia izateko zilegitasuna.
 
Estatistikari egin zaizkion kritikak [[gizarte-zientziak|gizarte zientzietan]] egiten den erabilerarekin daude loturik. Zehatzago, giza eta gizarte fenomenoak zenbakiz eta estatistikaz aztertzen direnean, modu murriztaile batez jokatzen dela argudiatu izan da, fenomenoa isolatuz eta neurtuz. Beste aldetik, ordea, giza eta gizarte fenomenoak modu teorikoan soilik aztertzeak ikerketari zientifikotasuna kentzen diola aipatzen da. Horrela, estatistikaren erabilerak ekar dezakeen alborapena saihesteko, jasotzen diren datuen ingurua eta eremua kontuan hartzea, salbuespenak baztertuz banakoak biltzen dituen agregatuak edo multzoak aztertzea eta ikertzaileak berak fenomenoan nahiz datuak jaso eta interpretatzean izan dezakeen eragina eta joera deusezteadeuseztatzea proposatu dira azterketa estatistiko zuzen baterako ildo nagusi moduan.
 
== Estatistikaren metodologia ==
33. lerroa:
Datuak plazaratu eta azterketa sinple bat egiteaz haraindi, azterketa zorrotza burutu nahi bada, jasotako aldagaien arteko erlazio konplexuak bilatuz edota datuak probabilitatezko [[eredu (argipena)|eredu]] batera egokituz, teknika estatistiko eta matematiko konplexuagoak baliatu beharko dira, [[aldagai anitzeko analisi]]aren edo [[inferentzia estatistiko]]aren baitan. Sarri, datuei egokitu beharreko eredua zehaztea da helburua, [[parametro (estatistika)|parametroak]] zenbatetsiz edo balio jakin zenbaitetarako kontrastatuz, ereduaren propietate eta ondorioak datuek islatzen duten fenomenora zabaltzeko. Teknika horiek aplikatzerakoan, maiz ezartzen dira datuei buruzko aldez aurretiko suposizio eta hipotesiak, hala nola datuak zoriz jaso direla eta [[populazio (estatistika)|populazio]] homogeneo batetik eratorritakoak direla; erabilitako tekniken bitartez eskuratutako emaitzak balioztatzeko, baldintza haiek ere egiaztatu egin behar dira.
 
Nolanahi ere, [[datu multzo]] baten azterketa estatistikorako teknika anitz izaten da aukeran eta zaila izaten da erabakitzea zein den egokiena. Beti hartu behar da kontuan prozedura estatistiko asko lortu behar diren aplikagarritasuna baldintzatzen duten emaitzen froga matematikoetan oinarritzen direla; froga matematiko horietako pausoak ezagutu gabe, azkenean emaitzak eskuratuko dira, baina ez dira fidagarriak izango. Azkenik, emaitza estatistikoak heldu nahi den hipotesi edo helburu zientifikoaren ikuspuntutik baloratu behar da eta ez emaitza soil moduan.
 
== Estatistikaren adarrak ==
82. lerroa:
Deskribapenaz haraindi doa estatistika: datuen aldakortasunaren iturburua zorizkotasuna denez, [[probabilitate teoria|probabilitate-teoriak]] datuak eta populazioak [[matematika]] eta [[probabilitate]] kontzeptua erabiliz islatzen dituzten ereduak zehazten ditu. Eredu hauek zehaztu gabeko [[parametro (estatistika)|parametroak]] izaten dituzte, datuak aztertuz kuantifikatuko direnak. Probabilitate-teoriak eredu hauen propietateak, ondorioak eta beraien arteko erlazioak ere aztertzen ditu. Probabilitatearen eta datuen arteko lotura [[maiztasun (estatistika)|maiztasuna]] da: adibidez, ikasgela batean maila bat gainditu dutenak %70 badira, maila gainditzeko probabilitatea 0.7 dela zenbatesten da.
 
Horrela, [[inferentzia estatistiko]]aren xedea datuak aukeratutako probabilitate-eredura doitzea da. Horretarako, ereduaren [[parametro (estatistika)|parametroak]] zenbatetsi egin behar dira datuek osatzen duten [[lagin (estatistika)|laginean]] oinarrituz. Adibidez, 15 urteko mutilen altuerak eta pisuak, kartesiar diagrama batean jarrita, ez dira guztiz egokitzen zuzen batera, baina zuzena eredu onargarria eta erosoa izan daiteke [[datu multzoamultzo]]a deskribatu eta sakonago aztertzeko; [[zuzen (geometria)|zuzenaren ekuazioa]], zuzenaren parametroak alegia, datuetan oinarrituz zenbatetsi behar dira. Parametroen zenbatespenek errorerik badute, noski, datuen zorizkotasunak eta populazio batetik eratorritako lagina izateak eragindakoa. Errorearen neurria izateko, [[konfiantza-tarte]]ak erabiltzen dira. Parametro ezezagunak kuantifikatzeko beste modu bat horien balioa finkatu eta datuak balio horrekin bat datozen aztertzea da, [[hipotesi-froga|hipotesi-kontraste]] baten bitartez. Parametroetan zentraturiko estatistikaren aukera moduan, [[estatistika ez-parametriko|estatistika ez parametriko]] izeneko arloa dago, datuei eredurik egotzi gabe, populazioen ezaugarriei buruzko hipotesiak egiaztatzen dituena.
 
Ikerketa zientifikoetan inferentzia estatistikoak eskaintzen dituen teknikak erabiltzen dira egun, zehatzagoak eta zorrotzagoak baitira, eta estatistika deskribatzailea datuak esploratu, zein eredu mota izan daitekeen egokiena erabakitzeko, edota publikora zabaltzeko soilik erabiltzen da. Esplorazio-helburua nabarmenduz, [[datuen azterketa esploratzaile]] izeneko teknika multzoa garatu zen XX. mendearen mendean, ereduen zurruntasuna kritikatu eta bereziki tresna grafikoak proposatzen dituena, ereduetan [[muturreko datu]]ek duten eragina nabarmenduz eta horiek hautemateko prozedurak ezarriz.
95. lerroa:
 
=== Aldagai anitzeko analisia ===
[[Aldagai anitzeko analisi]]ak aldagai kopuru handia (nahiz eta teorian aldagai bi eta bakarreko [[datu multzoetarakomultzo]]etarako ere aplika daitekeen) jasotzen duten datu- multzoak aztertzen dituzten teknika estatistikoak biltzen ditu. Helburua datu- multzoak duen aldagai edo ''dimentsio-kopurua'' murriztea da, datu- multzo osoa laburbiltzen duten faktoreak zehaztuz. Bide batez, datu- multzoetan jaso diren elementuak (herriak, non aldagai sozioekonomikoen kopuru handia jaso diren, adibidez) modu sinplean irudikatu ere egiten dira, antzekoak diren elementuak hautemanez. Horretarako teknikak dira [[analisi faktorial]]a eta [[osagai nagusien analisi]]a. Beste teknika batzuetan, dependentzia-erlazioak bilatzen dira, hala nola [[erregresio (argipena)|erregresio]] eredu orokorra, bi aldagai soilik lotzeaz haraindi aldagai independentetzat aldagai multzo bat hartzen duena eta [[MANOVA]] eta [[MANCOVA]] analisi motak, bariantza-analisiaren menpeko aldagai anitzeko bertsio direnak. Beste alde batetik, ''clustering'' edo [[multzokatze (estatistika)|multzokatze]] izeneko teknikan jasotako aldagai guztiei buruz antzekoak diren elementuak multzoetan sailkatzen ditu. [[Analisi diskriminatzaile]]aren bitartez, berriz, elementu batera aurrez ezarritako multzoetako batera bilduko den aurresaten da. [[Eskalatze multidimensional]]ean elementuak bi dimentsioetako mapa batean kokatzen dira, hainbat aldagaitan hartzen dituzten balioak eta distantziak ahalik eta modu fidagarrienean azaltzeko. [[Korrespondentzia-analisi]]an [[kontingentzia taula|kontingentzia tauletan]] bildutako [[aldagai kualitatibo|aldagai kategorikoak]] laburbildu eta irudikatzen ditu. Oro har, teknika hauek guztiek [[aljebra lineal]]a modu intentsiboan erabiltzen dute, datuak euren [[matrize]] bidezko adierazpenetik aztertzen badira.
 
=== Laginketa ===
101. lerroa:
 
=== Denbora serieen analisia ===
[[Denbora serie]]ak denboran zehar aldagai bat edo batzuen bilakaera adierazten duten [[datu-multzoak multzo]]ak dira. Estatistikak denbora serieen bilakaera aurresateko teknikak garatzen ditu bereziki, iraganeko bilakaeran oinarrituta. Horietan, [[ARIMA (estatistika)|ARIMA]] izeneko eredu konplexuak dira zientzia arloan gehien erabiltzen direnak baina azterketa sinpleagoak egiteko prozedura sinpleak ere badaude. Nola nahi ere, azterketarako denbora serie bat joera, [[ziklo (argipena)|zikloa]] eta [[urtarokotasun]] osagaiek zehazten dutela pentsatzen da, aurresanezina den [[zori]]zko osagai batekin batera.
 
=== ''{{lang|en|Data mining}}'' edo datu-meatzaritza ===
167. lerroa:
 
=== Astroestatistika ===
Aitzinean, behaketa astronomikoetan gertatzen ziren erroreak [[batezbesteko]]ak eta beste zentro-neurriak erabiliz kontrolatzen ziren. Egun, astroestatistikak [[teleskopio]] eta beste behaketa-gailuek sortzen dituzten [[datu- multzo]] itzelak aztertzeko teknikak, [[datu-meatzaritza]]ren baitan esaterako, baliatu behar ditu, unibertsoko objektuak fidagarritasunez aurkitu eta behar bezala sailkatzeko; orobat, estatistikaren altzotik asmatu diren irudien analisirako tresnak ere baliatu behar ditu.<ref>{{Erreferentzia
|hizkuntza=en
|izena1=Peter