Artikulu hau datu-diagramari buruzkoa da; beste esanahietarako, ikus «Histograma (argipena)».

Estatistikan, histograma balio ezberdin asko hartzen dituen aldagai kuantitatibo (aldagai jarraitu) bati buruzko datu-multzo handiak (adibidez, pertsona askoren altuerak, autobus batek egunero ibilbide bat egiteko behar duen denbora minututan urte osoan zehar) irudikatzeko erabiltzen den datu-diagrama mota bat da. Datuak tartetan bildu eta maiztasun-banaketa osatu ondoren, maiztasunen araberako zutabeak altxatuz osatzen da. Histograma terminoa lehen aldiz Karl Pearson-ek erabili zuela esaten da.[1] Histogramatik maiztasun-poligono izeneko diagrama eratortzen da. Biztanleria-piramidea ere histogramak baliatuz eratzen da. Ez da diagrama egokia datu kopurua txikiegia denean (20 bat baino gutxiago); kasu horietarako puntu diagrama egokiagoa da. Estatistikan gehien erabiltzen den datu-diagrametako bat da, datuen ezaugarri estatistiko nagusienak (zentroa, sakabanatzea, ...) hautemateko aukera ematen baitu. Dena den, histogramaren parametroak (tarteak, ...) aldatzean, haren interpretazioa asko alda daitekeela hartu behar da kontuan. Halaber, datu-multzo zenbait alderatzeko aukera ematen du, dagozkien histogramak bateratuz. Dagokion ikusizko interpretazio bisualaz haraindi, histogramak datuen hurbilketarako tresna matematiko eta informatiko garrantzitsu dira, hala nola datuen hurbilketan eta datu-konpresioan.[2] Horretaz gainera, industrian Kaoru Ishikawak asmatutako kalitaterako oinarrizko zazpi lanabesetako bat da.[3][4]

Pertsona multzo baten altueren histograma: altuerak 165-170 tartearen inguruan biltzen dira.

Etimologia

aldatu

Historigrama hitzaren etimologia ez dago guztiz argi. Batzuetan esaten da Antzinako grezieratik datorrela: ἱστός (histos) - "zutik dagoen edozer"- ; eta γράμμα (gramma) - "marrazkia, grabatua, idatzia"- elkartuz. Esaten da, baita ere, terminoa Karl Pearson-ek sartu zuela 1891ean, "diagrama historikoa" (historical diagram) kontzeptutik eratorrita.[5]

Histogramak eratzeko gidalerroak

aldatu
  • Tarte kopurua 5-15 bitartekoa izatea gomendatzen da, oro har. Tarte kopuru txikiegia ezartzen bada, informazio-galera handia gertatzen da; tarte gehiegi eratzen badira, berriz, histogramak egitura nahasia erakust dezake, datuak behar bezainbat bildu ez direlako. Hala ere, badira tarte-kopuru egokiena kalkulatzen duten formula zenbait.
  • Besterik adierazi ezean, tarteak eskuinetik irekiak eta ezkerretik itxiak dira, [x,x+d) motakoak alegia. Honela, 165 balioa hartzen duen datu bat 165-170 tartean barneratu behar da eta ez aurreko 160-165 tartean.
  • Balio erregularreko tarteak eratuko dira; adibidez, 5-10, 10-15, ...
  • Oro har, zabalera konstanteko tarteak eratuko dira.

Histogramaren interpretazioa

aldatu

Histogramak erakusten duen informazio argiena zentroari buruzkoa da; zentroak datuak zein balioren inguruan biltzen diren adierazten du eta histogramako gailurrari erreparatuz hautematen da. Estatistikan aztertzen den beste ezaugarri garrantzitsu bat sakabanatzea da; horri buruz, histogramak datuak nondik nora doazen erakusten du, baina ez du sakabanatzearen neurririk ematen. Histograma zenbait batera irudikatzen direnean, ordea, sakabanatze-mailak alderatu egin daitezke. Alborapena, ordea, histograman aise hauteman daitezkeen ezaugarria da; datuak ezker edo eskuin aldera alboraturik dauden edo muga batekin topo egiten duten erakusten du. Kurtosi izeneko ezaugarria ere esplora daiteke, banaketa kanpai itxurakoa edo laua den hain zuzen. Moda edo gailur anitz dituen histogramak datuetan heterogeneotasuna dagoela erakusten du, ezaugarri ezberdinetako datu-multzoak batera jarri direla hain zuzen.

Histograma maiz alderatzen da eredu moduan hartzen den banaketa normalarekin. Banakuntza normala kanpai itxurakoa da eta guztiz simetrikoa; bere propietateak oso erabilgarriak dira estatistika-tresnak garatzean. Hori dela eta, garrantzitsua da histogramaren itxura aztertzea (kanpai itxurakoa eta simetrikoa den), datuek banaketa horretara egokitzen diren aztertzeko. Banakuntza normalaren itxura izateak ez du esan nahi histograma normala edo datuak normalak direnik, datuak adierazpen matematiko zehatza duen eta maiz erabiltzen den probabilitate-eredu horretara egokitzen direla baizik, guztiz ohikoak diren eta banaketa normalera egokitzen ez diren datu-multzoak egoten baitira orobat. Gainera, badira simetria eta kanpai-itxura erakusten dituzten baina banaketa normalaren araberakoak ez diren datu-multzoak; hain zuzen ere, banaketa normalarekiko doitasunak azterketa matematiko zorrotza eskatzen baitu, histogramaren azterketak horretan laguntzen badu ere.

Honako irudi hauetan ohiko histogramen interpretazio egiten da:[6]

Kanpai itxura eta simetria erakusten dituen histogramak datuak estatistikan maiz erabiltzen den banaketa normalera egokitzen direla adieraz dezake.
Eskuinera alboratutako histograma: datuek behe muga batekin topo egiten dutela adierazten du.
Histograma laua: datuak banaketa uniforme batetik eratorritakoak direla adierazten du, non ziurgabetasuna erabatekoa den. Banakuntza uniformea guztiz laua da eta tarte guztiei probabilitate berdina esleitzen die; gorabeherak zoriaren emaitza dira.
Histograma bimodala: moda anitz dituen histogramak heterogeneotasuna adierazten du, datuek populazio-iturburu desberdinetatik erauzi direla alegia.
Muturreko gailurra duen histograma: muturreko tarte bat >x edo <x motakoa dela adieraz dezake.
Orrazi histograma: datuak biribildu egin durela adieraz dezake, horren ondorioz datu batzuk hurrengo edo aurreko tartera eramanez.
Moztutako histograma: bakarrik tolerantzia-mugen barruan aukeratutako elementuak jaso direla adieraz dezake; adibidez, saldu ahal izateko pisu onargarria duten arrainak.
Muturretako histograma: tolerantzia-mugetatik kanpo utzitako elementuak jaso direla adierazten du; adibidez, soroetan uzta ondoren utzitako landare eta fruituen tamaina, handiegiak edo txikiegiak izateagatik.

Histogramako tarteak finkatzeko irizpideak

aldatu

Tarte kopuruaren eragina

aldatu

Jatorriko datuak tarteetan biltzean, histogramak informazio-galera dakar datu haien aldean. Datuak zenbat eta tarte gutxiagotan biltzen diren, orduan eta informazio-galera handiagoa dago. Tarte kopuru handia ezartzen denean, berriz, informazio galera txikia da baina histogramaren helburua, datuak modu grafiko batean laburbiltzea alegia, kolokan gera daiteke. Beraz, histogramako tarte-kopurua finkatzeko oreka bat bilatu behar da, beraz, datuak behar bezala laburbildu eta informazio gehiegi ez galtzeko helburuen artean. Tarte kopuru egoki batek informazio behar den mailan laburbiltzen du informazioa, datuen egitura modu argian azalaraziz. Aurreko atalean adierazi bezala, 5-15 bitartekoa izaten da histograma baterako tarte kopuru egokiena; aldi berean, zenbat eta datu gehiago jaso, orduan eta tarte kopuru gehiago eratu behar direla ere gomendatzen da. Irizpide hauei jarraiki, badira formulak datu kopuru baterako tarte kopuru zehatza ematen dutenak. Nolanahi ere, tarte kopurua muga onargarrien baitan izanda ere, tarte kopuruan egindako aldaketa txiki batek interpretazioa guztiz aldatu dezakeela ere frogatu da. Eragozpen horiek gainditzeko eta bereziki histogramak dakarren informazio galdera saihesteko, orobat datuak tartetan biltzen dituen adar eta orrien diagrama izenekoa ere garatu da aukera moduan, jatorriko datuak atxikitzen dituena.

 
Datu-multzo berdina oinarritzat harturik eratutako lau histograma. Tarte kopuru egokiena 5-15 bitartekoa da. Hortik behera, jatorriko datuen informazio asko galtzen da; adibidez, 3 tarteko histograman, ezkerrean, datu gehienak 59-71 tartean biltzen direla esan daiteke, baina hori tarte zabalegia da. Tarte gehiegi eratzen badira, informazio nahasi eta irregularra eskuratzen da, datuak ez baitira behar bezala laburbiltzen; adibidez, 25 tarterekin, eskuinean, histograma gorabeheratsua eta eskuratzen da, interpretazioa zaildu egiten duena: datu gehienak 70 balioaren ingurtuan daude, baina 65 balioaren inguruan ere biltzen dira. Kopuru egoki baterako ere interpretazio arrunt desberdina izan daiteke: 7 tarterekin, bigarren histograman, datuak 61-66 balioaren inguruan biltzen direla ikus daiteke; baina 8 tarterekin datuak 65-70 tartearen inguruan biltzen direla interpretatzen da. Berari buruz egin daitezkeen interpretazio anitzak histogramaren oztopotzat jotzen dira.

Tarte mugen eragina

aldatu
 
Tarte kopuruaz gainera, tarteak nondik nora zehazten diren ere garrantzitsua da, tarte kopuru finko baterako ere moldaketa batetik bestera histograma arrunt desberdin atera baitaitezke, irudian ikusten den bezala.

Tarte kopuru finko baterako ere, tarteen mugak non finkatzen diren ere eragin nabarmena du histogramaren itxuran eta interpretazioan. Ondoko irudian datu multzo baterako aukerako bi histograma desberdin eratu dira, bietan tarte kopurua berdina bada ere. Lehenengo histograman neurriak 68-72 tartearen inguruan biltzen direla ondorioztatzen da; bigarrenean, berriz, datu gehienak 54-66 tartean kokatzen dira. Tarteen aukera desberdinetarako interpretazioak duen ezegonkortasun hori histogramaren oztopotzat jo daiteke.[7]

Tarte kopurua (k) eta tarte-zabalera (h) kalkulatzeko erregelak eta formulak

aldatu

Erregela eta formula zenbait garatu dira histogramako tarte kopurua edo tarte zabalera finkatzeko. Sturges erregelak datuetarako eredu eredu normal bat ezartzen du.[8] Scott erregelak oinarri teoriko sendoagoak ditu, histogramak datuek jatorri duten dentsitate-funtzioari buruzko errorean oinarrituta, banaketa normala erreferentzia harturik.[9] Freedman-Diaconis erregela oinarri estatistiko sendoak ditu eta ez du aurrez datuetarako inongo eredurik ezartzen. Doane erregela Sturgesen erregelaren hobekuntza bat da, datuetarako eredu egokiena normala ez denean. k tarte kopurua kalkulatzen duten formulen kasuan zenbaki ez osoa ateratzen denean, hurrengo zenbaki osora biribiltzen da.


Erregelaren izena Formula Erabilera
Sturges erregela   n, datu-kopurua
Rice erregela   n, datu-kopurua
Scott erregela   h tartearen zabalera finkatzen du; n, datu-kopurua; s, desbideratze estandarra
Freedman-Diaconis erregela   n, datu-kopurua; IQ, kuartil arteko ibiltartea
Doane erregela   k, Pearsonen kurtosi-koefizientea; n, datu-kopurua
-   Oinarri teorikorik gabekoa, baina batzuetan erabilia.

Tarte zabalera ezberdinak

aldatu
 
Ezker aldeko maiztasun-banaketan 10-30 tartean 5-10 tartean baino datu gehiago bildu arren, dentsitatea, eta ondorioz zutabearen altuera, handiagoa izan behar da 5-10 tartean, 5 datu 5-10 tartean gehiago baitira 8 datu 10-30 tartean baino.

Argitasunagatik komeni izaten da tartearen zabalera konstantea izatea, baina batzuetan, histograman zehar maiztasunik gabeko hutsuneak sor ez daitezen, tarteak bateratzea, zabaltzea eta estutzea komeni da. Tarte-zabalera konstanterik gabe eratzen diren histogramak bereziki alborapen nabarmena duten datu-multzoetan aplikatzen dira. Beste batzuetan, hasierako eta bukaerako tarteak mugatu gabe uztea gomendatzen da (adibidez, >100, <25). Zabalera ez konstanteko egoera horietan guztietan aldaketa batzuk egin behar dira histograma eratzeko, zutabeek datuen trinkotasuna edo dentsitatea era egokian irudika dezaten. Zehatzago, tarte bakoitzeko zutabearen altuera, a alegia, honela kalkulatu behar da, n tarteko maiztasuna, N datu kopuru totala eta h tarte zabalera izanik:

 

Adibidez, espezie bateko animalien altuerak jasotzen dituen honako maiztasun-banaketa honetan horrela kalkulatuko litzateke dentsitatea:

Tartea n (maiztasun absolutua) Dentsitatea (a=n/Nh)
0-3 4 0.055
3-4 2 0.083
4-5 5 0.208
5-10 5 0.041
10-30 8 0.016
24

Histogramaren definizio matematikoa

aldatu

x aldagai jarraitu bateko balioen esparruan jasotako   datuetarako, honela kalkulatzen da h(x) histogramaren funtzioa, x balioen tarte bakoitzari maiztasun absolutua, dagokion zutabearen altuera alegia, esleitzen diona:   balio horri dagokion tartearen erdipuntua eta w tartearen zabalera izanik:[10][11]

 ,
non  

h(x) balioetatik aise eratortzen dira f(x) maiztasun erlatiboa eta   dentsitatea:

 

Adibide moduan, 10-20 tarterako aldagaiaren x=12 balioak duen dentsitatea kalkulatuko da aurreko adierazpenaz, datuak (5,8,10,13,15,16,19,20,22) izanik:

Datuak (xi) 5 8 13 15 16 19 20 22
xi-10 -10 -7 -2 0 1 4 5 7
-5 ≤ (xi-10) < 5? ez (0) ez (0) bai (1) bai (1) bai (1) bai (1) bai (1) ez (0) h(x)=5

Tartearen zabalera 10 eta datu kopurua 8 izanik, dentsitatea hau izango da:  

Dentsitate-histogramak eta probabilitate-banaketak

aldatu

Dentsitate-histograma zutabeen altueratzat maiztasun absolutu eta erlatiboen ordez dentsitateak hartzen dituena da. Dentsitateekin, zutabe bakoitzeko azaleraren balioak tarte horretan suertatzeko probabilitatea adierazten du eta histograma osoko azalera 1 da, probabilitate-banakuntzetan bezala.[12]

Dentsitateak kalkulatzeko, ti tarte bakoitzeko ni maiztasun absolutua N×hi balioarekin zatitu behar da, hi tarteko zabalera izanik. Gogoratu behar da, aurreko atal batean erakutsi bezala, tarte-zabalerak desberdinak direnean, nahitaezkoa dela dentsitate-histograma eratzea, zutabeko altuerak adierazgarriak izan daitezen.

Dentsitate-histograma probabilitate banaketa jarraitu jakin batekin alderatu ahal izateko erabiltzen da, bi kasuetan azpiko azalera 1 izateaz gainera, tarte bateko probabilitatea azpiko azalerak ematen baitu. Dentsitate-histogramak probabilitate-banaketa jarraitzen badu, probabilitate-banaketa datuen eredu moduan baliatu ahal izango da. Horretaz gainera, dentsitate-histogramak dentsitate-zenbatespen moduan ere erabil daitezke; hain zuzen ere, histogramaren definizio matematikoa dentsitate-zenbatespenerako erabiltzen diren kernel-funtzio mota sinple bat besterik ez da.[10] Beste kernel-funtzioetan oinarrituta egindako dentsitate-zenbatespenak, finean datuak itxuratu edo leundu egiten dituztenak, histogramaren aukera hobe moduan ere erabiltzen dira.

 
Dentsitate-histograma eta datuetatik zenbatetsitako banaketa normala (ezker aldean); ez dirudi banaketa normala doi egokitzen denik datuetara. Histograma bera dentsitate-zenbatespen sinple bat izanik ere, datuetatik egindako dentsitate-zenbatespen zorrotzago batek (eskuin aldean), jatorriko datuak kontuan hartuz burututuakoa, datuak banaketa bimodal batetik eratorriak direla adierazten du; tarte kopuru txikiegia izan daiteke histograman ezaugarri hori ez azaltzearen arrazoia.

Maiztasun-poligonoak

aldatu
Sakontzeko, irakurri: «Maiztasun-poligono»

Maiztasun-poligonoa histogramatik eratortzen den datu-diagrama bat da, tarte bakoitzeko erdipuntuetan zutabeen altuerak lotuz eratzen dena. Aukera moduan, tarteko erdipuntuak lotu ordez, tarte-ertzak lotzea proposatu da, alboko zutabe-altueren batezbestekoa hartuz ordenatu moduan.[13] Histograman bezalaxe, maiztasun absolutuekin, erlatoekin eta dentsitateekin era daitezke. Datu-multzoak alderatzeko dira egokiak bereziki, irudi berean maiztasun-poligono batzuk batera marraztu baitaitezke; histogramak, ordea, ezin izaten dira batera jarri, batak bestea estaltzen baitu. Badu histogramaren aldean abantaila teoriko bat: histograma ez da funtzio jarraitua, mailakakoa baizik[10]; maiztasun poligonoa, berriz, jarraitua da, histograman oinarritutako interpolazio lineal bati esker.[14]

 
Histograma beretik eratorritako maiztasun poligonoak: eskubikoa ohiko maiztasun-poligonoa da, tarteko erdipuntu eta dagokien zutabeko altueretatik igarotzen dena; ezkerrekoan, tarte-muga bakoitzari alboko bi zutabeetako altueren batezbestekoa dagokio.

N-tigramak

aldatu

Maiztasun-banaketa baten irakurketa sinple eta eroso baterako, zabalera konstanteko histogramak dira egokienak. Batzuetan, ordea, zabalera konstanteko tarteek hutsuneak utz ditzakete daturik ez dagoenean. Aldi berean, zabalera konstanteko tarte batean datu asko suertatzen direnean, tarte horretan datuak nola banatzen diren ezkutuan geratzen da. Aukera moduan, n-tigramak garatu dira, maiztasun bereko zabalera ezberdineko tarteak dituzten histogramak alegia. Horiek eratzeko, aski da tarte bakoitzean bildu nahi den datu-kopurua zehaztea eta hortik tarteak osatzen joatea, beti maiztasun berdinekin. Tarte zabalerak ezberdinak suertatuko direnez, histogramako zutabeak eratzeko, dentsitateak kalkulatu beharko dira aurreko atalean bezala.

Baterako histogramak

aldatu

Datu-multzo bakar baten ezaugarriak begiztatzeko helburuaz gainera, datu-multzo zenbaiten ezaugarriak alderatzeko ere erabil daitezke, histogramak edo horietatik eratorritako maiztasun-poligonoak batera jarriz. Horren adibide garbiena biztanleria-piramideak dira, non gizonen eta emakumeen adinak histograma horizontal banatan irudikatzen diren grafiko berean, adin-tarte berdinetarako. Datu multzo desberdinen alderaketa behar bezala egitearren, tarteak berdinak izan behar dira diagrama guztietan; horretaz gainera, zutabeen altuerak maiztasun erlatibo edo dentsitateen arabera finkatzea komeni da irizpide orokor moduan, datu-multzo bakoitzaren datu-kopuruaren eragina baztertu eta horrela tarte bakoitzeko zutabeak datu-multzo guztietarako era homogeneoan alderatu ahal izateko.

Biztanleria-piramideak dira batera jarritako histogramen adibide arruntena, bi histogramak elkarri bizkarra emanez: gizon eta emakumeen adinen histogramak elkarren ondoan jartzen dira horizontalean, adin-tarte berdinetarako, gizon eta emakume kopuruak alderatzeko.
Maiztasun-poligonoak batera jarriz, datu-multzo zenbait irudika daitezke batera.
Datu-multzoak bi baino gehiago direnean, histogramak ezin dira elkarri bizkarra emanda jarri eta bata bestearen gainean edo sareta moduan jar daitezke. Ingelesez, trellis histogram deitzen zaie. Irudian, goiko histograman datuak 100 balioaren inguruan biltzen diren bitartean, beheko histograman 200 balioaren inguruan daude.
 
Baterako edo elkarren ondoko histograma (ingelesez, back to back histogram) biak datu berdinekin eratu dira (klik egin irudian jatorriko datuak jakiteko): ezker aldean, baterako histogramak maiztasun absolutuekin eratu dira: bi datu multzoak 35-40 tartearen inguruan biltzen dira, baina B datu-multzoan barra luzeagoa denez, irudiko luke B datu-multzoa tarte horretan zentratuago dagoela; irudipen faltsua da, ordea, horren arrazoia B datu-multzoan A datu-multzoan baino askoz ere datu gehiago izatea baita. Beraz, histogramak modu homogeneoan alderatu ahal izateko, dentsitateekin eratu behar dira, eskuin aldean egiten den bezala. Eskuin aldeko baterako histograman ikusten da, barra luzeagoa, dentsitatez, A datu-multzoak duela eta beraz hori dela, barra luzeagoaren irizpidearekin, datu multzo zentratuena.

Maiztasun metatuen histograma eta ojiba

aldatu

Histograma maiztasun metatuekin, maiztasun bakunekin kalkulatu ordez, eratu bada (aurreko zutabeak metatuz, alegia), histograma metatua dela esaten da. Histograma metatuak oso erabilgarriak dira kuantilak kalkulatu eta aztertzeko eta datu-banaketa zenbait batera aztertzeko. Histograma metatutik ojiba izeneko lerroa era daiteke, tarte muga - maiztasun metatua puntuak lotuz.[15]

 
Histograma, dagokion histograma metakorra, ojiba eta ojiban oinarrituta, 50. pertzentilaren zenbatespena, interpolazio linealez 24.16 suertatzen dena.

Erreferentziak

aldatu
  1. "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material". .
  2. Ioannidis, Yannis. (2003). The History of Histograms (abridged) (1: Prehistory). .
  3. (Ingelesez) Knapp, Donna. (2010-08-15). The ITSM Process Design Guide: Developing, Reengineering, and Improving IT Service Management. J. Ross Publishing ISBN 9781604270495. (Noiz kontsultatua: 2019-01-29).
  4. «7 Basic Quality Tools: Quality Management Tools | ASQ» asq.org (Noiz kontsultatua: 2019-01-29).
  5. «The Rutherford Journal - The New Zealand Journal for the History and Philosophy of Science and Technology» www.rutherfordjournal.org (Noiz kontsultatua: 2019-01-29).
  6. (Ingelesez) Typical Histogram Shapes and What They Mean, ASQ American Society for Quality, 2013-10-9an kontsultatua.
  7. (Ingelesez) Farnsworth, David L.. (2000). «The case against histograms» Teaching statistics..
  8. (Ingelesez) Scott, David W.. (1992). Multivariate Density Estimation. , 47-48 or..
  9. (Ingelesez) Knuth, Kevin H.. (2013). «Optimal Data-Based Binning for Histograms» arxiv.org.
  10. a b c (Ingelesez) Porter, Frank. Density estimation (atalaren izena). , 185-188 or..
  11. (Ingelesez) Scott, David W.. Multivariate Density Estimation: Theory, Practice, and Visualization. , 49 or..
  12. (Ingelesez) Peck, Roxy; Devore, Jay L.. Statistics: The Exploration & Analysis of Data. , 342-349 or..
  13. (Ingelesez) «The edge frequency polygon» Biometrika.
  14. (Ingelesez) Scott, David W.. Frequency polygons. , 98 or..
  15. (Ingelesez) Lohse, Edgar Alan. (1995). «A theoretical curve for statistical analysis of sediments» Journal of Sedimentary Research.

Ikus gainera

aldatu

Kanpo estekak

aldatu