Idazlanen kalifikatze automatiko

Idazlanen kalifikatze automatikoa (IKA, ingelesez automated essay scoring, AES) hezkuntza-ingurunean egindako idazlanei kalifikazioak esleitzeko programa informatiko espezializatuen erabilera da. Hezkuntz-ebaluazioko metodoa eta hizkuntzaren prozesamenduko aplikazioa da. Bere helburua testu multzo handi bat kategoria kopuru txiki baten arabera sailkatzea da, kalifikazio posibleei dagozkienak, adibidez, 0etik 10rako zenbakiak. Gauzak horrela, multzo handiagoak multzo txikiagoetan sailkatzea sailkapen estatistikozko arazotzat jo daiteke.

Hainbat faktorek gero eta interesa handiagoa piztu dute kalifikatze automatikoaren inguruan. Horien artean daude kostua, erantzukizuna, estandarrak eta teknologia. Hezkuntzaren kostuen igoerak presioa eragin du hezkuntza sistemaren gainean ebaluazio estandarrak ezartzeko, ekonomikoki bideragarria izaten jarraitzearren. Informazioaren teknologiako aurrerapenek hezkuntza-emaitzak neurtzen ditu kostu murriztuarekin.

Hezkuntzako proba kritikoetan ere kalifikatze automatikoa erabiltzeak erreakzio esanguratsua sortu du, aurkariek argudiatzen dute ordenagailuek oraindik ezin dituztela idazlanak zehatz kalifikatu eta horren erabilerak horietara begira modu murriztuan egokitutako idazketaren irakaskuntza sustatzen duela (adib. testerako irakaskuntza).

Artikuluen kalifikatze automatikoa Euskal Wikipedian aldatu

 
Artikulu-kalifikatze automatikoa. Euskal Wikipediako artikulu baten kalitate-neurketa "+" eta "6.85"
 
Euskal Wikipediako hainbat artikulu, ORES aplikazioarekin bakoitzerako lortzen den kalitate-neurriarekin.

Euskal Wikipediako artikulu guztietan 2018az geroztik kalitate neurketa automatiko bat egiten da, eta emaitza erakusten da artikuluaren izenburuaren azpian, adibidez: "Kalitate neurketa:   (6,72)".

  • Kalifikazioaren letra edo ikonoa hauetako bat izaten da:
    •  : artikulu hau zirriborro bat da, eta asko dauka hobetzeko.
    •  : artikulu hau hasiera fasean dago. Asko izan dezake hobetzeko, erreferentziarik ez du edo apenas ditu, eta sekzio gehiago behar ditu.
    •  : nahiko. Artikulu honek informazio nahikoa ematen du, eta gai baten inguruan jakin beharreko gutxiena aurkezten du. Ziurrenik atal gehiago, testu gehiago eta, batez ere, erreferentzia gehiago behar ditu hobetzeko.
    •  : ondo. Artikulu honetako informazioa nahiko osatua dago, baina oraindik erreferentziak, atalak eta irudiren bat falta zaio hoetzeko.
    •  : artikulu hau oso ondo dago, eta gutxi falta zaio nabarmendua izateko.
    •  : artikulu nabarmena da, bikaina.
  • Kalifikazioaren zenbakia 0tik 10erako zenbakia da.

ORES web-zerbitzua erabiltzen da kalifikatze automatiko horretan.[1][2] Kalifikazio hori ez da guztiz fidagarria, testuaren esanahia ez baitu inondik ere kontuan hartzen, baina erreferentzia esanguratsua da jakiteko zein den artikuluaren luzera, egitura eta osaera. Are lagungarriagoa da neurketa automatiko hori hainbat artikuluren kalitatea ikustaldi bakar batean erakusten denean, esate baterako, wikiproiektu bateko artikulu guztien kalitatea erakusten denean (ikus irudia). Bandalismoa automatikoki detektatzeko ere oso baliagarria da.

Historia aldatu

Kalifikatze automatikoen laburpen historiko gehienek Ellis Batten Page-ren lanean kokatzen dute jatorria. idazlanak ordenagailu bidez kalifikatu zitezkeela esan zuen 1966an, eta 1968an bere proiektu arrakastatsua argitaratu zuen.[3] Project Essay Grade™ (PEG™) izeneko programarekin. Garai hartako teknologia erabiliz,konputagailu bidezko idazlanak kalifikatzea ez zen errentagarria,[4] eta ondorioz, Page programa bi hamarkadatan pixkanaka indarrik gabe geratu zen.

1990. urteaz geroztik, mahaigaineko ordenagailuak asko zabaldu eta oso indartsu bihurtu zirenean kalifikatze automatikoa aukera praktiko bihurtu zen. 1982tik hasita, UNIXen Writer's Workbench izeneko programa puntuazio-, ortografia- eta gramatika-aukerak eskaintzeko gai zen.[5] Hainbat enpresarekin lankidetzan (batez ere Hezkuntzarako Proba Zerbitzua, Educational Testing Service), Page-k PEG eguneratu zuen eta proba arrakastatsu batzuk egin zituen 1990eko hamarkadaren hasieran.

Peter Foltz eta Thomas Landauer- ek kalifikatzeko motorra erabiltzen zuen Intelligent Essay Assessor™ izeneko sistema bat diseinatu zuten (IEA). IEA 1997an erabili zen lehen aldiz idazlanak kalifikatzeko beraien graduko ikastaroetarako.[6] Gaur egun Pearson Educational Technologies-en produktua da eta produktuen merkatuan eta AEB mailako azterketetan kalifikazioak lortzeko erabiltzen da.

IntelliMetric® Vantage Learning-en idazlanak kalifikatzeko motorra da. Bere garapena 1996. urtean hasi zen.[7] Merkatuan 1998an erabili zen lehenengo aldiz idazlanak kalifikatzeko.[8]

Educational Testing Service zerbitzuak e-rater® programa eskaintzen du. Merkatuan lehenengo aldiz 1999ko otsailean hasi ziren erabiltzen.[9] Jill Burstein haren garapen taldeko liderra zen. ETS's CriterionSM Online Writing Evaluation Service zerbitzuak e-rater motorra erabiltzen du kalifikazioak eta zuzenketa-oharrak emateko.

Lawrence Rudner-ek Bayesen puntuatze sistemarekin lan batzuk egin ditu eta BETSY izeneko sistema bat garatu du (Bayesian Essay Test Scoring sYstem).[10] Emaitza batzuk inprimakietan edo sarean argitaratu dira, baina BETSY komertzialki ez da erabili oraindik.

Howard Mitzel eta Sue Lottridg-en gidaritzapean, Pacific Metrics-ek erantzunak automatikoki kalifikatzeko motorr bat garatu zuen, CRASE®. Gaur egun AEBko Hezkuntzako zenbait sailek eta Estatu Batuetako Hezkuntza Sailak finantzatutako Enhanced Assessment Grant-ek erabiltzen dute, Pacific Metrics-en teknologia 2007 urteaz geroztik eskala handiko prestakuntzan eta gehikuntzazko ebaluazioko inguruneetan erabilia izan da.

Measurement Inc.-k PEG-en eskubideak erosi zituen 2002an eta hori garatzen jarraitu du. [11]

2012an, Hewlett Fundazioak Automated Student Assessment Prize (ASAP) izena zuen Kaggle-ri buruzko lehiaketa bat patrozinatu zuen.[12] Erronkan 201 parte-hartzaile kalifikatze automatikoaren bidez saiatu ziren aurreikusten zein izango ziren 8 galderentzako idazlantako milaka idazlani giza kalifikatzaileek emango zizkieten puntuazioak. Helburua kalifikatze automatikoa giza kalifikatzaileak bezain segurua edo seguruagoa zela frogatzea zen. Lehiaketa honek ASAP datuen azpimultzo batean froga bereizi bat ere antolatu zuen AES -eko 9 hornitzaileen artean. Ikertzaileek idazlanen puntuatze automatizatua giza kalifikatzailearena bezain segurua zela esan arren, aldarri hori ez zen berretsi inongo estatistika-frogaren bitartez, izan ere, hornitzaile batzuek halako probak ez zitezela egin eskatu zuten erronkan parte hartzeko aurrebaldintza gisa.[13] Gainera, Hewlett Study-ek kalifikatze automatikoak giza puntuatzaileak bezain fidagarriak zirela esan zuenetik zalantzan jarri da oso gogor, [14] [15] Ikerketari egin zaizkion hasierako kritika batzuek esaten zuten 8 datu multzoetako 5etan testu-paragrafozkoak zirela idazlan osoak izan beharrean, 8 datu multzoetako 4 giza irakasle bidez bere edukiagatik kalifikatu zirela idazteko gaitasunagatik izan beharrean, eta giza irakurleak eta AES makinak benetako puntuazioaren aurka neurtu beharrean, bi irakurleen puntuazioen batezbestekoa, ikerketak era artifizial bat erabili zuela zenbait kasuetan. gisa irakasleen notarrik altuena hartzen zuen; eta horrela eginez nolabaiteko abantaila ematen ziola kalifikatze automatikoari.[14]

Prozedura aldatu

Idazlanak automatikoki kalifikatzeko oinarrizko prozedura beti hasten da kontu handiz eta eskuz hainbat idazlan kalifikatzen.[16] Programak idazlan bakoitzeko testuaren azaleko xehetasunak ebaluatzen ditu, hala nola hitz kopurua guztira, menpekotasuna duten klausulen kopurua, edo maiuskulen zein minuskulen portzentaia — giza intuiziorik gabe neurtu daitezkeen kantitateak. Ondoren, eredu matematiko bat sortzen da, kantitate horiek idazlanetan lortu diren puntuazioekin erlazionatzen dituztenak. Ondoren, eredu bera aplikatzen da idazlan berrien emaitzak kalkulatzeko.

Berriki, Isaac Persing eta Vincent Ng-ek eredu matematiko horietako bat sortu zuten. [17] , idazlanak aurreko xehetasunengatik bakarrik ez ditu ebaluatzen, baizik eta beraien indar argumentalagatik ere bai. idazlanaren xehetasun asko aztertzen ditu, hala nola, egilearen akordio maila eta horren arrazoiak, idazlanaren gaiarekiko lotura, argumentuen osagaien kokalekua (aldarrikapen handiagoa, aldarrikapena, premisa), argudioetan akatsak, kohesioa argudioetan, beste ezaugarri batzuen artean.. Goian aipatutako beste ereduekin alderatuta, eredu hau giza ulermena bikoizteko gertuago dago idazlanak kalifikatzen dituen bitartean.

Automatikoki kalifikatzeko programa desberdinen arteko aldeak idazlanen azaleko ezaugarri desberdinak neurtzean datza, baita zenbat idazlan behar diren prestakuntza multzoa osatzeko, eta garrantzitsua dena eredu matematikoan. Hasierako saiakerek erregresio lineala erabiltzen zuten. Sistema modernoek erregresio lineala edo ikasketa automatikoko beste teknika batzuk erabil ditzakete askotan teknikaestatistiko batzuekin konbinatuz, hala nola analisi semantiko latentziala[18] eta inferentzia bayesiarra.[10]

Arrakasta lortzeko irizpideak aldatu

Kalifikatze-metodo guztiek baliozkotasuna, zuzentasuna eta fidagarritasunaren arabera ebaluatu behar dira.[19] Kalifikatze-tresna bat baliozkoa da neurtu nahi den abilezia benetan neurtzen badu. Bidezkoa da, pertsona guztiekin berdin jokatzen badu, azken batean, ez badu pertsona batzuk penalizatzen edo ez badizkie pribilegioak ematen. Fidagarria da bere emaitza errepikakorra bada, kanpoko faktore garrantzitsuak aldatzen badira ere.

Ordenagailuak mundu honetan sartu baino lehen, garrantzi handiko idazlan-arterketetan idazlanei puntuazioak bi pertsona adituk eman ohi zizkieten. Bien arteko puntuazioak puntu bat baino gehiagoko tartea bazuten eskarmentu handago zuen hirugarren batek hautsiko zuen zalantza. Sistema honetan, fidagarritasuna neurtzeko modu erraz bat dago: inter-rater hitzarmena. Puntuatzaileak behin eta berriro ez badira bat etortzen punturen bateko tartean, haien prestakuntzan akatsa egon daiteke. Kalifikatzaile bat ia beti idazlan bera puntuatzen duenean beste edozein kalifikatzailerekin desadostasunean badago, ziurrenik kalifikatzaile horrek trebakuntza gehiago behar du.

Hainbat metodo estatistiko proposatu dira inter-rater akordioa neurtzeko. Horien artean honako hauek daude: bat-etortzeen ehunekoa, Scott's π , Cohen.en κ , Krippendorf-en α, Pearson-en r korrelazio-koefizientea , Spearman-en ρ korrelazio koefizientea, eta Linen korrelazio-konparaketaren koefizientea.

Bat-etortzeen ehunekoa estatistika sinplea da eta 1 etik n-ra doazen puntuazioen kalifikazio-eskalekin aplikagarria da, normalean 4 ≤ n ≤ 6. Hiru emaitzetako bat ematen da, bakoitza idazlan kalifikatuen kopuruaren portzentaje bat: akordio zehatza (bi ebaluatzaileek idazlanei puntuazio bera ematen die), auzokidetza-akordioa (kalifikatzaileen artean gehienez puntu bateko diferentzia dago); eta erabateko desadostasuna (ebaluatzaileen puntuazioen arteko aldea bi puntu baino gehiagokoa da) . Giza ebaluatzaile adituek akordio zehatza lortu zuten idazlanen %53 eta %81 artean eta auzokidetza-akordioa %97 eta %100 artean.[20] [21]

Orain Inter-rater akordioa ordenagailuaren errendimendua neurtzeko aplikatu daiteke. Idazlan multzo bat bi giza kalifikatzaileri eta kalifikatzaile automatiko bati ematen zaio. Ordenagailu bidez esleitutako puntuazioak giza kalifikatzaile batekin koinziditzen badu eta gainera giza ebaluatzaile biak bat badatoz elkarren artean, programa kalifikatzailea fidagarritzat hartzen da. Alternatiboki, idazlan bakoitzaren "egiazko puntuaziotzat" hartzen da bi giza kalifikatzaileen puntuazioaren batezbestekoa, eta horrela bi gizaki eta ordenagailuaren arteko konparazioa egiazko puntuazioarekin alderatuz egiten da.

Ikertzaile batzuek beraien sistema automatikoak gizakiak baino hobeak direla esaten dute. Page-k horixe esanzuen 1994an PEG sistemaz.[22] Scott Elliot-ek 2003an IntelliMetric-ek normalean giza puntuatzaileei irabazten ziela esan zuen.[7] Klifikatzeko makinak, hala ere, giza kalifikatzaileak baino fidagarritasun gutxiago eman ohi dute edozein motako idazlan konplexu baten aurrean.

Gaur egun, AEBko GMAT goi-mailako ebaluazioetan beti gutxienez gizaki batek puntuatzen du. kalifikatzaile automatikoa bigarren puntuatzaile moduan erabiltzen da. Giza kalifikatzaile batek erabakitzen ditu puntu bat baino gehiagoko desadostasuna dagoenean. [23]

Kritika aldatu

Hainbat arrazoigatik kritikatua izan da idazlanen kalifikatze automatikoa. Yang et al. -ek "testuen azaleko ezaugarriekiko gehiegizko menpekotasuna, testuen edukiari eta sormenari jaramonik ez egitea, eta iruzur mota berrietan nahiko ahulak" aipatu zuten.[23] Hainbat kritikoren arabera ikasleen motibazioa apaldu egingo da beraien idazlanak inork ez dituela irakurriko konturatuko direnean.[24] [25] [26] Kritika esanguratsuenen artean, badira txosten batzuk non egileek nahita modu inkoherentean sortutako idazlanei kalifikazio altua eman zaiela esaten den. [27]

HumanReaders.Org guneko eskaera aldatu

2013ko martxoaren 12an, HumanReaders.org-ek eskaera bat aurkeztu zuen sarean, "Profesionalak Ikasleen idazlanen kalifikatze automatikoen aurka Garrantzi edo Arrisku Handiko Ebaluzioan". Aste batzuetan, eskaerak milaka sinadura lortu zituen, besteak beste, Noam Chomsky[28] eta hainbat egunkaritan aipatu zen, New York Times , [29] [30] [31] eta zenbait hezkuntza- eta teknologia-blogetan ere agertu zen.[32] [33]

Eskaerak dio partaidetza handiko probetan kalifikatze automatikoaren erabiltzea, "hutsala", "murriztailea", "zehaztugabea", "diagnostikaezina", "bidegabekoa" eta "sekretua" dela.[34]

AESen ikerketaren laburpen zehatzen batean, eskaeraren guneak "IKERKETAREN EMAITZEK ERAKUSTEN DUTE inor —ikasleek, gurasoek, irakasleek, enpresaburuek, administratzaileek, legegileek— ezin dela kalifikatze automatikoaz fidatu ... ETA kalifikatze automatikoak ez dituela neurtzen benetako idazkeraren ezaugarriak, eta beraz, ez dituela horrelako horien erabilera sustatzen". [35] [36]

Eskaerak kalifikatze automatikoaren erabilera bereziki partaidetza handiko probetan nolako den adierazten du, eta ez du beste erabileren inguruan ezer esaten.

Softwarea aldatu

idazlanen puntuazio automatikoaren baliabide gehienak jabedunak dira.

  • eRater - ETS- ek argitaratua
  • Intellimetric - Vantage Learning-ek
  • Proiektuen Saiakera Kalifikazioa [37] - Neurketa, Inc.
  • PaperRater.

Erreferentziak aldatu

  1. «ORES» ores.wikimedia.org (Noiz kontsultatua: 2019-05-10).
  2. (Ingelesez) «ORES - MediaWiki» www.mediawiki.org (Noiz kontsultatua: 2019-05-10).
  3. Page, EB (1968). "Ikasleen erabilerak aztertzeko ordenagailuaren erabilera". Hezkuntza Nazioarteko Berrikuspena, 14 (3), 253-263.
  4. Page, EB (2003), 44-45 orrialdeak.
  5. MacDonald, NH, LT Frase, PS Gingrich eta SA Keenan (1982). "Writers Workbench: Testu analisietarako ordenagailuen laguntzak". Komunikazioen IEEE Transactions, 3 (1), 105-110.
  6. Rudner, Lawrence. "Three prominent writing assessment programs Artxibatua martxoa 9, 2012, hemen: Wayback Machine". Retrieved 2012-03-06.
  7. a b Elliot, Scott (2003). "Intellimetric TM: From Here to Validity", p. 75. In: Automated Essay Scoring: A Cross-Disciplinary Perspective. Shermis, Mark D., and Jill Burstein, eds. Lawrence Erlbaum Associates, Mahwah, New Jersey, ISBN 0805839739
  8. " IntelliMetric®: nola funtzionatzen du ". Berreskuratu 2012-02-28.
  9. Burstein, Jill (2003). "The E-rater(R) Scoring Engine: Automated Essay Scoring with Natural Language Processing", p. 113. In: Automated Essay Scoring: A Cross-Disciplinary Perspective. Shermis, Mark D., and Jill Burstein, eds. Lawrence Erlbaum Associates, Mahwah, New Jersey, ISBN 0805839739
  10. a b Rudner, Lawrence (ca. 2002). "Computer Grading using Bayesian Networks-Overview Artxibatua martxoa 8, 2012, hemen: Wayback Machine". Retrieved 2012-03-07.
  11. " Ebaluazio Teknologiak ", Measurement Incorporated. 2012-03-09 berreskuratu.
  12. " Hewlett saria ". Berreskuratu 2012-03-05.
  13. .
  14. a b .
  15. Perelman, L. (2014). "Noiz" artearen egoera hitzak kontatzen ari dira ", Idatzizko ebaluazioa, 21, 104-111.
  16. Keith, Timothy Z. (2003), p. 149.
  17. Persing, Isaac eta Vincent Ng (2015). "Ikasleen saiakuntzen argudio indarra modelatzea" , 543-552. Orrialdeak. Hizkuntzalaritza Konputazioaren Elkartearen 53. Urteko Jardunaldietan eta Natur Landa Prozesuen Nazioarteko 7 Konferentzian (1. liburukia: Papera Luzeak) . Eskuratu 2015-10-22.
  18. Bennett, Randy Elliot eta Anat Ben-Simon (2005), p. 7.
  19. Chung, Gregory K.W.K., and Eva L. Baker (2003). "Issues in the Reliability and Validity of Automated Scoring of Constructed Responses", p. 23. In: Automated Essay Scoring: A Cross-Disciplinary Perspective. Shermis, Mark D., and Jill Burstein, eds. Lawrence Erlbaum Associates, Mahwah, New Jersey, ISBN 0805839739
  20. Elliot, Scott (2003), p. 77.
  21. Burstein, Jill (2003), p. 114.
  22. Page, EB (1994). "Ikasleen prosazko ikasleen kalifikazio berria, kontzeptu modernoak eta softwarea erabiltzea". Revista de Educación Experimental, 62 (2), 127-142.
  23. a b Yang, Yongwei, Chad W. Buckendahl, Piotr J. Juszkiewicz, and Dennison S. Bhola (2002). "A Review of Strategies for Validating Computer-Automated Scoring Artxibatua urtarrila 13, 2016, hemen: Wayback Machine". Applied Measurement in Education, 15(4). Retrieved 2012-03-08.
  24. Wang, Jinhao eta Michelle Stallone Brown (2007), 4-5. Orrialdeak.
  25. Dikli, Semire (2006). " Saiakuntzen Scoring automatizatuaren ikuspegi orokorra ". Aldizkaria, Teknologia, Ikaskuntza eta Ebaluazioa, 5 (1)
  26. Ben-Simon, Anat (2007). "Saiakera automatizatuen puntuazioen sarrera (AES)". PowerPoint aurkezpena, Tbilisi, Georgia, 2007ko iraila.
  27. .
  28. .
  29. .
  30. .
  31. .
  32. .
  33. .
  34. .
  35. .
  36. .
  37. "Balorazio teknologiak". Measurement, Inc. https://web.archive.org/web/20190224173427/http://www.measurementinc.com/products-services/automated-essay-scoring .

Kanpo estekak aldatu