Hizkuntza-teknologiak
IXA taldea
Galdera-erantzute eleanitzeko CLEF lehiaketa eta euskara
2008/05/08 - 22:45:01
Roberto Navigliren hitzaldia
Hizkuntzaren ulermen automatikoa gauzatuko bada, hitz bat erabiltzen dugunean zein esanahirekin egiten den ebatzi beharko da. Hori da adiera desanbiguazioa, eta gaur egun %60-%90 doitasunarekin egiten da. Hizkuntzaren Azterketa eta Prozesamendua masterraren barruan, Roberto Navigli adituak hitzen adiera desanbiguazioa eta adieren granularitateari buruzko hitzaldiak eskainiko ditu Donostiako informatika fakultatean. Roberto Navigli ikerlari italiarra Erromako "La Sapienza" unibertsitateko irakaslea da. Internet Semantiko eta Lengoaia Naturalaren Prozesamenduan aritzen da, adiera desanbiguazioan, ontologien ikasketan eta ezagutzaren ikasketan orohar. HAP masterraren barruan, Donostiako Informatika fakultatean bi hitzaldi eskainiko ditu (gradu aretoan, apirilak 25 ostirala, arratsaldeko 4etan): - An Introduction to Word Sense Disambiguation, with a Focus on Knowledge-based Methods - Dealing with the Complexities of Sense Granularity: Knowledge-Based Validation of Fine-grained Sense Annotations Hitzaldiak irekiak eta ingelesez izango dira. 2008/04/24 - 15:28:02
Lematizatzailea. Testuetako anbiguotasun morfologikoa murrizten.
2008/02/27 - 02:25:24
Egunkaria, hizkuntza-teknologiako baliabideen sortzailea
2008/02/19 - 18:56:38
Hizkuntza ofiziala izatearen garrantzia
Europako Batzordeak bere itzulpenen corpusa liberatu du. Corpusean milioi bat esaldi aurkitu daitezke 23 hizkuntza ofizialetako 22 hizkuntzetan (gaelikoa berriki onartu denez zerrendatik at geratu da). Material hori ezinbestekoa da itzultzaile automatikoen lana errazteko. Horren berri jaso da Enpresa Digitala -n eta Sustatu -n. Baina euskara ez dago 23 hizkuntza ofizial horien artean. Eta beraz, hizkuntz baliabideetan beste hizkuntzekin orain dugun aldea dezente handiagoa da corpus berri hori zabalduta. Itzulpen estatistikoetan corpus handiak izatea giltza da emaitza egokiak lortzeko. Batez ere itzulpen estatistikoa hizkuntza oso diferenteen artean egin nahi bada. Aldea nahiko handia zen orain arte. Azken bi urteotan ikerketa mailan asko eta asko erabili da Europarl corpusa (Europako Parlamentuko aktak). Estandar bihurtzen ari da esperimentuak egiteko eta 30 milioi hitz biltzen ditu (44 milioi 2007ko azken bertsioan). Euskararako horrelako corpus bat biltzea ezinezkoa da egun. Nekez lortzen ditugu 2-3 milioikoak. Eta kopuru horiekin jokatuta emaitzak txarragoak dira, noski. Europako Batzordeko azken corpus berri hau laster batean Europarl-en mailan jarriko da edo. Baina... euskara? Ditugun baliabideei probetxu handiena ateratzeko ikerketan aritzea erronka handia da guretzat. Baina ... oso inportantea da HIZKUNTZA OFIZIALA izatea. 2008/02/19 - 18:56:37
Fernando Morillo idazleak teknologia bidaide (II)
2007/12/12 - 11:29:05
Nola hobetu dokumentu-bilatzaileak? (Hitzaldia 2007-X-16)
2007/10/09 - 01:23:33
Analisi sintaktiko automatikoa. Carroll irakaslearen bisita (uztaila, 9-11)
2007/06/26 - 14:36:03
Hizkuntzaren Azterketa eta Prozesamendua. Master ofiziala 2007-2008
2007/06/25 - 22:55:06
Ontologia formalak. Adam Pease (Hitzaldia, 2007-06-04, 11:00)
2007/06/01 - 12:13:11
