Hizkuntza-teknologiak
IXA taldea
Laponiako samiera hizkuntza eta euskara lankidetzan aztertzen
Linda Wiechetek, Norvegiako Tromsø-ko Unibertsitateko ikerlaria, Ixa taldearekin lanean ari da udaberri honetan Donostian (apiriletik uztailera arte). Bere bisita NILS mugikortasun proiektuarekin finantzatzen da. Baina... zergatik landu batera samiera eta euskara? Zer ikertzen dugu elkarrekin? Zergatik lan egiten dugu hain bitxia den hizkuntza-bikote horrekin? Horra arrazoi batzuk: - Biak dira hizkuntza "txikiak", - Biek baliabide mugatuak dituzte hizkuntza-teknologiari ekiteko. (Samieraren egoera, baina, are mugatuagoa da gaur egun). - Samieraren eta euskararen morfologiak oso aberatsak direnez, biek ala biek tresna berezien beharra dute, hala nola transduktore morfologikoak eta analisi/desambiguaziorako moduluak. Hizkuntza teknologian hoberen kokatuta dauden hizkuntza gehienek (ingelesa, espainiera edo frantsesa, esate baterako) ez dute horrelako tresnarik behar beren oinarrizko azpiegitura sortu ahal izateko. - Hainbat kontu morfosintaktikotan bide paraleloak garatu dituzte bi hizkuntzok. Adibidez: postposizio eta f untzio sintaktikoak , baita beroriek sortzen dituzten anbiguotasun morfosintaktikoak ere. Testuinguru horretan gaudela ildo hauetan ari gara ikertzen elkarrekin : - Ezaugarri semantikoen erabilera sintaxi-desanbiguaziorako Murriztapen Gramatiketan ( Constraint Grammar ) . - Ezaugarri semantikoen erabilera itzulpen automatikoan transferentzia lexikalean eta transferentzia sintaktikoan. - Aditz-azpikategorizazioaren erabilera desanbiguazio sintaktikoan. - Aditz-azpikategorizazioaren erabilera itzulpen automatikoan, transferentzia lexikalean eta sintaktikoan. Oraindik gure analizatzaile sintaktikoak ez daude hizkuntza nagusienen mailan. Sami eta euskara elkarrekin landuz hizkuntza teknologiarako ditugun oraingo tresna morfosintaktikoak hobetu nahi ditugu . Gainera aditz-azpikategorizazioaren erabilera oso baliagarria izan daiteke itzulpen automatikoan edo galderak erantzuteko sistemetan. Bestalde, Linda hasi da euskaraz berba egiten, poliki baina badoa. Guk ere laponierazko hitz batzuk ikasi ditugu. Hori ere lankidetzarako eta trukerako bidea baita. ;-) Wikipediako "Samiera" 2010/06/30 - 18:43:02
Hizkuntzaren Azterketa eta Prozesamendua. Master ofiziala 2010-2011
2001. urtetik gabiltza hizkuntzalariak eta informatikariak formatzen hizkuntzaren teknologian lan egin eta iker dezaten. 60 profesional edota ikerlari trebatu ditugu orain arte. Hizkuntzaren azterketa eta prozesamendua Master ofiziala berriro jartzen dugu martxan datorren ikasturterako. - Anhitz zientzia-aditu birtuala. - Galdera-erantzunak hizkuntza librean: Galdetu "How far is Bilbao from London?" - Aholab : irakurketa automatikoa euskaraz - Nuance : Hizketaren tratamendu automatikoa. - news.google.com : Bildu eta sailkatu berriak automatikoki. Nola egiten dute berri-bilduma hori etengabe automatikoki eguneratuta mantentzeko? - Opentrad-Matxin eta Google Translate itzultzaile automatikoak. Euskara ere erabiltzen dute. - Laburpen automatikoa. Ikusi duzu Word testu-prozesadoreko "Autosummarize" tresna? - yourdictionary.com : 900 hiztegi kontsultagarri ingeleserako, 300 espainierarako, 9 euskararako - hiztegia.net : 50 hiztegi euskararako - ZT eta beste corpus batzuk : nola erabiltzen dira gaur egun euskarazko hitzak? Baina... nola dabiltza aplikazio horiek? Informatikaria edo ingeniaria bazara... Zein dira oinarrizko tresna informatikoak hor barruan? Nola integratu daitezke aplikazio hauek beste aplikaziotan edo webean? Filologo edo hizkuntzalaria bazara... Zelan erabiltzen da ezagutza linguistikoa hor barruan? Lexikoa, gramatika, adierak? Zelan egiten dira automatikoki aplikazio horietan beharrezkoak diren analisi morfologikoa, sintaktikoa eta semantikoa? Eusko Jaurlaritzak 2002. urtetik Infoingeniaritza linguistikoa aukeratu du bere ikerkuntza-lerro estrategiko ren artean. Lerro honetan ikerketa eta garapena landuko duten ikertzaile berriak behar dira (informatikariak eta hizkuntzalariak). Arloko enpresek profesionalak behar dituzte. Hizkuntza Teknologiaren mundu honetan sartu nahi duzu gure eskutik? Jo guregana informazio zehatzago lortzeko: Hizkuntzaren azterketa eta prozesamendua 2010/06/18 - 22:03:02
CLARIN proiektuaren bilera Euskal Herriko agenteekin
2010/06/15 - 22:52:03
Hitzaldia: Example Based Machine Translation (Andy Way)
"Example Based Machine Translation " "Adibideetan oinarritutako Itzulpen Automatikoa" HIZLARIA : Andy Way . EGUNA : ekainak 11 (16:00-18:00) LEKUA : Informatika Fakultateko 3.17 gelan GARDENKIAK - EBMT - European Projects on MT LABURPENA - A brief introduction to EBMT, - Issues for EBMT over the years, and the extent to which they have since been addressed (possibly in other paradigms) - Recent open-source EBMT releases. Europako Batzordeak Itzulpen Automatikoari buruz egun finantzatzen dituen proiektuak 2010/06/08 - 07:01:02
Hitzen adiera-desanbiguazioa biomedikuntzako testuetan
2010/05/07 - 16:07:01
Europeana v1.0 sarean sartzera gonbidatu dute IXA taldea
2010/04/28 - 18:38:02
Hitzen adiera-desanbiguazioa domeinu konkretuetan.
2010/04/23 - 20:06:02
Euskarazko erroreen eta desbideratzeen analisirako lan-ingurunea
2010/04/19 - 15:16:05
XML teknologiaren erabilera hiztegigintzan: Diccionario Básico Escolar
Santiago de Cubako Centro de Lingüística Aplicada-k (CLA) eta IXA taldeak lankidetzan egindako Diccionario Básico Escolar (DBE) delakoaren hirugarren edizioa izan da libururik salduenetakoa Habanako Feria Internacional del Libro -n, aurten. IXA taldean CLAkoekin lankidetzan ari gara duela ia hamar urte, eta DBEren garapenean egin dugu lan beraiekin, besteak beste. Hiztegia garai bateko RTF formatutik XMLratu egin zen lehenbizi, inprimatzeko helburua soilik zuen hiztegi batetik abiatu eta benetako datu-base lexikografiko bat eratuz. Horrela sortu ziren hiztegiaren lehen edizioa CDan (Kubako eskoletan doan banatu zena) zein on-line, bigarren edizioa (paperean, CDan zein on-line) eta aurtengo ferian arrakasta handikoa suertatu den hirugarren edizio hau (paperean, 50.000 aleko tirada izan duena, eta on-line ere jarri dena). Hiztegian 10.557 sarrera daude, 19.374 adiera eta 811 irudi. Esan bezala, hiztegia XML z kodetuta dago, eta hiztegiak editatzeko leXkit izeneko ingurunea erabiltzen da hiztegiaren edizioa eta mantentzea egiteko. leXkit ere IXA taldean garatua da, Berkeley DB XML datu-base natiboa erabiltzen du informazioa gordetzeko, eta era askotako hiztegiak editatzeko erabil daiteke. On-line bertsioa nahiz inprimatzeko behar den PDFa zuzenean sortzen dira XMLtik, XSLT (XSL-FO) teknologia erabiliz. Hemen kontsulta daiteke DBEren hirugarren bertsioa. 2010/03/31 - 14:57:02
Eneko Ixakidea Googlek gonbidatuta Zurich-en bisitan
2010/02/20 - 02:31:02
