Hizkuntza-teknologiak
IXA taldea
Eneko Ixakidea Googlek gonbidatuta Zurich-en bisitan
2010/02/20 - 02:31:02
Hizkuntza-teknologiaren erabilera medikuntzan.
Sidneyko Unibertsitateko Jon Patrick irakasleak hizkuntza teknologiak osasun arloan nola aplikatzen dituen azalduko digu hitzaldi batean datorren ostiralean. Medikuntzan, batez ere, informazio-bilaketan eta galderei erantzuteko sistema automatikoetan aritzen da. Jon Patrick irakasleak, besteak beste, informatikako bi alor hauek uztartzen ditu: Datu-baseak, eta hizkuntzaren tratamendu automatikoa . Baina informatikatik kanpo ere aritzen da: Azkue hiztegian euskarazko hitzen erroak ikertu zituen orain dela urte batzuk. Euskaraz ere moldatzen da Jon. Non : Informatika Fakultateko 3.17 gelan (3. solairuan) Eguna : 2010-otsaila-12 Ordua : 16:00 Laburpena : NLP systems for use in medical applications bring new problems notconsidered by classical methods. Broadly speaking medical texts have three genres: published papers, clinical reports, clinical notes. Information Extraction (IE) and Questions Answering (AQ) are the most common needs for NLP by clinical staf. Published papers are amenable to classical methods apart from needing coverage for many specialised terms. Clinical reports bring new problems due to the use of a specialised clinical terms, highly stylised content for scores, weights and measures and to a lesser degree a specialised grammatical structure. Clinical notes have these problems but many more, such as acronyms, neologisms, personal abbreviations, a high level of spelling errors due to mistyping and second language speakers, poor grammatical structure, multiple authors of the one document. It is important to overcome these limitations in the text as they represent a large proportion of the content, up to 30%, and to reach the ultimate processing objective of achieving very high accuracy, say 95+% for information extraction, given that people's lives depend on decisions made at the bedside using our tools. We have designed a software architecture to tackle these problems whereby incrementally new knowledge discovered about the text is immediately fedback into the knowledge resources of the language processing system, so that it is continually improved at each phase of the processing. 2010/02/09 - 17:31:01
Matxin itzultzaileak beste bi urrats egin ditu
Eleka enpresak Matxin programa itzultzailean bi hobekuntza egin ditu IXA taldea eta Elhuyar Fundazioaren laguntzarekin. Alde batetik, gaztelaniatik euskararako itzultzailea hobetu da. Hau da, aste honetan aurkeztutakoa 2006an aurkeztu zen prototipoaren bertsio berritua da, eta itzulpenen kalitatean nabarmen hobetu da. Itzulpena ez da perfektua, jakina, emaitza ezin da argitaratu bere horretan, baina ulergarri izatera ailegatzen ari da esaldi askotan. Perfektua ez, inola ere ez, baina ulergarria ahal da honako hau? "Euskara gehiengo sindikala osatzen duten sindikatuek Martxelo Otamendirekin haren elkartasuna erakusten dute, Xabier Oleaga, Iñaki Uria, Txema Auzmendi eta Joan Mari Torrealdai, espainiar Espainiako Auzitegi nazionalagatik epaituak. Iraganaren saioaren atzean, epaiketa urtarrilean berriro hartuko da." Hauxe zen jatorrizko testua gaurko egunkari batean: Los sindicatos que conforman la mayoría sindical vasca muestran su solidaridad con Martxelo Otamendi, Xabier Oleaga, Iñaki Uria, Txema Auzmendi y Joan Mari Torrealdai, juzgados por la Audiencia Nacional española. Tras la sesión de ayer, el juicio se retomará en enero. Beste alde batetik, euskaratik gaztelaniarako Matxin itzultzailearen lehen prototipoa sortu da. Bi itzultzaileak www.opentrad.com web-orrian erabil daitezke doan. Gainera, Matxin itzultzailea Opentrad kode irekiko sistemaren barruan dago, eta horixe da gaztelania-euskara sistemaren balio erantsi garrantzitsuena. Hona hemen hobekuntzaren adibide batzuk: Erdaraz: La ordenanza municipal de viviendas tasadas fue aprobada. Itzulpen zaharra: udal-ordenantza etxebizitza tasatu onartu zuten . Itzulpena orain: Etxebizitza tasatuen udal-ordenantza onartu zuten. Erdaraz: La asociación pelotazale busca un patrocinador para financiar sus actos. Itzulpen zaharra: elkarteak bilaketa pelotazaletzen du babesle bat haren ekitaldiak finantzatzeko. Itzulpena orain: Elkarte pelotazaleak babesle bat bilatzen du haren ekitaldiak finantzatzeko. Erdaraz: Las fuertes rachas derribaron algunos árboles sobre varias carreteras. Itzulpen zaharra: bolada gogorrek zuhaitz lurrera bota zuten zenbait errepideren gainetik. Itzulpena orain: Bolada gogorrek zuhaitzen batzuk lurrera bota zuten zenbait errepideren gainetik. 2009/12/18 - 20:52:01
CLA'09 workshopeko sari bi Anhitz prototipoari!
2009/10/26 - 18:27:02
Saroi: Errore sintaktikoak detektatzeko sistema
Maite Oronoz Antxardoki doktorea da lehengo urtarriletik. Bere doktore-tesian hainbat errore sintaktiko detektatzeko sistemak garatu ditu. Horien artean komunztadura-erroreak detektatzeko Saroi sistema. Saroi tresna orokorra da, erroreen tratamendua egiteko ez ezik, analisi-zuhaitzetako egituren gaineko kontsultak egiteko eta zuhaitz horietan egitura linguistikoak bilatzeko balio duena. Ikus dezakezu berria Sustatu -n, Basque Research -en, Erabili -n, EITB -n, Herri Irratia -n, Gaur8-n edo EHU -n. Entzun dezakezu ere Euskadi Irratiko Norteko Ferrokarrila -n egin diote 20 minutuko elkarrizketa atsegina. 2009/09/21 - 16:57:02
SEPLN kongresua eta hiru workshop Donostian
2009/09/05 - 09:50:02
KYOTO proiektu europarra: Wiki aurreratuen bila
2009/06/17 - 09:55:05
Hitzaldia: Analizatzaile automatikoa espainiera eta ingelesezko testuetarako
2009/06/04 - 14:36:00
Zergatik da ulergaitza Itzulpen Automatiko Estatistikoa? Ikuspegi historiko bat.
"Why is Statistical Machine Translation so hard to understand? A Historical Perspective" "Zergatik da ulergaitza Itzulpen Automatiko Estatistikoa?" HIZLARIA : Andy Way . EGUNA : ekainak 12 (11:30-13:00) LABURPENA 2009/06/04 - 14:36:00
Google-en hizketa-ezagutza eta itzulpen automatikoa (bideo bat)
Google-k apostu garbia egiten du hizkuntza-teknologia erabiltzearen alde. Bideo interesante honetan azkenaldian plazaratu dituen bi zerbitzuen berri ematen dute. Bideoan elkarrizketa bat azaltzen da Googleko ikerlari ospetsu pare batekin: M. Cohen eta F. Och . Google411 telefono mugikorretarako zerbitzua da, Google Maps kontsultatzeko da eta hizketa bidez erabil daiteke, ingelesez. Hau da AEBko telefonoa: 1-800-466-4411 edo 1-800-Goog411 Ikusi demo bat bideo horren 18:30 minututik aurrera. Google Translate zerbitzuak itzulpen-zerbitzua ematen du. Beste hizkuntza batean testu bat edo webgune bat ulertzeko tresna oso lagungarria da. Eta itzulpen bat egin behar baduzu, espainieratik ingelesera adibidez, abiapuntu "onargarria" emango dizu, posteditatu egin beharko duzu, baina zerotik abiatuz baino errazago egingo zaizu, baietz! Cross Language Search ere egiten du Goggle-k. Interneteko bilaketa itzuliak dira horiek. Adibidez, esan bilatzeko "curación de verrugas" espainieraz eta bilatzeko ingelesez. Esango dizu "Healing of warts" bilatuko duela. Erakutsiko dizkizu hitz horiekin aurkitu dituen ingelesezko orriak, eta alboan erakutsiko dizkizu orri horiexek baina espainieraz. Saiatu bilatzen "Casas rurales en Lapurdi" ere, espainiera eta frantzesa jarrita. Itzulpen mota bi horien adibideak bideoko 2:50 minutuan aurkituko dituzu. Oinarri teknologikoaz ere hitz egiten dute. bi zutabe nagusi dira hor:corpus handiak eta estatistika. Azken urteetan ingeleserako 3 biloi hitz bildu dituztela! (ingelesez 3 triloi esaten dute baina). Azken urteetako konputazio-ahalmena asko handitu denez, datu andana horiek gorde eta prosesatzea posiblea dela. Etorkizunerako ikerketa-lerroak aipatzen dituzte bukaeran: kalitate handiago lortze aldera corpus handiagoak, konputazio-baliabide gehiago eta hitzetan ezaugarri linguistikoak markatzea beharko direla diote. Ondorioz zer? Ba... hizkuntzaren teknologiaren aplikazioak gero eta lagungarriagoak direla. Bukatzeko, ikusiko zenuten euskara ez dela inondik agertzen. Google-entzat oraindik ez gara interesgarriak Oraindik badugu zeregina bertakoek ;-) 2009/02/05 - 18:56:05
