Pāriet uz galveno navigāciju Pāriet uz meklēšanu Pāriet uz galveno saturu

Collecting language resources for the Latvian e-Government machine translation platform

  • Tilde Company

Zinātniskās darbības rezultāts: Nodaļa grāmatā/enciklopēdijā/konferences krājumāKonferences zinātniskais rakstsPētniecībakoleģiāli recenzēts

2 Atsauces (Scopus)

Kopsavilkums

This paper describes corpora collection activity for building large machine translation systems for Latvian e-Government platform. We describe requirements for corpora, selection and assessment of data sources, collection of the public corpora and creation of new corpora from miscellaneous sources. Methodology, tools and assessment methods are also presented along with the results achieved, challenges faced and conclusions made. Several approaches to address the data scarceness are discussed. We summarize the volume of obtained corpora and provide quality metrics of MT systems trained on this data. Resulting MT systems for English-Latvian, Latvian-English and Latvian-Russian are integrated in the Latvian e-service portal and are freely available on website HUGO.LV. This paper can serve as a guidance for similar activities initiated in other countries, particularly in the context of European Language Resource Coordination action.

OriģinālvalodaAngļu
Rīkotāja publikācijas nosaukumsProceedings of the 10th International Conference on Language Resources and Evaluation, LREC 2016
RedaktoriNicoletta Calzolari, Khalid Choukri, Helene Mazo, Asuncion Moreno, Thierry Declerck, Sara Goggi, Marko Grobelnik, Jan Odijk, Stelios Piperidis, Bente Maegaard, Joseph Mariani
IzdevējsEuropean Language Resources Association (ELRA)
Lapas1270-1276
Lapu skaits7
ISBN (Elektroniski)9782951740891
Publikācijas statussPublicēts - 2016
Ārēji publicēts
Pasākums10th International Conference on Language Resources and Evaluation, LREC 2016 - Portoroz, Slovēnija
Ilgums: 23 maijs 201628 maijs 2016

Publikāciju sērijas

NosaukumsProceedings of the 10th International Conference on Language Resources and Evaluation, LREC 2016

Konference

Konference10th International Conference on Language Resources and Evaluation, LREC 2016
Valsts/TeritorijaSlovēnija
PilsētaPortoroz
Periods23/05/1628/05/16

ANO IAM

Šis izpildes rezultāts palīdz sasniegt šādus ANO ilgtspējīgas attīstības mērķus (IAM)

  1. 16. IAM — Miers, Taisnīgums un Spēcīgas Iestādes
    16. IAM — Miers, Taisnīgums un Spēcīgas Iestādes

Nospiedums

Uzziniet vairāk par pētniecības tēmām “Collecting language resources for the Latvian e-Government machine translation platform”. Kopā tie veido unikālu nospiedumu.

Citēt šo