Pāriet uz galveno navigāciju Pāriet uz meklēšanu Pāriet uz galveno saturu

Using sub-word n-gram models for dealing with OOV in large vocabulary speech recognition for Latvian

  • Tilde Company

Zinātniskās darbības rezultāts: Nodaļa grāmatā/enciklopēdijā/konferences krājumāKonferences zinātniskais rakstsPētniecībakoleģiāli recenzēts

6 Atsauces (Scopus)

Kopsavilkums

In the Latvian language, one word can have tens or even hundreds of surface forms. This is a serious problem for large vocabulary speech recognition. Inclusion of every form in vocabulary will make it intractable, but, on the other hand, even with a vocabulary of 400K, the out-ofvocabulary (OOV) rate will be very high. In this paper, the authors investigate the possibility of using sub-word vocabularies where words are split into frequent and common parts. The results of our experiment show that this allows to significantly reduce the OOV rate.

OriģinālvalodaAngļu
Rīkotāja publikācijas nosaukumsProceedings of the 20th Nordic Conference of Computational Linguistics, NODALIDA 2015
IzdevējsAssociation for Computational Linguistics (ACL)
Lapas281-285
Lapu skaits5
ISBN (Elektroniski)9789175190983
ISBN (Drukātā versija)9789175190983
Publikācijas statussPublicēts - 2015
Ārēji publicēts
Pasākums20th Nordic Conference of Computational Linguistics, NODALIDA 2015 - Vilnius, Lietuva
Ilgums: 11 maijs 201513 maijs 2015

Publikāciju sērijas

NosaukumsProceedings of the 20th Nordic Conference of Computational Linguistics, NODALIDA 2015

Konference

Konference20th Nordic Conference of Computational Linguistics, NODALIDA 2015
Valsts/TeritorijaLietuva
PilsētaVilnius
Periods11/05/1513/05/15

OECD Zinātnes nozare

  • 1.2 Datorzinātne un informātika

Nospiedums

Uzziniet vairāk par pētniecības tēmām “Using sub-word n-gram models for dealing with OOV in large vocabulary speech recognition for Latvian”. Kopā tie veido unikālu nospiedumu.

Citēt šo