Pāriet uz galveno navigāciju Pāriet uz meklēšanu Pāriet uz galveno saturu

Lessons learned from creating a balanced corpus from online data

  • Roberts Daragis
  • , Kristīne Levāne-Petrova
  • , Ilmārs Poikāns

Zinātniskās darbības rezultāts: Nodaļa grāmatā/enciklopēdijā/konferences krājumāKonferences zinātniskais rakstsPētniecībakoleģiāli recenzēts

6 Atsauces (Scopus)

Kopsavilkums

This paper describes lessons learned from developing the most recent Balanced Corpus of Modern Latvian (LVK2018) from various online sources. Most of the new corpora are created from data obtained from various text holders, which requires cooperation agreements with each of the text holders. Reaching these cooperation agreements is a difficult and time consuming task and may not be necessary if the resource to be created is not of hundred millions of size. Although there are many different resources available on the Internet today for a particular language, finding viable online resources to create a balanced corpus is still a challenging task. Developing a balanced corpus from various online sources does not require agreements with text holders, but it presents many more technical challenges, including text extraction, cleaning and validation.

OriģinālvalodaAngļu
Rīkotāja publikācijas nosaukumsHuman Language Technologies - The Baltic Perspective - Proceedings of the 9th International Conference Baltic HLT 2020
RedaktoriAndrius Utka, Jurgita Vaicenoniene, Jolanta Kovalevskaite, Danguole Kalinauskaite
Publikācijas vietaAmsterdam
IzdevējsIOS Press
Lapas127-134
Sējums328
ISBN (Drukātā versija)9781643681160
DOIs
Publikācijas statussPublicēts - 15 sept. 2020

Publikāciju sērijas

NosaukumsFrontiers in Artificial Intelligence and Applications
Sējums328
ISSN (Drukātā versija)0922-6389
ISSN (Elektroniskā versija)1879-8314

OECD Zinātnes nozare

  • 1.2 Datorzinātne un informātika

Nospiedums

Uzziniet vairāk par pētniecības tēmām “Lessons learned from creating a balanced corpus from online data”. Kopā tie veido unikālu nospiedumu.

Citēt šo