Pāriet uz galveno navigāciju Pāriet uz meklēšanu Pāriet uz galveno saturu

MultiLeg: Dataset for Text Sanitisation in Less-resourced Languages

  • Rinalds Vı̄ksna
  • , Inguna Skadin
  • , Roberts Rozis

Zinātniskās darbības rezultāts: Nodaļa grāmatā/enciklopēdijā/konferences krājumāKonferences zinātniskais rakstsPētniecībakoleģiāli recenzēts

1 Atsauce (Scopus)

Kopsavilkums

Text sanitization is the task of detecting and removing personal information from the text. While it has been well-studied in monolingual settings, today, there is also a need for multilingual text sanitization. In this paper, we introduce MultiLeg: a parallel, multilingual named entity (NE) dataset consisting of documents from the Court of Justice of the European Union annotated with semantic categories suitable for text sanitization. The dataset is available in 8 languages, and it contains 3082 parallel text segments for each language. We also show that the pseudonymized dataset remains useful for downstream tasks.

OriģinālvalodaAngļu
Rīkotāja publikācijas nosaukums2024 Joint International Conference on Computational Linguistics Language Resources and Evaluation Lrec Coling 2024 Main Conference Proceedings
RedaktoriNicoletta Calzolari, Min-Yen Kan, Veronique Hoste, Alessandro Lenci, Sakriani Sakti, Nianwen Xue
Lapas11776-11782
Lapu skaits7
ISBN (Elektroniski)9782493814104
Publikācijas statussPublicēts - 2024

Publikāciju sērijas

Nosaukums2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, LREC-COLING 2024 - Main Conference Proceedings

OECD Zinātnes nozare

  • 1.2 Datorzinātne un informātika

Nospiedums

Uzziniet vairāk par pētniecības tēmām “MultiLeg: Dataset for Text Sanitisation in Less-resourced Languages”. Kopā tie veido unikālu nospiedumu.

Citēt šo