Pāriet uz galveno navigāciju Pāriet uz meklēšanu Pāriet uz galveno saturu

Multilingual clustering of streaming news

  • Priberam Labs
  • University of Edinburgh
  • Innovation Labs LETA

Zinātniskās darbības rezultāts: Nodaļa grāmatā/enciklopēdijā/konferences krājumāKonferences zinātniskais rakstsPētniecībakoleģiāli recenzēts

33 Atsauces (Scopus)

Kopsavilkums

Clustering news across languages enables efficient media monitoring by aggregating articles from multilingual sources into coherent stories. Doing so in an online setting allows scalable processing of massive news streams. To this end, we describe a novel method for clustering an incoming stream of multilingual documents into monolingual and crosslingual story clusters. Unlike typical clustering approaches that consider a small and known number of labels, we tackle the problem of discovering an ever growing number of cluster labels in an online fashion, using real news datasets in multiple languages. Our method is simple to implement, computationally efficient and produces state-of-the-art results on datasets in German, English and Spanish.

OriģinālvalodaAngļu
Rīkotāja publikācijas nosaukumsProceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018
RedaktoriEllen Riloff, David Chiang, Julia Hockenmaier, Jun'ichi Tsujii
Publikācijas vietaStroudsburg
IzdevējsAssociation for Computational Linguistics
Lapas4535-4544
ISBN (Drukātā versija)9781948087841
Publikācijas statussPublicēts - 2018

Publikāciju sērijas

NosaukumsProceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018

OECD Zinātnes nozare

  • 1.2 Datorzinātne un informātika

Nospiedums

Uzziniet vairāk par pētniecības tēmām “Multilingual clustering of streaming news”. Kopā tie veido unikālu nospiedumu.

Citēt šo