Preskoči na vsebino

Slovenian parliamentary corpus (1990-2022) siParl 4.0

Andrej Pančur, Katja Meden, Tomaž Erjavec, Mihael Ojsteršek, Mojca Šorn, Neja Blaj Hribar, 2024

Post-OCR correction training dataset sPeriodika-postOCR

Filip Dobranić, Karin Konda, Bojan Evkoski, Nikola Ljubešić, 2024

Offensive language dataset of French comments FRENK-fr 1.0

Kristina Pahor de Maiti Tekavčič, Nikola Ljubešič, Darja Fišer, 2024

Bulgarian web corpus CLASSLA-web.bg 1.0

Nikola Ljubešić, Peter Rupnik, Taja Kuzman, 2024

Bosnian web corpus CLASSLA-web.bs 1.0.

Nikola Ljubešić, Peter Rupnik, Taja Kuzman , 2024