LahTex: Korpus lahkega branja v slovenščini za poenostavljanje besedil z umetno inteligenco
LahTex
Šifra projekta: V6-2523
Projekt se ukvarja z vprašanjem omejenega dostopa do informacij za skupine z nižjo bralno pismenostjo, kot so osebe s posebnimi potrebami, priseljenci in starejši. Besedila v lahkem branju z jezikovnimi prilagoditvami, ki omogoča boljše razumevanje pisnih vsebin, so pomembna za aktivnejše vključevanje oseb s posebnimi potrebami v družbo, pri priseljencih pa so ena od poti lažje integracije. Ključni izzivi, s katerimi se sooča področje lahkega branja v slovenščini, izvirajo predvsem iz pomanjkanja ustrezne infrastrukture in virov. Trenutno v slovenščini ne obstaja specializiran korpus lahkega branja, kar omejuje možnosti za sistematično raziskovanje ter razvoj učinkovitih orodij in pristopov za poenostavljanje besedil. Dodatno težavo predstavlja raznolikost ciljnih skupin – te se med seboj razlikujejo po potrebah, zmožnostih in pričakovanjih, zato zahtevajo različno stopnjo in vrsto jezikovne prilagoditve. Obenem je v slovenskem prostoru še vedno premalo izkoriščen potencial umetne inteligence kot orodja za podporo vključujočemu komuniciranju. Ključna ovira pri tem je pomanjkanje ustreznih učnih podatkov, na katerih bi lahko temeljil razvoj kakovostnih modelov za generiranje poenostavljenih besedil. Glavni cilj projekta je tako razvoj prvega korpusa lahkega branja v slovenščini, ki bo omogočil empirične raziskave lahkega branja v slovenščini in razvoj orodij umetne inteligence za poenostavljanje besedil. V projektu bo zgrajen korpus, ki bo vključeval avtentična besedila lahkega branja, strojno prevedena besedila ter umetno generirana besedila v lahkem branju. Na podlagi teh podatkov bo razvit sistem za poenostavljanje besedil, temelječ na slovenskem velikem jezikovnem modelu GaMS, za različne ciljne skupine na podlagi različnih podkorpusov lahkega branja. Projekt z razvojem virov in orodij za področje lahkega branja v slovenščini prispeva k digitalni vključenosti in človekovim pravicam, saj omogoča razvoj dostopnih vsebin za ranljive skupine.
Cilji projekta
- Opredeliti konceptualni okvir lahkega branja in preprostega jezika glede na različne ciljne skupine uporabnikov.
- Vzpostaviti prvi specializirani korpus lahkega branja za slovenščino.
- Uporabiti orodja umetne inteligence za generiranje poenostavljenih različic besedil v slovenščini.
- Oblikovati nabor jedrnega besedišča in osnovno slovnico lahkega branja.
- Raziskovalne ugotovitve razširiti v strokovni in širši javnosti.
Projekt je s svojimi cilji neposredno usklajen z več strateškimi dokumenti Evropske unije, ki poudarjajo pomen jezikovne dostopnosti, digitalne vključenosti in človekovih pravic. Strategijo dostopnosti do informacij omenja že Evropska listina za jezike regij in manjšin iz l. 1992, ki spodbuja zaščito jezikovne raznolikosti ter dostopnost informacij v razumljivi obliki, kar vključuje tudi različice znotraj jezika, kot je med drugim tudi lahko branje. V Strategiji o pravicah invalidov za obdobje 2021–2030 Evropska komisija izrecno izpostavlja potrebo po dostopni komunikaciji za vse državljane, razvoju lahko razumljivih vsebin v javnih in zasebnih storitvah, spodbujanju digitalne dostopnosti, tudi s pomočjo orodij umetne inteligence. Akcijski načrt za digitalno izobraževanje, 2021–2027 pa med drugim podpira inovacije v digitalnem učenju in dostopnosti, pri čemer se osredotoča na inovativna učna orodja, med katere sodijo tudi orodja umetne inteligence za jezikovno poenostavljanje.
Raziskovalci:
- Inštitut za novejšo zgodovino:
- Fakulteta za računalništvo in informatiko:
- Marko Robnik Šikonja
- Aleš Žagar
- Tinca Lukan
- Filozofska fakulteta
- Špela Arhar Holdt
- Iztok Kosem
- Simon Krek
Dokumenti:
Rezultati:
- Vrsta projekta:
- Ciljni raziskovalni projekt
- Obdobje trajanja:
- 1. 9. 2025–28. 2. 2027
- Financerji:
- Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije (ARIS)
- Ministrstvo za kulturo RS
- Vodilna organizacija:
- Inštitut za novejšo zgodovino
- Sodelujoče organizacije:
- Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
- Univerza v Ljubljani, Filozofska fakulteta
- Vodje projekta:
- Dr. Vojko Gorjanc
Sodelujoči z INZ
Dr. Vojko Gorjanc
Znanstveni svetnik
Matej Klemen
Filip Dobranić
Asistent