Latviešu valodas morfēmu un vārddarināšanas modeļu datubāze

Par projektu

“Latviešu valodas morfēmu un vārddarināšanas modeļu datubāze (LVMVMD)” ir Latvijas Zinātnes padomes fundamentālo un lietišķo pētījumu projekts, kas tiek īstenots Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļā

Projekta vadītāja: Dr. philol. Andra Kalnača, LU HZF Latvistikas un baltistikas nodaļas profesore (andra.kalnaca@lu.lv)

Projekta Nr.: lzp-2022/1-0013

Projekta īstenošana: 01.04.2023.–31.03.2026.

Projekta finansējums: 300 000 EUR

Projekta finansētāja: Latvijas Zinātnes padome

Kopsavilkums

Projekta “Latviešu valodas morfēmu un vārddarināšanas modeļu datubāze” mērķis ir izveidot digitālu pamatresursu (datubāzi) ar vispusīgiem strukturētiem datiem par mūsdienu latviešu valodas vārdu sastāvdaļām (saknēm, galotnēm, piedēkļiem, priedēkļiem u.c.) un vārdu darināšanas sistēmas likumībām. Pētījumā risināmo jautājumu loks ir saistīts ar vārda sīkāko daļu – morfēmu –, to funkciju un saistīšanās principu apzināšanu, klasificēšanu un analīzi latviešu valodas sistēmas kontekstā.

Iecerētajai “Latviešu valodas morfēmu un vārddarināšanas modeļu datubāzei” paredzētas divas sadaļas:

1) anotēts latviešu valodas vārdu sastāvdaļu (sakņu, galotņu, piedēkļu u.c.) saraksts;

2) alfabētiski pēc saknēm sakārtotas radniecīgu vārdu grupas, kur katram atvasinātam un/vai saliktam vārdam fiksēta tā sastāvdaļu struktūra. Datubāzes kodols (radniecīgu vārdu grupu saraksts) veidots, balstoties uz “Līdzsvarotajā mūsdienu latviešu valodas tekstu korpusā LVK2018” iekļautajiem vārdiem.

Kā datubāzes pamats izmantotas 165,090 lemmas, kas izgūtas no "Līdzsvarotā mūsdienu latviešu valodas korpusa LVK2018" 2023. gada aprīlī.

Paredzamie projekta rezultāti

1) internetā (repozitorijā) publicēta brīvpieejas datubāze;

2) zinātniski raksti (SCOPUS/WOS), rakstu krājums (SCOPUS).

Projekta īstenošanas gaitā blakus zinātniskām un pētījuma rezultātu publiskošanas aktivitātēm (zinātniskiem semināriem, konferencēm, publikācijām) iecerētas arī trīs publiskas lekcijas par latviešu valodas vārdu sastāvdaļām, to saistīšanās likumībām, vārdu darināšanu, morfēmu un vārddarināšanas modeļu datubāzes veidošanu.

Projekta “Latviešu valodas morfēmu un vārddarināšanas modeļu datubāze” rezultāti būs noderīgi ne tikai dažādu jomu valodniekiem (t. sk. korpusa un datorlingvistikas pētniekiem), bet jo īpaši tulkotājiem, informācijas tehnoloģiju speciālistiem, vārdnīcu sastādītājiem, latviešu valodas skolotājiem un latviešu valodas apguvējiem Latvijā un ārpus tās. Iecerētā datubāze nodrošinās arī respektējamu pamatu turpmākiem datos balstītiem latviešu valodas vārddarināšanas pētījumiem un dažādu valodas apguves un lietojuma mācību līdzekļu un rokasgrāmatu izstrādei, jo šai jomā šobrīd trūkst digitālu valodas resursu. Bez vispusīga vārddarināšanas sistēmas modeļa apzināšanas nav iespējama pilnvērtīga izpratne par pārējām valodas apakšsistēmām (gramatiku, vārdu krājumu, pragmatiku, semantiku) un to lietojumu. Tādējādi kopumā projekts dos vitāli svarīgu ieguldījumu gan latviešu valodas pētniecībā, gan humanitāro zinātņu attīstībā Latvijā.