Latviešu valodas tekstu korpuss un mūsdienu latviešu valodas vārdnīca

Valodas tekstu korpuss pēc savas būtības ir iespaidīga datubāze ar dažādiem tekstiem. Piedevām, valodas tekstu korpuss parasti tiek sastādīts vai nu kādam konkrētam mērķim, vai kādam konkrētam laika periodam. Jebkurā gadījumā, runa ir par vienas valodas dažādu tekstu sacepumu, no kura ar pavisam vienkāršām metodēm var izvilkt sauso atlikumu par, piemēram, visbiežāk lietotajiem vārdiem. LU Matemātikas un informātikas institūts pie šāda projekta ir strādājis gadiem un šobrīd brīvi pieejams ir līdzsvarots mūsdienu latviešu valodas tekstu korpuss.

Metodika ir lieliska, jo tikai tehniski tas viss ir rakstītais teksts: 55% periodika, 20% daiļliteratūra, 10% zinātniski teksti, 8% normatīvie akti, 5% citi teksti, 2% Saeimas stenogrammas. Tātad uz aptuveni 4,5 miljoniem vārdu, kas datubāzē iekļauti, mēs atradīsim gan to, kā Ingmārs Līdaka «Aizver muti!» izbļāva, gan to, kā  Gundega Repše juka prātā «Dienā»:

«Būtu komiski ķecerīgi šai pavasarī apcerēt latviešu literatūras eksistenciāli konceptuālo peripetiju fokusēšanos paraliteratūras metaforikas diskursīvajā orbītā un rast pārliecību par tās evidenci globalizācijas strukturētajos fokusos.» «Domas bez kompozīcijas». Gundega Repše, rakstniece. 2003. gada 29. marts, laikraksts «Diena», rubrika «Kultūra»

LU zinātnieki ir radījuši arī citus latviešu valodas korpusus: Latviešu valodas seno tekstu korpuss, Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss (LiLa). Projekta korpuss.lv mājaslapā ir vēl daudz dažādu interesantu lietu, ko izpētīt, izlasīt un pabrīnīties.

Latviešu valodas vārdnīcas ir nākamais stāsts. Īpaši to digitālās versijas. Un te nu arī palīgā nāk tie paši LU zinātnieki:
— Mūsdienu latviešu valodas vārdnīca (44760 šķirkļi)
— Latviešu literārās valodas vārdnīca (vairāk kā 64200 šķirkļu, pēdējo reizi atjaunota 2011. gada 7. decembrī)
— Mīlenbaha-Endzelīna Latviešu valodas vārdnīca (132718 šķirkļi, nepieciešama reģistrācija)
— Latviešu valodas vēsturiskā vārdnīca (16.—17.gs., pāris simti šķirkļu)
Latviešu valodas skaidrojošā vārdnīca (229765 šķirkļi)

Kad visas šīs elektroniskās datubāzes ir aptvertas un saprastas, var sākt nodarboties ar dažādām interesantām lietām. LU Mākslīgā intelekta laboratorija ar to nodarbojas eksperimentos, kuru jēga parastam valodas lietotājam bez papildus skaidrojumiem būs maz saprotama. Bet ir arī eksperimenti, kas var būt pat ļoti noderīgi, piemēram, sava krāniņa pagarināšanai zināšanu pārbaudei. Krievu pētnieks Gregorijs Golovins ir uztaisījis krievu valodas vārdu krājuma testu «Тест словарного запаса», kuru var aizpildīt gan krievu valodu labi pārzinošs cilvēks, gan arī iesācējs. Iesaku izlasīt lielisku metodikas aprakstu, pēc kuras viņa tests ir veidots.

Задача данного теста — определить ваш пассивный словарный запас (то есть количество слов, которые вы узнаете при чтении и на слух). Единственный способ сделать это точно — взять словарь потолще (тысяч на сто слов), отметить все слова, которые вы знаете, и посчитать их.

Varbūt kādam uznāk luste, un pēc tādas pat metodikas varētu latviešu valodas testu uzprogrammēt. izejas dati tak ir pieejami un respondenti ātri uzradīsies.

Valodas pērles — Urlu–latviešu sarunvalodas vārdnīca

Nevarēju šo kaut kur nenoglabāt. Šodien iekrita Skype sarakstē.

Emocijas
nu-joptvaj-bļe — izbrīns
ti-čo-bļe-nah — nekaunība
hujak i jobanaa — spēja rīcība
(smiekliņi) — jautrība, saprasts joks
(smiekliņi)… a čo? — nesaprasts joks
(smiekliņi)… čooooo? — saprasts, aizvainojošs joks
obahujalse — pārsteigums
bļāāāāā — spēcīgs pārsteigums
bļe nu jopt — nepatīkams pārsteigums
ei-ti-bļe — uzmanības pievēršana
nu-bļe kak tuda nah, gdje eto? nu ti poņel! — atvainojiet, kā tikt uz bibliotēku?
bļe nīhuļi ti tut s-etjimi — atvainojiet, es jums uzkāpu uz kājas
čoooo? — atvainojiet, es jūs nesapratu

Uz ielas
ēēēē, mužik, bļe! — Vai varu Jums uzdot jautājumu?
oi-bļe! ņee, pizduj! — atvainojiet, sajaucu Jūs ar kādu citu!
bļe, a tam jestj? — vai tur var nopirkt grādīgo?
da-ņepizdji! — Jūs esat drošs?
vsjo, pizduj! — Liels paldies, uz redzēšanos!

Veikalā
nu-bļe-kto tut tavo eto? — Atvainojiet, kurš ir pēdējais rindā?
ti s-tuta? čo, nu eto, štob ņe tavo nahuj? — Jūs esat vietējais? Kādu dzērienu Jūs man ieteiktu?
ēēē, dai mnje eta tavo von tam, bļe! — Bārmen, lūdzu 2001. gada «Chardonay»!
pizduj nahuj — jā, es pagaidīšu!
jopt, na! — Lūdzu, simtastoņdesmit rubļu! Vēlreiz paldies.
ti ahujela!? eta što?! — Atvainojiet, Jūs man neizdevāt atlikumu!
bivai ti nah!  — Visiem ar labvakaru!

Transportā
a-nu-bļe-vsje-nahuj — Mēģināsim visi tikt iekšā!
mužik, a eto, do tovo, nu, tuda, gdje…? — Atvainojiet, šis mikroautobuss kursē līdz…?
zatknji jebalo, bļe! — Atvainojiet, es Jums uzkāpu uz kājas
na, bļe — Padodiet, lūdzu, naudu biļetei!
idji nahuj, ubral eto, bļe! — Es diemžēl nevaru padot naudu biļetei, man ir aizņemtas rokas!
a nu bļe stoj, nahuj! — lūdzu, apturiet pieturā!
(spēcīgi aizsit mikroautobusa durvis) — Paldies!

Klubā
ei, mužik! uznal, bļe? (smiekliņi) — Man ir ieejas karte.
jebal jobanuta, vot-eto-aaa — Labs klubs!
gljan jopt uuuuuu — Arī meitenes simpātiskas!
huja-vsje! ja-bļe oooooooo! — It īpaši šī!
eta, privet. ti tavo a? — Meitenīt, Jūs dejojat?
ti eto mņe tut ņe eto nahuj! Davai-bļe! — Jā, jā, es Jums prasīju!
a ti što za huj? kto bļa? — Atvainojiet! Es nezināju, ka meitene ir ar Jums!
idji-ka ti nahuj! — Vai Jūs varētu atkārtot?
paidjom-vidjem? — Jums palīdzēt iziet uz ielas?

Policijas iecirknī
zdarova, čuvaki! — Esmu jau bijis šajā policijas iecirknī.
uznal-bļe? — Atļaujiet stādīties priekšā, seržanta kungs!
kak-sam-nahuj? — Kur varētu apsēsties?
ņe bļa, on bļa, ego nahuj — Es neesmu vainīgs notikušajā.
no što, huiņa, dopizdjilsa? — Jūs vēl atbildēsiet par savu rīcību tautas tiesas priekšā nelieti!
Davaj-ievo otpizdjim! — Seržanta kungs, viņu vajag ievietot vieninieku kamerā.
nu ja eto, karoče bivaitje! — Vienmēr esmu priecīgs izpalīdzēt policijai.

Ģimenē
aļo, nahuj! gdje ti suka, bļedj? — Mīļā, esmu mājās!
nu čo jebalo takoje eto, što, ņe rada, bļedj? — Man arī ir prieks Tevi redzēt, mīļā!
žratj, nahuj! — Es nomazgāšu rokas, vai Tu tikmēr man neielietu zupas šķīvi? Paldies jau iepriekš!
što bļa za hujņa? žri sama, suka! — O! Tava fenomenālā zupa, tā man ļoti garšo!
ti eto što vaše bļe tut… nu kogda ja etovo tovo. — Ar ko Tu mājās nodarbojies, mīļā?
zajebis nahuj c-etoj nu vot etoj. — Paldies, zupa bija ļoti garšīga!
pizdjit tebja nada! — Es Tevi ļoti mīlu, saulīt!

Rokdarbi #16. Signāla un trokšņa attiecība (Signal-to-Noise ratio)

Es jau pirms tam esmu rakstījis nedaudz par vienu no dizaina aksiomām — signāla un trokšņa attiecību (Labojam grafikus, Labojam skaidrojošās kartes, Sakārtojam drukas iekārtas shēmu). Lai neviens nekad nekļūdītos, šim ierakstam pēc būtības nav nekāda sakara ar elektronikas teoriju vai līdzīgām fizikas atvasēm. Gribētu koncentrēti vēlreiz atgriezties pie šī jautājuma, lai izskaidrotu to no vairākiem aspektiem.

Piebilde pēc raksta tapšanas: tā kā mana koncentrētā valoda sanāca ne pārāk koncentrēta, tad pilnā versija tomēr ir apgriezta un pieejama lasīšanai tikai atverot visu rakstu. Savādāk baigi daudz jāskrollējās būs, lai citus rakstus ieraudzītu, hi hi.

Continue reading “Rokdarbi #16. Signāla un trokšņa attiecība (Signal-to-Noise ratio)”

Interneta mocīšana nāk līdz ar rudens sākšanos

Sakarā ar «brīnišķīgajiem» laikapstākļiem man ir atceltas vairākas tikšanās un līdz ar to daudz laika pavadu lasot labumus internetā. Te nu būs pēdējie labumiņi: