Valodas tekstu korpuss pēc savas būtības ir iespaidīga datubāze ar dažādiem tekstiem. Piedevām, valodas tekstu korpuss parasti tiek sastādīts vai nu kādam konkrētam mērķim, vai kādam konkrētam laika periodam. Jebkurā gadījumā, runa ir par vienas valodas dažādu tekstu sacepumu, no kura ar pavisam vienkāršām metodēm var izvilkt sauso atlikumu par, piemēram, visbiežāk lietotajiem vārdiem. LU Matemātikas un informātikas institūts pie šāda projekta ir strādājis gadiem un šobrīd brīvi pieejams ir līdzsvarots mūsdienu latviešu valodas tekstu korpuss.
Metodika ir lieliska, jo tikai tehniski tas viss ir rakstītais teksts: 55% periodika, 20% daiļliteratūra, 10% zinātniski teksti, 8% normatīvie akti, 5% citi teksti, 2% Saeimas stenogrammas. Tātad uz aptuveni 4,5 miljoniem vārdu, kas datubāzē iekļauti, mēs atradīsim gan to, kā Ingmārs Līdaka «Aizver muti!» izbļāva, gan to, kā Gundega Repše juka prātā «Dienā»:
«Būtu komiski ķecerīgi šai pavasarī apcerēt latviešu literatūras eksistenciāli konceptuālo peripetiju fokusēšanos paraliteratūras metaforikas diskursīvajā orbītā un rast pārliecību par tās evidenci globalizācijas strukturētajos fokusos.» «Domas bez kompozīcijas». Gundega Repše, rakstniece. 2003. gada 29. marts, laikraksts «Diena», rubrika «Kultūra»
LU zinātnieki ir radījuši arī citus latviešu valodas korpusus: Latviešu valodas seno tekstu korpuss, Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss (LiLa). Projekta korpuss.lv mājaslapā ir vēl daudz dažādu interesantu lietu, ko izpētīt, izlasīt un pabrīnīties.
Latviešu valodas vārdnīcas ir nākamais stāsts. Īpaši to digitālās versijas. Un te nu arī palīgā nāk tie paši LU zinātnieki:
— Mūsdienu latviešu valodas vārdnīca (44760 šķirkļi)
— Latviešu literārās valodas vārdnīca (vairāk kā 64200 šķirkļu, pēdējo reizi atjaunota 2011. gada 7. decembrī)
— Mīlenbaha-Endzelīna Latviešu valodas vārdnīca (132718 šķirkļi, nepieciešama reģistrācija)
— Latviešu valodas vēsturiskā vārdnīca (16.—17.gs., pāris simti šķirkļu)
— Latviešu valodas skaidrojošā vārdnīca (229765 šķirkļi)
Kad visas šīs elektroniskās datubāzes ir aptvertas un saprastas, var sākt nodarboties ar dažādām interesantām lietām. LU Mākslīgā intelekta laboratorija ar to nodarbojas eksperimentos, kuru jēga parastam valodas lietotājam bez papildus skaidrojumiem būs maz saprotama. Bet ir arī eksperimenti, kas var būt pat ļoti noderīgi, piemēram, sava krāniņa pagarināšanai zināšanu pārbaudei. Krievu pētnieks Gregorijs Golovins ir uztaisījis krievu valodas vārdu krājuma testu «Тест словарного запаса», kuru var aizpildīt gan krievu valodu labi pārzinošs cilvēks, gan arī iesācējs. Iesaku izlasīt lielisku metodikas aprakstu, pēc kuras viņa tests ir veidots.
Задача данного теста — определить ваш пассивный словарный запас (то есть количество слов, которые вы узнаете при чтении и на слух). Единственный способ сделать это точно — взять словарь потолще (тысяч на сто слов), отметить все слова, которые вы знаете, и посчитать их.
Varbūt kādam uznāk luste, un pēc tādas pat metodikas varētu latviešu valodas testu uzprogrammēt. izejas dati tak ir pieejami un respondenti ātri uzradīsies.