Kotimaisten kielten keskus eli Kotus on kielen- ja nimistönhuollon sekä sanakirjatyön asiantuntijalaitos sekä merkittävä aineistotalo. Kotuksen arkistot sisältävät sana-aineistoja eri kielistä (suomi, ruotsi, suomen sukukielet) ja kielimuodoista (nykysuomi, vanha kirjasuomi, murteet, slangi, ammattisanastot ym.). Tässä kirjoituksessa keskitytään nykysuomen sana-aineistoihin.

Sanastuksen alkuvaiheet

Sanastuksesta alettiin puhua yleisesti suomen kielen tutkimuksen yhteydessä viimeistään 1920-luvulla. Sanojen ja paikannimien laajamittainen keruu alkoi kuitenkin jo aiemmin E. N. Setälän aloitteesta.

Kustaa Vilkuna on käyttänyt vuonna 1925 sanastaa-verbiä lainausmerkeissä:

Abstraktista, etenkin hengellistä sanastoa kerätessä pitäisin sopivina kielimestareina [eli murrehaastateltavina] n. s. paikallisia kansanpuhujia – –. Ja myös ollessaan mukana syrjäkyläläisten hartauskokouksissa eli ”seuroissa” voi ennen niiden alkua seurata ukkojen kamarikeskusteluja, joissa usein pohditaan sangen filosofisia kysymyksiä. Kerääjän silloin ”sanastaessa” koko seurue toimii kielimestarina. (Virittäjä 1925, s. 80.)

Vuonna 1927 Sanakirjasäätiö alkoi julkaista Sanastaja-lehteä, jossa tiedusteltiin kiinnostuneilta kansalaisilta murresanoja Suomen murteiden sanakirjaa varten. Sen ensimmäisessä numerossa (johon ilmestymisvuodeksi on virheellisesti merkitty 1928) toimittaja Toivo Kaukoranta kirjoittaa:

Eräässä kirjeessä Elias Lönnrotille 80 vuotta sitten suuri suomen kielen sanaseppä W. Kilpinen sanoo:

”Pyydät minua sanastamaan sananlaskujakin, vaan en tohdi ryhtyäkään koko yritykseen, sillä ei vielä ole joutanut saada arvuutuksetkaan sanastetuiksi.” Kilpinen ilmottaa samassa kirjeessä edelleen olevansa halukas sanastelemaan. Lauseyhteydestä selviää, että Kilpinen tekaisemallaan sanalla tarkoitti sanojen poimimista julkaistuista teoksista. Yhtä hyvin tietysti voitaisiin ”sanastamiseksi” nimittää sanojen etsintää myös puhutusta kielestä, sillä sana on muodostettu samoin kuin ”pyydystämistä” merkitsevät teonsanat sellaiset kuin linnustaa, kalastaa, metsästää. (Sanastaja nro 1, 28.3.1927.)

Sanastaa-verbin olisi siis Kaukorannan mukaan keksinyt 1840-luvulla ”sanaseppä” W. Kilpinen (eli Wolmar Schildt), mutta jos Elias Lönnrot on pyytänyt Kilpistä sanastamaan, verbin isä voi olla myös Lönnrot.

Perussanoista uudissanoihin, paperilipuista sähköisiin

Kotuksen nykysuomen sana-arkiston peruskokoelma on peräisin 1880–1950-luvuilla painetuista kirjallisista lähteistä. Se sisältää noin 4,5 miljoonaa arkistolippua eli sanalippua. Koska ”emoarkisto” on koottu Nykysuomen sanakirjan (1951–1961) toimittamista varten, siihen on poimittu tietoja myös kaikkein tavallisimmista perussanoista: esimerkiksi olla-verbistä lukuisine käyttöyhteyksineen on useampia tuhansia sanalippuja.

Nykysuomen sanakirjan valmistuttua arkistoa on täydennetty lähinnä uudissanoilla. Sanaston keruussa oli kuitenkin pitkä tauko: uutta aineistoa alettiin kerätä vasta 1960–70-luvun vaihteessa, kun sanakirjatyölle saatiin taas järjestettyä rahoitus. Uudissanoja poimittiin Nykysuomen sanakirjan seuraajaa eli Suomen kielen perussanakirjaa (1990–1994) varten.

Nykysuomen arkiston lähdeaineisto koostuu pääosin tieto- ja kaunokirjallisuudesta. Nykysuomen sanakirjan toimittajat ja avustajat ovat käyneet 1900-luvun alkupuolella läpi valtavan määrän kirjallisuutta sana-arkistoa luodessaan. Nykyisin 2000-luvulla sanastuksen päälähteinä ovat sanoma- ja aikakauslehdet sekä internet, mutta sanastettavaksi kelpaa mikä tahansa kirjallinen tai suullinen lähde.

Vuosien varrella sanalippuja on laadittu monella tavalla, aluksi käsin tai kirjoituskoneella. Työläintä lipun laatimisessa on käyttökontekstin kirjoittaminen, joten tämä vaihe on aikanaan saatettu ohittaa leikkaamalla konteksti suoraan paperisesta lähteestä ja liimaamalla se sanalippuun. Kirjoitustyötä on nopeutettu myös käyttämällä erilaisia leimoja, jotka ovat kertoneet esimerkiksi lähteestä, käyttöalasta tai lipun kirjoittajasta.

Nykysuomen sana-arkiston sanalippuja olla-verbistä.

Tietokoneiden käyttöönoton myötä sanalipuista on tullut sähköisiä sanatietueita. Ensimmäiset sähköiset liput kirjoitettiin jo 1980-luvun puolivälissä, ja vuonna 2008 paperilippujen tekemisestä luovuttiin kokonaan. Sähköisen sanatietokannan laajuus on tällä hetkellä runsaat 200 000 tietuetta.

Kaikki tyylit ja elämänalat sallittuja

Sanatietokantaan pyritään poimimaan mahdollisimman monen eri alan sanastoa ja erityylisiä ilmauksia. Hakusanana voi yksittäisten sanojen lisäksi olla myös fraaseja ja sanaliittoja. Hyvin tilapäisiltä tuntuvat muodosteet jätetään kuitenkin yleensä pois.

Viime aikoina sanastustyöhön ovat osallistuneet pääasiassa Kielitoimiston sanakirjan toimittajat sekä heidän lisäkseen kielenhuoltajat, korkeakouluharjoittelijat ja satunnaisesti muutkin kotuslaiset.Sanakirjantoimittajat ovat jakaneet sanastusvastuuta eri alojen mukaan (koulutus, maa- ja metsätalous, tietotekniikka, urheilu, jne.).

Tietokoneet ovat tietenkin nopeuttaneet sanalippujen kirjoittamista monella tavalla, mutta suurin muutos koskee lippujen hyödyntämistä: siinä missä paperilipustosta voi hakea tietoa ainoastaan aakkostettujen hakusanojen mukaan, onnistuu sähköistä sanatietokantaa käytettäessä minkä tahansa merkkijonon hakeminen mistä tahansa kohtaa sanalippua. Halutessaan voi myös etsiä lippuja vaikkapa tietyn käyttöalan tai tyylilajin mukaan (esimerkiksi kaikkia urheiluun liittyviä tai arkikielisiksi merkittyjä sanoja) tai kohdentaa hakunsa koskemaan tiettyä aikaväliä, lähdettä tms.

Mihin valpas sanastaja kiinnittää huomiota?

Uudissanat ja ”uusvanhat” sanat

turvapaikkapuhuttelu, naamakirjata, emoji (kuvasymboli), VOK (= vastaanottokeskus),

käestää (= ’puuttua, sekaantua’, vanha sana uudelleen käyttöön)
Sananmuodostustapa

kotikoti (lapsuudenkodista), reiluuttaa (vrt. halpuuttaa), typeristö, maistingit (kontaminaatio sanoista maistaa ja tasting)
Sanojen kuvallinen käyttö ja uudet merkitykset

vaahtopää (oluttuopillisesta), haukka (esim. trendihaukka), maaliruisku (paljon maaleja tekevästä pelaajasta)
Sanaliitot ja idiomit

euronkiilto silmissä, heikko signaali, ottaa koppi jostakin (= tarttua johonkin, ottaa tehtäväkseen tms.), olla täydessä ~ kovassa ~ hyvässä tikissä
Variaatio kirjoitusasussa

internetkamera ~ Internet-kamera, kuolemankielissä (sanakirjassa kuoleman kielissä), tviitata ~ twiitata
Rektiot ym. rakenteelliset seikat

tykätä jotakin (nettikielessä, vrt. peukuttaa), tanssia johonkin musiikkiin (= jonkin musiikin tahtiin), supliikki mies (supliikki adjektiivina)

Mihin sana-arkistoa käytetään?

Nykyisin Kotuksessa sanastetaan ennen muuta Kielitoimiston sanakirjan tarpeisiin. Sanakirjatyö ilman aineistoa tuskin on mahdollista, ja nykykieltä kuvaavaa sanakirjaa varten aineistoa on kartutettava jatkuvasti.

Sanalippuja käytetään kuitenkin ainoastaan osana sanakirjan aineistoa. Sanalippu on tavallaan sanakirjantoimittajan muistilappu, jonka perusteella hän ryhtyy tarkemmin selvittelemään, mistä sanassa oikeastaan on kyse. Sanakirjaselitettä ei koskaan voi kirjoittaa pelkän sanalipun avulla – useimmiten nykysuomen sanalipuissa ei edes ole selitetty hakusanan merkitystä. Sanakirjaan tulevia esimerkkejäkään ei voi ottaa suoraan yksittäisestä sanalipusta, vaan ne tiivistetään ja hiotaan monien käyttöesimerkkien pohjalta.

Sanakirjatyössä sanaliput ovat korvaamattomia, mutta niille on paljon muutakin käyttöä. Myös Kotuksen kielenhuoltajat hyödyntävät nykysuomen sana-aineistoja. Lisäksi sanatietokantaa ovat käyttäneet opinnäytetöiden tekijät kandivaiheen opiskelijoista väitöskirjan laatijoihin. Aineisto sopii myös monenlaiseen opetuskäyttöön. Sanalipputietokanta on populaarin kielitiedon runsaudensarvi ja aarreaitta. Idea ja aineisto moneen tässäkin lehdessä julkaistuun kielijuttuun on saatu sanalippuja selaamalla. Kielitoimiston valitsemat kuukauden sanat ja vuoden sanapoiminnot valikoidaan nekin usein sanalippujen joukosta (löytyvät Kotuksen verkkosivuilta, www.kotus.fi/nyt/kuukauden_sana(avautuu uuteen ikkunaan, siirryt toiseen palveluun)).

Mitä seuraavaksi?

On selvää, että sana-aineistoja on kartutettava tulevaisuudessakin. Niukkenevien resurssien aikana aineistonkeruusta pitäisi kuitenkin suoriutua aiempaa joutuisammin. Muodoltaan uusien sanojen (puoli)automaattinen seulonta sähköisistä aineistoista olisi ehkä mahdollista, jos käytössä olisi ohjelma, joka kävisi läpi valikoituja nettisivustoja – esimerkiksi sanomalehtien tietokantoja – ja vertaisi niiden sanastoa sanakirjan ja sanatietokannan hakusanoihin. Sanastajalle jäisi suodattajan rooli. Vanhojen sanojen uusia merkityksiä on hankalampi jäljittää. Siihen tarvittaisiin ohjelmaa, joka havaitsisi jonkin sanan käyttäytyvän uudella tavalla tai esiintyvän toistuvasti uudenlaisessa ympäristössä.

Keruun ohella sanatietokannan käyttöä on haluttu tehostaa. On myös pohdittu, miten suuri yleisö voisi osallistua sana-aineistojen kartuttamiseen. Systemaattista tapaa tähän ei vielä ole olemassa, mutta jo nyt kenen tahansa on mahdollista ehdottaa uudissanaa lisättäväksi sanatietokantaan Kielitoimiston verkkosivujen Ilmianna sana! -lomakkeen kautta. Ajoittain on keskusteltu siitäkin, että joitakin osia tietokannasta avattaisiin Kotuksen verkkosivuilla, jolloin kuka vain voisi tehdä hakuja aineistosta. Tähän liittyy kuitenkin monia ongelmia. Lipusto on sisällöltään hyvin heterogeeninen, ja sen hyödyntäminen vaatii perehtyneisyyttä – aineistohan on tarkoitettu ennen muuta sanakirja- ynnä muuhun kielityöhön. Lisäksi on tärkeää ymmärtää aineiston kuvaileva luonne; kyseessä ei ole mikään Kielitoimiston ”virallisten sanojen” kokoelma.