Kotimaisten kielten keskuksen aineistojen avulla voi tarkastella vaikkapa suomen kirjakielen kehittymistä, nimistön piirteitä tai murteiden ja nykypuhesuomen muutoksia. Aineistoja on myös sukukielistä ja suomenruotsista. Yli sadan vuoden aikana kerätyt kokoelmat kattavat lähes viidensadan vuoden ajanjakson Agricolasta nykyhetkiin. Ne eivät ole pelkästään kieltä, sanoja tai nimiä, vaan myös muistitietoa, ajankuvia ja tarinoita, osa kansallista identiteettiämme. Monipuolisuutensa vuoksi kokoelmat sopivat tutkimuksen, sanakirjojen toimittamisen ja muun tieteellisen työn ohella laajasti myös muihin tarkoituksiin, vaikkapa kotiseututyön ja kuntien nimistönsuunnittelun tueksi.
Aineistot eivät ole pelkästään kieltä, sanoja tai nimiä, vaan myös muistitietoa, ajankuvia ja tarinoita, osa kansallista identiteettiämme.
Arkistolippuja ja muita paperiasiakirjoja on liki 20 miljoonaa sekä ääni- ja videotallenteita noin 24 000 tuntia. Sähköisten aineistojen työn painopiste oli pitkään tekstikorpuksissa, kokoelmien sisältöä kuvaavien metatietojen siirtämisessä tietokantamuotoon ja pienten kokoelmien valikoivassa digitoinnissa. Äänitteiden digitointi aloitettiin 1990-luvun lopussa, koska osa tallenteista oli tuhoutumisvaarassa ja koska asiakkaiden tarpeet alkoivat edellyttää digitaalisia tiedostoja. Tällä vuosikymmenellä on aloitettu paperimuotoisten aineistojen laajamittainen digitalisointi, kun tekniikka on kehittynyt ja kustannukset alentuneet. Karjalan sana-arkiston reilu puoli miljoonaa sanalippua ja Nimiarkisto kokonaisuudessaan (paikannimien lisäksi myös muut nimikokoelmat) yhteensä yli kolme miljoonaa nimilippua, on digitoitu kuvamuotoon. Toivottavasti ajan myötä kaikki keskeiset kokoelmat saadaan sähköiseen muotoon.
Vahvistuvaa yhteistyötä
Helsingin yliopiston johtama kielivarakonsortio Fin-Clarin, jonka toiminnassa Kotuskin on tiiviisti mukana, on ottanut vastuun korpuksista sekä yhteisten toimintamallien ja järjestelmien kehittämisestä. Näin on syntynyt Kielipankki, joka tarjoaa alustat teksti- ja av-korpuksille sekä sanastoille ja joka myös aktiivisesti hankkii uusia aineistoja palvelujensa kautta käytettäviksi.
Kansallisen digitaalisen kirjaston Finna-konsortion kautta saadaan asiakasliittymä aineistojen metatiedoille, ja myös digitaalisen tiedon pitkäaikaissäilyttämiseen on kehitetty kansallinen palvelu. Opetus- ja kulttuuriministeriön hankkeissa on edistetty vahvasti myös avointa tiedettä ja tutkimusta muun muassa niin, että ministeriön ohjauksessa toimiva tieteen tietotekniikan keskus CSC Oy tarjoaa organisaatioille keskitetysti tietovarantojen avaamiseen liittyviä palveluja.
Kielipankin, Kansallisen digitaalisen kirjaston ja CSC:n tarjoamat palvelut ovat muuttaneet tapaa, jolla Kotus tarjoaa sähköisiä aineistojaan käyttöön. Kun Kotus vuonna 2006 avasi Kaino-palvelun avointen aineistojen tarjoamiseksi verkossa, oli lähdettävä liikkeelle omilla ratkaisuilla. Vähitellen aineistoja on voitu siirtää yhteisiin järjestelmiin, joihin on suoraan sijoitettu myös uusissa digitalisointiprojekteissa tuotetut aineistot, joten Kaino on vähitellen korvautunut hajautetulla mallilla.
Kohti avointa tietoa
Kotuksen sähköiset verkkoaineistot ovat olleet aina maksuttomassa käytössä, mutta kymmenen viime vuoden aikana pyrkimys avoimeen dataan on tuonut avoimuuteen uusia ulottuvuuksia. Avoimuuteen ei riitä maksuttomuus, vaan tietojen pitää olla tarjolla myös koneluettavina ja kokonaisuudessaan ladattavina sekä vapaasti hyödynnettävissä eri tarkoituksiin. Käyttöoikeudet määritellään aina lisenssillä.
Kotus julkaisi avoimena datana jo vuonna 2007 Nykysuomen sanalistan, joka perustuu Kielitoimiston sanakirjan hakusanoihin ja taivutustietoihin, mutta laajemmin vapaasti tarjolla olevia aineistoja on lisensoitu ja siirretty koneluettavaan muotoon vasta viime vuosina. Nykyisin Nykysuomen sanalistan lisäksi avoimina aineistoina on tarjolla kielikartastoaineistoja, korpuksia, joitakin paikannimitietoja ja Karjalan kielen sanakirja.
Kielikartastot sähköisiksi
Vuosina 2013 ja 2014 muutettiin yhtenäiseen tietokantamuotoon Itämerensuomalaisen kielikartaston karttojen tiedot, Lauri Kettusen murrekartaston sisältö ja Suomen murteiden sanakirjan levikkikarttojen valmiina ollut osuus. Nämä ovat käytettävissä avoimena datana CSC:n ylläpitämässä AVAA-palvelussa. Itämerensuomalainen kielikartasto ja murresanakirjan levikkikartat kuvaavat erityisesti sanastoilmiöitä, kun taas Kettusen kartasto kuvaa suomen murteiden äänne- ja muoto-opillisia piirteitä. Käyttöliittymässä voi tehdä hakuja ja tarkastella hakutuloksia listana sekä karttanäkymässä. Aineistot voi ladata myös kokonaisuudessaan itselleen, tai niitä voi käyttää rajapinnan kautta.
AVAA-palvelussa ovat tiedostoina ladattavissa avoimena datana myös Svenska Ortnamn i Finland ja Paikannimikartasto. Toistaiseksi näillä on omat Kotuksessa laaditut käyttöliittymät.
Paikannimikokoelmien digitalisointi
Parhaillaan on menossa Nimiarkiston paikannimikokoelmien digitalisointi. Työ on alkanut vuonna 2014, ja tarkoituksena on, että sähköinen arkisto on valmis Suomen itsenäisyyden juhlavuonna 2017. Paikannimien tiedot on kirjattu nimilippuihin (n. 2,7 miljoonaa), ja sanallisten sijaintitietojen lisäksi nimet on paikannettu keruukarttoihin (n. 10 000 kpl) tehdyin merkinnöin. Nimilipuissa on yleiskielistetty nimen hakuasu, nimen murremuoto ja taivutus, sijainti (pitäjä, kylä, talo ja karttasignumi), paikan laji, mahdollisesti selitys sijainnista sekä kaikki haastattelemalla saatu nimeä tai paikkaa valaiseva muistitieto.
Aineisto on digitoitu kuvamuotoon vuoden 2015 aikana, ja se avataan piakkoin tutkijoiden käytettäväksi. Tietokantamuotoon muutetaan paikannimen hakuasu, paikannusviite, keruupitäjä, kerääjä, keruuvuosi sekä paikanlaji, ja sijainti tarkennetaan pistekoordinaattitasolle. Lisäksi niiden nimien osalta, jotka ovat samoja kuin Maanmittauslaitoksen Paikannimirekisterissä, tietokantaan viedään Paikannimirekisterin paikannimi-id.
Nimiarkiston paikannimikokoelma voisi toimia yhdessä Maanmittauslaitoksen tietojen kanssa kansallisen paikkaontologian perustana. Nimiarkiston kokoelmissa on lisäksi vanhoista asiakirjoista poimittua historiallista nimistöä, jonka siirtäminen paikkatietomuotoon on ollut esillä mahdollisena jatkoprojektina.
Nimiarkiston tietokantamuotoinen aineisto avataan avoimena datana. Nimilippujen kuvien käyttöä rajoittavat henkilötiedot. Ne nimiliput, joissa ei ole suojattavia henkilötietoja, voidaan myöhemmässä vaiheessa avata vapaaseen verkkokäyttöön.
Kansalaiset mukaan
Pääosa Nimiarkiston kokoelmista on kerätty useita vuosikymmeniä sitten. Nimetyt ympäristöt ja nimet muuttuvat, syntyy uusia nimiä ja vanhoja jää pois käytöstä. Jos kokoelmia ei kartuteta myös tulevaisuudessa, ne alkavat muuttua historiallisiksi ja menettää vähitellen arvoaan esimerkiksi tutkimuksen sekä nimistönhuollon ja ‑suunnittelun välineenä. Laajamittaiset virkatyönä tehtävät keruut eivät ole mahdollisia eivätkä tarkoituksenmukaisiakaan, sillä tieto- ja viestintätekniikan myötä on syntynyt uusia hyviä keinoja kerätä tietoa osallistamalla tutkijoita, harrastajia, kansalaisia ja muita kohderyhmiä.
Kansalaiset voivat tuottaa tietoa siitä, ovatko arkistoon tallennetut nimet vielä käytössä, onko nimi korvautunut uudella, onko nimettyä paikkaa enää olemassakaan tai mitä kokonaan uutta nimistöä on syntynyt. Samoin voidaan täydentää paikkoihin ja nimiin liittyvää taustatietoa sekä muuntaa kuvamuotoisista lipuista tietokantamuotoon nimiin liittyvää tietoa.
Sähköisessä arkistojärjestelmässä arkiston alkuperäinen asiantuntijatieto ja kansalaisten tuottama tieto täydentävät toisiaan ja voidaan esittää niin, että käyttäjälle on selvää, milloin on kyse asiantuntijatiedosta ja milloin sitä täydentävästä tiedosta, joka voi olla luonteeltaan varioivampaa. Aikanaan suuri osa Kotuksen tieteellisistä kokoelmista on kerätty talkoomenetelmää hyödyntäen. Nyt vanha menetelmä on vain sovitettava digitaaliseen ympäristöön.
Yhteistyöverkoston luomiseksi Kotus ottaa tänä vuonna yhteyttä jokaiseen Suomen kuntaan. Yhteistyöverkostoon liittyvät kunnat ja niissä toimivat yhteisöt voivat olla mukana kehittämässä digitaalista Nimiarkistoa koko Suomea palvelevaksi kokonaisuudeksi. Esimerkiksi kunnan omissa kulttuurihankkeissa voidaan osallistua aineiston jatkokäsittelyyn. Kuntalaisille suunnatuissa piloteissa kehitetään tänä ja ensi vuonna tapoja kerätä uutta paikannimitietoa ja toisaalta rikastaa jo olemassa olevaa aineistoa. Pilottien avulla myös varmistetaan, että sovellukset ja muut ratkaisut ovat eri käyttäjäryhmien tarpeisiin sopivia.
Vuoden 2017 aikana hanke järjestää yhteistyökunnille suunnatun maakuntakierroksen, jonka seminaareissa kerrotaan, miten aineistoa voidaan hyödyntää muun muassa kuntien nimistönsuunnittelussa sekä opetus- ja kulttuurityössä.
Mitä tulevaisuudessa?
Osallistamista ja vuorovaikutusta on ajatuksena hyödyntää Nimiarkiston digitalisointihankkeen lisäksi laajemminkin, jotta Suomen keskeisen kieliperinnön dokumentointi jatkuisi katkeamattomana myös tulevina vuosina. Käsinkirjoitetun tekstin tunnistamistekniikan kehittyminen voi helpottaa merkittävästi arkistolippujen sisältöjen indeksointia ja tekstimuotoon muuttamista. Tavoitteena on myös aineistojen ja sanakirjojen kytkeminen toisiinsa. Tämä mahdollistaisi sanojen historiaa ja nykykäyttöä koskevien tietojen esittämisen kokonaisuutena ja loisi suoran yhteyden sanakirjatiedosta kielitieteellisiin aineistoihin, kuten tekstikorpuksiin ja sanojen karttamuotoisiin levikkitietoihin, jotka kuvaavat sanojen käyttöä eri konteksteissa ja alueilla.
Linkkilistan Kotuksen sähköisistä aineistoista ja verkossa ilmestyvistä sanakirjoista löydät osoitteesta https://www.kotus.fi/aineistot/tietoa_aineistoista/sahkoiset_aineistot_kootusti(avautuu uuteen ikkunaan, siirryt toiseen palveluun).