Kun 1980-luvun loppupuolella keräsin väitöskirjaa varten kirjallisuusviitteitä, tiedonhallintamenetelmät olivat vielä melko alkeelliset. Internetiä ei vielä ollut, eikä siten myöskään PubMed-kirjallisuusviitepalvelua. PubMedin edeltäjä, Medline, löytyi kyllä sähköisenä palveluna, mutta lähinnä terveydenhuollon kirjastoista. Hakuja pystyi myös tekemään käsin painetun Index Medicus -indeksin avulla. Kun viitteet oli tunnistettu siitä, käytiin kirjastojen varastoissa kopioimassa artikkeleita lehdistä. Tiedonhaku oli hidasta ja pölyistä.
Tavoitteena oikea tieto yhdellä hakusanalla minuutissa
Sähköisen tiedonhallinnan vallankumous oli kuitenkin alkamaisillaan juuri silloin 1980-luvun lopussa. Henkilökohtaiset tietokoneet yleistyivät, tietokoneiden suorituskyky parani ja Internet näki päivänvalon. Kustannus Oy Duodecim (KOD) oli aloittanut toimintansa 1984 perinteisenä kirjakustantamona, mutta vuonna 1988 ruvettiin myös kehittämään ”Yleislääkärin käsikirja ja tietokanta” (YKT) -nimistä sähköistä julkaisualustaa. Sen kunnianhimoinen tavoite oli ”Oikea tieto yhdellä hakusanalla minuutissa”.
Tämän tavoitteen saavuttamiseksi Yleislääkärin käsikirjan ja tietokannan (YKT) aineistoa alettiin indeksoimaan sisältöä kuvaavilla hakusanoilla. YKT:n haut kohdistuivat sitten ensisijaisesti näihin käsin annettuihin hakusanoihin. Hakusanojen valinnan helpottamiseksi ja standardoimiseksi käynnistyi vuonna 1989 MeSH-nimisen hakusanaston (tesauruksen) kääntäminen suomeksi (FinMeSH).
Yleislääkärin käsikirjan ja tietokannan aineiston kasvaessa korostui tehokkaan tiedonhaun tarpeet entisestään. FinMeSH ei osoittautunutkaan aivan riittäväksi tukemaan YKT:n indeksointia ja hakuja – olihan MeSH suunniteltu erityisesti biolääketieteellisten julkaisujen indeksointia varten. 1990-luvun lopussa ruvettiin tutustumaan toiseen, Unified Medical Language System (UMLS) -nimiseen tiedonhallintahankkeeseen. UMLS-järjestelmään kuului mm. laaja metatesaurus, eli yhdistelmäsanasto, johon koottiin useita muita sanastoja ja harmonisoitiin niiden sisältämien termien merkitystä keskenään käsitteiksi. Tällä tavalla pystyttiin tehokkaasti hyödyntämään jo olemassa olevia sanastoja muodostamatta aivan uusia supersanastoja. UMLS-mallin mukaisesti ryhdyttiin KOD:ssa vuonna 2003 kokoamaan omaan metatesaurukseen (Metathesaurus Rex) FinMesH:in seuraksi muita käytännönläheisempiä lääketieteen sanastoja suomeksi.
Metatesaurus ja Terveysportin käyttöönotto
Rex-tietokantaan liitettiin lopulta yhteensä 17 osasanastoa. Metatesaurusta täydennettiin myös sellaisilla termeillä, jotka puuttuivat kentällä olevista osasanastoista. Metatesauruksen termeihin lisättiin runsaasti synonyymejä ja kuvattiin termien välisiä suhteita, eli relaatioita. Näin metatesauruksen sisältö kasvoi lopulta sisältämään n. 200 000 termiä, joista noin 2/3 olivat synonyymejä. Termien välisiä relaatioita määriteltiin yli 110 000 kappaletta.
Syksyllä vuonna 2000 Terveysportti tuli käyttöön ja syrjäytti nopeasti paikallisesti asennetun YKT:n, ja suurin hyöty metatesauruksen aineistosta onkin tullut juuri Terveysportissa. Terveysportin alkuperäisen sisällön ydin oli YKT-aineisto, mutta uusia tietolähteitä tuli nopeasti lisää. Uudempiakin Terveysportin aineistoja ruvettiin myös indeksoimaan käsin. Kun valitut hakusanat valittiin metatesauruksesta, hakujen osuvuutta voitiin parantaa laajentamalla indeksointia automaattisesti myös annettujen hakusanojen synonyymeillä ja sukulaiskäsitteillä.
Terveysportin kehitys ja tekoälyn tulevaisuus
Nykyään Terveysportissa tehostetaan tiedonhakuja myös muilla keinoilla. Tärkeä lisäys on ollut ennakoiva haku, jossa järjestelmä tarjoaa hakuihin sopivia hakusanoja. Näin hauntekijää ohjataan käyttämään sellaisia hakusanoja, joita järjestelmä tuntee ja joista todennäköisesti tulee parhaat hakuosumat.
Lähitulevaisuudessa sähköisen tiedonhaun työkalupakkiin tulee myös tekoäly. Tekoäly tulee hyödyntämään samoja termiaineistoja, joita tähänkin mennessä on käytetty tiedonhaussa. Niihin tehdyt investoinnit eivät siis ole olleet turhia jatkokehitystäkään ajatellen. Tekoäly tulee jatkossa todennäköisesti vieläkin tehokkaammin pystymään päättelemään, mitä tiedonhakija ajaa takaa tiedonhaussa. Nähtäväksi jää, päästäänkö tekoälyn avulla tavoitteeseen ”Oikea tieto yhdellä hakusanalla alle minuutissa” myös nykypäivän huomattavasti laajemmissa aineistoissa.
Vastaa