TEKOÄLYN TARKKUUS –
HYVÄ VAI HUONO KPI?

Tekoälyn tarkkuus on todella mielenkiintoinen aihe, josta voisi keskustella vaikka koko päivän.

Pelkkä ”tekoälyn tarkkuus” on ehdottomasti liian epätarkka mittari tekoälyn arviointiin. Esimerkiksi meillä FabricAI:lla tarkkaillaan tekoälyn koulutuksessa käytännössä pelkästään nk. validation ja test lossia – eikä lainkaan yleistä tarkkuutta.

Yleinen tarkkuus on voitu määrittää esimerkiksi siten, että “kuinka monta ostolaskua tekoäly ja kirjanpitäjä tiliöivät samalla tavalla”.

Käytännössä “LOSS” kertoo, että miten kaukana tekoälyn ennuste on kirjanpitäjän tiliöinnistä ja käytönnössä huomattavan paljon kiinnostavampi. Siinä on mm. huomioitu jo mallin varmuus ja tarkkuus.

Esimerkkinä tiliöinti, jossa tuote on “ADOBE STOCK, ADOBE.COM, 04.12.2019” ja kirjanpitäjän mielestä tämä tiliöidään “Muut hallintokulut”:

  • yksi tekoäly voisi olla sitä mieltä, että 51 % todennäköisyydellä tämä on “Markkinointikulu” ja 49 % todennäköisyydellä “Muut hallintokulut”
  • toinen tekoäly voisi olla sitä mieltä, että tämä on 100 % todennäköisyydellä “Markkinointikulu” ja 0 % todennäköisyydellä “Muut hallintokulut”

Molemmissa tapauksissa mallin tarkkuus on 0 % – eli malli ja kirjanpitäjä ovat eri mieltä asiasta (tässä ei siis oteta kantaa siihen, että mikä tuo “oikeasti” on).

Kuitenkin yleisen käytettävyyden ja toimivuuden kannalta tekoäly (a) on todennäköisesti parempi, koska epävarmuuden vallitessa sen tulisi näkyä ennusteessa. Hyvin usein kuitenkin mallit ovat tyyppia (b) joka kertoo usein pahasta “overfittingistä”, joka paljastuu tarkkailemalla “Lossia” joka mallissa (a) on yksinkertaistaen 0,51 ja mallissa (b) 1.

Eli näyttämällä varmat varmoina ja epävarmat epävarmoina kirjanpitäjä pystyy luottamaan varmoihin tiliöinteihin ja katsomaan nämä nopeasti ja toisaalta paneutumaan ostolaskujen käsittelyyn joista malli ei tiedä varmasti.

Jos tarkkuutta halutaan käyttää mittarina, on sen rinnalle nostettava ehdottomasti myös tekoälyn varmuus. Eli sinänsä ei ole kiinnostavaa mitata yleistä tarkkuutta vaan tarkkuutta erilaisilla varmuusrajoilla, kuten:

  • tekoälyn varmuudella 95 % oikein on 98 % ostolaskuista
  • tekoälyn varmuudella 90 % oikein on 94 % ostolaskuista
  • tekoälyn varmuudella 80 % oikein on 93 % ostolaskuista

Meidän näkökulmasta siinä on iso ero, että onko tekoäly itsevarma ja väärässä vai epävarma ja väärässä. Eli toisin sanoen meidän mielestä paljon vaarallisempi tekoäly on sellainen, jonka varmuus on aina 100 % huolimatta siitä miten todennäköisesti ennuste on oikein, kuin sellaisen tekoälyn, joka osaa olla epävarma ja näyttää sen ennusteessa.

Tiliöintinopeus toimii toimivana mittarina tilanteessa, jossa kirjanpitäjä alkaa luottaa tekoälyyn. Eli varmat ennusteet silmäillään nopeasti läpi ja kaikki huomio ohjataan epävarmoihin ennusteisiin. Jos kirjanpitäjä ei pysty luottamaan tekoälyyn, on kaikki laskut katsottava läpi ja tällöin myös käsittelynopeus tippuu.

Eli meidän mielestä nopeus on osittain todiste mallin luotettavuudesta ja siitä, että me voidaan sanoa hyvällä varmuudella milloin tiedetään ja milloin ei tiedetä.

Hyviä artikkeleita aiheesta:
Loss: https://en.wikipedia.org/wiki/Loss_functions_for_classification
Overfitting: https://en.wikipedia.org/wiki/Overfitting