Mitä tekoäly osaa kertoa verkkouutisten otsikoista? –  FabricAI:n uusi artikkelisarja pureutuu tekoälyn mahdollisuuksiin.

Uusi vuosi ja uudet kujeet, vai miten se meni? Tammikuu on edennyt jo pitkälle ja osa mahdollisista uudenvuodenlupauksista on saatettu jo rikkoa, jos niitä alun perin tehtiinkään. Meillä on kuitenkin mielessämme vielä yksi lupaus, tai tavoite, jonka haluamme jakaa kanssanne.

Tänä vuonna tavoitteenamme on jakaa entistä enemmän tietoa ja ajatuksiamme tekoälystä sekä sen mielenkiintoisista käyttömahdollisuuksista.

FabricAI julkaisee uuden artikkelisarjan, joka käsittelee tekoälyä, sekä sen onnistunutta hyödyntämistä FabricAI -ratkaisujen avulla. Kiinnostavista näkökulmista koottuja artikkeleita tullaan julkaisemaan viikoittain yrityksen verkkosivuilla.

Kuitenkin ennen kuin hypätään syvään päähän, palataan vielä siihen mistä kaikki sai alkunsa – rakkaudesta tekoälyyn ja halusta kehittää onnistuneita ratkaisuja. Tekoäly ja sen hyödyntäminen voivat tuntua monimutkaisilta ja vaikeasti lähestyttäviltä aiheilta, joita vain asiantuntijat ymmärtävät.

Haluamme kuitenkin todistaa, ettei aiheen tarvitse olla monimutkainen, vaan tekoälyllä voidaan tutkia myös arkisiakin asioita. Lähdetään tutustumaan teemaan aiheella, joka on varmasti monelle tuttu – verkkouutisten otsikointityyli.

Artikkelisarjan ensimmäisessä osassa FabricAI:n tekoälyn pääarkkitehti Juhani kertoo, miten hän hyödynsi tekoälyä verkkouutisten otsikoiden tutkimiseen.

Varmasti moni on huomannut, että verkkouutisten otsikot ovat nykypäivänä huomattavan pitkiä. Pitkällä otsikolla pyritään herättämään lukijan kiinnostus ja samalla uutisen ydinasia saattaa jäädä taka-alalle. Kuitenkaan näin ei aina ole ollut.

Tutkin asiaa ensimmäisen kerran jo viisi vuotta sitten keräämällä ampparit.com -sivustolta 200 000 otsikkoa kategorioineen, julkaisuajankohtineen ja klikkauksineen. Analyysin perusteella otsikon pituus korreloi suoraan klikkausmäärään aina 120 merkkiin saakka.

Mitä pidempi otsikko, sitä enemmän klikkauksia.

Halusin kuitenkin tutkia aihetta vielä vähän lisää. Lähdin testimielessä tutkimaan Helsingin Sanomien verkkouutisia tekoälyn avulla ja tein mielenkiintoisia löytöjä otsikoiden ominaisuuksista. Aineistoksi keräsin 1 355 087 Helsingin Sanomien verkkoartikkelia aikaväliltä 1.1.2000-31.5.2020.

Minkälaisia löydöksiä saavutettiin tekoälyn avulla?

Kerätystä aineistosta löysin seuraavia huomioita otsikoiden pituuksista:

  • Otsikot olivat alle viisi sanaa ensimmäiset 12 vuotta aineistosta.
  • Otsikoiden pituus lähti kasvuun vuoden 2012 alusta.
  • Vuodesta 2012 otsikoiden pituus kasvoi noin yhdellä sanalla aina vuoden 2018 heinäkuuhun saakka.

Heinäkuussa 2018 keskimääräinen otsikko oli enimmillään jopa lähes 13 sanaa. Tästä ollaan kuitenkin tultu jo hieman alaspäin ja nykyään keskimääräinen otsikko on hieman yli 11 sanaa.

Otsikon pituus vuosina 2000–2020.

Esimerkkejä otsikoiden pituuksista

Vuodelta 2006:
Suomen Kumitehdas vie kilpailukiellot välimiesoikeuteen (HS.fi 1.2.2006)
Korko nousi Greenspanin viimeisessäkin kokouksessa (HS.fi 1.2.2006)

Vuodelta 2019:
Pokerinaamaisten miesten tanskalaissarjassa pelataan kovaa psykologista peliä (HS.fi 17.11.2019)
Luulen olevani jo kaksikymppisen lapsen isä, voinko nostaa isyyskanteen? (HS.fi 17.11.2019)

Ero otsikoiden pituuksissa ja ennen kaikkea niiden asiasisällöissä on huomattava.

Ennen otsikot olivat tiiviitä ja kertoivat lukijalle olennaisen uutisesta. Nykyään taas otsikoiden pääasiallisena tavoitteena tuntuu olevan lukijan kiinnostuksen sekä mahdollisten tunnereaktioiden herättäminen. Tiiviit otsikot ja kiinnostuksen herättäminen eivät kuitenkaan taida kulkea käsikkäin ja tämän takia otsikoiden pituus on kasvanut merkittävästi.

Myös pronominien määrä oli muuttunut vuosien saatossa:

  • Aineiston otsikoissa esiintyvien pronominien on kasvanut merkittävästi.
  • Otsikot, joissa esiintyy ”kuka” tai ”mikä”, ovat neljä kertaa yleisempiä kuin ennen vuotta 2012.
  • Ennen vuotta 2012 pronomineja oli 0,5 %, nykyään määrä on yli kaksi prosenttia.

Otsikoiden onnistuminen

Kasvaneesta pituudesta huolimatta otsikot eivät kuitenkaan mene kerralla purkkiin, vaan myös verkkouutisten otsikoihin tehdään jonkin verran A/B-testausta. Tutkiakseni kyseistä ilmiötä lisää laitoin snifferin HS.fi verkkosivuille. Snifferi seurasi sivustolle julkaistuja artikkeleita sekä niiden otsikoita 12 tunnin ajan.

Kerätyn datan perusteella totesin seuraavaa:

  • HS.fi verkkosivuille julkaistiin ja päivitettiin yhteensä 59 artikkelia.
  • Yleisin artikkelin päivityksen syy oli selkeästi kirjoitusvirheiden korjaaminen.
  • Lisäksi suuri osa päivityksistä sisälsi virkerakenteen muutoksia, joko ihmisen tai koneen suorittamina.

Onko tarkoituksena ollut saada artikkeli ulos vain mahdollisimman nopeasti ja samalla kieliasun tarkistaminen on jätetty myöhemmäksi? Tähän en löytänyt selkeää vastausta, mutta esitän kuitenkin vielä esimerkin aiheesta:

Kamppailu-lajien korona-ohjeissa on omituisia risti-riitoja: paini kieltää kontaktin kokonaan, nyrkkeilyssä ottelutkin sallitaan (HS.fi 2.6.2020 klo 18:30)
Kamppailulajien koronaohjeissa on suuria eroja: painia ei saa, mutta lyöminen sopii (HS.fi 2.6.2020 klo 19:50)

Suoritetuista virkerakenteen muutoksista on vaikea sanoa, ovatko ne ihmisen vai koneen tekemiä – ihan varmaksi en osaa sanoa kumman käsialasta on kyse. Näillä muutoksilla pyrittiin kuitenkin ensisijaisesti herättämään mielenkiintoa ja luomaan tarve klikata kyseinen verkkouutinen auki.

Norjan hiihtokuningas teki sponsorisopimuksen, jollaisesta suomalaiset voivat vain uneksia (HS.fi klo 3.6.2020 klo 10:45)
Norjan hiihtokuningas teki sopimuksen, jollaisesta suomalaiset voivat vain uneksia: ”Yritykset joutuvat lyömään siellä rahaa tosissaan tiskiin” (HS.fi 3.6.2020 klo 13:37)

Voidaanko tehdystä data-analyysistä löytää syvempää merkitystä?

Edellä esitetyn ja kenties jo yleisesti tiedetyn perusteella rohkenen esittää, että kaikkien, joiden tavoitteena on lisätä katselukertoja, on syytä lisätä otsikon pituutta muutamalla sanalla. Tai… ei ehkä kuitenkaan kaikkien, sillä silloin pitkät otsikot tympisivät meitä lukijoita vielä enemmän, joten pidetään ajatus vain teorian tasolla.

Uskoisin, että yksinkertaisella automatisoidulla ”play-the-winner”-systeemillä voitaisiin helposti lisätä artikkelien näyttökertoja, kun jokaiselle artikkelille kirjoitettaisiin kaksi tai kolme vaihtoehtoista otsikkoa.

Toisaalta voi olla, että Helsingin Sanomat toimiikin jo tämän suuntaisella periaatteella.

Tällaisella menettelyllä voitaisiin saada journalistisen brändin parhaat puolet esiin. Mennään sisältö edellä ilman sen kummempia kikkailuja ja jos se ei kuitenkaan onnistu odotetusti, voidaan ottaa tehokeinot käyttöön.

Optimoinnilla on kuitenkin selkeä eettinen ulottuvuus myös journalismissa

Jos pystyttäisiin luomaan niin kutsuttu Täydellinen Järjestelmä, jolla aina tiedettäisiin mitä ihmiset haluavat lukea, voitaisiin helposti lisätä muun muassa mainosten ja kenties myös tilausten määrää. Vastapuolena tässä on kuitenkin median subjektiivisuus: verkkomedia näyttäisi vain sen mitä haluamme lukea, jättäen osan aiheista ulkopuolelle.

Tällöin media ei välttämättä herättäisi myöskään niin aktiivista keskustelua. Tällaisessa yhtälössä koira helposti purisi omistajaansa, eikä media välttämättä täyttäisi yhteiskunnallista rooliaan.

Miten otsikot ja FabricAI sitten liittyvät toisiinsa?

Eivät välttämättä sen syvällisemmin, mutta oli kyse sitten verkko-otsikoiden analysoinnista tai ostolaskujen käsittelystä, tekoälyn avulla on mahdollista suorittaa molemmat toiminnot huomattavasti tehokkaammin.

Saman tyyppinen verkkouutisten otsikoiden analysointi olisi mahdollista myös ilman tekoälyä, mutta 1 355 087 otsikon kerääminen 20 vuoden aikaväliltä olisi melko aikaa vievää puuhaa tai olisi jopa epärealistista koota yhtä suuri aineisto.

Sama pätee ostolaskujen tiliöintiä.

Ostolaskujen käsittely on yksi taloushallinnon eniten aikaa vievistä tehtävistä. Työ on mahdollista tehdä myös käsin, mutta FabricAI:n avulla sen voi tehdä myös huomattavasti nopeammin.

FabricAI:n avulla laskujen käsittely nopeutuu jopa 95 prosenttia ja kirjanpitäjä voi täten käyttää säästetyn ajan mielekkäämpiin työtehtäviin. Tarkoituksemme onkin vähentää tuottamatonta työtä ja paperien pyörittelyä tekoälyn avulla.

Tekoälyn avulla on mahdollista nopeuttaa käsittelyä, vähentää kustannuksia sekä lisätä työntekijöiden tyytyväisyyttä. Aika houkuttelevaa, eikö?

Head of AI
Juhani Tolvanen

Herättikö artikkeli ajatuksia? Liity mukaan keskusteluun LinkedInissä ja pääset samalla seuraamaan ajankohtaisia uutisiamme.

Modernin tilitoimiston tunnusmerkit täyttää vain harvat tilitoimistot