Koneäänet olivat ennen hyvin robottimaisia. Puhe muodostettiin lyhyitä äänteitä yhdistelemällä, jonka takia sanat, lauseet ja puheen tauotukset kuulostivat epäluonnollisilta. Nykyaikaiset koneäänet taas perustuvat koneoppimismenetelmään, neuroverkkoihin, jotka opetetaan koulutusvaiheessa puhumaan ihmisen tavoin. Tämän ansiosta nykypäivän koneäänet kuulostavat hyvinkin ihmismäisiltä.
Koneäänet koulutetaan studiossa nauhoitetun puheen ja sitä sanatarkasti vastaavien tekstinpätkien avulla, miljoonien laskutoimitusten kautta. Neuroverkkopohjaiset koneäänet oppivat siis jäljittelemään ihmismäistä puhetta kuulemansa perusteella, jolloin myös puheen tauotuksista ja painotuksista tulee luonnollisen kuuloisia. Tämänkaltaiset koneäänet ovat kehittyneet varsinkin suomen kielessä vasta viime vuosina.
Koneäänten käyttömahdollisuudet
Modernien koneäänten käyttömahdollisuudet ovat laajat. Yleisimpinä esimerkkeinä voidaan listata verkkosivulukijat, äänikirjat, audioartikkelit, koulutusmateriaalit, uutissovellukset, puhekäyttöliittymät, kuulutukset, kauppojen ja terminaalien itsepalveluautomaatit, autoissa hyödynnettävät koneäänet, pelit sekä virtuaaliavustajat, kuten Siri ja Alexa. Faktapainotteisissa sisällöissä koneäänet toimivat loistavasti selkeän lausumisensa ansiosta. Koneääniä hyödynnetäänkin jo yleisesti oppimateriaaleissa.
Koneäänet voidaan yhdistää muihin tekoälypohjaisiin työkaluihin ja luoda esimerkiksi automaattisesti radio-ohjelmaa RadioGPT:n tavoin. Tai tuottaa Ellipsis Podcastsin tapaan valmiita podcasteja automaattisesti. Molemmissa esimerkeissä GPT-teknologia kirjoittaa valmiit käsikirjoitukset ja koneääni hoitaa lukemisen. Sisällöntuotantoa voidaan siis automatisoida.
Apple Books -sovellus on ensimmäisenä suurena toimijana maailmassa ottanut koneäänet käyttöön kaunokirjallisten äänikirjojen lukijoiksi, ja vastaavanlaisia avauksia on tiedossa tulevaisuudessa muiltakin toimijoilta. Kaunokirjallisissa teksteissä koneäänet eivät silti vielä yllä ihmisen kaltaiselle eläytymisen tasolle. Haasteena näissä on erityisesti tekstisisällön tunnetilojen automaattinen tunnistaminen ja tämän tiedon välittäminen koneäänelle. Itse tunnetiloja ja muita vivahteita on jo kehitetty: jotkut koneäänet osaavat nauraa tai kuiskata ja esimerkiksi luennan äänenvoimakkuutta on helppo muuttaa. Toistaiseksi nämä hienosäädöt eivät kuitenkaan toteudu automaattisesti.
Koska modernit koneäänet perustuvat koneoppimiseen, periaatteessa kenen tahansa äänestä voidaan kouluttaa koneääni. Hyvän koneäänen tekemiseen tarvitaan yleensä muutamia tunteja studiolaatusta puheääntä. Hurjimmillaan, esimerkiksi OpenAI:n kehittämässä VALL-E-tekoälymallissa, oman koneäänen tekemiseen tarvitaan vain kolme sekuntia puheääntä. Tämä on ikävä kyllä aiheuttanut myös väärinkäytöksiä, kuten syväväärennösten tekemisen ja toisena henkilönä esiintymisen.
Koneäänet ja saavutettavuus
Näkövammaisille, lukivaikeuksista kärsiville tai heikon kielitaidon omaaville ääneen luetut sisällöt ovat olennainen apu ja joissain tapauksissa elinehto sisällön kuluttamiselle. Digitaalisessa muodossa olevaa tekstiä on niin paljon – ja määrä vain kasvaa, ettei sen ääneen lukeminen ihmisvoimin ole millään tavoin mahdollista. Koneäänten etuina ovatkin niiden väsymättömyys ihmislukijoihin verrattuna ja sisällön audioittamisen nopeus; tekstisisällöt saadaan muutettua kuunneltavaan muotoon koneäänellä merkittävästi nopeammin kuin studiossa nauhoittavan ihmislukijan lukemana. Mitä suurempi osa esimerkiksi verkkosivusisällöistä voidaan tarjota myös kuunneltavassa muodossa, sen paremmin sisällöt palvelevat mahdollisimman laajaa asiakaskuntaa.
Verkkosivuille asennettava lukija pystyy muuttamaan ruudulla olevan tekstin puheeksi. Käyttäjä pystyy lukijan avulla kuuntelemaan verkkosivun sisältöjä ilman, että tämän tarvitsee ladata tai käyttää ylimääräisiä ohjelmia. Verkkosivulukijan tarkoitus ei kuitenkaan ole korvata ruudunlukuohjelmia, vaan ne toimivat niin ikään laaja-alaisemmalle yleisölle helppokäyttöisyyttä lisäämään ja tuomaan vaihtoehtoja sisällön kuluttamiseen.
Kotimaiset koneäänet
Koneääni-Ilona sai alkunsa Turun naapurissa, Kaarinassa, vuonna 2017, kun a.i.materin kehittämään dokumentointisovellukseen haluttiin saada hyvä suomenkielinen koneääni. Markkinoilla tuolloin saatavilla olevat koneäänet eivät olleet laadukkaita, joten kehitystyöhön päätettiin lähteä omin voimin. Näin syntyi suomen kieltä luonnollisesti puhuva Ilona. Ilonan jälkeen a.i.mater on kehittänyt myös suomenruotsia lukevan Amanda-koneäänen, sillä suomenruotsille on tarve varsinkin julkisen sektorin verkkosivuilla. Voit tutustua kotimaiseen puheteknologiaan lisää a.i.materin verkkosivuilta.