LAWPOL-hankkeen eduskuntatutkimuksen keskuksen tutkimuspaperi hyväksyttiin toukokuussa Torinossa pidettävään LREC Computational Linguistics -konferenssiin.
Tunteet ja niiden ilmaiseminen ovat kiinnostaneet politiikan tutkijoita jo pitkään, ja politiikan medioitumisen aikakaudella ne tarjoavat ehtymättömän tutkimusaiheiden lähteen; politiikan tekeminen on harvoin tunneneutraalia. Laskennallisten yhteiskuntatieteiden hyvinkin suurten aineistojen etäluentaan perustuvat menetelmät pyrkivät havaitsemaan aineistossa piileviä rakenteita ja elementtejä. Näin ollen analyysille avautuu tätä kautta uusia mahdollisuuksia havaita tunnepuhetta tekstirakenteen tasolla ja tutkia sen muutosta hyvinkin pitkien aikajänteiden puitteissa. Yksi LAWPOL-tutkimusinfrastruktuurin tulevaisuudessa tarjoamista työkaluista mahdollistaa piilevien elementtien – kuten tunteiden – havaitsemisen politiikka- ja lakiaineistoista tekoälypohjaisen luokittelijan avulla, ja tämän työkalun kehitys on ollut keväällä erityisesti eduskuntatutkimuksen keskuksen tiimin tehtävälistalla.
Tekoälypohjaisen työkalun hyödyntämiseen liittyy kuitenkin haasteita, joista yksi keskeisimmistä on annotoidun, eli tekoälyn opetusta varten luokitellun koulutusaineiston määrä. Kyseistä työkalua kehitetään opettamalla työkalun perustana olevaa algoritmia tunnistamaan erilaisia tunnetiloja. Opetusaineistona käytetään suuria määriä ihmisten annotoimia virkkeitä. Vaikka tarvittavan koulutusaineiston määrä on lopulta empiirinen kysymys, sen voidaan kuitenkin todeta olevan huomattava. Tarvittavan datamäärän annotointi on erittäin työlästä, aikaa vievää sekä kallista. Tämä sai meidät pohtimaan sitä, voisimmeko hyödyntää voimakkaasti kehittyvää generatiivista tekoälyä annotoinnin tukena, säilyttäen samalla korkean laadun.
Otto Tarkka, Jaakko Koljonen, Markus Korhonen, Juuso Laine, Kristian Martiskainen, sekä Kimmo Elo ja Veronika Laippala pureutuvat näihin ongelmiin tutkimuspaperissaan Automated Emotion Annotation of Finnish Parliamentary Speeches Using GPT-4. Maaliskuun lopulla saimme tiedon, että paperimme on hyväksytty Torinossa järjestettävään LREC-konferenssin ParlaClarin workshopiin, jossa pohditaan parlamenttiaineistojen digitaalista hyödyntämistä. Tämä osoittaa samalla, että tunneanalyysiin ja digitaaliseen parlamenttitutkimukseen liittyvät kysymykset eivät ole vain LAWPOL-hankkeen yksinäinen osaprojekti, vaan kyseessä on myös kansainvälisesti huomioitu, ja yhä ajankohtaisempi tutkimussuuntaus.
Tutkimuspaperissa hyödynnämme GPT-kielimalliperheen uusinta versiota, GPT-4:ää, jonka avulla annotoimme valiokuntien mietintöjä koskevista täysistuntokeskusteluista koostuvan harjoitusdatan. Käytännössä tämä tarkoittaa valiokunnassa pidettyjen puheenvuorojen tunneluokittelua virketasolla, jonka jälkeen koulutimme tämän harjoitusdatan avulla ns. BERT-mallin (Bidirectional Encoder Representations from Transformers) varsinaista tunneluokittelua suorittavaa työkalua varten.
Tekoälyn keskeisin ominaisuus on sen jatkuvasti lisääntyvä kyky jäljitellä ihmisten kognitiivisia taitoja. Työkalun kehittämisen osalta olimme erityisen kiinnostuneita siitä, pystyykö GPT-4 tunnistamaan eduskunta-aineistossa esiintyviä tunteita yhtä hyvin kuin ihminen. Toisin sanoen, onko tekoälyn avulla tuotettu koulutusdata tarpeeksi laadukasta verrattuna ihmisten annotoimaan dataan?
Testataksemme, miten hyvin tekoäly soveltuu tähän tehtävään, koostimme ensin testiaineiston perinteisesti käsin koodaamalla. Tätä testiaineistoa vasten saatoimme verrata tekoälyn tuloksia. Toinen tärkeä vaihe tekoälyn käytössä on nk. prompt engineering eli kehotesuunnittelu. Kehotesuunnittelulla tarkoitetaan tekoälylle annettavan tehtävänannon sanamuotojen, järjestyksen ja asettelun muokkaamista sellaiseksi, että tulokset ovat haluttuja. Yrityksen ja erehdyksen kautta muodostuneessa lopullisessa kehotteessa annoimme tekoälylle tehtävänannon, jonka jälkeen esittelimme tunneluokat ja annoimme muutaman esimerkkivirkkeen. Lopuksi annoimme tekoälylle luokiteltavan virkkeen. Kehotesuunnittelu on uusi ja mielenkiintoinen tutkimussuuntaus, joka kehittyy nopeasti ja uusia kehotetrategioita tullaan varmasti lähivuosina löytämään lisää tekoälyn yhä kehittyessä ja yleistyessä.
Tämän jälkeen vertasimme koulutettujen annotoijien luokittelemia virkkeitä GPT-4:n vastaaviin luokitteluihin, ja tulokset olivat lupaavia: GPT-4 onnistui tunnistamaan parlamenttipuheenvuoroista välittyviä tunnetiloja yhtä hyvin kuin ihmisannotoijat. Tämä kertoo, että annotointitehtävissä toistaiseksi alikäytetyt suuret kielimallit, kuten GPT-4, sisältävät merkittävän potentiaalin laskennallisten yhteiskuntatieteiden saralla.
Eduskuntatutkimuksen keskuksen kehittämä digitaalinen työkalu laajentaa näkökulmaa tapoihin, joilla kieltä käytetään politiikassa. Tutkimuspaperimme keskeinen havainto – tekoälyn kyky tunnistaa parlamenttipuheen ilmentämiä tunteita – luo vahvan empiirisen pohjan työkalun jatkokehitykselle. Toukokuiseen LREC-konferenssiin osallistuminen tarjoaa tilaisuuden esitellä paperin tuloksia, viestiä LAWPOL-hankkeesta kotimaisen tutkimusyhteisön ulkopuolelle, sekä tutustua myös muihin alalla tehtyihin edistysaskeliin.
Teksti: Juuso Laine ja Markus Korhonen