AI-verktyget blev snabbt bra på svenska

2023-05-10

Porträtt Joakim Nivre utanför Engelska parken.

De senaste två åren har Joakim Nivre varit med och utvecklat språkmodeller baserade på svenska texter. Foto: Daniel Olsson

AI-verktyget Chat-GPT har slagit världen med häpnad med sin goda språkanvändning. Men hur kommer det sig att språkmodellen är så bra på svenska? Vi frågade Joakim Nivre, professor i datorlingvistik. De senaste två åren har han varit med och utvecklat språkmodeller baserade på svenska texter.

Idén om att bygga språkmodeller har funnits länge, åtminstone sedan 1950-talet, berättar Joakim Nivre. Claude Shannon, som kallas informationsteorins fader, kom på att man kunde mäta informationsmängden i språk genom att gissa nästa ord i en text. Ju svårare det var att gissa nästa ord, desto mer information fanns det i texten.

Genom att låta en datormodell försöka gissa nästa ord och ge en feedback-signal på hur bra den är, kan modellen tränas upp. Om den är tillräckligt bra på att gissa nästa ord har den också lärt sig något om språket.

– Sedan 1950-talet har man kunnat skala upp det här och göra det otroligt mycket kraftfullare. De statistiska sannolikhetsmodellerna har miljarder olika parametrar. Dessutom kan de tränas på otroligt många typer av texter som kanske består av triljoner ord.

Kunskap om språket och världen

Träningen tar flera månader och resulterar i att modellen lagrar en massa kunskap om språket men också om världen och vad som är rimligt att prata om.

När man interagerar med en modell som Chat GPT, ställer man en fråga och matar in en så kallad prompt, det vill säga en bit text. Sedan ger den en sannolik fortsättning som svar på frågan.

– Den låter alltid väldigt övertygande och väldigt flytande, men det finns ingen som helst garanti för att svaret är korrekt, därför att allting bygger på sannolikheter, säger Joakim Nivre.

Allting beror på hur mycket datamodellen har tränats på, ju mer data desto mer kunskap om språket och om ämnesområdet.

Chat-GPT är överlägsen

Hösten 2022 släpptes Chat-GPT, en språkmodell utvecklad av företaget Open AI, som hade en överraskande god språkförmåga. Då hade Joakim Nivre tillsammans med forskare på AI Sweden och RISE redan börjat bygga upp svenska språkmodeller.

– Inom projektet har vi tränat flera modeller av olika storlekar, varav den största har 40 miljarder parametrar. Det är ungefär en fjärdedel av vad GPT-3 (föregångaren till Chat-GTP) har och ungefär en tiondel av de största modellerna. Det här är en av de största modellerna som finns för ett annat språk än engelska och kinesiska.

Men det kan inte hjälpas, Chat-GPT och dess efterföljare GPT 4 är överlägsna. Inte bara på engelska utan även i sin användning av svenska, framför allt när det gäller förmågan att ge relevanta svar på frågor.

Behov av svenska språkmodeller

Det är idag en öppen fråga hur den svenska språkmodellen kommer att fortsätta utvecklas inom projektet, som drivs av AI Sweden. Parallellt pågår ett projekt finansierat av Vinnova där olika organisationer ska vara med och utforska tekniken. Till exempel vill Västra Götalandsregionen och region Halland undersöka möjligheterna att använda språkmodeller inom sjukvården.

– En del av de här sakerna kan faktiskt Chat-GPT göra mycket bättre, vilket är lite demotiverande. Samtidigt finns det ibland skäl att inte använda Chat-GPT. Till exempel när man hanterar känsliga data och persondata som man varken vill eller rent lagligt får skicka över internet till Chat-GPT.

Till exempel får sjukhus inte dela den typen av data utan skulle behöva en egen språkmodell som kan köras i ett mer slutet system. Problemet är att modellerna kräver väldigt mycket datorkraft när de används.

– Det är kanske så att Sveriges kommuner och regioner borde ha en central it-infrastruktur för att kunna använda inte bara språkmodeller utan också annan AI, som till exempel används inom vården för att tolka röntgenbilder.

Utveckla en europeisk språkmodell

Ett annat skäl att bygga upp mindre, lokala språkmodeller är att slippa bli beroende av stora amerikanska företag. Även kinesiska företag satsar på att utveckla AI och insynen på området blir allt mindre.

– Europa är lite på efterkälken, både kommersiellt och forskningsmässigt. Vill man verkligen göra något storskaligt är den svenska kontexten lite för liten, men man kan tänka sig är att göra en europeisk språkmodell.

Världskarta bestående av olika små pratbubblor i olika färger.

Det finns 7 000 språk i världen och de flesta av dem är inte ens i närheten av att ta del av den här teknologin, säger Joakim Nivre. Foto: Getty Images

EU har länge haft en policy om att stödja alla officiella språk i Europa och på AI-området finns det mycket att göra framöver, enligt Joakim Nivre.

– Det finns 7 000 språk i världen och de flesta av dem är inte ens i närheten av att ta del av den här teknologin.

Svenska ett av de stora språken

Däremot är Chat-GPT bra på svenska, vilket beror på att det finns mycket data att träna på.

– Vi säger ofta att svenska är ett litet språk men av dessa 7 000 språk tillhör svenska topp 100 i antal talare. Pratar vi sedan digitala resurser och närvaro på internet så är placeringen mycket högre än så. Vi har till exempel världens fjärde största Wikipedia.

Framöver ser Joakim Nivre ett stort behov av forskning kring hur AI-tekniken kan anpassas till att hantera även mindre språk. Till exempel minoritetsspråken i Sverige, som samiska och meänkieli.

– Där kan vi inte bara kopiera de modeller som redan finns för det kommer aldrig att finnas så mycket data. Vi måste hitta smartare metoder som kan nå samma nivå eller åtminstone en liknande nivå på ett mer effektivt sätt med mindre data.

Annica Hulth