Svenska AI-modeller: Språkmodeller på svenska

5 minuter läsning
Robot som analyserar och bearbetar text med artificiell intelligens

De bästa svenska språkmodellerna idag inkluderar KB-BERT för textanalys, GPT-SW3 för generella tillämpningar och Llama 3-8B Instruct för dialog och instruktioner. Genom att använda modeller tränade på specifikt svensk data får du betydligt bättre resultat än med generella flerspråkiga modeller.

I denna artikel går jag igenom de främsta AI-modellerna som finns tillgängliga för svenska språket. Du lär dig vilka som passar bäst för olika användningsområden – från medicinska texter med SweDeClin-BERT till juridiska frågor med Tyr.

Varför svenska språkmodeller?

Språkmodeller tränade på svenska data presterar betydligt bättre än generella flerspråkiga modeller för svenska texter. Varje språk har unika grammatiska strukturer, ordföljd och idiomatiska uttryck som kräver specialiserad träning.

För svenska finns det två huvudtyper av modeller: encoder-modeller som BERT (bäst för textförståelse, klassificering och analys) och generativa modeller som GPT (bäst för textgenerering och dialog). Läs mer om grunderna i AI och maskininlärning om du vill förstå hur dessa modeller fungerar.

BERT och dess svenska varianter

Om vi börjar titta på BERT, eller Bidirectional Encoder Representations from Transformers, så är det en AI-modell som har revolutionerat språkförståelse inom maskininlärning.

Genom att använda Transformer-arkitekturen kan BERT bearbeta text i båda riktningarna samtidigt, vilket gör att den har en djupare förståelse av språkets sammanhang och nyanser.

Denna förmåga gör BERT effektiv för många olika uppgifter som Named Entity Recognition (NER), sentimentanalys och textklassificering.

Nedan går vi igenom 4 modeller som kan användas med svensk textdata:

  • KB-BERT: KB-BERT är en svensk språkmodell som har tränats på texter från olika källor som böcker, nyheter, forum och Wikipedia. Modellen har tränats på totalt 3 497 miljoner ord (18,3 GB), och huvuddelen av texten kommer från digitaliserade tidningar.
  • Multilingual-BERT: Multilingual-BERT är en allmän modell som har tränats på texter från Wikipedia på 104 olika språk. Modellen fungerar särskilt bra på språk som är typologiskt lika och har förmågan att hantera olika skript utan lexikal överlappning. M-BERT har uppvisat goda resultat för flera språk, inklusive svenskan.
  • AF-AI: AF-AIs SweBERT är en svensk BERT-modell utvecklad av Arbetsförmedlingen. Den har tränats på svenska Wikipedia med cirka 2 miljoner artiklar och 300 miljoner ord.
  • SweDeClin-BERT: SweDeClin-BERT är en annan svensk BERT-modell som har utvecklats med fokus på den kliniska och medicinska domänen. Den har tränats på över 2 miljoner elektroniska patientjournaler, vilket gör den kraftfull för att hantera medicinsk text.

Efter att ha testat dessa olika modeller kan jag konstatera att KB-BERT är särskilt effektiv när det gäller att hantera ett brett spektrum av svenska texter.

Om du arbetar med kliniska data är SweDeClin-BERT det bästa alternativet. Under mitt masterarbete, där vi fokuserade på att arbeta med klinisk data, fann vi exempelvis att SweDeClin-BERT presterade bäst för Named Entity Recognition.

GPT och dess svenska varianter

GPT, eller Generative Pre-trained Transformer, är en AI-modell som är känd för sin förmåga att generera sammanhängande och meningsfulla texter.

Till skillnad från BERT, som är en encoder-modell, är GPT en decoder-modell som genererar sekvenser ord för ord från vänster till höger. GPT har blivit särskilt populär för sina imponerande resultat inom textgenerering, översättning och genom verktyg såsom ChatGPT.

Nedan går vi igenom svenska GPT-modeller och relaterade generativa modeller:

  • GPT-SW3: En av de mest notabla modellerna som är specifikt tränad på svensk data är GPT-SW3. GPT-SW3 är en stor språkmodell utvecklad av AI Sweden. Modellen är tränad på en omfattande dataset med 320 miljarder tokens på svenska, norska, danska, isländska, engelska samt programmeringskod.
  • Llama 3-8B Instruct: En av de senaste och mest spännande tillskotten från AI Sweden är Llama 3-8B Instruct. Modellen baseras på Metas Llama 3 men är tränad på Nordic Pile-datasetet för att förbättra prestandan på nordiska språk. Till skillnad från tidigare modeller kan den både följa instruktioner och föra dialog på svenska. Modellen tränas på LUMI-superdatorn i Finland och rankar högt på ScandEval tillsammans med ChatGPT-4. Det finns flera versioner tillgängliga på HuggingFace.
  • Översättningsmodell: AI Sweden har också utvecklat en översättningsmodell baserad på GPT-SW3 specifikt för svenska-engelska översättningar. Den är särskilt användbar när du behöver översätta stora mängder text.
  • Flerspråkiga GPT-modeller: Förutom svenska modeller finns det också flera flerspråkiga modeller såsom GPT-3 och GPT-4 som har visat mycket goda resultat för svenskt språk. Även om de inte är enbart tränade på svenska, har deras enorma datamängd och kapacitet gjort dem kapabla att hantera svenska texter effektivt.

Efter att själv ha testat flera olika GPT-modeller har jag sett att både GPT-SW3 och Llama 3-8B Instruct visar stor potential när det gäller att arbeta med svensk text. Det är också roligt att det finns svenskbaserade modeller som presterar på den nivån, särskilt med tanke på Llama 3-8B Instructs höga placering på ScandEval.

Dock, när det kommer till ren textgenerering och förståelse är det fortfarande svårt att slå de mer avancerade GPT-modellerna som GPT-4. För dig som söker svenska alternativ till ChatGPT och andra generativa AI-verktyg finns även tjänster som berget.ai, en europeisk plattform med fokus på AI-suveränitet.

Andra AI-Modeller och deras svenska varianter

Förutom BERT och GPT finns det också andra AI-modeller som har gjort avtryck inom naturlig språkbehandling. Några exempel på dessa modeller inkluderar RoBERTa, Sentence-BERT och BART.

RoBERTa för Svenska

RoBERTa är en variation av BERT som fokuserar på att optimera modellens träning genom att bland annat eliminera vissa begränsningar i BERT:s originalarkitektur.

AI Swedens version av RoBERTa för svenska har enligt ScandEval (maj 2024) toppplacering bland encoder-modeller för nordiska språk. Med sina 335 miljoner parametrar är den särskilt bra för uppgifter som sentimentanalys, Named Entity Recognition och semantisk sökning.

Sentence-BERT och BART

Sentence-BERT är en variant av BERT som är optimerad för "sentence embeddings" (meningsinbäddningar). Detta gör modellen mer lämpad för vissa uppgifter som att mäta likheten mellan olika meningar.

BART, å andra sidan, är en sekvens-till-sekvens modell som kan användas för både textgenerering och textförståelse. Faktum är att BART använder sig av en hybridarkitektur som kombinerar styrkan hos BERT och GPT.

Inom den svenska kontexten finns det också varianter av dessa modeller som är anpassade för det svenska språket. Till exempel 'roberta-swedish', som är en anpassning av RoBERTa. 'Sentence-bert-swedish-cased' är en variant av Sentence-BERT optimerad för svenska. Slutligen har vi 'bart-base-swedish-cased', en variant av BART anpassad för svenska.

Tyr - Juridisk Språkmodell

En särskilt intressant specialiserad modell är Tyr (uppkallad efter den nordiska guden för rättvisa), Sveriges första juridiska språkmodell. Tyr är resultatet av model merging mellan Swedish Mistral och den engelska juridiska modellen Saul.

Modellen kan besvara grundläggande juridiska frågor på svenska och representerar ett viktigt steg mot domänspecifika AI-verktyg. Detta är precis den typ av specialiserade modeller jag efterfrågade i början av denna artikel - nu börjar de bli verklighet.