Magnus Sahlgren, VD Hybridity

Den svenska språkmodellens uppgång och fall

Två månader innan Chat GPT-3 lanserades mötte en svensk generativ språkmodell världen. I stället för att få vingar kördes den däremot om av kraftfullare AI-modeller från USA. Nu är beroendet av utländska språkmodeller totalt.

Texten publicerades ursprungligen i Teknisk Prognos av FMV 2025

Den hette Klara, chatboten som var bryggan mellan människan och den första svenska generativa språkmodellen. Namnet var taget från robot­kompisen med artificiell intelligens i Nobelpristagaren Kazuo Ishiguros bok "Klara och solen".

När Klara ställdes ut på Nobelmuseet den 1 oktober 2022 var det få vanliga dödliga som kunde ana kraften i generativa språkmodeller. Klara gav en liten inblick genom svaren den kunde ge på besökarnas frågor. Två månader senare lanserade Open AI Chat GPT-3 för världen. Resten är historia.

När AI Sweden tränade den svenska språkmodellen under 2021 och 2022, tillsammans med Rise och Wasp Wara Media and Language, var de först i Europa med att göra det nationellt. Men vad hände sedan?

– Den dog regeringsdöden, säger Magnus Sahlgren som är forsknings­chef för programmet Natural Language Understanding på AI Sweden.

Han har datorlingvistik i grunden och jobbat med språk och AI i 25 år. När han började var språket en helig gral inom AI och att knäcka koden ansågs omöjligt. Sedan har han fått uppleva problemets lösning, och var den som ledde arbetet med den svenska språkmodellen.

Dess namn är GPT-SW3 och det är en så kallad basmodell. Klara var chatbot-funktionen som kopplades ihop med basmodellen för att människor skulle kunna interagera med den på utställningen.

– GPT-SW3 är ett exempel på en modell som är rätt bra på att generera svensk text, men som är otroligt ointelligent. Den förstår inte instruktioner, säger Magnus Sahlgren.

Han förklarar vidare:

– Det enda man har tränat bas­modellen för är att gissa nästa ord. För att bygga en assistent eller Chat GPT måste man också specialträna den för att förstå instruktioneer.

Låter detta bekant?

Hy5 är ett efterlevnadssystem som automatiserar det manuella arbetet - så att ditt team kan fokusera på vad som faktiskt driver verksamheten.

Boka en demo

Beroende av Kina och USA

Chat GPT-3:s basmodell har samma arkitektur som GPT-SW3, men Open AI hade alltså möjlighet att lägga enorma resurser på att även utveckla en avancerad chat-funktionalitet ovanpå basmodellen.

Magnus Sahlgren är stolt över vad AI Sweden kunde åstadkomma med sina begränsade resurser redan 2022, och tycker det är synd att Sverige sedan tappade ledarpositionen. Han tror att debatten kring upphovsrätts­skyddat material i språkmodellers träningsdata och den otydliga regleringen i frågan gjorde svenska företag rädda att ta GPT-SW3 vidare. Ett av dess dataset kan nämligen ha innehållit sådant material, men det var okänt vid träningstillfället.

– I stället använder vi i Sverige nu modeller som kommer från USA och från Kina som ofta inte är transparenta med vilken träningsdata som har använts.

– Upphovsrätten är ett väldigt polariserat ämne. För Sveriges och EU:s bästa måste vi lösa den här frågan.

Även utan upphovsrätts­problematiken är frågan om någon kommersiell aktör hade vågat satsa på att vidare­utveckla en svensk språkmodell, sett till vilka resurser som krävs för det.

AI Sweden ingår nu i EU-projektet Open Euro LLM för att utveckla en gemensam öppen språkmodell i Europa. Men huvudfrågan kvarstår – vilken aktör har kompetensen och resurserna att långsiktigt underhålla och vidare­utveckla språkmodell i teknikens framkant?

EU-institutionerna är inte kända för den snabbhet och flexibilitet som skulle krävas. Frågan är om någon offentlig institution är det, men offentligt stöd skulle säkert behövas för de mindre språken.

Minskat dubbelarbete

Hy5 hanterar AI-Act, GDPR och NIS2 i ett enda system. Inga parallella processer, inga manuella checklistor.

Kom igång idag

Suveränitet och säkerhet

Vad spelar det då för roll om Sverige och EU har egna språkmodeller eller inte? Magnus Sahlgren har flera svar på den frågan. Det handlar om suveränitet.

– Detta är en teknologi som kommer att finnas i alla samhällskritiska system snart. Och kan vi inte bygga det här själva då kommer vi vara helt beroende av utländska leverantörer. Och som det geopolitiska läget ser ut nu, om vi är helt beroende av utländska leverantörer och någon stänger av det, vad gör vi då?

Det andra svaret handlar om att bygga upp och bibehålla kompetens inom denna viktiga teknikutveckling, också för att bli bättre på säkerhetsfrågorna.

– För att vara bra på AI-säkerhet så behöver man också kunna bygga AI. Det är svårt att se det som ett lager utanpå AI-systemet.

En tredje anledning, och en av huvud­anledningarna till att projektet med GPT-SW3 börjades, är att språket också innehåller kultur och värderingar.

Vad gör det med oss om verktygen vi interagerar med varje dag saknar djup kunskap kring Sveriges språk, kultur och värderingar? Alla de tre sakerna är föränderliga och omdiskuterade, men en särart kan i alla fall framträda i jämförelse med Kina och USA.

AI Sweden hade ett projekt för att tillsammans med experter från humaniora, samhällsvetenskap och civilsamhället bidra med ett tvärsdisciplinärt perspektiv på utvecklingen av basmodeller. Expertsamtalen gav ofta fler frågor än svar, men också en insikt om vikten av att förhålla sig till kultur- och värderingsfrågor i träningsdatan.

– Varför släpper kinesiska aktörer nästan alla modeller helt fritt? Jo, ett svar är ju soft power. Man kommer tycka att Kina är supercoolt. Ett annat svar är att de här modellerna, som också används i samhällskritisk infrastruktur, har en viss typ av språk och har vissa åsikter om saker som kommer att användas där. Så det blir en långsiktig påverkan på hur vi pratar. Det finns redan nu forsknings­artiklar om att vårt sätt att prata har påverkats av Chat GPT.

El och data som styrkekort

Magnus Sahlgren tror inte att Sverige kommer att komma i kapp med att bygga egna språkmodeller. För att ändå bli en viktig spelare på AI-arenan och ha något att sätta emot stora jättars AI-dominans tycker han att Sverige borde satsa på infrastrukturen.

– Varför bygger amerikanska företag datacenter här? Jo, därför att vi har bra el, kyla och mark. Men hur kommer det sig att vi själva inte bygger datacenter och säljer beräkningskapacitet? Då hade vi ju varit en viktig geopolitisk aktör.

– Vi behöver en strategi i Sverige för var i värdekedjan vi vill befinna oss, säger Magnus Sahlgren.

Data är en annan resurs som AI-utvecklingen är beroende av och där Sverige kan göra sig relevant, tror Magnus Sahlgren.

– Vi har ju nationalbibliotek och vi har ju typ sparat all data som funnits i alla tider. Det och energin kan ingen ta ifrån oss, så det borde vi värdera högt.

Samtidigt spår Magnus Sahlgren en utveckling mot mer resurseffektiva AI-modeller.

– Dagens modeller bygger en viss arkitektur av de här neuronnäten som är sju år gammal. Den fungerar oerhört väl, men den är också oerhört resurstung och slösande med resurser. Där kommer det att ske massiv utveckling.

– Det har redan kommit förslag på bättre sådana här system, som en artikel från Kina om spiking neural networks. Och det finns ju någonting som heter neuromorfisk hårdvara som försöker efterlikna hur hjärnan processar information. Skulle man få det att funka krävs det ingen ström alls för att driva såna här grejer. Då skulle du kunna driva ChatGPT på din mobil.

Om agenterna tar över

AI Sweden driver nu projektet Svea tillsammans med ett 50-tal kommuner, regioner och statliga myndigheter för att skapa en prototyp för en säker AI-assistent. Den blir bra, berättar Magnus Sahlgren, men minst lika viktigt är kompetens­höjningen som sker när organisationerna behöver lösa de utmaningar kring datadelning och juridik som idag bromsar arbetet.

I USA har offentliga organisationer kommit längre med att även använda mer autonoma AI-agenter för att effektivisera arbetsflöden. Magnus Sahlgrens anekdot därifrån visar att farten i tillämpningen också fört med sig allvarliga problem.

– Någon har byggt de där grejerna och sedan har de slutat i organisationen. Men de här agenterna ligger kvar i it-systemet och opererar autonomt, helt okontrollerbart. Det kallas skugg-it. En skugginfrastruktur som ingen riktigt har koll på. "Var dök den här upp ifrån plötsligt?"

– Den här utvecklingen händer nu, och ingen har tänkt på hur man ska reglera det i Sverige. Det var någon i USA som sa: "We wish we had more time to think about this, but we don't". Det har redan hänt.

När det går att spara tid genom att enkelt göra agentsystem själv med öppna modeller kommer folk att göra det och ge agenterna rättigheter till olika verktyg i datorn, menar Magnus Sahlgren.

– För att vara autonoma kommer agenterna vilja ha kontroll över datorn. Om du låter den skriva in system­kommandon i datorn, för att starta webbkameran eller vad det nu kan vara, då kan vad som helst hända. Då kan den ju öppna en port i din dator och skicka trafik vart den vill. Där har vi den riktiga cyberapokalypsen om vi inte agerar.

Texten publicerades ursprungligen i Teknisk Prognos av FMV 2025

Hantera efterlevnad med AI

Idag hjälper Hy5 starkt reglerade organisationer med automatiserad efterlevnad.

Läs mer om Hy5