Sida 1 / 6
Det är den 9 mars 2012, en dag innan den svenska finalen i Melodifestivalen ska avgöras. I medier, på arbetsplatser och ”ute i stugorna” spekuleras det i vem som ska röstas fram till seger och representera Sverige i Europa.

Heta segerkandidaten Danny Saucedo laddar för att ta revansch efter förra årets fall på mållinjen, då han förlorade mot Eric Saade. Nu har han sin stora chans.

Samtidigt sitter ett gäng forskare och entreprenörer på Södermalm i Stockholm och vet precis hur finalen kommer att sluta. De har ingen koppling till tävlingen, men de vet att Danny än en gång kommer att få nöja sig med en andraplats. Och de vet att nykomlingen Loreen med sitt drömska och i dessa sammanhang annorlunda stycke kommer att vinna stort. De vet också att Thorsten Flinck, utskrattad och uträknad, kommer att knipa tredjeplatsen.

Forskarna på företaget Gavagai på det lilla kontoret på Skånegatan rådfrågar sitt analysverktyg Ethersource och förutsäger att röstsiffrorna i finalen blir 30 procent för Loreen, 22 procent för Danny Saucedo och 12 procent för Thorsten Flinck.

Första, andra och tredje plats. På finaldagen får Loreen 33 procent av folkets röster, Danny kniper 22 procent och Thorsten Flinck får ihop 8 procent. Första, andra och tredje plats.

Matematisk modell av minnet
Varför sitter ett gäng meriterade svenska akademiker, de flesta med doktorsexamen och flera vetenskapliga publiceringar bakom sig, och spekulerar i om svenska folket röstar på Danny eller Loreen?

Det är en historia som börjar långt tidigare, under andra halvan av 1980-talet på Nasa Ames Research Centre. Där utvecklade forskaren Pentti Kanerva en minnesmodell kallad ”sparse distributed memory”, en matematisk modell av människans långtidsminne.

Modellen kan användas för att spara och plocka fram väldigt stora datamängder. Efter sin tid på Nasas forskningscenter flyttade Pentti Kanerva till Sverige och ­Swedish Institute of Computer Science, Sics, i Kista.

Där träffade han Jussi Karlgren och Magnus Sahlgren, som båda hade en bakgrund inom lingvistiken. Tillsammans började de prata om att kombinera Pentti Kanervas minnesmodell med språkdata.

– Det visade sig fungera väldigt bra och det var det som jag gjorde mitt ­exjobb om och senare min doktorsavhandling, ­berättar Magnus Sahlgren, grundare av och forskningschef på Gavagai.

Huvudvärk vanligast på nyårsdagen
Det var också den teknik som blev Gavagai. Verktyget Ethersource läser av bloggar, Twitterinlägg, nyhetsartiklar och annat som skrivs på webben och analyserar innehållet i realtid. Genom att ­hitta och beräkna relationer mellan ord och uttryck lär sig systemet att ”förstå” det som skrivs. ­Användaren kan till exempel fråga Ethersource om folk i allmänhet är gladare på helgerna (något de är, enligt Gavagais data) eller när de har mest huvudvärk (nyårsdagen).

Systemet tittar på relationerna mellan olika ord och uttryck för att på så sätt lära sig vad de betyder. Det är en matematisk modell av hur människor lär sig språk.

– Språk är relationer mellan element i språket. Till exempel ord, ord hör ihop på olika sätt. Och när man lär sig språk lär man sig att de här elementen hänger ihop på olika sätt. Du lär dig att röd är en färg, ungefär samma sak som blå ­eller svart. Och så lär du dig att röd kan förekomma ihop med till exempel ”kors” eller ”blod”, förklarar Magnus Sahlgren.

På samma sätt fungerar Gavagais teknik. Genom att analysera ordens ­inbördes relationer, till exempel vilka ord som förekommer tillsammans i olika sammanhang, lär sig systemet att förstå deras innebörd. Ju mera data, desto bättre förståelse.


Sida 1 / 6

Innehållsförteckning