Det finns inget som heter ’att ha tillräckligt med data’. Det säger jag inte enbart för att min bakgrund inom partikelfysik på Cern har gjort mig partisk, utan för att jag vid flera tillfällen har sett hur värdefulla data kan vara och hur de kan hjälpa företag att handskas med utmaningar genom att bidra med oväntade perspektiv.
Det välkända Strawberry Pop-Tarts och Walmart-caset är ett bra exempel på hur dataanalys har genererat tydlig affärsnytta. Genom så kallad ’data mining’, datautvinning och analys av ostrukturerade data, insåg Walmart att försäljningen av Strawberry Pop-Tarts ökade med sju gånger dess vanliga volym inför den stundande orkanen Charley år 2004. Från den dagen står Strawberry Pop-Tarts framme vid kassorna så fort en orkan är på ingång.
Läs också: Så förändras världen – och ditt jobb – av artificiell intelligens
Information är företagens mest värdefulla tillgång i dag. Oavsett om du väljer att kalla det för big data eller smarta data, så kan alla enas om att dataanalys är vägen framåt. Verktygen för att analysera data finns tillgängliga för alla till ett rimligt pris, men det som verkligen gör skillnad är när informationen vi har används för att svara på rätt typ av frågor.
Det senaste året har jag gjort om datainfrastrukturen på Detectify och fått datamängderna att växa från ett motsvarande kommunbibliotek till dubbla storleken av USA:s kongressbibliotek. Det här är mina fyra största lärdomar under resans gång.
1. Sikta högt från början
Du måste blicka framåt. Att enbart ta frågorna du ställer dig nu i beaktning kommer inte att ta dig långt. Om du saknar en långsiktig plan för datainsamlingen kommer du i ett senare skede att behöva designa om delar, eller i värsta fall hela, datastrukturen. Förutsättningarna kommer att ändras, vilket betyder att skalbarhet och återanvändning av data måste vara i fokus från början. Ha en näst intill girig inställning till data – du kan aldrig ha för mycket av dem! Att lagra data som inte behövs i dagsläget kan måhända sakta ner processen här och nu, men i ett långsiktigt perspektiv kommer det att möjliggöra hanteringen av mer komplexa problem.
2. Var inte rädd att bygga från scratch
Det finns en uppsjö av verktyg som kan hjälpa dig att arbeta med data. Ofta kräver de dock att du exporterar data till en annan plattform, vilket kan utgöra en risk om du har känsliga data. Eller så passar inte de standardiserade lösningarna för just dina datakällor och format. Därför kan det ibland vara en bra idé att bygga hela datastrukturen från scratch – och på så sätt kunna skräddarsy den till era specifika behov, miljöer, datakällor och format. Jag menar inte att du behöver uppfinna hjulet på nytt, utan min poäng hänger ihop med punkten ovan. Hur kan du långsiktigt säkerställa att du får maximal användning av de data du samlar in?
Många initiativ som börjar som interna egenkomponerade verktyg har dessutom utvecklats till att bli världsomspännande big data-plattformar. The Pig framework utvecklat av Yahoo Research, Hive plattformen utvecklad av Facebook och MapReduce av Google är några kända exempel.
3. Så bemöter du de interna kraven
Det råder ingen tvekan om att data kan bidra med värdefulla insikter som kan leda till stora konkurrensfördelar. Förväntningarna internt är ofta skyhöga och om du mot förmodan inte lyckas infria dem är risken stor att någon av följande saker inträffar:
* Din chef inser att du inte har magiska krafter.
* Du inser att du har misslyckats med att kommunicera dina genombrott på rätt sätt.
Det första scenariot är av naturliga skäl ganska svårt att lösa, men den råda tråden för de två punkterna är faktiskt din presentationsteknik.
Beslutsprocesser som tidigare grundades på hierarki, magkänsla och teorier fattas nu med hjälp av datainsikter. Dessutom har big data-hajpen lett till att många som inte har expertkunskaper i ämnet tror att alla problem kan bli lösas med hjälp av kvantitativa metoder. Det leder till väldigt höga förväntningar på dataanalys. Jag är ledsen att behöva säga det, men data science kan inte likställas med magi – vissa frågor går inte att besvara.
Läs också: Digitala trender - tre snabba spaningar från Webbdagarna Stockholm
Lösningen är att använda ett språk som alla i företaget förstår. Sätt upp tydliga mål, involvera många i organisationen och var transparent med resultaten. På det sättet undviker du att ingjuta falska förhoppningar hos dina kollegor och kan vara ärlig med vilken typ av frågor de kan få svar på med hjälp av data.
4. Släpp data fri!
Att analysera stora datamängder är en resurskrävande uppgift som samtidigt är otroligt givande. Tänk vilka verktyg, tekniker och kunskaper som har skapats med de insikter man har fått. Det vore ett stort misstag att låta nya kunskaper förseglas som företagshemligheter.
Om någon kan fortsätta bygga på det du har tagit fram och addera ytterligare värde kommer det att gynna alla inblandade.
OD500- och OD4D-nätverken är bara två av många exempel på globala initiativ som arbetar för att lyfta fram de positiva effekterna som öppna data kan ha på samhället. Ha i åtanke att du kan vara en ovärderlig källa till information och att tillgängliggörande av information i regel alltid hjälper mer än stjälper.
Gästbloggaren Andrea Palaia har en Ph.D. inom acceleratorfysik från Cern, världens största laboratorium inom partikelfysik. Han reste runt mellan Cern, Uppsala Universitet och Berlin i flera år innan han slutligen axlade rollen som data scientist på it-säkerhetsbolaget Detectify i Stockholm.