Tag : store-data

Store data kan gi stor innsikt

Skatteetaten har urealiserte verdier i de store datamengdene den har. Forskning på nye statistiske modeller kan gi økt proveny, høyere treffprosent på kontroller og mer tilpasset kommunikasjon.

Publisert i Skatteetatens analysenytt.

– Potensialet ligger i å utvikle modeller som ser sammenhenger mellom faktorer som Skatteetaten i dag ikke utnytter, forklarer leder for Big Insight professor Arnoldo Frigessi fra Universitetet i Oslo. Big Insight er et Senter for forskningsdrevet innovasjon som Norsk Regnesentral ble vertsinstitusjon for våren 2015. Skatteetaten er partner i senteret sammen med Oslo universitetssykehus, ABB, DNB, DNV-GL, Gjensidige, Norsk Hydro, NAV og Telenor. Universitetet i Bergen og Universitetet i Oslo er akademiske partnere.

Big Insight er et Senter for forskningsdrevet innovasjon som Norsk Regnesentral ble vertsinstitusjon for våren 2015. Skatteetaten er partner i senteret sammen med Oslo universitetssykehus, ABB, DNB, DNV-GL, Gjensidige, Norsk Hydro, NAV og Telenor. Universitetet i Bergen og Universitetet i Oslo er akademiske partnere.

Big Insight er et Senter for forskningsdrevet innovasjon som Norsk Regnesentral ble vertsinstitusjon for våren 2015.

Bedre statistiske modeller
Big Insight skal fylle et kunnskapshull i statistisk metode. Assisterende forskningssjef ved Norsk Regnesentral, Anders Løland, forteller at standardmodellene som brukes i kvantitativ metode bare evner å ta de fruktene som henger lavest. I et komplisert datasett vil tradisjonelle metoder bare se de mest opplagte sammenhengene mellom ulike faktorer. Med Big Insight vil statistikerne gå dypere i datasettet. Ambisjonen er å utvikle modeller som trekker ut informasjon som man i dag ikke kjenner til fordi man ikke har metoder til å se etter den. Standardmodellene klarer ikke å benytte faktorer som hver for seg betyr lite, men som kombinert kan forklare ganske mye. Løland forklarer at utfordringen ligger i det de kaller «svake signaler.»
– Tenk deg et datasett på mange tusen variabler. Du vet at det skjuler seg informasjon om skatteunndragelse, men du vet ikke hva du skal se etter. Da trenger du to ting. Du trenger en automatisert metode for å velge ut hvilke faktorer som er viktigst og å kombinere disse best mulig. Det er det vi kaller maskinlæring eller statistisk modellering, som begge gir oss en algoritme.
Den andre tingen du trenger er å kunne bruke algoritmen til å forutsi en sannsynlighet for unndragelse. La oss si at algoritmen peker ut 300 variabler som relevante. Slik kan vi se at selv om det å være for eksempel fraskilt enslig mann med en lav inntekt i seg selv betyr lite, så kan det bety mye i kombinasjonen med faktorer som at vedkommende bor et bestemt sted og er en del av en viss type nettverk. Tilsammen øker de riktige variablene forklaringsevnen til modellen.

Bedre modell ser mer unndragelse
Løland forklarer videre at en god modell forteller deg hvem som er de sannsynlige ikke etterlever, og hvor mye usikkerhet som ligger i svaret.
– Et annet potensiale finnes i å bruke andre kilder, tilføyer Frigessi. Et trivielt eksempel kan være å koble værdata på eksisterende data. Kanskje fører godt vær til for seninnlevering blant små næringsdrivende. Det vet vi ikke, og det er ikke sikkert det betyr noe. Men det ligger åpenbart et potensiale i å benytte data utenfor Skatteetatens tradisjonelle kildegrunnlag.

Hver skattyter er unik
Fordi alle næringsdrivende, lønnsmottagere og pensjonister er unike med forskjellige informasjonsbehov, ønsker Skatteetaten å gi mer individtilpasset kommunikasjon. Statistiske modeller som lar Skatteetaten bruke all den informasjonen den har om de ulike skattyterne forteller hvem som trenger hva. Noen vil for eksempel trenge informasjon i god tid før en frist, for andre vil en påminnelse i dagene før være mer effektivt. Det samme gjelder valget mellom SMS, e-post eller vanlig brev.
– Utfordringen med å lage individtilpasset kommunikasjon ligner på det å lage en modell for å avsløre skatteunndragelse, sier Frigessi. Det handler om å ta i bruk mer informasjon om skattytere og å estimere sannsynligheten at informasjonen treffer. Vi vil bidra til innovasjon ved å hjelpe Skatteetaten til å bruke mer data enn det den vanligvis gjør.

Et tett samarbeid
Big Insight har en ambisiøs målsetning. For å nå det målet må Skatteetaten og Norsk Regnesentral samarbeide tett om de områdene som er viktigst for etaten. Norsk Regnesentral er gode på å utvikle statistiske modeller, men de er ikke eksperter på skatt. Frigessi understreker at fordi han ikke vet hvilke behov Skatteetaten har, er god dialog med fagpersoner i etaten en forutsetning.
– Vi ønsker å bidra med kunnskap på områder hvor det virkelig brenner for Skatteetaten, sier Frigessi. Norsk Regnesentral har gjennom et tidligere Senter for forskningsdrevet innovasjon hjulpet Statoil til å bore mer treffsikkert etter olje og Gjensidige til å avdekke forsikringssvindlere. Trikset er å tenke på hva modellen skal brukes til når problemstillingene utarbeides. For å utvikle en god statistisk modell som skal implementeres i den daglige driften til Skatteetaten, må vi vite hva behovet er. En modell som forklarer hvorfor noen unndrar skatt vil være noe annerledes enn en som viser hvem som gjør det.