Tag : informasjon

Store data kan gi stor innsikt

Skatteetaten har urealiserte verdier i de store datamengdene den har. Forskning på nye statistiske modeller kan gi økt proveny, høyere treffprosent på kontroller og mer tilpasset kommunikasjon.

Publisert i Skatteetatens analysenytt.

– Potensialet ligger i å utvikle modeller som ser sammenhenger mellom faktorer som Skatteetaten i dag ikke utnytter, forklarer leder for Big Insight professor Arnoldo Frigessi fra Universitetet i Oslo. Big Insight er et Senter for forskningsdrevet innovasjon som Norsk Regnesentral ble vertsinstitusjon for våren 2015. Skatteetaten er partner i senteret sammen med Oslo universitetssykehus, ABB, DNB, DNV-GL, Gjensidige, Norsk Hydro, NAV og Telenor. Universitetet i Bergen og Universitetet i Oslo er akademiske partnere.

Big Insight er et Senter for forskningsdrevet innovasjon som Norsk Regnesentral ble vertsinstitusjon for våren 2015. Skatteetaten er partner i senteret sammen med Oslo universitetssykehus, ABB, DNB, DNV-GL, Gjensidige, Norsk Hydro, NAV og Telenor. Universitetet i Bergen og Universitetet i Oslo er akademiske partnere.

Big Insight er et Senter for forskningsdrevet innovasjon som Norsk Regnesentral ble vertsinstitusjon for våren 2015.

Bedre statistiske modeller
Big Insight skal fylle et kunnskapshull i statistisk metode. Assisterende forskningssjef ved Norsk Regnesentral, Anders Løland, forteller at standardmodellene som brukes i kvantitativ metode bare evner å ta de fruktene som henger lavest. I et komplisert datasett vil tradisjonelle metoder bare se de mest opplagte sammenhengene mellom ulike faktorer. Med Big Insight vil statistikerne gå dypere i datasettet. Ambisjonen er å utvikle modeller som trekker ut informasjon som man i dag ikke kjenner til fordi man ikke har metoder til å se etter den. Standardmodellene klarer ikke å benytte faktorer som hver for seg betyr lite, men som kombinert kan forklare ganske mye. Løland forklarer at utfordringen ligger i det de kaller «svake signaler.»
– Tenk deg et datasett på mange tusen variabler. Du vet at det skjuler seg informasjon om skatteunndragelse, men du vet ikke hva du skal se etter. Da trenger du to ting. Du trenger en automatisert metode for å velge ut hvilke faktorer som er viktigst og å kombinere disse best mulig. Det er det vi kaller maskinlæring eller statistisk modellering, som begge gir oss en algoritme.
Den andre tingen du trenger er å kunne bruke algoritmen til å forutsi en sannsynlighet for unndragelse. La oss si at algoritmen peker ut 300 variabler som relevante. Slik kan vi se at selv om det å være for eksempel fraskilt enslig mann med en lav inntekt i seg selv betyr lite, så kan det bety mye i kombinasjonen med faktorer som at vedkommende bor et bestemt sted og er en del av en viss type nettverk. Tilsammen øker de riktige variablene forklaringsevnen til modellen.

Bedre modell ser mer unndragelse
Løland forklarer videre at en god modell forteller deg hvem som er de sannsynlige ikke etterlever, og hvor mye usikkerhet som ligger i svaret.
– Et annet potensiale finnes i å bruke andre kilder, tilføyer Frigessi. Et trivielt eksempel kan være å koble værdata på eksisterende data. Kanskje fører godt vær til for seninnlevering blant små næringsdrivende. Det vet vi ikke, og det er ikke sikkert det betyr noe. Men det ligger åpenbart et potensiale i å benytte data utenfor Skatteetatens tradisjonelle kildegrunnlag.

Hver skattyter er unik
Fordi alle næringsdrivende, lønnsmottagere og pensjonister er unike med forskjellige informasjonsbehov, ønsker Skatteetaten å gi mer individtilpasset kommunikasjon. Statistiske modeller som lar Skatteetaten bruke all den informasjonen den har om de ulike skattyterne forteller hvem som trenger hva. Noen vil for eksempel trenge informasjon i god tid før en frist, for andre vil en påminnelse i dagene før være mer effektivt. Det samme gjelder valget mellom SMS, e-post eller vanlig brev.
– Utfordringen med å lage individtilpasset kommunikasjon ligner på det å lage en modell for å avsløre skatteunndragelse, sier Frigessi. Det handler om å ta i bruk mer informasjon om skattytere og å estimere sannsynligheten at informasjonen treffer. Vi vil bidra til innovasjon ved å hjelpe Skatteetaten til å bruke mer data enn det den vanligvis gjør.

Et tett samarbeid
Big Insight har en ambisiøs målsetning. For å nå det målet må Skatteetaten og Norsk Regnesentral samarbeide tett om de områdene som er viktigst for etaten. Norsk Regnesentral er gode på å utvikle statistiske modeller, men de er ikke eksperter på skatt. Frigessi understreker at fordi han ikke vet hvilke behov Skatteetaten har, er god dialog med fagpersoner i etaten en forutsetning.
– Vi ønsker å bidra med kunnskap på områder hvor det virkelig brenner for Skatteetaten, sier Frigessi. Norsk Regnesentral har gjennom et tidligere Senter for forskningsdrevet innovasjon hjulpet Statoil til å bore mer treffsikkert etter olje og Gjensidige til å avdekke forsikringssvindlere. Trikset er å tenke på hva modellen skal brukes til når problemstillingene utarbeides. For å utvikle en god statistisk modell som skal implementeres i den daglige driften til Skatteetaten, må vi vite hva behovet er. En modell som forklarer hvorfor noen unndrar skatt vil være noe annerledes enn en som viser hvem som gjør det.

Bilen din avslører hvor digital du er

Si oss hvilken bil du kjører, så forteller vi deg hvor stor sjanse det er for at du leverer selvangivelsen elektronisk.

Hovedmålet med selvangivelseskampanjene våre de siste årene, har vært å få flere av dere som har endringer i selvangivelsen, til å levere elektronisk og ikke på papir. For å treffe riktig med kommunikasjonstiltakene våre, må vi vite hvem målgruppen er – det vil si hvem det er som leverer på papir. Her bidrar Skatteetatens dyktige analyseteam.

Et artig funn de har gjort, er at det finnes en sammenheng mellom hvilket bilmerke folk kjører og på hvilken måte de leverer selvangivelsen: elektronisk eller på papir. Kan du gjette hvilken gruppe bileiere som er gladest i papiret?

Kan du gjette hvilke bileiere som er gladest i papiret? Skoda- eller Mercedes Benz-eierne?

Kan du gjette hvilke bileiere som er gladest i papiret? Skoda- eller Mercedes Benz-eierne?

Som bileiergruppe er det Mercedes Benz-eierne som kommer dårligst ut. Blant disse leverer 12,9 prosent selvangivelsen på papir. Bileierne som kommer best ut, er Skoda-eierne:  8,1 prosent sverger til papiret. Det er cirka det samme som gjennomsnittet av hele befolkningen.

Dette er et eksempel på hvordan vi ved hjelp av egne tall (disse er hentet fra selvangivelsen)  og analyser kan vi finne ut mye om målgruppene våre. Gode analyser er avgjørende for at vi skal kunne utvikle riktige og målgruppetilpassede kommunikasjonstiltak. Nå kommer ikke Skatteetaten akkurat til å banke på bildørene til Mercedes Benz-eiere og oppfordre til elektronisk levering av selvangivelsen, men det er likevel et interessant funn.

Se oversikten over bilmerke og leveringsmåte nederst i bloggposten.

Vedlegg –> papir
Et viktigere funn er at blant de 365 000 som leverte selvangivelsen på papir 2013, var det 36 prosent som hadde vedlegg (skjema, dokumentasjon etc.). Og blant de 240 000 som leverte selvangivelsen med vedlegg, var det 55 prosent som leverte på papir. Disse har stort sett få vedlegg. Det er nemlig slik at de med mange vedlegg i stor grad bruker den elektroniske løsningen. Det betyr at om vi skal øke andelen som leverer elektronisk, har vi mye å hente på å iverksette tiltak inn mot gruppen som har (få) vedlegg til selvangivelsen.

Vi i kommunikasjonsstaben tok med oss analyseteamets funn inn i en workshop med Skatteetatens veiledere. Det er jo vår førstelinje som vet hva folk spør om. De vet hvor skoen trykker – hva som hinder folk fra å sende inn selvangivelsen elektronisk når de har vedlegg. Brukerspørsmål og -utfordringer som kom opp var blant annet:

  • Hvordan kan jeg sende vedlegg elektronisk? Jeg får ikke til det tekniske.
  • Kan vedlegget være på flere sider?
  • Hvilke filtyper aksepterer dere på vedleggene?
  • I hvilke tilfeller er det nødvendig å sende inn vedlegg/dokumentasjon?

Analyseteamets funn og resultatene fra workshopen gir oss et bilde av brukernes behov og utfordringer i møte med våre løsninger. Denne innsikten og inputen er en del av grunnlaget for informasjonstiltakene vi skal utvikle frem mot selvangivelsesperioden. Akkurat når det gjelder dette eksempelet, ser vi for oss en «slik gjør du det video».

Hva mener du?

Oversikten er basert på bilene til de som benyttet reisefradragspostene i selvangiveslen.

Oversikten er basert på bilene til de som benyttet reisefradragspostene i selvangiveslen.