Søkefeltene er vår tids anonyme skriftestol

Store data (Big Data) kan gi samfunnskunnskap med et presisjonsnivå vi aldri tidligere har hatt.

Tilliten til valgmålinger fikk sin alvorligste knekk med brexit og Trump. Målingene gjøres som surveyundersøkelser, en utbredt metode i samfunnsforskning.

Metoden kan ha store målefeil, noe som fremkom da General Social Survey, en av USAs mest anerkjente, undersøkte heterofile samleier og prevensjonsbruk.

En liten regnedjevel tok for seg rapporten og beregnet hva tallene måtte medføre av kondombruk. Han fant at kvinnenes svar krevde 1,1 milliarder kondomer pr. år, mens mennenes krevde 1,6 milliarder.

Så hvilket kjønn løy?

Begge. Fordi regnedjevelen også fant at det faktiske kondomkonsumet var på skarve 600 millioner.

Mennenes løgn var bare drøyere enn kvinnenes, men alle løy.

Ny teknologi, nye metoder

Det spørs om surveyundersøkelsene snart kan ri inn i solnedgangen, fordi ny teknologi gir oss nye metoder til å finne den informasjonen vi tidligere har brukt slike undersøkelser til å finne.

Store data (Big Data) er generert på nye måter, har andre kvaliteter, og ny teknologi gir oss større analysekraft. Nå kan forskere i større grad avsløre at vi lyver og hvordan vi lyver.

Økonomen Seth Stephens-Davidowitz har tatt doktorgrad på store data og omtaler noe av de enorme, nye mulighetene i boken Everybody Lies. Big Data, New Data, and what the Internet can tell us about who we really are.

Her kan vi lese hvordan innrømmelser som hittil har vært forbeholdt den katolske skriftestolen, nå kan avleses anonymisert i store data.

I vår tid skaper vi falske glansbilder på Facebook og betror ærlig våre hemmeligheter til en hvit boks på dataskjermen. Der abort er forbudt søkes det etter metoder med kleshengeren. Der homofili er tabu søkes det etter homo-tester.

Informasjon om anger, arroganse, influensasymptomer og mye mer ligger med tetthet fordelt på tid, geografi og mer.

Dette kan gi samfunnskunnskap med et presisjonsnivå vi aldri tidligere har hatt.

Store data kan gi bedre verktøy

Da Trump vant, lette mange etter forklaringen.

Den geografiske fordelingen av Google-søkene med det eksplisitt ladde uttrykket «negervitser» (sic) ga best match med Trumps sterkeste valgkretser. Søkeordet avdekket et kart over amerikansk rasisme som først ble synlig med store data. Denne gang avgjorde disse strømningene det amerikanske presidentvalget.

De har også spilt en rolle ved tidligere valg, viste det seg.

Rasismekartet matchet områdene der Obama gjorde det markert svakere enn John Kerry fire år tidligere. Stemmeforskjellen som man tidligere, uten hell, hadde forsøkt å finne årsaken til, er nå forklart. Man fant også hvor stor effekten var: Selv om Obama vant, tapte han likevel 4 prosentpoeng nasjonalt på å være farget.

Store data kan gi oss bedre verktøy på en rekke områder; medisin, klima, politikk, kriminalitetsforebygging, mv. Verden er sammensatt. Også samfunnsforskere har – og vil – konkludere feil, men kanskje mindre fremover?

Søkefeltene er vår tids anonyme skriftestol. Sammen med ny teknologi kan de være en kilde til å forstå hvem vi er, hvor vi er på vei og hva vi bør gjøre med det.

 

Artikkelen ble publisert i Aftenposten den 4. september 2017 her: https://www.aftenposten.no/meninger/debatt/i/g8p89/Sokefeltene-er-var-tids-anonyme-skriftestol–Helle-Stensbak

Del innlegget

Løgn, forbannet løgn, og statistikk

Den som kan slå motparten i hodet med statistikk, kan ofte både vinne – og ende – diskusjoner.

Søker man kunnskap om en sak, er statistikk nyttig. Har man trang til å få rett, kan man tilpasse den statistiske fremstillingen slik at den overbeviser.

Simen Gaure ga oss et eksempel i Aftenposten sist tirsdag, der han beskrev hvordan Wikipediasiden «Crime in Sweden» får betydelige økninger i lovbrudd til å se minimale ut ved hjelp av en logaritmisk skala. Torsdag omtalte Medierevisjonen SSB-tallet 1013, som er antallet barn i Norge av to norskfødte fra fire innvandrerbesteforeldre. Det tallet virker lavt, men sier ingenting om at mange barn av innvandrere har hentet ektefelle fra opprinnelseslandet, ei heller at den tendensen nå er avtakende. En som vil selge deg et finansielt investeringsprodukt vil helst vise deg sine fabelaktige resultater, og det gjør han ved å tilpasse starttidspunktet for sammenligningen mot sine konkurrenter. Man kan lyve godt med statistikk når mottakeren ikke er årvåken.

Løgn er usannhet. Forbannet løgn er også usannhet. Men statistikk er å søke og behandle sannheten på den fornuftigste måten når sannheten selv er ukjent.

For ikke å la seg lure, bør man derfor være nøye både med datagrunnlaget, utvalget, skalaene, starttidspunktene og usikkerheten. Blant annet.

Før lønnsoppgjørene kan starte, legger Det tekniske beregningsutvalget (TBU) frem statistikk for lønnsveksten i alle forhandlingsområder i norsk arbeidsliv. I år fant vi noe pussig, nemlig at gjennomsnittet for alle lå mye lavere enn alle gjennomsnitt!

Ja, du leste riktig. I fjor hadde norske lønnstakere i alt en lønnsvekst på 1,7 prosent, mens norske lønnstakere delt inn i forhandlingsområdene hadde en lønnvekst på 2 – 2,5 prosent. Også vi i TBU gned oss i øynene.

Vi undersøkte tallene nærmere, og da forsto vi at de sa noe om hvilke omveltninger oljebremsen har påført det norske arbeidsmarkedet. Inni der befinner det seg virkelige mennesker. Hva hadde skjedd med dem?

Vi undersøkte antall ansatte, ledigheten, vekst i lønnsmassen for gruppene og lønnsutviklingen for identiske personer. Vi fant at de snåle gjennomsnittene kan forklares med at folk med høy lønn har mistet jobben, og kanskje fått ny jobb til lavere lønn. Omstillingene i arbeidsmarkedet er godt i gang, men de rammer noen enkeltmennesker hardere enn andre.

Vi undersøkte også enkeltnæringer, og fant større omstillinger i de som var oljenære enn de som ikke var det. TBU skriver det slik: Sysselsettingen har falt mest i næringer med lønnsnivå over gjennomsnittet, og økt mest i næringer med lønnsnivå under gjennomsnittet. Lønnsvinnerne i 2016 ble noen med moderat lønnsnivå, som jobber med basisvarer og som befant seg langt unna oljen. Statistikk satte oss på sporet av den ukjente sannheten.

En venn av meg mener at ExPhil, altså forberedende, bør bestå av logikk, retorikk og statistikk. Fordi studentene skal lære å tenke, å snakke, og forholde seg fornuftig til usikkerhet.

Artikkelen sto på trykk i Aftenposten den 13. mars 2017, og kan leses her: http://www.aftenposten.no/meninger/kommentar/-Logn_-forbannet-logn–og-statistikk–Helle-Stensbak-616864b.html

Del innlegget