Hva forskere (og andre) kan lære av Sherlock

Det har vært taust her altfor lenge, men forpliktelser på andre kanter (bl.a. det sterkt anbefalte Energi og Klima) levner lite tid til blogging om medier og journalistikk. Men her er i hvert fall et nytt innlegg hentet fra Fakta først-bloggen på Vox Publica om favorittemaet åpne data, med en viktig rolle for favorittkarakteren Sherlock Holmes.

***

Dataenes pålitelighet og gyldighet skal kunne etterprøves. Det er noe av det første studenter lærer på universitetenes metodekurs. Men hvor ofte skjer det egentlig at forskningsresultater etterprøves med den nødvendige nidkjærheten? Tidligere i år kom det et eksempel som bør bli et lærestykke for enhver forsker: Doktorgradsstudenten Thomas Herndons granskning av økonom-stjernene Carmen Reinhart og Kenneth Rogoff.

Reinhart og Rogoff la i 2010 fram en studie av forholdet mellom statsgjeld og økonomisk vekst, “Growth in a Time of Debt”. De fant en sammenheng: Når et lands gjeld overskrider 90 prosent av BNP, stopper økonomien å vokse. Resultatet fikk mye mer oppmerksomhet enn vanlig er for forskningsarbeider. Politikerne som forsøkte å få grep på statsgjeldskrisen i Europa hadde endelig et autoritativt tall å klamre seg til. 90 prosent – en vanntett faglig begrunnelse for sparepolitikken, fra to av verdens fremste økonomer!

Sommeren og høsten 2012 strever Thomas Herndon med Reinhart og Rogoffs analyse. Han har lastet ned dataene, et regneark forfatterne fortjenstfullt nok har gjort tilgjengelig. Herndon vil skrive om artikkelen i en seminaroppgave, men klarer ikke å reprodusere 90 prosent-terskelen. I februar i år skriver han en e-post til Reinhart og Rogoff og ber om å få se utregningene deres også. Han får materialet, og oppdager kjapt flere enkle feil. Han regner og regner. 90 prosent-terskelen forsvinner. Resten er, som det heter, historie.

Hva dette har med Sherlock Holmes å gjøre? Flere steder i Conan Doyles historier advarer mesterdetektiven mot å trekke slutninger før alle data er vurdert. I “A Study in Scarlet”, for eksempel. Dr. Watson, jeg-fortelleren, er misfornøyd med framdriften i etterforskningen. Holmes prater i vei om fioliner:

“You don’t seem to give much thought to the matter in hand,” I said at last, interrupting Holmes’ musical disquisition.
“No data yet,” he answered. “It is a capital mistake to theorize before you have all the evidence. It biases the judgment.”

Sannheten om Reinhart og Rogoffs regnefeil kom for en dag først da alle dataene var på plass i Herndons datamaskin. I mellomtiden hadde det foregått mye “teoretisering uten alt bevismateriale”. Det er all grunn til å tro at det er mange andre forskningsresultater som burde lidt samme skjebne som 90 prosent-tesen. Reinhart og Rogoff hadde jo til og med gjort data tilgjengelig, om enn ikke komplett. Hva så med data som man ikke en gang får tak i fordi de ligger på forskerens PC eller i en skuff?

Forskermiljøer strever ennå med data-åpning. Løsningen er snublende nær – publisering av data må gjøres til en betingelse for finansiering av et forskningsprosjekt. I tillegg trengs det fornuftige regler for håndtering og en god infrastruktur for oppbevaring av dataene. Tenk også på samfunnet utenfor forskerverdenen: Tilgang til data bak forskningen bør ikke være forbeholdt forskere (med de nødvendige forbehold for å sikre personvernet dersom dataene inneholder personopplysninger).

En oppmuntring til slutt: Den som offentliggjør data, får også større gjennomslag i forskersamfunnet, det vil si flere siteringer. Det viser en studie (på fagfeltet genetikk) som sammenligner forskningsartikler der data er gjort tilgjengelig med tilsvarende artikler uten åpent datamateriale.

Wikipedia sekund for sekund

Ved å hente ut data fra Wikipedias API har Zeit Online laget denne fine saken, som fortløpende viser redigeringene av den tyskspråklige utgaven av nettleksikonet. Det hadde vært moro å få til det samme for de norske utgavene.

Gi meg gjerne tips om annen kreativ bruk av Wikipedia-APIet.

(PS Bloggen er ikke nedlagt, men det er mye å gjøre på andre fronter. Mange av disse kan nå overvåkes i bloggens høyrespalte. Håper likevel å skrive noe oftere her framover).

DN-kronikk: Slipp fakta fri

Jeg har en kronikk i Dagens Næringsliv i dag — du finner hele teksten her. Den er sterkt inspirert av arbeidet med et prosjekt om offentlig sektors data ved Universitetet i Bergen. Du vil finne det meste av det jeg ellers skriver om dette temaet i Vox Publica, nærmere bestemt bloggen Fakta først.

Continue reading