De overdreven belofte van zogenaamde onbenaderde datamining


Nobelprijswinnaar Richard Feynman vroeg zijn Caltech-studenten ooit om de waarschijnlijkheid te berekenen dat, als hij buiten het klaslokaal liep, de eerste auto op de parkeerplaats een specifieke kentekenplaat zou hebben, zeg 6ZNA74. Ervan uitgaande dat elk cijfer en elke letter even waarschijnlijk zijn en onafhankelijk worden bepaald, schatten de studenten de kans op minder dan 1 op 17 miljoen. Toen de studenten klaar waren met hun berekeningen, onthulde Feynman dat de juiste kans 1 was: hij had deze kentekenplaat op zijn weg naar de klas gezien. Iets uiterst onwaarschijnlijk is helemaal niet onwaarschijnlijk als het al is gebeurd.

De Feynman-valstrikkende gegevens voor patronen zonder enig vooropgezet idee van wat men zoekt, is de achilleshiel van onderzoeken op basis van datamining. Het vinden van iets ongewoons of verrassends nadat het al heeft plaatsgevonden, is niet ongewoon en ook niet verrassend. Patronen zijn zeker te vinden en zijn waarschijnlijk misleidend, absurd of erger.

In zijn best verkopende boek uit 2001 Goed naar geweldig, Jim Collins vergeleek 11 bedrijven die de afgelopen 40 jaar beter hadden gepresteerd dan de algehele aandelenmarkt tot 11 bedrijven die dat niet hadden gedaan. Hij identificeerde vijf onderscheidende eigenschappen die de succesvolle bedrijven met elkaar gemeen hadden. "We zijn dit project niet begonnen met een theorie om te testen of te bewijzen," pocht Collins. "We probeerden vanaf het begin een theorie te bouwen, rechtstreeks afgeleid van het bewijsmateriaal."

Hij stapte de Feynman-val in. Wanneer we terug kijken in de tijd naar een groep bedrijven, de beste of de slechtste, kunnen we altijd een aantal gemeenschappelijke kenmerken vinden, dus het vinden van deze bewijst helemaal niets. Na de publicatie van Goed naar geweldig, de prestaties van de magnifieke 11 aandelen van Collins waren duidelijk matig: vijf aandelen deden het beter dan de algemene aandelenmarkt, terwijl zes het slechter deden.

In 2011 heeft Google een programma voor kunstmatige intelligentie ontwikkeld, genaamd Google Flu, dat zoekopdrachten gebruikte om griepuitbraken te voorspellen. Het dataminingprogramma van Google keek naar 50 miljoen zoekopdrachten en identificeerde de 45 die het nauwst samenhingen met de incidentie van griep. Het is nog een ander voorbeeld van de val voor data-mining: een geldige studie zou de sleutelwoorden van tevoren specificeren. Na het uitbrengen van het rapport overschat Google Griep het aantal griepgevallen voor 100 van de volgende 108 weken, met een gemiddelde van bijna 100 procent. Google Flu maakt geen griepvoorspellingen meer.

Een internethandelaar dacht dat het zijn inkomsten zou kunnen vergroten door de traditionele blauwe webpaginakleur in een andere kleur te veranderen. Na enkele weken testen, vond het bedrijf een statistisch significant resultaat: blijkbaar houdt Engeland van groenblauw. Door te kijken naar verschillende alternatieve kleuren voor een honderdtal landen, garandeerden ze dat ze voor sommige kleuren een omzetstijging voor een bepaald land zouden zien, maar ze hadden geen idee van tevoren of groenblauw meer in Engeland zou verkopen. Toen bleek dat de kleur van de webpagina's in Engeland werd veranderd in groenblauw, daalde de omzet.

Een standaard neurowetenschappelijk experiment houdt in dat je een vrijwilliger in een MRI-machine verschillende afbeeldingen laat zien en vragen stelt over de afbeeldingen. De metingen zijn lawaaierig, het oppikken van magnetische signalen van de omgeving en van variaties in de dichtheid van vetweefsel in verschillende delen van de hersenen. Soms missen ze hersenactiviteit; soms suggereren ze activiteit waar er geen is.

Een afgestudeerde student uit Dartmouth gebruikte een MRI-machine om de hersenactiviteit van een zalm te bestuderen, aan de hand van foto's en vragen. Het meest interessante aan de studie was niet dat er een zalm werd bestudeerd, maar dat de zalm dood was. Yep, een dode zalm gekocht op een lokale markt werd in de MRI-machine geplaatst en sommige patronen werden ontdekt. Er waren onvermijdelijk patronen – en ze waren altijd zonder betekenis.

In 2018 berekenden een professor in de economie van Yale en een afgestudeerde student de correlaties tussen dagelijkse veranderingen in Bitcoin-prijzen en honderden andere financiƫle variabelen. Zij vonden dat de prijzen van Bitcoin positief gecorreleerd waren met aandelenrendementen in de sectoren consumptiegoederen en gezondheidszorg, en dat ze negatief correleerden met aandelenrendementen in de gefabriceerde producten en metaalmijnindustrieƫn. "We geven geen uitleg", zo zei de professor, "we documenteren dit gedrag gewoon." Met andere woorden, ze kunnen net zo goed de correlaties van Bitcoin-prijzen met honderden lijsten met telefoonnummers hebben bekeken en de hoogste correlaties hebben gerapporteerd.

De directeur van het Food and Brand Lab van Cornell University schreef (of co-auteur) meer dan 200 peer-reviewed artikelen en schreef twee populaire boeken, die in meer dan 25 talen werden vertaald.

In een blogbericht van 2016 getiteld 'The Grad Student Who Never Said No', schreef hij over een doctoraatsstudent die gegevens had gekregen die waren verzameld tijdens een Italiaans buffet waar je zoveel kunt eten als je maar wilt.

E-mailcorrespondentie is opgedoken waarin de professor de afgestudeerde student adviseerde de eters te scheiden in 'mannen, vrouwen, lunchgangers, diners, mensen die alleen zitten, mensen die met groepen van 2 eten, mensen die in groepen van 2+ eten, mensen die alcohol bestellen , mensen die frisdrank bestellen, mensen die dicht bij het buffet zitten, mensen die ver weg zitten, enzovoort … "Daarna kon ze kijken naar verschillende manieren waarop deze subgroepen kunnen verschillen:" # stukjes pizza, # trips, vulniveau van bord, hebben ze een dessert gekregen, hebben ze een drankje besteld, enzovoort … "

Hij concludeerde dat ze "hard moest werken, wat bloed uit deze rots moest persen." Door nooit nee te zeggen, kreeg de student vier papieren (nu bekend als de "pizzapapieren") die als co-auteur werden gepubliceerd met de Cornell-professor. De beroemdste krant meldde dat mannen 93 procent meer pizza eten als ze met vrouwen eten. Het liep niet goed af. In september 2018 concludeerde een faculteitscommissie van Cornell dat hij "wetenschappelijk wangedrag had begaan in zijn onderzoek." Hij trad af, met ingang van juni.

Goed onderzoek begint met een duidelijk idee van wat men zoekt en verwacht te vinden. Datamining zoekt gewoon naar patronen en vindt onvermijdelijk wat.

Het probleem is tegenwoordig endemisch omdat krachtige computers zo goed zijn in het plunderen van Big Data. Mijnwerkers hebben correlaties gevonden tussen Twitter-woorden of Google-zoekopdrachten en criminele activiteiten, hartaanvallen, aandelenkoersen, verkiezingsresultaten, Bitcoin-prijzen en voetbalwedstrijden. Je zou kunnen denken dat ik deze voorbeelden maak. Ik ben niet.

Er zijn nog sterkere correlaties met puur willekeurige getallen. Het is Big Data Hubris om te denken dat data-ontgonnen correlaties zinvol moeten zijn. Het vinden van een ongewoon patroon in Big Data is niet overtuigender (of nuttiger) dan het vinden van een ongewone nummerplaat buiten het klaslokaal van Feynman.

WIRED mening publiceert stukken die zijn geschreven door externe bijdragers en vertegenwoordigt een breed scala aan standpunten. Lees hier meer meningen. Dien een opiniestuk in via opinion@wired.com


Meer Great WIRED Stories