Data Fejler! Hvordan Google Flu Trends Fell Way Short

{h1}

Store data har stort potentiale, men et forsøg fra google til at spore influenzetendenser har stået over for udfordringer.

Et forsøg på at identificere influenzaudbrud ved at spore folks Google-søgninger om sygdommen har ikke levet op til sit oprindelige løfte, hævder et nyt papir.

Google Flu Trends, et forsøg på at spore influenzaudbrud baseret på søgeord, overvurderede dramatisk antallet af influenzasager i 2012-2013 sæsonen, og de nyeste data ser ikke lovende ud, siger David Lazer, en computer og politiker ved Nordøst Universitet i Boston og hans kolleger i en politisk artikel udgivet fredag ​​den 14. marts i tidsskriftet Science om faldgruberne af Big Data.

"Der er et stort potentiale der, men der er også mange muligheder for at lave fejl," lazer fortalte WordsSideKick.com. [6 Superbugs at passe på]

Googles fejl

Det er ikke overraskende, at Google Flu Trends ikke altid rammer et hjemløb. I februar 2013 rapporterede forskere i tidsskriftet Nature, at programmet estimerede ca. dobbelt så mange influenzasager som registreret af centrene for sygdomsbekæmpelse og forebyggelse (CDC), som sporer faktiske rapporterede tilfælde.

"Da det gik af skinnerne, gik det virkelig af skinnerne," sagde Lazer.

Google Flu Trends kæmpede også i 2009, mangler et heltidsinfluenzaudbrud af H1NI helt. Fejlene har fået Google-teamet til at genoprette deres algoritme, men et tidligt kig på den seneste influenzesæson antyder, at disse ændringer ikke har løst problemet, ifølge en foreløbig analyse fra Lazer og kolleger, der blev offentliggjort i dag (13. marts) til de sociale videnskabsforudgivelseswebsted, Social Science Research Network (SSRN).

Problemet er ikke unikt for Google-influenza, sagde Lazer. Alle samfundsvidenskabelige Big Data, eller analysen af ​​enorme svingninger af befolkningen fra mobil eller social medieteknologi, står over for de samme udfordringer, som Google Flu-holdet forsøger at overvinde.

Store data ulemper

At finde ud af, hvad der gik galt med Google Flu Trends, er ikke nemt, fordi virksomheden ikke afslører hvilke søgeord det bruger til at spore influenza.

"De får en F på replikation," sagde Lazer, hvilket betyder, at forskere ikke har nok information om metoderne til at teste og reproducere resultaterne.

Men Lazer og hans kolleger har en følelse af, hvad der gik galt. Et stort problem, sagde han, er, at Google er en virksomhed, der er interesseret i at fremme søgninger, ikke et videnskabeligt team, der indsamler data. Google-algoritmen beder derefter relaterede søgninger til brugere: Hvis nogen søger "influenzaproblemer", vil de sandsynligvis blive bedt om at forsøge at søge efter "influenzavacciner". Således kan antallet af influenzelaterede søgninger sneball, selvom influenzasager ikke gør det. [5 Farlige Vaccination Myter Debunked]

Et andet problem, Lazer sagde, er, at Google Flu-holdet skulle skelne mellem influenzalignende søgninger og søgninger, der er korreleret med influenzesæsonen, men ikke relateret. For at gøre det tog de mere end 50 millioner søgeudtryk og matchede dem med ca. 1.100 datapunkter om influenzaudbredelse fra CDC.

At spille korrelationsspil med så mange vilkår er bundet til at returnere et par underlige, uanstændige resultater, sagde Lazer, "ligesom aber kan skrive Shakespeare i sidste ende." For eksempel taler "high school basketball" som et søgeord i marts, hvilket har tendens til at være toppen af ​​influenzasæsonen. Google udviste naturligvis falske korrelationer og fjernede dem, men præcis, hvilke vilkår de fjernede, og logikken med at gøre det er uklart. Nogle udtryk, som "hoster" eller "feber" kan se influenza-relaterede, men faktisk signalere andre sæsonmæssige sygdomme, sagde Lazer.

"Det var delinfluenza detektor, og en del vinterdetektor," sagde han.

Problemer og potentiale

Google-teamet ændrede deres algoritme efter både 2009 og 2013-savningerne, men lavede de seneste ændringer på den antagelse, at en stigning i mediedækning af influenzasæsonen 2012-2013 forårsagede de problemer, som Lazer og hans kolleger skrev i deres SSRN-papir. Denne antagelse reducerer den store mediedækning af 2009 H1N1-pandemien og undlader at forklare fejl i influenzasæsonen 2011-2012, forskerne argumenterer for.

En Google-talsmand spurgte WordsSideKick.com til et blogindlæg i Google Fluine-opdateringer, der opfordrer til at forbedre "en iterativ proces".

Lazer var hurtig at påpege, at han ikke plukket på Google og kaldte Google Flu Trends "en god ide". Problemerne med Google Flu er gentaget i andre sociale medier datasæt, sagde Lazer. Twitter lader brugerne f.eks. Vide, hvad der er trending på webstedet, hvilket øger disse vilkår yderligere. [Top 10 Golden Rules of Facebook]

Det er vigtigt at være opmærksom på grænserne for enorme datasæt indsamlet online, siger Scott Golder, en videnskabsmand, der arbejder med sådanne datasæt ved firmaet Context Relevant. Eksempler på mennesker, der bruger sociale medier, er f.eks. Ikke et tværsnit af befolkningen som helhed - de kan være yngre, rigere eller mere tech-savvy.

"Folk skal være omhyggelige i de påstande, de gør," Golder, der ikke var involveret i Lazer's Google-kritik, fortalte WordsSideKick.com.

Søgeord valg og en social media platforms algoritmer er andre bekymringer, sagde Golder. For nogle år siden arbejdede han på et projekt, der studerede negativitet i sociale medier. Ordet "grimt" holdt spiking om aftenen. Det viste sig, at folk ikke havde nighttime selvværdskriser. De chatte om ABC-showet "Ugly Betty."

Disse problemer er ikke en dødsknude for Big Data, men - Lazer selv siger, at Big Data mulighederne er "vildtvejende". Socialforskere løser problemer med ustabile data hele tiden, og Googles influenzedata kan rettes, siger Lazer.

"Min mening, at se på dataene og hvordan det gik ud, er, at dette er noget, du kan rette op, uden at Google tilpasser deres egen forretningsmodel," sagde han. "Du skal bare vide [problemet] er der og tænke over konsekvenserne."

Lazer opfordrede til mere samarbejde mellem Big Data forskere og traditionelle socialforskere, der arbejder med små, kontrollerede datasæt. Golder var enig i, at de to tilgange kan være komplementære. Store data kan antydes ved fænomener, der skal undersøges med traditionelle teknikker, sagde han.

"Nogle gange kan små mængder data, hvis det er de rigtige data, være endnu mere informativt," sagde Golder.

Følg Stephanie Pappas på Twitter og Google+. Følg os @wordssidekick, Facebook& Google+. Originalartikel om WordsSideKick.com.


Video Supplement: 2015 Personality Lecture 12: Existentialism: Dostoevsky, Nietzsche, Kierkegaard.




DA.WordsSideKick.com
All Rights Reserved!
Reproduktion Af Materialer Tilladt Kun Prostanovkoy Aktivt Link Til Webstedet DA.WordsSideKick.com

© 2005–2019 DA.WordsSideKick.com