Spoiler Alert: Kunstig Intelligens Kan Forudsige, Hvordan Scener Vil Spille Ud

{h1}

Et nyt kunstigt intelligenssystem kan tage stillbilleder og generere korte videoer, som simulerer, hvad der sker næste gang, hvordan mennesker kan visuelt forestille sig, hvordan en scene vil udvikle sig, ifølge en ny undersøgelse.

Et nyt kunstigt intelligenssystem kan tage stillbilleder og generere korte videoer, som simulerer, hvad der sker næste gang, hvordan mennesker kan visuelt forestille sig, hvordan en scene vil udvikle sig, ifølge en ny undersøgelse.

Mennesker intuitivt forstår hvordan verden fungerer, hvilket gør det lettere for folk, i modsætning til maskiner, at forestille sig, hvordan en scene vil spille ud. Men genstande i et stillbillede kunne bevæge sig og interagere på mange forskellige måder, hvilket gør det meget svært for maskiner at opnå dette, sagde forskerne. Men et nyt, såkaldt dyb-læringssystem var i stand til at narre mennesker 20 procent af tiden sammenlignet med ægte optagelser.

Forskere ved Massachusetts Institute of Technology (MIT) satte to neurale netværk mod hinanden, hvor man forsøgte at skelne rigtige videoer fra maskingenererede, og den anden forsøgte at skabe videoer, der var realistiske nok til at narre det første system. [Super-Intelligent Machines: 7 Robotic Futures]

Denne form for opsætning er kendt som et "generativt adversarielt netværk" (GAN), og konkurrence mellem systemerne resulterer i mere realistiske videoer. Da forskerne spurgte arbejdere på Amazon's Mekaniske Turk crowdsourcing platform for at vælge hvilke videoer der var rigtige, valgte brugerne de maskingenererede videoer over ægte dem 20 procent af tiden, siger forskerne.

Tidlige stadier

Imidlertid behøver blødende filmdirektører sandsynligvis ikke at være for bekymrede over maskiner, der overtager deres job endnu - videoerne var kun 1 til 1,5 sekunder lange og blev lavet med en opløsning på 64 x 64 pixel. Men forskerne sagde, at tilgangen i sidste ende kunne hjælpe robotter og selvkørende biler navigere dynamiske miljøer og interagere med mennesker, eller lad Facebook automatisk tagge videoer med etiketter, der beskriver hvad der sker.

"Vores algoritme kan generere en rimelig realistisk video af, hvad det mener fremtiden vil se ud, hvilket viser, at det på et eller andet niveau forstår, hvad der sker i nutiden," siger Carl Vondrick, Ph.D. studerende i MIT's Computer Science and Artificial Intelligence Laboratory, som ledte forskningen. "Vores arbejde er en opmuntrende udvikling, der tyder på, at computerforskere kan bøje maskiner med langt mere avanceret situationsforståelse."

Systemet kan også lære uden tilsyn, siger forskerne. Det betyder, at de to millioner videoer - svarende til omkring et års værdier af optagelser - at systemet blev uddannet, ikke måtte mærkes af et menneske, hvilket dramatisk reducerer udviklingstiden og gør det tilpasningsberettiget til nye data.

I en undersøgelse, der skal præsenteres på konferencen om neurale informationsprocesser (NIPS), der afholdes fra 5 til 10 i Barcelona, ​​Spanien, forklarer forskerne, hvordan de uddannede systemet ved hjælp af videoer af strande, togstationer, hospitaler og golfbaner.

"I de tidlige prototyper var en udfordring, vi opdagede, at modellen ville forudsige, at baggrunden ville kvæle og deformere," siger Vondrick til WordsSideKick.com. For at overvinde dette tilpassede de designet, så systemet lærte separate modeller til en statisk baggrund og bevægende forgrunden, før de kombinerede dem til at producere videoen.

AI filmskabere

MIT-teamet er ikke den første til at forsøge at bruge kunstig intelligens til at generere video fra bunden. Men tidligere tilgange har tendens til at opbygge video op ramme efter ramme, siger forskerne, hvilket gør det muligt at akkumulere fejl i hvert trin. I stedet behandler den nye metode hele scenen på én gang - normalt 32 billeder på én gang.

Ian Goodfellow, forsker ved nonprofitorganisationen OpenAI, der opfandt GAN, sagde, at systemer, der tidligere har arbejdet på dette område, ikke kunne generere både skarpe billeder og bevægelser, som denne tilgang gør. Han tilføjede dog, at en ny tilgang, der blev afsløret af Googles DeepMind AI-forskningsenhed i sidste måned, kaldet Video Pixel Networks (VPN), kan producere både skarpe billeder og bevægelser. [De 6 Strangest Robots Ever Created]

"Sammenlignet med GAN'er er VPN nemmere at træne, men tager meget længere tid at generere en video," fortalte han WordsSideKick.com. "VPN skal generere videoen en pixel ad gangen, mens GAN'er kan generere mange pixel samtidigt."

Vondrick påpeger også, at deres tilgang går ud på mere udfordrende data som videoer, der er skrabet fra internettet, mens VPN blev demonstreret på specialdesignede benchmark-træningssæt med videoer, der viser hoppende cifre eller robotarme.

Resultaterne er dog langt fra perfekte. Ofte forekommer objekter i forgrunden større, end de burde, og mennesker kan optræde i billeder som slørede klumper, siger forskerne. Objekter kan også forsvinde fra en scene, og andre kan komme ud af ingenting, tilføjede de.

"Computermodellen begynder at kende intet om verden. Det skal lære, hvordan folk ser ud, hvordan objekter bevæger sig og hvad der kan ske," sagde Vondrick. "Modellen har endnu ikke helt lært disse ting. Udvidelsen af ​​dets evne til at forstå begreber på højt plan som objekter vil dramatisk forbedre generationerne."

En anden stor udfordring i fremtiden vil være at skabe længere videoer, fordi det vil kræve, at systemet sporer flere forhold mellem objekter i scenen og i længere tid, ifølge Vondrick.

"For at overvinde dette kan det være godt at tilføje menneskelig input for at hjælpe systemet med at forstå elementer i den scene, der ville være svært for den at lære på egen hånd," sagde han.

Originalartikel om WordsSideKick.com.


Video Supplement: You Bet Your Life: Secret Word - Chair / Floor / Tree.




DA.WordsSideKick.com
All Rights Reserved!
Reproduktion Af Materialer Tilladt Kun Prostanovkoy Aktivt Link Til Webstedet DA.WordsSideKick.com

© 2005–2019 DA.WordsSideKick.com