LinkedIn open-kilder et værktøj til at køre TensorFlow på Hadoop

Tony projektet bruger Hadoops indbyggede scheduler til at køre TensorFlow job, lette fejltolerance og GPU brug

LinkedIn open-sources a tool to run TensorFlow on Hadoop

LinkedIn er åben-indkøbt et projekt til skalering og administration af dyb læring job i TensorFlow, ved hjælp af garn (endnu en anden ressource forhandler) finplanlægningen system i Hadoop.

Tony projektet kom efter LinkedIn forsøgte at bruge to eksisterende open source-løsninger for at køre planlagte TensorFlow job på Hadoop og fandt dem begge ønsker. Et par projekter til at køre TensorFlow på Hadoop allerede eksisterer, men LinkedIn var utilfreds med dem. En, TensorFlow på gnist, kører TensorFlow via Apache gnist job motor, men det par for stramt med gnist. En anden, TensorFlowOnYARN, leveres de samme grundlæggende funktioner som Tony, men er vedligeholdt og give ikke fejltolerance.

Dyb læringsmodeller i TensorFlow har brug for en form for jobstyring. Uddannelse modeller kan tage timer eller dage, og uddannelse proces skal nogle garanti, det kan fuldføre korrekt.

Tony bruger GARNS ressource og opgave planlægning system til at konfigurere TensorFlow arbejdspladser på tværs af en Hadoop klynge, ifølge Linkedins presse noter. Tony kan også planlægge GPU-baseret TensorFlow job gennem Hadoop, anmode om forskellige former for ressourcer (GPU’er vs CPU’er), eller allokere hukommelse forskelligt for TensorFlow noder og sikre, at job udgange er gemt med jævne mellemrum til HDFS og genoptaget fra hvor de forlod off, hvis de går ned eller er afbrudt.

Tony opdeler sit arbejde blandt tre interne komponenter: en klient, en ansøgning master og en opgave eksekutor. Kunden accepterer indgående TensorFlow arbejdspladser; ansøgning master forhandler med GARNS resource manager til at klargøre job på garn; og opgaven eksekutor er hvad er faktisk lanceret på garn-klynge for at køre TensorFlow job.

LinkedIn hævder, at der er ingen mærkbar overhead til TensorFlow job ved Tony, fordi Tony “er i det lag, [der] orchestrates distribuerede TensorFlow og ikke forstyrrer den faktiske udførelse af TensorFlow jobbet.”

Tony arbejder også med programmet TensorBoard for visualisering, optimering og fejlfinding TensorFlow apps.