Tot zover de ride-hailing-app Uber's de groei is wereldwijd buitengewoon, met ondersteuning voor ongeveer 14 miljoen ritten per dag. Tot nu toe heeft het bedrijf de architectuur van zijn zelfrijdende auto niet in het openbaar besproken. Voor het eerst heeft Uber de innerlijke werking tot in detail onthuld, de complexiteit van de ontwikkeling van de zelfrijdende auto in het algemeen, en nog veel meer.
VerCD - Tool om ML-workflow te ondersteunen!
Vanwege verschillende diepe afhankelijkheden en ontwikkelingscomplexiteit van ML-modellen, heeft het bedrijf VerCD gemaakt, een set tools en microservices om onze ML-workflow te ondersteunen.
Volgens het bedrijf staat VerCD de team geautomatiseerd gebruiken continue levering (CD) om versieafhankelijkheden van ML-artefacten bij te houden en te beheren.
Uber in een blogpost:
“ML teams ontwikkelende modellen op schaal kunnen ontdekken dat de werkwijzen en tools die hier worden gepresenteerd als onze vijfstappenmodellevenscyclus en VerCD, ontwikkeld bij Uber ATG voor zelfrijdende voertuigen, kunnen worden toegepast op verschillende gebruiksscenario's, waardoor ze hun infrastructuur kunnen herhalen.
Volgens het bedrijf is het grootste deel van de technische inspanningen besteed aan het toevoegen van bedrijfsspecifieke integraties om bestaande orchestrators in staat te stellen te communiceren met de heterogene set systemen gedurende de volledige end-to-end ML-workflow. Het volgt alle afhankelijkheden van elke ML-component, die naast code vaak ook gegevens en modelartefacten bevat.
Logs verzameld van de zelfrijdende auto's van ATG!
De enorme datasets die VerCD beheert, zijn afkomstig van logboeken die zijn verzameld door de ATG's zelfrijdende auto's, en het bevat afbeeldingen van camera's, lidarpunt- en radarinformatie, voertuigstatus en kaartgegevens. Deze zijn allemaal onderverdeeld in trainingsgegevens en validatiegegevens, waarbij 15% naar testen gaat, 75% naar training en 10% naar validatie.
Een tool genaamd GeoSplit wordt gebruikt om logs te selecteren en deze op te splitsen tussen trein, test en validatie op basis van hun geografische locatie. “Zodra we de gegevens hebben verdeeld, extraheren we deze uit onze logboeken voor het genereren van gegevens met behulp van Petastorm, de open-source datatoegangsbibliotheek van Uber ATG voor deep learning.”
Gebruikt een hybride benadering van ML-computerresources!
Na gebruikersregistratie van een nieuwe dataset slaat de VerCD Dataset Service de metadata van de afhankelijkheid op in onze database. De datasets worden geïdentificeerd aan de hand van het versienummer en de naam, samen met afhankelijkheden die worden bijgehouden door VerCD, waardoor de exacte replicatie van sensorlog-ID's van autonome voertuigen, metadata die de levenscyclus van de dataset beschrijven, en meer mogelijk is.
Bovendien gebruikt Uber ATG een hybride benadering van ML-computerresources, met training jobs op locatie draaien data centerwordt mogelijk gemaakt door GPU- en CPU-clusters en hardlooptraining jobs in de wolk. Peloton, een open-source unified resource scheduler ontwikkeld door Uber, wordt gebruikt om training te organiseren jobs on-premise gebruiken data centers met GPU's.
“Ons ML-modellevenscyclusproces en de tools die we hebben gebouwd om het te stroomlijnen, zoals VerCD, helpen ons de vele verschillende modellen die we gebruiken te beheren en modellen sneller te herhalen. Deze praktijken en oplossingen zijn voortgekomen uit onze behoefte om efficiënt te werken en tegelijkertijd een nauwkeurig zelfrijdend voertuigsysteem te ontwikkelen.”
Vooruit gaan!
“We hebben veel vooruitgang kunnen boeken door de verschillende workflowfasen in ML-ontwikkeling vast te stellen en op hun beurt de ondersteunende systemen zoals VerCD te ontwikkelen om de toegenomen complexiteit van de ML-workflow te beheren. Naarmate onze technologie volwassener wordt en steeds complexer en geavanceerder wordt, wordt het steeds onhaalbaarder om afhankelijk te zijn van handmatige, menselijke tussenkomst om de ML-workflowfasen te beheren. Deze tools stellen ingenieurs in staat om snellere iteraties van ML-componenten te maken, wat leidt tot hogere prestaties van onze zelfrijdende voertuigen.”
Credits hoofdafbeelding: Uber
Blijf op de hoogte Silicon Canals voor meer Europese technologie news.