Delen

Robots beter leren kijken

22 april 2024

In zijn promotieonderzoek werkte Daan de Geus aan geavanceerde beeldverwerkingsmethodes waarmee robots en auto's beter kunnen herkennen wat ze om zich heen zien.

/
Daan de Geus. Foto: Bart van Overbeeke

Om mobiele robots, zelfrijdende auto鈥檚 of drones in de echte wereld in te kunnen zetten, moeten ze net als mensen in staat zijn om hun omgeving waar te nemen en te begrijpen. 黑料福利网-promovendus Daan de Geus ontwikkelde algoritmes voor automatische beeldherkenning die sneller en nauwkeuriger werken dan bestaande modellen. Afgelopen woensdag is hij cum laude gepromoveerd bij de faculteit Electrical Engineering.

De Geus slaat zijn thesis open en laat een foto van een straatbeeld zien, met daarop verschillende objecten zoals mensen, voertuigen, paaltjes en verkeerslichten (zie afbeelding hieronder). 鈥淢obiele robots en zelfrijdende auto鈥檚 moeten weten wat er om ze heen gebeurt鈥, vertelt hij.

Zo moeten ze objecten kunnen herkennen en lokaliseren, zodat ze er rekening mee kunnen houden. 鈥淒an kunnen ze eromheen rijden of juist ernaartoe en het stelt ze in staat om een bepaald object op te pakken en een taak uit te voeren.鈥

/
Verkeer in Frankfurt. Beeld: Daan de Geus

Om robots bewust te maken van hun omgeving worden er verschillende computer vision-technieken gebruikt, een onderzoeksgebied dat zich bezighoudt met automatische extractie van relevante informatie uit camerabeelden. 鈥淪impel gezegd proberen wij modellen te maken die zoveel mogelijk informatie uit een foto kunnen halen鈥, legt de promovendus uit.

鈥淗et doel van computer vision is om een systeem te maken dat ons eigen visuele systeem nadoet, zodat computers op dezelfde manier kunnen kijken zoals mensen en hierdoor goed kunnen interacteren met de wereld om zich heen.鈥

Zijn onderzoek focust zich op de verbetering van de beeldherkenningstechnieken op het gebied van scene understanding. Dat is een klein, maar cruciaal onderdeel van computer vision. 鈥淗et doel daarvan is om verschillende objecten en regio鈥檚 in een afbeelding te herkennen en een semantisch label te geven, zoals 鈥榮traatverlichting鈥, 鈥榳eg鈥, 鈥榓uto鈥 of 鈥榤ens鈥欌, legt hij uit.

Dat houdt in dat er een betekenis aan wordt gegeven die voor mensen duidelijk is.

/
Een voorbeeld van scene understanding. Objecten (persoon, verkeerslicht, auto) en beeldregio's (de weg) worden automatisch ge茂dentificeerd en van kleurvlakken en semantische labels voorzien. Beeld: Daan de Geus

Nauwkeurigheid en effici毛ntie

Voor automatische beeldanalyse worden neurale netwerken gebruikt 鈥 systemen die leren om een bepaalde taak uit te voeren doordat ze getraind worden met een grote hoeveelheid data. Door deze neurale netwerken gericht te trainen krijg je verschillende modellen die gespecialiseerd zijn in specifieke taken, zoals bijvoorbeeld het zoeken naar alle auto鈥檚 in een afbeelding.

In het eerste deel van zijn proefschrift heeft De Geus gekeken hoe je de nauwkeurigheid en effici毛ntie van die modellen kunt verbeteren. 鈥淰aak gaat verbetering van het ene aspect ten koste van het andere. Om nauwkeurigere resultaten te krijgen, leveren bestaande methoden gewoonlijk in op effici毛ntie, en andersom鈥, legt hij uit.

鈥淒at is logisch, want een hogere nauwkeurigheid kost vaak meer rekenkracht, wat de effici毛ntie direct naar beneden haalt.鈥 De grote vraag is daarom: hoe kun je deze aspecten verbeteren zonder dat je een compromis hoeft te maken?

Daar heeft hij verschillende oplossingen voor gevonden. 鈥淓ffici毛ntie is belangrijk om twee redenen. Je wilt dat het algoritme zo min mogelijk energie verbruikt en zo snel mogelijk een voorspelling kan maken鈥, vertelt hij. De snelheid is zeker bij zelfrijdende voertuigen van essentieel belang, zodat de auto鈥檚 op tijd kunnen reageren op ontstane situaties.

鈥淎ls de berekening een seconde duurt, dan kan het al te laat zijn om actie te ondernemen.鈥

Door middel van zogenaamde modelunificatie heeft hij twee modellen met elkaar verenigd om een effici毛nter model te cre毛ren. 鈥淪ommige taken focussen op de voorgrondobjecten, zoals auto鈥檚 en mensen; andere op zogenaamde achtergrondregio鈥檚 zoals vegetatie en lucht. Dat wordt gedaan door twee verschillende neurale netwerkmodules, want iedere module is gespecialiseerd in een andere taak鈥, legt hij uit.

鈥淭wee netwerkmodules gebruiken is niet zo effici毛nt, want die moeten parallel gaan draaien.鈥 Hij kwam erachter dat je extra informatie kunt geven aan de netwerkmodule die achtergrondinformatie verwerkt, zodat deze ook voorgrondobjecten kan identificeren.

鈥淒aardoor is de module voor voorgrondprojecten niet meer nodig, wat de effici毛ntie enorm ten goede komt. Zo werkt dit model twee keer sneller dan voorgaande modellen, terwijl we een vergelijkbare nauwkeurigheid behalen.鈥

/
Beeld met beeldregio's. Beeld: Daan de Geus

Een andere manier om de effici毛ntie te verbeteren is gebaseerd op de observatie dat veel regio's in een afbeelding sterk op elkaar lijken. Zo bestaat een foto die je buiten neemt voor een groot deel uit lucht. 鈥淥ndanks het feit dat heel veel informatie op elkaar lijkt, verwerken neurale netwerken iedere beeldregio apart, wat heel ineffici毛nt is鈥, aldus De Geus.

De gehele afbeelding wordt verdeeld in patches die uit pixels bestaan (zie afbeelding hieronder). Normaal zouden deze individueel beoordeeld en gelabeld worden, maar de promovendus heeft een methode ontwikkeld om patches met vergelijkbare informatie te clusteren, zodat je het totaalaantal patches reduceert en dus minder rekenkracht nodig hebt.

鈥淶o kunnen we de snelheid met tot wel 110% verbeteren, zonder dat dit de nauwkeurigheid be茂nvloedt.鈥

Deze methode om soortgelijke beeldregio鈥檚 te groeperen is overigens breed toepasbaar voor veel verschillende modellen en veel meer toepassingen dan alleen zelfrijdende auto鈥檚 of mobiele robots. Zo zou je deze algoritmes bijvoorbeeld ook kunnen gebruiken voor de segmentatie van medische afbeeldingen. 鈥淓igenlijk overal waar het nodig is om automatisch beeld te kunnen analyseren.鈥

/
Om de effici毛ntie te verbeteren kunnen semantisch vergelijkbare patches geclusterd worden. Beeld: Daan de Geus

Meerdere abstractieniveaus

In het tweede deel van zijn proefschrift focuste hij op wat hij meerdere abstractieniveaus noemt. 鈥淏estaande algoritmes focussen ofwel op hele objecten, zoals auto鈥檚, ofwel op hun onderdelen, zoals autobanden of de kentekenplaat鈥, licht hij toe.

Zijn doel was om een algoritme te ontwikkelen dat een afbeelding op meerdere abstractieniveaus tegelijkertijd kan begrijpen. 鈥淶odat een mobiele robot zowel de auto als zijn onderdelen waar kan nemen, en dat voor verschillende objecten tegelijk en inclusief de achtergrond, waardoor je een alomvattend beeld van de omgeving krijgt鈥, aldus De Geus.

/
Automatische herkenning van objecten en beeldregio's. Beeld: Daan de Geus

Je kunt beide algoritmes apart hun werk laten doen en dan de resultaten samenvoegen, maar dat is omslachtig. Bovendien kun je zo conflicten krijgen tussen de twee berekeningen. In plaats daarvan heeft hij een nieuw algoritme ontwikkeld dat tegelijkertijd objecten en onderdelen kan identificeren.

鈥淒at is niet alleen accurater, maar ook effici毛nter.鈥 Dit verbeterde model is bovendien breed toepasbaar en brengt veel voordelen met zich mee. 鈥淓en robot kan daardoor bijvoorbeeld niet alleen een deur, maar ook de deurklink herkennen en begrijpen dat deze een onderdeel is van die deur. Dat stelt hem in staat om die deur openen鈥, illustreert hij.  

/
Een meer gedetailleerde segmentatie, waarbij ook de objectonderdelen worden ge茂dentificeerd. Beeld: Daan de Geus

Om zelfrijdende auto鈥檚 of mobiele robots in de praktijk te kunnen gebruiken, moet er nog heel veel gebeuren. 鈥淏eeldherkenning is maar een klein puzzelstukje in het geheel鈥, geeft hij toe. En ook op dat vlak zijn er nog genoeg uitdagingen.

Zo zouden modellen ontwikkeld kunnen worden die meer verschillende objecten kunnen herkennen en die nog sneller en accurater werken. Ook zou je de generalisatie van het model kunnen verbeteren, zodat het ook goede resultaten geeft wanneer de data afwijken van de datasets waarmee het netwerk is getraind en dus beter kan presteren in real-world scenario's.

Maar met zijn proefschrift heeft hij in ieder geval een stap gezet om het systeem capabeler, nauwkeuriger en effici毛nter te maken.

Bron: 

Daan de Geus verdedigde zijn proefschrift 鈥鈥 bij de faculteit Electrical Engineering op 17 april 2024.

Promotoren: Gijs Dubbelman en Peter de With

/

PhD in the picture

Wat staat er op je proefschriftkaft?

鈥淓en zelfrijdende auto, want dat is een van de belangrijkste potenti毛le toepassingen van mijn onderzoek. Meestal worden ze afgebeeld in een druk straatbeeld, maar ik dacht dat het juist leuk zou zijn om in een mooi landschap te gaan rijden zodat je lekker om je heen kunt kijken. Er zit ook de symboliek in van onderweg zijn, kijkend naar de stip aan de horizon. We zijn er nog niet, maar mijn onderzoek is hopelijk weer een klein stapje in de goede richting. En de verschillende kleurvlakken verwijzen naar de beeldregio鈥檚 en objectonderdelen die door beeldherkenningsalgoritmes worden ge茂dentificeerd.鈥

Je bent op een feestje. Hoe leg je in 茅茅n zin uit wat je onderzoekt?

鈥淚k ontwikkel beeldherkenningsalgoritmes die mobiele robots kunnen helpen om hun omgeving beter waar te nemen en te begrijpen.鈥

Hoe blaas je naast je onderzoek stoom af?

鈥淪port doet het altijd heel goed. Zowel zelf uitoefenen - padellen, squashen, bootcamp - maar ook sport kijken, zo heb ik een seizoenkaart bij Feyenoord.鈥

Hoe draagt je onderzoek bij aan de maatschappij?

鈥淗opelijk is dit een puzzelstukje om uiteindelijk mobiele robots toe te passen die mensen kunnen helpen. Bijvoorbeeld om de verkeersveiligheid te verbeteren met zelfrijdende auto鈥檚 of om urgente goederen in afgelegen gebieden te bezorgen met mobiele drones. Maar denk ook aan zorgrobots of robots die zwaar en gevaarlijk werk van mensen kunnen overnemen zoals bouwrobots.鈥

Wat is je volgende hoofdstuk?

鈥淚k ben van plan om in de academische wereld te blijven. Eerst ga ik vanaf deze zomer een research visit doen bij een computer vision lab van de RWTH Aachen. Ik hoop daarna in Eindhoven te kunnen blijven om door te groeien en onderzoek te blijven doen. Ik vind het heel erg leuk om bij te blijven met de meest recente ontwikkelingen en zelf dingen uit te proberen die nog nooit iemand eerder heeft gedaan.鈥

Meer over AI en Data Science

Het laatste nieuws

Blijf ons volgen