Sprachen

SCOUT - SS 2004, WS 2004/2005

Thema: 
Pfadplanung eines virtuellen 3D-Scanners mit Reinforcement Learning zum Zweck der aktiven visuellen Erfassung von Objekten
Zeitraum: 
SS 2004, WS 2004/2005
Umfang: 
8 SWS pro Semester
Veranstalter: 

Gabriele Peters, Informatik VII (Graphische Systeme),
OH16, R.122, Tel.:6145
Claus-Peter Alberts, Informatik VII (Graphische Systeme),
OH16, R.116, Tel.: 6134

Teilnehmer: 
1. Entian Sebastian
2. Briese Markus
3. Gabriel Christian
4. Gao Zhiqiang
5. Klandt Alexander
6. Leopold Thomas
7. Schultze Jan
8. Spiegel Jeremias
9. Thyen Jürgen
10. Vaupel Martina
11. Voß Peter
12. Zhu Qing
Thematik: 

Bei der visuellen Erfassung von Objekten durch mechanisch geführte Scanner zum Zwecke der Weiterverarbeitung in der Computergraphik (etwa Rekonstruktion eines 3D-Modells) und beim Computersehen (etwa Objekterkennung) stellt sich noch häufig das Problem der Trennung von Datenerfassung und Weiterverarbeitung (siehe Abbildung 1). Falls die erfassten Daten den Anforderungen der Rekonstruktion oder Erkennung nicht genügen, ist eine erneute Datenerfassung oft nicht mehr möglich. In dieser Projektgruppe soll ein System zur aktiven Objekterfassung realisiert werden, in dem der Weiterverarbeitungsteil (z.B. Rekonstruktion oder Erkennung) den Datenerfassungsteil aktiv beeiflusst.
Diese Problemstellung ist gut geeignet, um mit Methoden des Reinforcement Learning (RL) bearbeitet zu werden [SB98]. Dabei handelt es sich um Lernverfahren, bei denen ein Agent sein Verhalten durch Versuch und Irrtum lernt. Er interagiert mit seiner Umwelt über Aktionen und Beobachtung von Zuständen. Sein Verhalten wird über eine Politikfunktion gesteuert, die Zustände auf Aktionen abbildet. Eine Aktion überführt die Umwelt in einen neuen Zustand. Der Agent bekommt Rückmeldung über seine Aktionen über ein Reinforcement-Signal (siehe Abbildung 2).
In dieser Projektgruppe stehen Entwurf und Realisierung eines allgemeinen RL-Moduls im Mittelpunkt, das dann speziell auf die visuelle Erfassung von Objekten mit Hilfe eines virtuellen Scanners angewendet werden soll. Dabei soll das System selbstständig lernen, welche Ansichten eines Objektes im Hinblick auf eine bestimmte Anwendung (z.B. Rekonstruktion oder Objekterkennung) erfasst werden müssen, so dass ein umfassendes Abscannen des gesamten Objektes unnötig wird. Eine Strategie zum Abscannen wird dabei nicht vorgegeben, wie es bei existierenden Verfahren zur Ansichtsplanung [SR03] noch üblich ist, sondern vom RL-Modul in Abhängigkeit von der jeweiligen Anwendung selbstständig erlernt.

Abbildung 1: Übliche Trennung von Datenerfassung und WeiterverarbeitungAbbildung 1: Übliche Trennung von Datenerfassung und Weiterverarbeitung

Der erfasste Pfad auf der Ansichtsphäre des Objektes (siehe Abbildung 2) stellt die Basis für eine spärliche Objektrepräsentation dar, die aus einzelnen Schlüsselansichten des Objektes besteht. Diese kann Grundlage für eine spätere Objekterkennung in Bilddatenbanken sein. Zur Auswahl von Ansichten für die Objektrepräsentation sind von der Projektgruppe geeignete Lösungsverfahren zu erarbeiten. Als Qualitätsmerkmal der erlernten Objektrepräsentation soll die Eigenschaft dienen, beliebige, insbesondere nicht-erfasste Ansichten graphisch darzustellen. Hierfür geeignete Interpolationsverfahren sind von der Projektgruppe zu erarbeiten.

Abbildung 2: Reinforcement Learning und Objektansichten auf AnsichtshemisphäreAbbildung 2: Reinforcement Learning und Objektansichten auf Ansichtshemisphäre

Konkreter lässt sich das Projekt in folgende Phasen aufteilen:

  1. Reinforcement Learning: Es soll ein allgemeines Modul zum RL entwickelt werden, das sich für beliebige Anwendungen, die mit Methoden des RL bearbeitbar sind, einsetzen lässt. Insbesondere müssen folgende Parameter und Funktionen definiert werden:
    • Aktionen (etwa das Weiterführen der Kamera und das Aktualisieren der bisher erlernten Objektrepräsentation, siehe (c)),
    • Zustände (etwa Ansichten oder Äquivalenzklassen von Ansichten),
    • die Bewertungsfunktion (z.B. basierend auf Ähnlichkeiten zwischen aufeinanderfolgenden Ansichten und später auf der Qualität der erlernten Objektrepräsentation, siehe (d)),
    • das Modell für optimales Verhalten des Agenten (insbesondere, wie weit der Agent in die Zukunft schauen soll),
    • und der Anteil der Exploration der Umwelt an den Aktionen des Agenten. Für das Lernen der Politik-Funktion bietet sich ein Vorgehen nach Watkins' Q-learningAlgorithmus an [Wat92]. Das RL-Modul soll in die vorhandene C++-Klassen-Bibliothek FLAVOR1 integriert werden [RPEM99].
  2. Anwendung des Reinforcement Learning auf die Pfadplanung: Das unter (a) erstellte Modul soll auf die Pfadplanung zur Objekterfassung angewendet werden. Dafür steht eine Datenbank mit Objektansichten und zugehörigen Kameraparametern zur Verfügung, die die Aufnahmen des Scanners simuliert (siehe Abbildung 2). Die erlernten Scan-Pfade auf der Ansichtssphäre sollen zur Visualisierung graphisch ausgegeben werden.
  3. Generierung einer ansichtsbasierten Objektrepräsentation: Aus den Ansichten des erlernten Scan-Pfades werden Schlüsselansichten für eine Objektrepräsentation ausgewählt. Die Objektrepräsentation wird interaktiv, d.h. während des Scanvorgangs, aktualisiert. Für die Auswahl der Ansichten ist ein geeignetes Kriterium zu bestimmen, etwa die Unähnlichkeit von im Pfad aufeinanderfolgenden Ansichten.
  4. Interpolation unbekannter Ansichten mit Hilfe der erlernten Objektrepräsentation:Mit Hilfe der erlernten Objektrepräsentation, die aus nur wenigen Schlüsselansichten des Objektes besteht, sollte es möglich sein, beliebige, vorher nicht-erfasste Ansichten des Objektes zu rekonstruieren. Dies soll mit Methoden der Ansichtsinterpolation verwirklicht werden [Wol02].
    Die Güte der Interpolation unbekannter Ansichten dient zusätzlich als Qualitätsmerkmal der erlernten Objektrepräsentation. Bei gut rekonstruierten Ansichten ist davon auszugehen, dass der Informationsgehalt der Objektrepräsentation auch für eine spätere Objekterkennung ausreicht. Ein Qualitätsmass für die Ansichtsinterpolation muss geeignet definiert werden. Hier kommt z.B. die mittlere Genauigkeit der Interpolation beliebiger Ansichten (etwa gemessen als RMSE zwischen interpolierten und Originalansichten[GW02]) in Frage. Eine Alternative besteht in der Berechnung der Grösse desjenigen Gebietes auf der Ansichtssphäre, in dem mit vorgegebener Genauigkeit Ansichten rekonstruiert werden können.
    Desweiteren soll die Interpolationsgüte als Qualitätsmerkmal der bisher erlernten Objektrepräsentation wie unter (a) angedeutet in die Bewertungsfunktion des RL eingehen. Standardmässig kann das Reinforcement-Signal etwa allein aufgrund von aktuellen Ansichten vergeben werden, aber bei jedem n-ten Iterationsschritt kann zusätzlich noch die Qualität der aktuellen Objektrepräsentation hinzugezogen werden. Damit wäre dann der Zyklus zwischen Weiterverarbeitung und Datenerfassung geschlossen.
  5. Optimierung: Hier steht die Frage im Vordergrund, mit welchen Parameterwerten sich die besten Ergebnisse erzielen lassen. Insbesondere sollen die erlernten Scan-Pfade und Objektrepräsentationen bezüglich des definierten Qualitätsmerkmals für verschiedene Kombinationen von Parameterwerten des RL verglichen werden.
    Alternative Auswahlverfahren für die Schlüsselansichten und eine Variation der für die Auswahl benötigten Ähnlichkeitsschwellen sollen ebenfalls untersucht werden.

Das von der Projektgruppe zu entwickelnde System soll alle Teilaspekte integriert bearbeiten und durch einen modularen Aufbau gewährleisten, dass sich zukünftige Anwendungen problemlos integrieren lassen. Flexible Library for Active Vision and Object Recognition.


Bei der objektorientierten Umsetzung dieser Anforderungen in ein Softwaresystem sollen die Entwurfsphasen des Software-Engineering beachtet werden [Bal99].


Eine effiziente Verarbeitung der umfangreichen Daten kann nur durch eine leistungsfähige Software gewährleistet werden, welche sich auf der Basis von C++ realisieren lässt. Zur Entwicklung der Benutzeroberfläche soll Qt2 eingesetzt werden. Die Implementierung des Systems soll primär unter Linux, aber auch unter WindowsNT/2000 geschehen.

Minimalziele: 
  • Dokumentierter Systementwurf
  • Dokumentierte Implementierung eines Prototypen zum Reinforcement Learning und zur Generierung einer Objektrepräsentation
  • Demonstration der Grundfunktionalität der einzelnen Module über eine Benutzerschnittstelle am Beispiel eines Objektbilddatensatzes.
Teilnahmevorraussetzungen: 
  • Eine der Stamm-/ bzw. Wahlpflichtvorlesungen Mensch-Maschine-Interaktion, Graphische Systeme, Softwaretechnologie, Effiziente Algorithmen, Künstliche Intelligenz oder Darstellung, Verarbeitung und Erwerb von Wissen [V]
  • Spezialvorlesungen Digitale Bildverarbeitung, Cognitive Computer Vision oder Optimierendes Lernen (Reinforcement Learning) [W]
  • Kenntnisse in objektorientierter Programmierung und einer einschl�gigen Programmiersprache, z.B. Java oder C++ [W]
  • Kenntnisse von Linux oder einer MS Windows-Version [W]

Legende: [V] vorausgesetzt, [W] wünschenswert

Literatur: 

[SB98] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, MIT Press, 1998.
[SR03] W. R. Scott, G. Roth and J.-F. Rivest, View Planning for Automated Three-Dimensional Object Reconstruction and Inspection, ACM Computing Surveys, 35(1):64 - 96, 2003.
[Wat92] C. J. Watkins and P. Dayan, Q-learning, Machine Learning, 8(3):279-292, 1992.
[RPEM99] M. Rinne, M. P�tzsch, C. Eckes and C. von der Malsburg, Designing Objects for Computer Vision: The Backbone of the Library FLAVOR, IR-INI 99-08, Technical Report, Institut f�r Neuroinformatik, Ruhr-Universit�t Bochum, 1999.
[Wol02] G. Wolberg, Digital Image Warping, Verlag Harri Deutsch, Reihe Physik, vol. 53, 1995.
[GW02] R. C. Gonzalez and R. E. Woods, Digital Image Processing, Wiley-IEEE Computer Society Press, 2002.
[Bal99] H. Balzert, Lehrbuch der Software-Technik, Spektrum Akademischer Verlag, 1999.

Rechtliche Hinweise: 
Die Ergebnisse der Projektarbeit inklusive der dabei erstellten Software sollen der Fakultät für Informatik uneingeschränkt zur freien Forschung zur Verfügung stehen. Darüber hinaus sind keine Einschränkungen der Verwertungsrechte an den Ergebnissen der Projektgruppe und keine Vertraulichkeitsvereinbarungen vorgesehen.