Hallo,
ich habe mich in den letzten Tagen mit der Programmierung der
Gebärdenerkennung befasst und mir nun das Protokoll des letzten Treffens
angeschaut. Dabei ist bzgl. des noch zu erstellenden Videomaterials eine
Frage aufgetreten. Sollen, wie dort erwähnt, die Zahlen von 1-100
behandelt werden oder, wie zu einem früheren Zeitpunkt beschlossen, die
Zahlen von 0-20, alle Doppelzahlen (22,33,44,..,99), alle 10er, 100er
und 1000er?
Ich habe mich bisher mit Christian verständigt, dass er auf jeden Fall
die Zahlen von 1-100 für die Computererkennung aufnimmt, da diese
Gebärden bereits ohne Handschuh aufgenommen wurden. Fehlen dann nur noch
die 100er und 1000er.
Lange Rede, kurze Frage: Welcher Zahlenbereich soll abgedeckt werden?
Gruß,
Astrid Schütz
Hallo,
folgende Merkmale werden gegenwärtig berechnet (man bedenke, dass es sich
um Merkmale der 2D-Projektion handelt):
- Flächeninhalt
- X/Y Koordinaten des Schwerpunkts
- Kompaktheit (Verhältnis von Randkurvenlänge zu eingeschlossener Fläche.
Bereich [0,1], wobei Linie = 0 und Kreis = 1)
- Exzentrizität ("Mittlerer" Abstand eines Punktes der Struktur vom
Schwerpunkt. Wertebereich [0,1])
- Orientierung der Hauptträgheitsachse (periodisch mit 180°; da aus
Gründen der Kontinuität die Orientierung bei alpha=90-epsilon ungefähr den
gleichen Wert haben muss wie bei alpha=-90+epsion, wird der Winkel alpha
in zwei Komponenten angegeben: sin(2*alpha) und cos(alpha).)
Für die beiden erstgenannten Merkmale (Fläche und Koordinaten) berechnen
wir die Ableitung und normieren diese so, dass das Maximum bei 1 liegt.
Dadurch sind die Merkmale unabhängig von der absoluten Position im Bild
sowie von der aktuellen Auflösung. Für alle anderen Merkmale stellt sich
dieses Problem nicht.
Damit sieht der Merkmalsvektor folgendermaßen aus:
(<target> = kleiner Finger, Ringfinger, ...)
<target>.areasize.derivative
<target>.pos.x.derivative
<target>.pos.y.derivative
<target>.compactness
<target>.eccentricity
<target>.orientation.sin
<target>.orientation.cos
Also 7 Komponenten pro Target, d.h. bei 5 Fingern + 1 Handrücken + 1
nichtdominante Hand -> 7*7=49 Komponenten. Um nun die Aussagekraft dieser
Merkmale miteinander zu vergleichen, macht es - wie besprochen - Sinn,
einen binären Gewichtungsvektor mit entsprechend 49 Elementen aufzustellen.
Schicken Sie uns einfach die gewünschten Vektoren (entweder explizit
elektronisch als Textdatei, oder heuristisch beschrieben), dann machen wir
- sobald die Software soweit ist und die Aufnahmen im Kasten sind - die
entsprechenden Durchläufe.
Ich könnte mir z.B. vorstellen, dass folgende Gewichtungen interessant sind:
- Nur areasize.derivative für alle Targets
- Nur pos.x.derivative und pos.y.derivative für alle Targets
- Beides zusammen
- Alle Targets bis auf einen Finger (z.B. Ringfinger). Die Frage wäre
hier, ob - ähnlich wie beim unbeabsichtigten Weglassen der NDH - trotzdem
noch eine Differenzierung anhand der "sichtbaren" (mit 1 gewichteten)
Targets möglich ist.
Gruß,
Jörg
--
Dipl.-Ing. Jörg Zieren Phone: +49-241-80-21222
Chair of Technical Computer Science Fax: +49-241-80-22308
Aachen University of Technology (RWTH) ICQ: 155034668
Ahornstr. 55, 52074 Aachen, Germany http://www.techinfo.rwth-aachen.de
-> Attachment missing/broken? Outlook may have deleted it without asking!
--> For a list of common abbreviations, see http://www.zieren.de/abk.html