Bilderkennung mit Sehenswürdigkeiten in Graz

Mit Tensorflow und dem Inception-v3-System habe ich eine Bilderkennung für Sehensürdigkeiten in Graz erstellt. Wenn man das bereits existierende Netzwerk von den ImageNet-Daten verwendet und lediglich die letzte Ebene des neuronalen Netzes neu trainiert, dauert die Berechnung nur wenige Sekunden bis zu wenigen Minuten.

Mit nur etwa 100 Bildern pro Sehenswürdigkeit kommen wir bei sieben Sehenswürdigkeiten auf eine Erkennungsrate von etwa 91% nach 4000 Iterationen. Die für die Klassifizierung verwendeten Sehenswürdigkeiten sind:

Wenden wir das trainierte Modell auf einige von mir geschossene Fotos an, kommen wir zu folgenden Klassifizierungen (hervorgehoben jeweils die richtige Klassifizierung):

Bild Erkennung
Sehenswuerdigkeit graz uhrturm treppe uhrturm treppe: 0.979435
murinsel: 0.00957681
kunsthaus: 0.00697807
uhrturm: 0.00244436
schloss eggenberg: 0.00147081
Sehenswuerdigkeit graz uhrturm uhrturm: 0.971426
murinsel: 0.012622
uhrturm treppe: 0.00470061
schloss eggenberg: 0.00410007
kunsthaus: 0.00313921
Sehenswuerdigkeit graz kunsthaus umgebung kunsthaus: 0.925498
murinsel: 0.0463341
uhrturm treppe: 0.0104462
uhrturm: 0.00841624
landhaushof: 0.00464753
Sehenswuerdigkeit graz kunsthaus umgebung klein kunsthaus: 0.367763
uhrturm: 0.191424
murinsel: 0.174073
rathaus: 0.136471
uhrturm treppe: 0.112171
Sehenswuerdigkeit graz uhrturm verdeckt uhrturm: 0.967778
kunsthaus: 0.0199656
uhrturm treppe: 0.00514048
rathaus: 0.00431914
murinsel: 0.00123447
Sehenswuerdigkeit graz rathaus umgebung rathaus: 0.541813
kunsthaus: 0.443715
uhrturm: 0.00643118
murinsel: 0.00610913
landhaushof: 0.00175862
Sehenswuerdigkeit graz rathaus rathaus: 0.990615
schloss eggenberg: 0.00487029
landhaushof: 0.00258762
uhrturm: 0.00160854
uhrturm treppe: 0.000216472
Sehenswuerdigkeit graz kunsthaus kunsthaus: 0.998515
schloss eggenberg: 0.000498741
uhrturm treppe: 0.000443049
murinsel: 0.000394137
landhaushof: 6.33227e-05
Sehenswuerdigkeit graz murinsel murinsel: 0.97064
kunsthaus: 0.0219113
uhrturm treppe: 0.0037573
schloss eggenberg: 0.00207429
uhrturm: 0.00125379

Auffällig sind insbesondere die korrekte Erkennung des winzigen Kunsthauses inmitten des Dächermeers (mit 0,37 auf Position 1) sowie die schlechte Erkennung des Rathauses zwischen Dächern (mit 0,54 auf Position 1, aber Kunsthaus mit 0,44 auf Position 2). Beides lässt darauf schließen, dass das Modell bei Dächern von oben mit seiner Schätzung eher zum Kunsthaus tendiert. In den Trainingsdaten waren jedoch auch Fotos enthalten, wo das Rathaus (wie bei mir) von oben fotografiert wurde.

Bei winzigen Kunsthaus mit 0,37 würde ich auch nicht sicher behaupten, dass der Klassifikator das Kunsthaus erkannt hat. Ebenso könnte es eine Schätzung nur über die roten Dächer sein oder er hat die Berge im Hintergrund als das Kunsthaus erkannt.

Wenn man sich die Trainingsbilder ansieht, dürften die meisten Fehler bei den 91% Top-1-Erkennungsrate von der Unterscheidung Landhaushof oder Schloss Eggenberg kommen. Von diesen existieren ein paar Fotos, auf denen sie sehr ähnlich aussehen. Ich hatte leider von beiden keine Fotos zum Testen.