Bilderkennung mit Sehenswürdigkeiten in Graz

Mit Tensorflow und dem Inception-v3-System habe ich eine Bilderkennung für Sehensürdigkeiten in Graz erstellt. Wenn man das bereits existierende Netzwerk von den ImageNet-Daten verwendet und lediglich die letzte Ebene des neuronalen Netzes neu trainiert, dauert die Berechnung nur wenige Sekunden bis zu wenigen Minuten.

Mit nur etwa 100 Bildern pro Sehenswürdigkeit kommen wir bei sieben Sehenswürdigkeiten auf eine Erkennungsrate von etwa 91% nach 4000 Iterationen. Die für die Klassifizierung verwendeten Sehenswürdigkeiten sind:

Wenden wir das trainierte Modell auf einige von mir geschossene Fotos an, kommen wir zu folgenden Klassifizierungen (hervorgehoben jeweils die richtige Klassifizierung):

Bild Erkennung
Sehenswürdigkeiten Graz Uhrturm Treppe uhrturm stairs: 0.979435
island on the mur: 0.00957681
kunsthaus: 0.00697807
uhrturm: 0.00244436
castle eggenberg: 0.00147081
Sehenswürdigkeiten Graz Uhrturm uhrturm: 0.971426
island on the mur: 0.012622
uhrturm stairs: 0.00470061
castle eggenberg: 0.00410007
kunsthaus: 0.00313921
Sehenswürdigkeiten Graz Kunsthaus Umgebung kunsthaus: 0.925498
island on the mur: 0.0463341
uhrturm stairs: 0.0104462
uhrturm: 0.00841624
landhaushof: 0.00464753
Sehenswürdigkeiten Graz Kunsthaus Umgebung klein kunsthaus: 0.367763
uhrturm: 0.191424
island on the mur: 0.174073
rathaus: 0.136471
uhrturm stairs: 0.112171
Sehenswürdigkeiten Graz uhrturm: 0.967778
kunsthaus: 0.0199656
uhrturm stairs: 0.00514048
town hall: 0.00431914
island on the mur: 0.00123447
Sehenswürdigkeiten Graz rathaus: 0.541813
kunsthaus: 0.443715
uhrturm: 0.00643118
island on the mur: 0.00610913
landhaushof: 0.00175862
Sehenswürdigkeiten Graz rathaus: 0.990615
castle eggenberg: 0.00487029
landhaushof: 0.00258762
uhrturm: 0.00160854
uhrturm stairs: 0.000216472
Sehenswürdigkeiten Graz kunsthaus: 0.998515
castle eggenberg: 0.000498741
uhrturm stairs: 0.000443049
island on the mur: 0.000394137
landhaushof: 6.33227e-05
Sehenswürdigkeiten Graz murinsel: 0.97064
kunsthaus: 0.0219113
uhrturm stairs: 0.0037573
castle eggenberg: 0.00207429
uhrturm: 0.00125379

Auffällig sind insbesondere die korrekte Erkennung des winzigen Kunsthauses inmitten des Dächermeers (mit 0,37 auf Position 1) sowie die schlechte Erkennung des Rathauses zwischen Dächern (mit 0,54 auf Position 1, aber Kunsthaus mit 0,44 auf Position 2). Beides lässt darauf schließen, dass das Modell bei Dächern von oben mit seiner Schätzung eher zum Kunsthaus tendiert. In den Trainingsdaten waren jedoch auch Fotos enthalten, wo das Rathaus (wie bei mir) von oben fotografiert wurde.

Bei winzigen Kunsthaus mit 0,37 würde ich auch nicht sicher behaupten, dass der Klassifikator das Kunsthaus erkannt hat. Ebenso könnte es eine Schätzung nur über die roten Dächer sein oder er hat die Berge im Hintergrund als das Kunsthaus erkannt.

Wenn man sich die Trainingsbilder ansieht, dürften die meisten Fehler bei den 91% Top-1-Erkennungsrate von der Unterscheidung Landhaushof oder Schloss Eggenberg kommen. Von diesen existieren ein paar Fotos, auf denen sie sehr ähnlich aussehen. Ich hatte leider von beiden keine Fotos zum Testen.