SceneScout: Wie eine KI blinden Menschen den Zugang zu Strassenansichten erleichtert

Für einmal geht es an dieser Stelle um Zukunftsmusik. Wie schön wäre es doch, wenn wir wüssten, was uns unterwegs erwarten wird. Ein Forschungsteam arbeitet daran.

Ein Forschungsteam der Columbia University hat sich Gedanken gemacht, wie man sich als blinde oder sehbehinderte Person besser auf Reisen in eine unbekannte Region vorbereiten kann. Die Idee war, dass ein Hilfsmittel z.B. eine Strasse beschreibt, wie dies z.B. mit Google Street View für sehende Menschen möglich ist.

Herausgekommen ist SceneScout. Ein KI-gestütztes System, das Strassenansichten (wie Google Street View) für blinde Menschen zugänglich macht. Die Idee war, dass man sich vor einer Reise ein Bild davon machen kann, wie eine Strasse aussieht, wo Hindernisse sind oder was sich in der Umgebung befindet.

SceneScout ist aktuell noch nicht verfügbar. Forschungen in diese Richtung könnten es uns aber künftig etwas einfacher machen, unfall- und gefahrenfrei durch unbekannte Strassen zu marschieren.

Übersetzter Originaltext

Wenn Du blind bist oder nur wenig sehen kannst, ist es oft schwierig, alleine an unbekannte Orte zu reisen. Viele Hilfsmittel helfen Dir zwar beim Navigieren vor Ort, aber sie geben Dir meist nur Wegbeschreibungen und Hinweise auf bekannte Orte – ohne Dir zu zeigen, wie es dort wirklich aussieht.

Dabei enthalten Strassenansichten (wie bei Google Street View) viele visuelle Informationen, die Dir helfen könnten, Dich besser vorzubereiten. Leider sind diese Bilder für blinde Menschen bisher kaum zugänglich.

**SceneScout** ist ein neues KI-Werkzeug, das genau das ändern will. Es nutzt ein sogenanntes „multimodales grosses Sprachmodell“ (MLLM), um Dir die Strassenansichten zugänglich zu machen. SceneScout bietet Dir zwei Möglichkeiten:

  1. Routen-Vorschau: Du kannst Dir vorher anschauen (bzw. anhören), wie eine Strecke aussieht – mit vielen Details.
  2. Virtuelle Erkundung: Du kannst Dich frei durch die Strassenansichten bewegen und bekommst erklärt, was zu sehen ist.

In einer Studie mit 10 Teilnehmenden hat sich gezeigt, dass SceneScout Dir Informationen liefert, die Du sonst nicht bekommen würdest. Technisch gesehen sind die Beschreibungen meistens korrekt (72 %) und beziehen sich auf stabile Dinge in der Umgebung (95 %), selbst wenn die Bilder älter sind. Es gibt aber auch manchmal kleine Fehler, die schwer zu überprüfen sind, wenn man nicht sehen kann.

Die Forschenden sprechen auch über die Chancen und Herausforderungen, wie solche Strassenansichten in Zukunft die Navigation für blinde Menschen verbessern könnten.

Quelle

Link zum Originalbeitrag «SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users» auf der Webseite von Apple Machine Learning Research