Seeing AI und Envision AI im Vergleich

Seeing AI und Envision AI – Zwei Schweizer Taschenmesser aus Amerika und den Niederlanden im Vergleich.

Dieser Artikel wurde von Julian Iriogbe verfasst und der Apfelschule freundlicherweise für die Veröffentlichung auf der Webseite zur Verfügung gestellt.

Links

Link zum App Seeing AI im App Store

Link zum App Envision AI im App Store

Allgemeine Infos

Eine gut funktionierende App auf dem Smartphone kann für Menschen mit oder ohne Seheinschränkung gleichermaßen den Alltag erleichtern. Leider werden Apps aber in der Regel nur für eine bestimmte Funktion programmiert und so verliert manch einer vor lauter Apps, die nicht nur den Startbildschirm, sondern auch noch die zweite und dritte Seite des Smartphones bevölkern, den Überblick.

Gut, dass es auch Ausnahmen gibt, wie die beiden hier vorgestellten Apps Seeing AI und Envision AI, die bis zu zehn nützliche, wenn auch unterschiedlich gut funktionierende Hilfen unter einer Haube vereinen. Getestet wurden die Apps auf einem iPhone 14 Pro unter iOS 16. Da die Kamera bei allen Funktionen eine wesentliche Rolle spielt, können die Ergebnisse je nach Smartphone abweichend sein. Seeing AI gibt es leider nur für iOS.

Die beiden Apps Seeing AI der Firma Microsoft und Envision AI der gleichnamigen Firma wurden für blinde Nutzer oder für Nutzer mit einer hochgradigen Seheinschränkung konzipiert und sind deshalb auch beide VoiceOver tauglich. Die zwei Buchstaben AI im Namen der Apps stehen für Artificial Intelligence (künstliche Intelligenz).

Beide Apps sind kostenlos, so dass sie sich mit Schulungsteilnehmerinnen und Schulungsteilnehmern ohne jede Verpflichtung ausprobieren lassen. Datenschutzbewusste Menschen werden eventuell als Haken sehen, dass die von der künstlichen Intelligenz verarbeiteten Daten gesammelt und zumindest bei Seeing AI vermutlich auf Servern ausserhalb von Europa verarbeitet werden.

Das betrifft vor allem die Handschriftenerkennung und die Texterkennung von ganzen Dokumenten bei der App Seeing AI, sowie die Barcodeerkennung und die Szenenerkennung, denn für diese Funktionen wird eine Internetverbindung benötigt, was natürlich ebenfalls ein Problem darstellen kann. Alle anderen Funktionen sind auch ohne Internetverbindung nutzbar. Bei der App Envision AI kann man in den Einstellungen unter dem Punkt Datenübertragung einer Weitergabe widersprechen. Theoretisch. Mir gelang es im Test nicht, die Schaltfläche „ich stimme nicht zu“ zu aktivieren. Wer aber die Geheimdokumente im Safe lässt und nicht gerade in einem Funkloch und ohne WLAN lebt, der sollte beide Apps sicherlich ohne Bedenken nutzen können.

Erster Eindruck

Die App Seeing AI macht nach dem Start einen sehr aufgeräumten Eindruck.

Links oben findet sich ein kleines Menü zum Ausklappen, hinter dem sich unter anderem diverse Einstellmöglichkeiten und ein kleines Offline-Handbuch in Form eines einfachen Textdokumentes verbergen. Die vorhandene Hilfe in deutscher Sprache ist durchaus erwähnenswert, denn das gibt es bei Apps viel zu selten.

Rechts oben gibt es ein Fragezeichen-Symbol, hinter dem sich ebenfalls eine Hilfe verbirgt. Diese ist aber kontextbezogen und bietet immer nur zu der gerade ausgewählten Funktion eine kurze Erklärung – sehr praktisch für Leute wie mich, die nicht gerne ein ganzes Handbuch lesen.

Unter Menü und Kontexthilfe kommt das Kamerafenster. Je nachdem, ob für die Funktion eine manuelle Auslösung der Aufnahme benötigt, taucht in diesem Fenster am unteren Rand mittig eine runde Schaltfläche auf.

Das gesamt Appfenster wird am unteren Rand durch eine Leiste begrenzt, in der sich die Symbole für die zehn Funktionen befinden. Die Funktionen, die sich hinter den Symbolen verbergen, werden auch ohne aktiviertes VoiceOver angesagt. Auch sonst zeigt sich die App sehr sprachfreudig.

Ist VoiceOver eingeschaltet, so übernimmt VoiceOver die meisten Ansagen. Nutzer/-innen erhalten also keine Stereoinformation mit zwei verschiedenen Stimmen. Die Schaltflächen wurden für VoiceOver sauber und verständlich beschriftet. Die Symbolleiste am unteren Rand wird von VoiceOver als „Kanal“ vorgelesen. Um sich von einem Symbol bzw. von einer Funktion zur nächsten zu bewegen, muss mit dem Finger nach oben oder unten gestrichen werden. Das ist für VoiceOver Nutzer/-innen eher gewöhnungsbedürftig, denn damit werden eigentlich die Rotorfunktionen gesteuert. Der Vorteil dieser Belegung ist, dass man von jeder Funktion aus mit dem üblichen rechts/links Wischen schnell zu den Schaltflächen gelangt, die kontextbezogen auftauchen bzw. auch zur Direkthilfe rechts oben.

Die App Envision AI will zunächst einmal eine Anmeldung. Schade, dass diese Hürde noch eingebaut wurde. Zumindest für Apple Nutzer geht eine Anmeldung über die Apple ID mit anonymisierter E-Mail-Adresse aber ohne Preisgabe von persönlichen Daten einher.

Nach dem Start zeigt sich auch diese App aufgeräumt. Am oberen Rand gibt es eine Leiste mit Symbolen, die kontextbezogen ein- bzw. ausgeblendet werden.

Darunter befindet sich das Kamerafenster. Im unteren Bereich des Kamerafensters finden sich drei Schaltflächen, die zur jeweils ausgewählten Hauptkategorie gehören. Am unteren Rand des Bildschirms ist schliesslich noch eine Leiste, in der die Hauptkategorie ausgewählt werden kann. Folgende Kategorien stehen zur Verfügung: Lesen, Identifizieren, Finden, Brille, Einstellungen. Für die Kategorie Brille wird eine Smartbrille der Firma benötigt, ähnlich der Orcam. In der Kategorie Einstellungen steht auch eine Anleitung zur Verfügung, allerdings nur auf Englisch. Alle Schaltflächen wurden für VoiceOver sauber beschriftet. Durch eine andere Benutzerführung, die zuerst in der Leiste unten die Auswahl einer Kategorie erfordert und dann oberhalb die passenden Funktionen dazu anzeigt, konnte das VoiceOver Bedienkonzept stringent durchgehalten werden, ohne dass zu viel Wischen nötig ist. Envision AI gibt ohne VoiceOver zusätzliche Infos per Sprache nur an wenigen Stellen.

Funktionen

im Folgenden nun die Funktionen der beiden Apps, ausgehend von Seeing AI, von links nach rechts im Vergleich:

Kurztexterkennung

Seeing AI – Kurzer Text

Sobald man die Kamera auf einen Text hält, wird dieser vorgelesen. Das funktioniert blitzschnell und lässt sich für Klingel- oder Türschilder ebenso gut nutzen, wie für alle möglichen Dinge im Haushalt: Ist das die Dose mit Tomaten oder war es doch das Hundefutter? Ist der Brief, der im Briefkasten lag, an mich adressiert oder an den Mitbewohner?

Sehr kleiner Text, z. B. die Inhaltsstoffe auf Produktverpackungen, wird nur noch schlecht oder gar nicht mehr erkannt. Strassenschilder wurden im Test bis zu einer Entfernung von ungefähr 3 m erkannt und vorgelesen. Die wirkliche Stärke dieser Funktion liegt aber eindeutig im Vorlesen auf nahe Distanz. Über eine Schaltfläche im rechten unteren Kamerafenster lässt sich die Sprache ändern

Envision AI – Lesen/Sofort

Ich konnte im Test keine wesentlichen Unterschiede zur App von Microsoft feststellen. Praktisch: in der linken oberen Ecke lässt sich über ein Lupensymbol noch ein Schieberegler einblenden, mit dem ein Objekt – z. B. ein Strassenschild – näher herangeholt werden kann. In der Mitte oben kann die Erkennungssprache ausgewählt werden. Rechts oben lassen sich diverse Einstellungen vornehmen, u.a. lässt sich hier die Zusatzfunktion „automatische Spracherkennung“ aktivieren.

Dokumentenerkennung

Seeing AI – Dokument

Diese Funktion ist für das Erkennen und Lesen ganzer Dokumente gedacht. Eine Internetverbindung wird benötigt. Die App gibt über die Sprache Auskunft, ob die Seitenränder eines Dokumentes vollständig sichtbar sind, so dass man als Blinder auch ohne Leseständer eine DIN A4 Seite ganz erfassen kann. Sobald alle Ränder sichtbar sind, bittet die App darum, die Kamera stabil zu halten und löst dann automatisch aus. Die Texterkennung ist auch in der Lage, ein auf dem Kopf stehendes Dokument sauber und schnell zu erkennen. Beipackzettel, die nicht zu sehr zerknittert sind, können in der Regel noch gelesen werden. Bei Schriftgrössen darunter lässt die Erkennung schnell nach.

Erkannter Text lässt sich exportieren. Einfach strukturierte Dokumente stellen für die Erkennung kein Problem dar. Auch eine Spaltenerkennung ist vorhanden. Genau die macht aber z. B. bei Rechnungen o.ä. Probleme, wenn die Abstände zwischen zwei Informationen zu gross sind. So wurden im Test die untereinanderstehenden Begriffe Datum, Kundennummer und

Rechnungsnummer als eine Spalte erkannt und die zugehörigen Werte als zweite Spalte, mit dem Ergebnis, dass die Informationen auseinandergerissen wurden. Fairerweise sollte aber erwähnt werden, dass die 100 Euro teure App OneStep Reader damit genauso Probleme hat.

Envision AI – Lesen/Scan

Die Texterkennung läuft fast identisch ab, inklusive der Sprachinfo zu den Seitenrändern. Auch die Qualität der Erkennung ist vergleichbar. Im Gegensatz zur App von Microsoft wird keine Internetverbindung benötigt. Was die App auch deutlich besser kann, ist die Aufbereitung des erkannten Textes. Während die App von Microsoft die gesamte Seite ohne erkennbare Absätze oder Leerzeilen zu einem Text zusammenstaucht, behält Envision AI im Grossen und Ganzen Absätze und Leerzeilen bei. Für Nutzer/-innen, die noch visuell arbeiten ist das definitiv ein Plus. Ausserdem bietet die App eine Änderungsmöglichkeit bei der Textdarstellung (Schriftgrösse), Anpassungsmöglichkeiten der Sprachausgabe (Geschwindigkeit, Stimme) und mehr Exportfunktionen. Sogar ein Batchmodus steht zur Verfügung, mit dem mehrere Seiten nacheinander erkannt und in ein Dokument gepackt werden können.

Tipp: Eine möglichst neutrale Unterlage mit gutem Kontrast wählen, also eine einfarbige dunkle Unterlage, da Dokumente in der Regel hell sind.

Barcodeerkennung

Seeing AI – Produkt

Hier besteht zunächst die Schwierigkeit, den Barcode in der richtigen Entfernung vor die Kamera zu halten. Ist die Kamera zu nah, dann wird die Erkennung nicht ausgelöst. Eine Hilfe wie bei der Dokumentenerkennung gibt es keine. Je nach Grösse des Barcodes oder Position gelingt es einem auch sehenderweise nicht die App zum Auslösen zu bewegen. Zudem scheinen nur Produkte von grossen Herstellern in der Datenbank zu sein. Von acht wahllos getesteten Produkten aus der Wohnung (Creme, Zahnpasta, Milch, Joghurt, Saft, Nudeln, Erdnüsse, Schokolade) wurden zwei nicht erkannt. Bei den anderen wurde zwar der Packungsinhalt korrekt angegeben, aber auch unter der Schaltfläche „Weitere Informationen“ rechts wurden kein einziges Mal der Hersteller genannt. Eventuell hat dies rechtliche Gründe. Immerhin fanden sich aber unter der Schaltfläche „Weitere Informationen“ sehr detailliert die Inhaltsstoffe aufgelistet.

Envision AI – Identifizieren/Barcode Scannen

Das Testergebnis war etwas schlechter: drei der zehn Produkte wurden nicht erkannt, darunter auch die Milch. Dafür wurde der Produkthersteller genannt. Die Erfassung des Barcodes schien mir noch etwas schwieriger.

Wenig komfortabel: bei der Betätigung der Schaltfläche „Weitere Infos“ wird man auf die Google-Suchmaschine weitergeleitet. Man muss sich also die Infos, wie z. B. die Inhaltsstoffe, im Internet selber zusammensuchen.

Personenerkennung

Seeing AI – Person

Anzahl und Entfernung der Personen, die sich im Sichtbereich der Kamera befinden, werden von der App angesagt. Bei Einzelpersonen wird teilweise auch der Gesichtsausdruck, das Geschlecht und das ungefähre Alter mit angegeben. Wenn man diesbezüglich empfindliche Schulungsteilnehmer/-innen hat, sollte man die Funktion eventuell nicht testen, denn die App kann einen im wahrsten Sinne des Wortes alt aussehen lassen. Ich wurde von der App um 11 Jahre verjüngt. Die Genauigkeit der Ergebnisse und auch die ausgegebenen Zusatzinfos variieren sehr stark.

Im Kamerafeld befindet sich links unten eine Schaltfläche zur Gesichtserkennung. Hiermit lassen sich Fotos einer Person machen, denen dann ein Name zugeordnet werden kann. Damit ist die App zukünftig in der Lage, den Namen der Person anzusagen, wenn diese in den Sichtbereich der Kamera kommt.

Envision – Finden/Personen Finden

Die App informiert über Vibration und einen kurzen hellen Ton, wenn eine Person in das Sichtfeld der Kamera kommt.

Envision – Finden/Trainiere Envision

Über diese Schaltfläche kann wie bei Seeing AI eine Person mit Namen abgespeichert werden.

Geldscheinerkennung

Seeing AI – Währung

Es lassen sich Geldscheine verschiedener Währungen erkennen. Im rechten unteren Bereich des Kamerafensters kann man über eine Schaltfläche die Währung ändern. Es wird immer nur die gerade eingestellte Währung erkannt. Die Erkennung funktioniert bei allen vier getesteten Währungen (Euro, Dollar, Pfund, Naira) hervorragend. Die Auswahl, die sich in der Liste der Währungen befindet, ist etwas kurios. So befinden sich keine Schweizer Franken darunter, dafür aber zum Beispiel Nigerianische Naira. Da ich Familie in Nigeria und deshalb Naira Geldscheine Zuhause herumliegen habe, konnte ich so aber zumindest die Erkennung einer eher exotischen Währung testen.

Envision bietet diese Funktion nicht an.

Szenenerkennung

Seeing AI – Szene

Diese Funktion wird noch als experimentell ausgewiesen. Nach der manuell auszulösenden Aufnahme eines Fotos wird die Szene beschrieben. Dies funktioniert trotz des experimentellen Status zwar erstaunlich gut, aber die Infos sind nur sehr rudimentär: Ein Haus, das sich im Bau befindet. Ein Parkplatz mit Autos. Wahrscheinlich eine Strasse mit Büschen.

Envision – Szene beschreiben

Die Aufnahme wird automatisch ausgelöst, sobald die Kamera ruhig gehalten wird. Ansonsten trifft die Beschreibung von oben zu.

Objekterkennung

Seeing AI – Welt Vorschau

Der Begriff „Vorschau deutet auf den experimentellen Status hin.

Scannt man mit dem Smartphone langsam die Umgebung ab, so listet die App alle erkannten Gegenstände auf. Je nachdem, wie dicht die Gegenstände nebeneinander platziert sind bzw. auch wie viele Gegenstände im Raum sind, bekommt man dabei sehr viele Informationen auf einmal. Der Einsatz eines Kopfhörers ist hilfreich, denn dann werden die Objekte entsprechend ihrer Lage akustisch angeordnet, also die Tasse links auf dem Tisch wird dann auch links im Kopfhörer angesagt. Über die Schaltfläche rechts unten im Kamerafenster kann man sich eine Zusammenfassung aller erkannten Objekte anhören. So kann man sich in der Wohnung z. B.  einen Überblick verschaffen, was die Kinder wieder alles auf dem Esstisch abgestellt haben.

Richtig cool ist über die gleiche Schaltfläche die Platzierung eines Audiobeacons. In einer Liste kann man ein erkanntes Objekt auswählen und auf dieses Objekt eine Art Marker setzen. Bei einem erneuten Scan ertönt dann ein heller Ton, sobald das markierte Objekt genau im Fokus der Kamera ist.

Auch toll: Über eine Schaltfläche links unten im Kamerafenster lässt sich der Näherungssensor aktivieren. Nun kann man Objekte oder Hindernisse durch stärker werdende Vibration des Smartphones bei Annäherung lange vor einer Berührung erkennen.

Envision – Finden/Objekte Finden

Es gibt eine vorgefertigte Liste von Objekten, z. B. Tasse, Zahnbürste, Telefon oder Bus. Sobald man eine Auswahl getroffen hat und einen Scan beginnt, vibriert die App und gibt einen hellen Ton aus, wenn das gewünschte Objekt in den Fokus der Kamera kommt.

Leider können beide Apps (noch) keine Schlüssel identifizieren. Der testweise auf dem Esstisch abgelegte Haustürschlüssel wurde ignoriert. Das Mobiltelefon dagegen wurde gefunden.

Tipp: den Winkel beim Scan nicht zu steil wählen und Objekt eher etwas von der Seite kommend scannen. Das erhöht die Erkennung deutlich.

Farberkennung

Seeing AI – Farbe / Envision – Identifizieren/Farben Erkennen

Diese Funktion liefert nur bei Tageslicht oder bei kaltem, hellem Kunstlicht einigermassen brauchbare Ergebnisse. Die eigenständige App ColorVisor funktioniert da deutlich besser.

Handschriftenerkennung

Seeing AI – Handschrift

Bei leserlichen Handschriften wird eine erstaunlich gute Erkennung erzielt. Auch Fahrplananzeigen lassen sich damit erkennen. Eine Internetverbindung ist nötig.

Envision bietet keine derartige Funktion.

Lichtsensor

Seeing AI – Licht

Mit dieser Funktion lassen sich Lichtquellen identifizieren. Bei zunehmender Helligkeit steigt die Tonhöhe. Eine blinde Person kann so z. B. überprüfen, ob eine Kerze oder eine Leuchte im Zimmer noch brennt.

Sonstiges

Bei Seeing AI lassen sich über die Einstellungen die einzelnen Funktionen in der Reihenfolge ändern oder nicht genutzte Funktionen ausblenden.

Fazit

Vor allem die Texterkennung beider Apps und die Geldscheinerkennung von Seeing AI stellen ein echtes Hilfsmittel im Alltag dar und das zum Nulltarif. Bei der Objekterkennung ist zwar noch Entwicklungsarbeit nötig, aber vermutlich wird es hier auch weiterhin grosse Sprünge geben. Schon jetzt gibt es bei beiden Apps sehr spannende Ansätze.

Autor

Julian Iriogbe

Dieser Artikel wurde in den folgenden Kategorien veröffentlicht: