Anzeige
Anzeige
Anzeige

Gamer for Vision

Crowdsourcing für die Bildverarbeitung

Ein wichtiges Thema bei autonomen Fahrzeugen ist das Machine Learning. Hunderttausende von Beispielen aus einem sogenannten Trainingsdatensatz werden einem Algorithmus präsentiert, von denen er selbstständig lernt, wie z.B. ein Fußgänger, eine Ampel oder eine Dampfwalze aussieht. Die Herausforderung besteht darin, den Datensatz möglichst vielfältig zu gestalteten, damit alle Situationen optimal abgedeckt sind. Anschließend validiert man mit einem noch viel größeren Testdatensatz das Ergebnis: wie viele falsche (oder fehlende) Fußgänger liefert das System?
Damit ein autonomes Auto als sicher gilt, muss es – je nach Schätzung der Experten – zwischen 16 und 240Mio. Kilometer unfallfrei gefahren sein. 16Mio. Kilometer im Stadtverkehr bei durchschnittlich 40km/h entsprechen 400.000h Fahrzeit. Für ein Stereosystem, das 30fps aufnimmt, entspricht das 86,4Mrd. Bildern. Selbst wenn man pro Minute nur ein Bild als Trainings- oder Testbild verwendet, müssen auf 48Mio. Bildern Schilder, Fahrbahnmarkierungen, Fußgänger und andere Hindernisse durch Einzeichnen von Konturen annotiert werden. Aktuelle Forschungen im Transfer-Learning zeigen, dass dies teilweise sogar automatisiert werden kann. Sicher ist aber: die zu bewältigende manuelle Arbeit bleibt enorm. Die Herausforderung besteht nicht nur in der Automobilbranche. Vergleichbare Datenmengen fallen auch in der bildgebenden Medizintechnik, der Mixed/Augmented Reality, der Filmindustrie, der Satellitenfernerkundung und nahezu jeder anderen bildverarbeitenden Industrie an.

Amazon als Vorreiter

Peter Cohen hat als einer der Ersten einen Lösungsansatz für das Problem erkannt. Als Mitarbeiter von Amazon entwickelte er zwischen 2003 und 2008 das Produkt Amazon Mechanical Turk (MTurk), eine Webplattform auf der Menschen zu Beginn Doubletten von Produktbeschreibungen suchen sollten. Heute ist MTurk bekannt als eine der ersten sogenannten Crowdsourcing-Webseiten, auf der Arbeitssuchende (die Crowd) und Arbeitgeber (Requester) zusammengebracht werden, um ‚Fließbanddatenarbeit‘ wie z.B. oben beschriebene Annotation zu erledigen. Allerdings funktioniert das Arbeitgeberprinzip hier anders als gewohnt: man stellt Aufgaben auf die Plattform, die von jedem Interessenten gelöst werden können. Diese arbeiten freiwillig und bekommen pro Aufgabe eine kleine Summe Geld. Der Arbeitgeber kann sich aber weder darauf verlassen, dass seine Aufgaben mit guter Qualität bzw. überhaupt gelöst werden. Dafür steht aber ein dynamischer, rund um die Uhr verfügbarer und relativ kostengünstiger Pool an Arbeitern zur Verfügung. In der Bildverarbeitung hat Luis van Ahn ab 2006 die wissenschaftliche Welt mit seinem ESP Game aufgemischt. Ähnlich wie bei MTurk entwickelte er ein Spiel, bei dem Menschen den Inhalt eines Bildes beschreiben sollten. Damit die Korrektheit sichergestellt wurde, mussten in Anlehnung an Experimente zur außersinnlichen Wahrnehmung (engl. ESP) zwei unabhängige Personen auf die gleichen Begriffe kommen, um maximal viele Punkte zu erhalten. Die Idee wurde schnell von Google gekauft – ebenso wie ReCaptcha, eine weitere Idee van Ahns. Heute existieren zahlreiche Firmen, die viele unterschiedliche Varianten des Crowdsourcing anbieten. Eine Übersicht findet man unter www.crowdsourcing.org.

Sechs Jahre Arbeit/Tag durch Gamer

Speziell in der Bildverarbeitung stellt sich heraus, dass sich die meisten Probleme mit Textlabels, Boxen, Konturen oder Korrespondenzen lösen lassen. Kann ein Computer diese noch nicht automatisch erkennen, sorgt seit Kurzem die Pallas Ludens GmbH für Ergebnisse. Die Firma hat sich der Aufgabe verschrieben, automatische Bildverarbeitungsmethoden von der Segmentierung über den optischen Fluss bis hin zur photogrammetrischen 3D-Rekonstruktion überall dort mit menschlicher Intuition anzureichern, wo diese Verfahren bis dato versagen. Kunden wie z.B. Daimler oder Zeiss senden bereits Bildmaterial an die Firma, wo die Daten in automatisch erzeugbare Ergebnisse zerlegt und in durch Menschen intuitiv lösbare Miniaufgaben umgewandelt werden. Die manuellen Ergebnisse fließen so in die Algorithmen ein, dass optimale Ergebnisse garantiert werden können. Die Aufgaben werden allerdings nicht nur in Crowdsourcing-Plattformen verarbeitet. Stattdessen tauchen sie auch in Computerspielen auf, wie z.B. jenen der Firmen Bigpoint und plinga. Spieler, die sich einen besonderen Gegenstand, ein Level-Up oder einfach nur einen Haufen Gold kaufen möchten, müssen ab sofort nicht mehr mit Geld bezahlen – alternativ können sie einige Minuten lang Bilder annotieren. Nach Lösung der Aufgabe kehren die Gamer zurück ins Spiel, wo eine virtuelle Belohnung auf sie wartet. In Zukunft will man nicht nur in Spielen als Zahlungsmittel fungieren – denkbar ist jede Art von digitalem Content von Musik über Filme bis hin zu Zeitschriftenabonnements. So können bereits jetzt schon bis zu sechs Personenjahre an Arbeit pro Tag von Spielern erledigt werden.

Anzeige

Empfehlungen der Redaktion

Das könnte Sie auch interessieren

Wo andere Messmikroskope nur 1/2″ oder 2/3″-Bildsensoren unterstützen, gestatten die hochpräzisen Wide-Field Video Microscope Units (Wide VMU) die Verwendung von Kameras im APS-C-Format (22,2×14,8mm). Dies ermöglicht ein über siebenmal größeres Bild zur Inspektion. ‣ weiterlesen

www.mitutoyo.de

Anzeige

Die monochrome GigE-Kamera Hawk erzielt bei einer Bildauflösung von 1MP bis zu 100fps. Durch Nutzung der 12/16Bit Datenübertragung kann der volle Dynamikumfang des CCD-Sensors genutzt werden. Selbst bei einer 8Bit Datenübertragung kann durch die integrierte Gamma-Funktion eine höhere Dynamik erreicht werden, wodurch eine erneute Bildaufnahme mit anderer Belichtungszeit überflüssig und somit die Verarbeitungsgeschwindigkeit erhöht wird. ‣ weiterlesen

www.goepel.com

Anzeige

Mit Einführung der Kameras DP27 (5MP) und DP22 (3MP) präsentiert Olympus die nächste Generation digitaler Kameras für die Mikroskopie. Beide Kameras liefern ein detailliertes Full-HD-Live-Bild über eine USB-3.0-Schnittstelle mit einer Bildrate von 30fps (DP22) bzw. 22fps (DP27). Je nach den individuellen Erfordernissen hat der Nutzer die Wahl zwischen einem High-Fidelity-Modus für Bilder in Okular-ähnlicher Qualität sowie einem Normal-Modus mit optimierter Farbwiedergabe, der ideal für schwach gefärbte Proben geeignet ist. ‣ weiterlesen

www.olympus-ims.com

Bei dem kontaktfrei arbeitenden Display-Charakterisierungssystem VCProbe wird der Messkopf durch einen Roboterarm geführt und folgt den unterschiedlichen Displayoberflächen. Möglich sind Vermessungen von 2 bis zu 150Zoll-Bildschirmen. Dabei können Parameter wie Farbe, Kontrast, Reflexionsgrad, Polarisation und Strahldichte in einer Winkelauflösung von 0,5°-Schritten bei Einfallswinkeln von 0 bis 80° erfasst werden und dies bei Geschwindigkeiten von unter 2sec/Messpunkt. ‣ weiterlesen

www.polytec.de

Anzeige

Die AttoMap Software stellt spektroskopische Daten, die mithilfe von Kathodolumineszenz (KL)-Technologie aufgenommen wurden, in 3D dar. Die KL-Technologie integriert ein Rasterelektronenmikroskop und ein Lichtmikroskop in einem hochauflösenden spektroskopischen Instrument. ‣ weiterlesen

www.digitalsurf.fr

Anzeige

Laut einer aktuellen Studie von MarketsandMarkets steigt der Markt für Produkte und Services im Bereich non-destructive Testing (NDT) von 3,77Mrd. USD im Jahr 2013 bis auf 6,88Mrd. USD im Jahr 2020. NDT fasst verschiedene Techniken wie Ultraschall, Thermographie oder Wirbelstrom-Prüfgeräte zusammen. ‣ weiterlesen

www.marketsandmarkets.com

Anzeige
Anzeige
Anzeige