Unlocking the value in video

Jeff Bier’s Embedded Column: Deep neural networks

Today, billions of hours of video are collected each year, but most of it is never used, because we don’t have a practical way to extract actionable information from it. A new generation of computer vision solutions, powered by deep neural networks, will soon change this, unleashing the tremendous value that’s currently locked away in our video files.
As a kid in the late 1970s, I remember some of the early consumer video cameras. They were very big, very heavy, and very expensive. In the subsequent 40 years, the electronics industry has done an admirable job of making video capture usable and accessible to the masses. Today, any smartphone can shoot HD video, and a good consumer camcorder costs around $250. „Action cams,“ meant for mounting on a helmet or handlebars, sell for less than $100. You can even buy a drone with good video recording capabilities for a few hundred dollars. So capturing video is now cheap and easy, and, these days we capture lots of video. I’ve accumulated at least 100 hours of recordings of family events. And I keep recording more. But it started to feel pointless when I realized that in all probability, no one would ever watch these recordings. Let’s face it, most of us are not very talented videographers and don’t have the time, skills, or motivation to edit the footage we capture. So, the content piles up. Maybe 1% of it is really worth watching, but which 1%? As a technology enthusiast, I held out hope that someday, technology would arrive that would make my home-video archive accessible. „Show me clips of Cousin Fred laughing at a birthday party,“ I’d command, and the relevant clips would magically appear. But as I’ve learned about computer vision algorithms over the past few years, I’ve realized how difficult a problem this is. Just considering one aspect of the problem – identifying people – the complexity is daunting. A face can be very close to the camera, or at a distance. It can be looking straight at the camera, or off at an angle. People may be wearing sunglasses or hats. They may be in shadows or backlit. And, of course, a really powerful video-indexing system would not only recognize people, it would also understand what activities they’re engaged in, what their emotional states are, and what kind of setting they’re in. With conventional computer vision techniques, this is a really tough problem, the kind that could consume hundreds of man-years of engineering effort and still not yield a robust solution. So, maybe, I thought, I should just stop capturing video. More recently, though, researchers have shown that deep neural networks are well suited for this type of task. Unlike traditional computer vision algorithms, which are based on intricate procedures formulated by engineers to tease apart one type of image from another, deep neural networks are generalized learning machines, which learn how to distinguish objects (and other things, like emotions) through a training procedure that exposes them to numerous examples. This extensive training helps make neural networks robust in the face of variations in inputs. It will likely be a few years, at least, before video indexing solutions based on deep learning are reliable enough to be attractive for typical applications. But it seems inevitable that they will arrive. And when they do, they’re going to unlock huge value. Because it’s not only the billions of hours of home videos that will get indexed, but also, for example, the video from the security camera in front of my home – which might help my neighbor find his lost dog. And the video from the camera in my neighborhood coffee shop, which will help the owner optimize her staffing schedule based on customer traffic. If you’re interested in learning about deep neural networks and other computer vision topics, I invite you to join me at the Embedded Vision Summit on May 2-4 in Santa Clara, California. This event, an educational forum for product creators interested in incorporating visual intelligence into electronic systems and software, is organized by the Embedded Vision Alliance.

Anzeige

Das könnte Sie auch interessieren

Wie können komplette 3D-Daten erfasst, interne Defekte in Gussteilen erkannt und sogar deren 3D-Koordinaten bestimmt werden? Das Unternehmen Carl Zeiss Industrielle Messtechnik GmbH hat ein informatives Video veröffentlicht, in dem die Inline-Prozessinspektion mit dem Zeiss VoluMax in der Leichtmetallgießerei am BMW-Produktionsstandort Landshut veranschaulicht wird.

Anzeige

Klassische Wärmebildkameras benötigen einen mechanischen Shutter, mithilfe dessen ca. alle 2 bis 3 Minuten Referenzdaten zur Kalibrierung der Wärmebilddarstellung und der Temperaturmessung aufgenommen werden. Jedoch erzeugt das Schließen des Shutters ein Geräusch und die Videoaufzeichnung ist während dieser Zeit unterbrochen. Daher hat Tamron nun ein Shutter-loses Wärmebildkameramodul auf Basis eines amorphen Silikonwärmebildsensors entwickelt. Dieser Sensor verfügt über eine exzellente Temperaturwiedergabe selbst wenn sich seine eigene Temperatur verändert.

www.tamron.eu

Der Industriescanner VTCIS ist in der Lage, im Druckbild fehlende Nozzles bei einer Auflösung von 1.200dpi automatisch zu detektieren. Da der CIS (Compact Image Sensor) nicht das komplette Bild einzieht, sondern nur bestimmte Bereiche scannt, wird die Datenverarbeitung vereinfacht und die Datenmenge deutlich reduziert. Außerdem garantiert die integrierte Flüssigkeitskühlung Farbstabilität über den gesamten Druckprozess hinweg und schließt Farbabweichungen aus. Dank einer Zeilenrate von bis zu 250kHz und einer Abtastgeschwindigkeit von bis zu 20m/s ist der Scanner für sehr schnell laufende Druckprozesse bestens geeignet.

www.tichawa.de

Die neuesten Versionen der 3D-Kameras für Lasertriangulation erreicht Triangulationsraten von bis zu 68kHz. Die Kamera basiert dabei auf einem 2/3″ Hochgeschwindigkeitssensor von Cmosis, der auch bei schwachen Lichtverhältnissen eine hervorragende Leistung erbringt. Als Schnittstelle verwendet die 3D05 das standardisierte GigEVision-Interface. Für eine einfache Integration und Synchronisierung besitzt die Kamera eine komplette, in die Kamera integrierte Drehgeberschnittstelle (RS422 und HTL). Das HTL-Interface ermöglicht dabei auch einen stabilen und effizienten Einsatz in der Schwerindustrie oder Bereichen mit starken elektrischen Störquellen.

www.photonfocus.com

Sensoren bis zu 1/1.2 und 1″ wurde die HF-XA-5M Objektivserie von Fujinon entwickelt. Die Objektive erreichen eine konstant hohe Auflösung von 5MP über das gesamte Bildfeld – bei einem Pixelabstand von 3,45µm. Dies gilt bei offener Blende ebenso wie bei verschiedenen Arbeitsabständen. Mit 29,5mm Außendurchmesser eignen sich die Objektive für platzkritische Anwendungen.

www.polytec.de

Die Messsoftware Wave ist für den hochpräzisen Wegmesssensor IDS3010. Damit können Messdaten in Echtzeit analysiert, verarbeitet und ausgewertet werden. Die Software verfügt über verschiedene Funktionen zur Visualisierung und Analyse von Daten, beispielsweise können die angezeigten Messdaten vergrößert/verkleinert werden oder die Datenvisualisierung kann gestoppt werden, um bestimmte Zeitbereiche zu analysieren. Außerdem ist eine Live Fast-Fourier-Transformation von Messwerten implementiert.

www.attocube.com

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige