Kann sich ein Computer den gesunden Menschenverstand beibringen?

In der nicht allzu fernen Vergangenheit würde der Vorschlag, dass ein Computer „gesunden Menschenverstand“ demonstrieren könnte, als Oxymoron angesehen. Supercomputer wie Watson von IBM können jedoch neue Rollen für Computer bedeuten.

Derzeit führen Forscher der Carnegie Mellon University rund um die Uhr ein Computerprogramm durch, um Daten zu erfassen und sich in großem Umfang den gesunden Menschenverstand beizubringen.

Das Programm heißt "Never Ending Image Learner" (NEIL), da die Software das Web nach Bildern durchsucht, ihr Bestes tut, um sie selbst zu verstehen, und beim Aufbau einer wachsenden visuellen Datenbank den gesunden Menschenverstand in großem Umfang sammelt.

NEIL nutzt die jüngsten Fortschritte in der Bildverarbeitung, die es Computerprogrammen ermöglichen, Objekte in Bildern zu identifizieren und zu kennzeichnen, Szenen zu charakterisieren und Attribute wie Farben, Beleuchtung und Materialien mit einem Minimum an menschlicher Aufsicht zu erkennen.

Die von ihm erzeugten Daten verbessern wiederum die Fähigkeit von Computern, die visuelle Welt zu verstehen.

NEIL hat gegenüber früheren Robotergeräten erhebliche Fortschritte erzielt, da es Assoziationen zwischen Dingen herstellen kann, um Informationen über den gesunden Menschenverstand zu erhalten. Informationen, die die Leute fast intuitiv kennen - dass Autos oft auf Straßen zu finden sind, dass Gebäude eher vertikal sind und dass Enten wie Gänse aussehen.

Basierend auf Textreferenzen scheint es, dass die mit Schafen verbundene Farbe schwarz ist, aber die Menschen - und jetzt NEIL - wissen dennoch, dass Schafe normalerweise weiß sind.

"Bilder sind der beste Weg, um visuelle Eigenschaften zu erlernen", sagte Abhinav Gupta, Ph.D., Assistenzprofessor am Robotics Institute von Carnegie Mellon.

„Bilder enthalten auch viele Informationen über die Welt mit gesundem Menschenverstand. Die Leute lernen das selbst und mit NEIL hoffen wir, dass dies auch Computer tun. “

Ein Computercluster führt das NEIL-Programm seit Ende Juli aus und hat bereits drei Millionen Bilder analysiert, wobei 1.500 Arten von Objekten in einer halben Million Bildern und 1.200 Arten von Szenen in Hunderttausenden von Bildern identifiziert wurden.

Es hat die Punkte verbunden, um 2.500 Assoziationen aus Tausenden von Instanzen zu lernen.

Eine Motivation für das NEIL-Projekt ist die Schaffung der weltweit größten visuell strukturierten Wissensbasis, in der Objekte, Szenen, Aktionen, Attribute und Kontextbeziehungen gekennzeichnet und katalogisiert werden.

"Was wir in den letzten 5 bis 10 Jahren der Computer Vision-Forschung gelernt haben, ist, dass je mehr Daten Sie haben, desto besser wird Computer Vision", sagte Gupta.

Einige Projekte wie ImageNet und Visipedia haben versucht, diese strukturierten Daten mit menschlicher Unterstützung zusammenzustellen.

Das Ausmaß des Internets ist jedoch so groß - allein Facebook enthält mehr als 200 Milliarden Bilder -, dass die einzige Hoffnung, alles zu analysieren, darin besteht, Computern beizubringen, dies größtenteils selbst zu tun.

Die Leute sagen NEIL auch, welche Kategorien von Objekten, Szenen usw. gesucht und analysiert werden sollen. Aber manchmal kann das, was NEIL findet, sogar die Forscher überraschen.

Es ist beispielsweise zu erwarten, dass bei der Suche nach „Apfel“ sowohl Bilder von Früchten als auch von Laptops zurückgegeben werden. Aber Gupta und sein Team, alle Landratten, hatten keine Ahnung, dass eine Suche nach F-18 nicht nur Bilder eines Kampfjets, sondern auch Katamarane der F18-Klasse identifizieren würde.

Während der Suche entwickelt NEIL Unterkategorien von Objekten - Dreiräder können für Kinder, für Erwachsene und motorisiert sein oder Autos sind in verschiedenen Marken und Modellen erhältlich.

Und es fängt an, Assoziationen zu bemerken - dass Zebras zum Beispiel in Savannen zu finden sind und dass Aktienhandelsflächen normalerweise überfüllt sind.

Bevor NEIL zu einem bekannten Namen werden kann, muss die Skalierung reduziert werden, da NEIL rechenintensiv ist und das Programm auf zwei Computerclustern mit 200 Prozessorkernen ausgeführt wird.

Quelle: Carnegie Mellon University

!-- GDPR -->