Fabrik der Zukunft - Offene Datenquellen für die industrielle KI

Beim Start eines neuen Projekts (Fabrik der Zukunft), das die Fähigkeiten einer Produktionsanlage mithilfe von künstlicher Intelligenz verbessern soll, lautet die häufig gestellte Frage: "Ist das machbar?". Künstliche Intelligenz in einem industriellen Kontext erfordert eine Menge Daten, um die zugrunde liegenden Algorithmen zu trainieren. Systeme, die in Betrieb sind, generieren Daten. Häufig sind diese Daten jedoch gekapselt oder die Datenbanken sind nicht verbunden. Sie sind möglicherweise für das Team, das die KI in das Unternehmen bringen soll, nicht verfügbar, wo ihre eigenen Daten für den Bau solcher Systeme nicht zur Verfügung stehen. Und unter Zeit- und Budgetdruck steht das Entwicklungsteam vor der Frage, wie es an die Trainingsdaten herankommt.

Es scheint, als würden wir lieber von Fehlern hören, als Erfolge zu feiern. Obwohl die Technologien der künstlichen Intelligenz unser Leben verändert haben - zu Hause und am Arbeitsplatz - konzentrieren sich viele Medienberichte der letzten Zeit auf die Fehler intelligenter Geräte - von enttäuschenden Gadgets, die auf der CES ausgestellt wurden, bis hin zu fehlerhaften Hotelrobotern. Einige der Geschichten sind sehr lustig, aber alles, was sie uns sagen, ist, dass sich die Technologie noch in der Entwicklung befindet und dass einige Produkte besser konstruiert sind als andere.

Warum sind Datenquellen für den Start mit KI entscheidend?

Vorhersagesysteme, vollautomatische Systeme und Systeme zur Wissensentdeckung erfordern das Vorhandensein von richtig geformten Daten. Und die Qualität der Daten definiert die von KI-Systemen gelieferten Betriebsergebnisse. Wenn Sie nicht über genügend nützliche Daten verfügen, sind Ihre Trainingsergebnisse oft schlecht. So ist die KI nicht in der Lage, die erforderlichen Abstraktionen aufzubauen, und im Folgenden könnte sie kein KI-System schaffen, das herausragende Ergebnisse liefert. Trotz einiger Methoden des verstärkten Lernens, die nicht viele Daten benötigen, benötigt die künstliche Intelligenz des "deep learning" große Mengen an beschrifteten Daten.

Der Prozessfluss der Daten von der Ausbildung bis zum Betrieb

1. Schritt:

Im Kontext einer Fabrik der Zukunft müssen Sie den allgemeinen Arbeitsablauf bei der Erstellung einer brauchbaren KI berücksichtigen. Im ersten Schritt müssen Sie Zugang zu relevanten historischen Daten haben, die in Form von Dateien oder Datenbanken vorliegen können, die die benötigten Informationen enthalten. In der Welt der Datenwissenschaft wird die vollständige Sammlung der im ersten Schritt verfügbaren Daten als Data lake bezeichnet. Der Data lake enthält sowohl unstrukturierte als auch strukturierte Daten. 

Im Allgemeinen ist das Format der Daten im Data Lake ein Rohformat. Das bedeutet, dass es keine Vorverarbeitung der Daten gibt, die aus verschiedenen Quellen eingehen. Sensoren und historische Aufzeichnungen liefern uns die Datensammlung. Dabei handelt es sich nicht nur um gemessene Daten, sondern auch um Daten aus Quellen wie Bildern, Video oder Audio.

2. Schritt:

Im nächsten Schritt werden die Daten in einem Vorverarbeitungsschritt bearbeitet. Hier werden die Daten untersucht. Sie werden visualisiert, damit Fachexperten die Qualität der Daten beurteilen können. Anschließend könnten sie bereinigt und reduziert werden, so dass aus den Rohdaten aussagekräftigere Daten werden.

Diese Daten bilden die Grundlage für die Entwicklung von Vorhersagemodellen. Algorithmen des maschinellen Lernens werden in der Regel angewendet, um aus den Daten zu lernen. Ein Datenwissenschaftler kann z. B. Modelle für neuronale Netze auswählen, die nach dem Lernen an neuen, unbekannten Daten validiert werden müssen, und das Training wird überprüft. Die Trainingsphase umfasst mehrere Feedback-Zyklen, um zu sehen, ob die Ergebnisse des Trainings den Anforderungen entsprechen.

Der Arbeitsablauf des maschinellen Lernens in industriellen Anwendungen

Schließlich müssen die gebrauchsfertigen KI-Komponenten unternehmensweit integriert werden. Diese Integration erfolgt in zweifacher Hinsicht. Einerseits gibt es fortschrittliche KI mit eingebetteten Geräten und Hardwarelösungen, die die Maschinen vor Ort begleiten. Andererseits gibt es eine Integration in die Unternehmenssysteme in Form von Softwarekomponenten. Diese Softwaremodule sollen so angepasst werden, dass sie sich in bestehende Betriebsabläufe einfügen.

Das Problem ist nicht zu wenig Daten, sondern zu viele Daten

Aber wo finden Sie all diese Daten, um Ihre neuronalen Netze zu trainieren? Da Daten das neue Öl der heutigen Welt zu sein scheinen, könnten Sie erwarten, dass Sie auch außerhalb Ihres eigenen Unternehmens Datenquellen finden. Industrieunternehmen behalten ihre Werte und Daten für sich. Es gibt jedoch auch andere Branchen, insbesondere IT-Unternehmen, die die gleiche Phase durchlaufen haben, in der sie ihre Daten und Quellcodes für sich behalten. Und selbst eine kleine Anzahl von Unternehmen tut dies immer noch. 

So hat der Open-Source-Ansatz in den letzten Jahren einen unvorstellbaren Erfolg erlebt. Selbst sehr proprietäre Unternehmen wie Microsoft oder Google nutzen Open Source. Die gemeinsame Nutzung schafft neue Geschäftsmöglichkeiten und erhöht den Wert ganzer Branchen. So starten Industrieverbände und Konsortien Initiativen zur gemeinsamen Nutzung von Daten. Öffentlich finanzierte Aktivitäten und Forschung stellen eine weitere Quelle für kostenlose und offene Daten dar. Organisationen wie die NASA oder das CERN stellen viele wertvolle Daten zur Verfügung. Diese Datensätze werden für allgemeine Aufgaben und zum Testen neuer Algorithmen verwendet. Sie dienen als Referenz für die algorithmische Entwicklung. Wenn Sie im Internet nach Daten suchen, werden Sie von der Fülle der verfügbaren Daten überwältigt.

Leider kommt mit diesen Datenmassen auch ein Problem. Künstliche Intelligenz ist ein heißes Thema und jeder ist begierig darauf, mehr zu lernen. Daher ist es oft schwierig zu entscheiden, welche offenen Daten sich für Ihr Projekt eignen. Es gibt viele unstrukturierte Angebote, Daten von schlechter Qualität oder einfach nur schwach beschriebene Datensätze. KI wird in so vielen verschiedenen Bereichen eingesetzt und für so viele verschiedene Anwendungsfälle verwendet, dass es viele Datensätze gibt, die Ihren Bedürfnissen nicht entsprechen.

Offene und relevante Datenquellen für die industrielle künstliche Intelligenz

Wenn Sie sich die Kategorien der angewandten industriellen KI anschauen, werden Sie feststellen, dass Sie viele Produkte und Dienstleistungen mit KI versehen können. Auf diese Weise verbessern Sie die Erfahrungen Ihrer Kunden. Bei Fertigungswerkzeugen zum Beispiel verbessern Maschinen, die sich selbst diagnostizieren, die Gesamtleistung der Betriebsanlage. Sie steigern ihre Effizienz, Zuverlässigkeit und Sicherheit und erhöhen die Lebensdauer der Maschinen. Sie sehen ihre eigenen Abnutzungserscheinungen an den Tooltips wie Bohrmaschinen, Sägeblättern, Schweißwerkzeugen oder Zangen.

Die Automatisierung ist die zweite Anwendung, die Daten benötigt. Trendforscher bezeichnen dies als Hyperautomatisierung. Es verhilft der bereits bestehenden Automatisierung von Industrieprozessen zu einem weiteren Schub. Es macht Menschen überflüssig und verschiebt vernachlässigbare Veränderungen. Hier werden die Daten der Standards für autonomes Fahren und intelligente Robotik genutzt, um Fahrzeugen und autonomen Maschinen in der Industrie individuelles Training zu geben.

Ein dritter Bereich, in dem KI angewendet wird, ist die Wissensentdeckung für technische Systeme. Das Ziel hier ist es, mithilfe von KI die tieferen Ursachen von Problemen zu finden und Risiken zu beseitigen. Viele kritische Bereiche liefern über Sensoren und Verlaufsprotokolle zahlreiche Daten. Hier könnte die KI echte Informationen schaffen, die über die Erkennung von Anomalien und einfachen Ausfallmodi hinausgehen. Die KI könnte dann das Unerwartete vorhersagen. Sie findet Beziehungen zwischen ähnlichen Vorfällen in der Vergangenheit und den aktuellen Messwerten der Sensoren. So können Probleme bereits vor ihrem Auftreten vermieden werden.

Welche Daten benötigen Sie?

Mit diesen gegebenen Anwendungsfeldern können Sie nach relevanten, öffentlich verfügbaren Daten suchen. Da für viele industrielle Anwendungen große Mengen an Sensordaten benötigt werden, stehen diese Daten nicht immer zum direkten Herunterladen zur Verfügung. Manchmal müssen Sie über eine bestimmte API auf die Daten zugreifen. Diese API stellt eine Verbindung zu bestehenden Datenbanken her und ermöglicht es Ihnen, die Daten zu extrahieren und zu analysieren.

Die NASA

Ein Beispiel für verfügbare Sensordaten ist der von der NASA bereitgestellte Datensatz zur vorausschauenden Wartung von Turbotriebwerken. Er enthält die Sensordaten von 100 Triebwerken desselben Modells. Der Datensatz enthält vier verschiedene Sätze von Motordaten, die den Flugzeugtriebwerkssimulator C-MAPSS verwenden. Die Triebwerke wurden unter verschiedenen Betriebsbedingungen und Ausfallmodi getestet.

Diese Daten zu Zweistromtriebwerken stammen aus dem NASA Prognostics Centre of Excellence, PCoE. Diese Abteilung der NASA hat noch mehr offene Datensätze zur Verfügung. Sie präsentiert Datensätze von verschiedenen Universitäten, Agenturen oder Unternehmen. Diese chronologischen Daten helfen bei der Erstellung von prognostischen Algorithmen. Sie zeigen den Übergang von einem nominalen Zustand zu einem ausgefallenen Zustand. Es wurden viele verschiedene industrielle Aufgaben aufgenommen. Sie finden Daten zum Fräsen und Tests zu Lagern. Sie finden Daten zur Elektronik und zu Batterien.

Der NDR

Freiere und frei verfügbare Repositories gibt es in Großbritannien. Das National Repository for Oil and Gas Data des Vereinigten Königreichs, NDR, stellt 130 Terabyte an Offshore-Daten bereit. Es umfasst mehr als 12.500 Bohrlöcher, 5.000 seismische Vermessungen und 3.000 Pipelines. Diese Daten sind für jeden frei zugänglich. Das NRD ist jedoch nicht exklusiv für das Vereinigte Königreich. Diese Art von nationalen Datenrepositorien sind in vielen Ländern verfügbar und bieten offene Daten, einen offenen Regierungsansatz.

Die wertvollen Daten der Regierungen sind nicht auf die Öl- und Gasindustrie beschränkt. Auch der British Geological Survey stellt zahlreiche Datensätze zur Verfügung. Es bietet Echtzeitseismogramme und historische Daten von seinen über 100 seismografischen Stationen in ganz Großbritannien. Und über 525 zusätzliche Datensätze zu verschiedenen geologischen Themen.

Die wichtigsten Suchmaschinen für offene Daten

Der beste Weg, offene Datenquellen für Ihr KI-Projekt zu finden, sind spezielle Suchmaschinen, Kataloge und Aggregatoren. Mithilfe dieser Tools werden Sie in der Lage sein, schnell einen geeigneten Datensatz zu finden. Sie werden Sie durch den Dschungel der verfügbaren offenen Datenquellen führen. Wie bei der klassischen Suchmaschine können Sie einen Begriff eingeben, der dem entspricht, was Sie suchen, und die Suchmaschine zeigt Ihnen interessante Datensätze an.

Der Google-Datensatz

Die Google-Datensatzsuche, datasetsearch.research.google.com, bietet einen beeindruckenden Überblick über die kostenlos verfügbaren Datensätze. Sobald Sie Ihre Suche durchgeführt haben, liefert Ihnen das Ergebnis nicht nur den Link zum Repository. Es gibt Ihnen auch direkte Informationen darüber, welche Datenformate bereitgestellt werden und wie die Daten zugänglich sind. Dieses kürzlich veröffentlichte Tool umfasst etwa 25 Millionen öffentlich zugängliche Datensätze.

Re3data

Das Register für Forschungsdaten-Repositories, re3data.org, bietet eine umfassende Textsuche nach seinen verknüpften Repositories. Es verfügt über ein schönes grafisches Explorationswerkzeug unter "Suche nach Thema", um offene Daten zu finden. Für die Ingenieurwissenschaften gibt es jedoch nur wenige Ergebnisse. Außerdem führt Sie diese Suchmaschine nicht direkt zu den Daten. Sie schickt Sie lediglich zu den Repositories, von denen aus Ihre Suche weitergeht.

Kaggle

Darüber hinaus lohnt es sich, einen Blick auf die bekannte Plattform Kaggle zu werfen, da sie von Zeit zu Zeit industriebezogene Wettbewerbe veranstaltet. Es gibt auch eine neue Plattform namens Unearthed, die sich der Lösung von Herausforderungen der Datenwissenschaft im Zusammenhang mit den Konzepten Industrie 4.0 und Fabrik der Zukunft widmet.

Mit diesen Ausgangspunkten finden Sie schnell die richtigen offenen Daten. Offene Daten helfen Ihnen, direkt mit Ihrem Projekt zur industriellen künstlichen Intelligenz zu beginnen, und Sie müssen nicht auf die Umwandlung Ihres Betriebssensors und Ihrer Unternehmenskonfiguration warten.

Brauchen Sie eine Expertenmeinung?

Verfolgen Sie unsere Innovationen in sozialen Netzwerken

Wir veröffentlichen häufig in sozialen Netzwerken (LinkedinTwitter und Medium) unsere Innovationen und die neuen Funktionen unserer Lösungen für das Industriemanagement.

Außerdem würden wir uns freuen, wenn wir Ihnen die neuesten Trends im Bereich Industrie 4.0 durch qualitativ hochwertige Inhalte, die Sie weiterverbreiten können, näher bringen könnten.