Usine du futur - Sources de données ouvertes pour l'IA industrielle

Lors du démarrage d’un nouveau projet (usine du futur) visant à améliorer les capacités d’une installation de production grâce à l’intelligence artificielle, la question courante est: «Est-ce faisable?» L’intelligence artificielle dans un contexte industriel nécessite beaucoup de données pour entraîner les algorithmes sous-jacents. Les systèmes en fonctionnement génèrent des données. Mais souvent, ces données sont encapsulées ou les bases de données ne sont pas connectées. Ils peuvent ne pas être disponibles pour l’équipe chargée d’apporter l’IA à la société, où ses propres données ne sont pas disponibles pour la construction de tels systèmes. Et dans les contraintes de temps et de budget, l’équipe de développement est confrontée à la question de savoir comment obtenir les données de formation.

Il semble que nous aimions davantage entendre parler d’erreurs que célébrer le succès. Bien que les technologies de l’intelligence artificielle aient transformé nos vies; à la maison et au travail; de nombreux rapports médiatiques récents se concentrent sur les défaillances des appareils intelligents; des gadgets décevants exposés au CES aux robots hôteliers défectueux. Certaines histoires sont très drôles; mais tout ce qu’elles nous disent; c’est que la technologie est encore en développement et que certains produits sont mieux conçus que d’autres.

Pourquoi les sources de données sont-elles essentielles pour démarrer avec l'IA?

Les systèmes prédictifs, les systèmes entièrement automatisés et les systèmes de découverte de connaissances nécessitent la présence de données  correctement formées. Et la qualité des données définit les résultats opérationnels fournis par les systèmes d’IA. Si vous ne disposez pas de suffisamment de données utiles, vos résultats d’entraînement sont souvent médiocres. Ainsi, l’IA n’est pas capable de construire les abstractions requises et dans ce qui suit, elle ne pourrait pas créer un système d’IA offrant des résultats exceptionnels. Malgré certaines méthodes d’apprentissage par renforcement qui n’ont pas besoin de beaucoup de données, l’intelligence artificielle d’apprentissage profond “deep learning” a besoin de grandes quantités de données étiquetées.

Le flux de processus des données de la formation à l'exploitation

1ére étape:

Dans un contexte usine du futur, vous devez prendre en compte le flux de travail général de la création d’une IA utilisable. La première étape, vous devez avoir accès aux données historiques pertinentes, qui peuvent avoir une forme de fichiers ou de bases de données contenant les informations requises. Dans le monde de la science des données, la collection complète de données disponibles dans la première étape s’appelle Data lake. La Data lake contient des données non structurées et structurées. 

En général, le format des données dans le data lake est un format brut. Cela signifie qu’il n’y a pas de prétraitement des données entrant à partir de différentes sources. Les capteurs et les enregistrements historiques nous fournissent la collection de données. Ces données ne sont pas seulement des données mesurées mais également des données provenant de sources telles que des images, de la vidéo ou de l’audio.

2ème étape:

Dans l’étape suivante, une étape de prétraitement permet de traiter les données. Ici, les données sont examinées. Ils sont visualisés, afin que les experts en la matière puissent évaluer la qualité des données. Ensuite, ils pourraient être nettoyés et réduits, de sorte que les données brutes deviennent des données plus significatives.

Ces données sont à la base du développement des modèles prédictifs. Les algorithmes d’apprentissage automatique sont généralement appliqués pour apprendre à partir des données. Par exemple, un scientifique des données peut choisir des modèles de réseaux neuronaux, qui doivent être validés après avoir appris sur de nouvelles données inconnues, et la formation est vérifiée. La phase de formation comprend plusieurs cycles de rétroaction pour voir si les résultats de la formation correspondent aux besoins.

Le flux de travail de l'apprentissage automatique dans les applications industrielles

Enfin, les composants IA prêts à l’emploi doivent être intégrés à l’échelle de l’entreprise. Cette intégration est double. D’une part, il y a l’IA de pointe avec des dispositifs embarqués et des solutions matérielles qui accompagnent les machines sur site. D’autre part, il y a une intégration dans les systèmes d’entreprise sous la forme de composants logiciels. Ces modules logiciels sont censés être adaptés pour s’adapter aux opérations existantes.

Le problème n'est pas trop peu de données mais trop de données

Mais où trouver toutes ces données pour entraîner vos réseaux de neurones? Étant donné que les données semblent être le nouveau pétrole du monde d’aujourd’hui, vous pourriez vous attendre à trouver des sources de données en dehors de votre propre entreprise. Les entreprises industrielles gardent pour elles leurs valeurs et leurs données. Cependant, il existe d’autres secteurs, en particulier les entreprises informatiques, qui sont passés par la même phase de conservation des données et des codes source pour eux-mêmes. Et même un petit nombre d’entreprises le font encore. 

Ainsi, ces dernières années, l’approche open source a connu un succès inimaginable. Même des entreprises très propriétaires comme Microsoft ou Google exploitent l’open source. Le partage crée de nouvelles opportunités commerciales et ajoute de la valeur à des industries entières. Ainsi, les associations industrielles et les consortiums lancent des initiatives de partage de données. Les activités et la recherche financées par des fonds publics constituent une autre source de données gratuites et ouvertes. Des organisations comme la NASA ou le CERN fournissent de nombreuses données précieuses. Ces ensembles de données sont utilisés pour des tâches générales et des tests de nouveaux algorithmes. Ils servent de référence pour le développement algorithmique. Lorsque vous recherchez des données sur Internet, vous serez submergé par l’abondance de données disponibles.

Malheureusement, avec ces masses de données vient un problème. L’intelligence artificielle est un sujet brûlant et tout le monde a soif d’en apprendre plus. Il est donc souvent difficile de décider quelles données ouvertes conviennent à votre projet. De nombreuses offres non structurées existent, des données de mauvaise qualité ou simplement des ensembles de données faiblement décrits. L’IA est utilisée dans tellement de domaines différents, et utilisée pour tellement de cas d’utilisation différents qu’il existe de nombreux ensembles de données ne répondant pas à vos besoins.

Sources de données ouvertes et pertinentes pour l'intelligence artificielle industrielle

Lorsque vous examinez les catégories d’IA industrielle appliquée, vous constaterez que vous pouvez ajouter l’IA à de nombreux produits et services. De cette façon, vous améliorerez l’expérience de vos clients. Pour les outils de fabrication, par exemple, les machines qui s’auto diagnostiquent améliorent les performances globales de l’installation opérationnelle. Il augmente leur efficacité, leur fiabilité, leur sécurité et augmente la longévité des machines. Ils voient leurs propres signes d’usure sur les info-bulles comme les perceuses, les lames de scie, les outils de soudage ou les pinces.

L’automatisation est la deuxième application qui a besoin de données. Les chercheurs sur les tendances appellent cela l’hyper-automatisation. Il aide l’automatisation déjà existante des processus industriels à obtenir un autre coup de pouce. Cela rend les gens obsolètes et déplace les changements négligeables. Ici, les données des normes de conduite autonome et de robotique intelligente sont utilisées pour donner une formation individuelle aux véhicules et aux machines autonomes industrielles.

Un troisième domaine dans lequel l’IA est appliquée c’est la découverte de connaissances pour les systèmes d’ingénierie. Le but ici est de trouver les causes profondes des problèmes et d’éliminer les risques à l’aide de l’IA. De nombreuses zones critiques fournissent de nombreuses données via des capteurs et des journaux d’historiques. Ici, l’IA pourrait créer de véritables informations au-delà des détections d’anomalies et de la détection des modes de défaillance simples. L’IA pourrait alors prédire l’inattendu. Il trouve des relations entre des incidents similaires dans le passé et les lectures actuelles des capteurs. Cela permet d’éviter les problèmes avant même qu’ils ne surviennent.

De quelles données avez-vous besoin?

Avec ces champs d’application donnés, vous pouvez rechercher les données pertinentes disponibles publiquement. Comme de nombreuses applications industrielles nécessitent des quantités massives de données de capteurs, ces données ne sont pas toujours disponibles pour un téléchargement direct. Parfois, vous devez accéder aux données via une API donnée. Cette API crée une connexion aux bases de données existantes et vous permet de les extraire et de les analyser.

La NASA

Un exemple de données de capteur disponibles est le jeu de données de maintenance prédictive du turboréacteur fourni par la NASA. Il contient les données des capteurs de 100 moteurs du même modèle. L’ensemble de données comprend quatre ensembles différents de données moteur utilisant le simulateur de moteur d’avion C-MAPSS. Les moteurs ont été testés dans différentes conditions de fonctionnement et modes de panne.

Ces données sur les moteurs à double flux proviennent du centre d’excellence de pronostics de la NASA, PCoE. Ce département de la NASA a encore plus d’ensembles de données ouverts disponibles. Il présente des ensembles de données provenant de diverses universités, agences ou entreprises. Ces données chronologiques aident à créer des algorithmes pronostiques. Ils montrent la transition d’un état nominal à un état défaillant. De nombreuses tâches industrielles différentes ont été incluses. Vous trouverez des données de fraisage et des tests sur les roulements. Vous trouverez des données sur l’électronique et les batteries.

Le NDR

Des référentiels plus libres et librement disponibles sont disponibles au Royaume-Uni. Le référentiel national de données pétrolières et gazières du Royaume-Uni, NDR, fournit 130 téraoctets de données offshore. Il couvre plus de 12 500 puits de forage, 5 000 levés sismiques et 3 000 pipelines. Ces données sont librement accessibles à tous. Mais la NRD n’est pas exclusive au Royaume-Uni. Ces types de référentiels nationaux de données sont disponibles dans de nombreux pays et fournissent des données ouvertes, une approche gouvernementale ouverte.

Les précieuses données des gouvernements ne se limitent pas à l’industrie pétrolière et gazière. Le British Geological Survey fournit également de nombreux ensembles de données. Il propose des sismogrammes en temps réel et des données historiques de ses plus de 100 stations sismographiques à travers le Royaume-Uni. Et plus de 525 ensembles de données supplémentaires sur différents sujets géologiques.

Les principaux moteurs de recherche pour les données ouvertes

La meilleure façon de trouver des sources de données ouvertes pour votre projet d’IA est des moteurs de recherche, des catalogues et des agrégateurs spécifiques. À l’aide de ces outils, vous serez en mesure de trouver rapidement un ensemble de données approprié. Ils vous guideront à travers la jungle des sources de données ouvertes disponibles. Comme le moteur de recherche classique, vous pouvez saisir un terme correspondant à ce que vous recherchez, et le moteur de recherche vous montre des ensembles de données intéressants.

L'ensemble de données Google

La recherche d’ensembles de données Google, datasetsearch.research.google.com, donne un aperçu impressionnant des ensembles de données disponibles gratuitement. Une fois que vous avez effectué votre recherche, les résultats ne vous donnent pas seulement le lien vers le référentiel. Il vous donne également des informations directes sur les formats de données fournis et la manière dont les données sont accessibles. Cet outil récemment publié comprend environ 25 millions de jeux de données accessibles au public.

Re3data

Le registre des référentiels de données de recherche, re3data.org, propose une recherche textuelle complète de ses référentiels liés. Il dispose d’un bel outil d’exploration graphique sous «recherche par sujet» pour trouver des données ouvertes. Mais pour les sciences de l’ingénieur, il n’y a que quelques résultats. De plus, ce moteur de recherche ne vous conduit pas directement aux données. Il vous envoie simplement vers les référentiels d’où votre recherche se poursuit.

Kaggle

En plus de cela, il vaut la peine de jeter un coup d’œil à la célèbre plate-forme Kaggle, car elle organise de temps à autre des concours liés à l’industrie. Il existe également une nouvelle plate-forme, appelée Unearthed, dédiée à la résolution des défis de la science des données dans le contexte des concepts Industrie 4.0 et usine du futur.

Avec ces points de départ, vous trouverez rapidement les bonnes données ouvertes. Les données ouvertes vous aident à démarrer directement votre projet d’intelligence artificielle industrielle et vous n’avez pas à attendre la transformation de votre capteur opérationnel et de la configuration de votre entreprise.

Vous avez besoin d'un avis d'expert ?

Suivez nos innovations sur les réseaux sociaux​

Nous publions fréquemment sur les réseaux sociaux (LinkedinTwitter et Medium) nos innovations et les nouvelles fonctionnalités de nos solutions de gestion industrielle.

De même, nous serions heureux de vous faire profiter des dernière tendance de la gestion industrielle 4.0 au travers de contenu d’excellente qualité que vous pourriez repartager.