Fábrica del futuro - Fuentes de datos abiertas para la IA industrial

Al iniciar un nuevo proyecto (Fábrica del Futuro) destinado a mejorar las capacidades de una instalación de producción utilizando inteligencia artificial, la pregunta habitual es: "¿Es factible?" La inteligencia artificial en un contexto industrial requiere muchos datos para entrenar los algoritmos subyacentes. Los sistemas en funcionamiento generan datos. Pero a menudo estos datos están encapsulados o las bases de datos no están conectadas. Es posible que el equipo responsable de llevar la IA a la empresa no disponga de ellos, ni de sus propios datos para construir esos sistemas. Y dentro de las limitaciones de tiempo y presupuesto, el equipo de desarrollo se enfrenta a la cuestión de cómo obtener los datos de entrenamiento.

Parece que nos gusta más oír hablar de los errores que celebrar los éxitos. Aunque las tecnologías de inteligencia artificial han transformado nuestras vidas, tanto en casa como en el trabajo, muchos informes recientes de los medios de comunicación se centran en los fallos de los dispositivos inteligentes, desde los decepcionantes artilugios expuestos en el CES hasta los robots de hotel defectuosos. Algunas de las historias son muy divertidas, pero lo único que nos dicen es que la tecnología sigue desarrollándose y que algunos productos están mejor diseñados que otros.

¿Por qué son esenciales las fuentes de datos para iniciarse en la IA?

Los sistemas predictivos, los sistemas totalmente automatizados y los sistemas de descubrimiento de conocimientos requieren la presencia de datos adecuadamente entrenados. Y la calidad de los datos define los resultados operativos que ofrecen los sistemas de IA. Si no se dispone de suficientes datos útiles, los resultados del entrenamiento suelen ser pobres. Como resultado, la IA no es capaz de construir las abstracciones necesarias y, en lo que sigue, no sería capaz de crear un sistema de IA que ofrezca resultados sobresalientes. A pesar de que algunos métodos de aprendizaje por refuerzo no necesitan muchos datos, la IA de aprendizaje profundo necesita grandes cantidades de datos etiquetados.

El flujo del proceso de datos desde la formación hasta el funcionamiento

Fase 1:

En el contexto de una Fábrica del Futuro, hay que tener en cuenta el flujo de trabajo general para crear IA utilizable. En la primera etapa, se necesita acceso a los datos históricos pertinentes, que pueden estar en forma de archivos o bases de datos que contengan la información necesaria. En el mundo de la ciencia de datos, la colección completa de datos disponibles en la primera etapa se denomina lago de datos. El lago de datos contiene datos estructurados y no estructurados. 

En general, el formato de los datos en el lago de datos es bruto. Esto significa que no hay preprocesamiento de los datos entrantes de diferentes fuentes. Los sensores y los registros históricos nos proporcionan la recopilación de datos. Estos datos no son sólo datos medidos, sino también datos procedentes de fuentes como imágenes, vídeo o audio.

2ª etapa:

A continuación, se realiza un preprocesamiento de los datos. Aquí se examinan los datos. Se visualizan para que los expertos en la materia puedan evaluar la calidad de los datos. A continuación, se limpian y reducen, para que los datos brutos se conviertan en datos más significativos.

Estos datos constituyen la base para el desarrollo de modelos predictivos. Los algoritmos de aprendizaje automático se aplican generalmente para aprender de los datos. Por ejemplo, un científico de datos puede elegir modelos de redes neuronales, que deben validarse tras aprender de datos nuevos y desconocidos, y se verifica el entrenamiento. La fase de formación incluye varios ciclos de retroalimentación para comprobar si los resultados de la formación se ajustan a las necesidades.

Flujo de trabajo del aprendizaje automático en aplicaciones industriales

Por último, los componentes de IA listos para usar deben integrarse en toda la empresa. Esta integración tiene dos vertientes. Por un lado, está la IA de última generación con dispositivos integrados y soluciones de hardware que acompañan a las máquinas in situ. Por otro, está la integración en los sistemas de la empresa en forma de componentes de software. Estos módulos de software deben adaptarse a las operaciones existentes.

El problema no es que haya pocos datos, sino demasiados.

Pero, ¿dónde se encuentran todos estos datos para entrenar las redes neuronales? Dado que los datos parecen ser el nuevo petróleo del mundo actual, es de esperar que encuentre fuentes de datos fuera de su propia empresa. Las empresas industriales guardan sus valores y datos para sí mismas. Sin embargo, hay otros sectores, sobre todo las empresas de TI, que han pasado por la misma fase de guardarse para sí los datos y el código fuente. E incluso un pequeño número de empresas siguen haciéndolo. 

En los últimos años, el enfoque de código abierto ha disfrutado de un éxito inimaginable. Incluso empresas altamente propietarias como Microsoft y Google están explotando el código abierto. Compartir crea nuevas oportunidades de negocio y añade valor a industrias enteras. Asociaciones y consorcios industriales están lanzando iniciativas para compartir datos. Las actividades e investigaciones financiadas con fondos públicos son otra fuente de datos libres y abiertos. Organizaciones como la NASA y el CERN proporcionan gran cantidad de datos valiosos. Estos conjuntos de datos se utilizan para tareas generales y para probar nuevos algoritmos. Sirven de referencia para el desarrollo algorítmico. Cuando busque datos en Internet, se sentirá abrumado por la abundancia de datos disponibles.

Por desgracia, estas masas de datos conllevan un problema. La inteligencia artificial es un tema candente y todo el mundo está deseando saber más. Así que a menudo es difícil decidir qué datos abiertos son los adecuados para tu proyecto. Hay muchas ofertas sin estructurar, datos de mala calidad o simplemente conjuntos de datos mal descritos. La IA se utiliza en tantas áreas diferentes y para tantos casos de uso distintos, que hay muchos conjuntos de datos que no satisfacen sus necesidades.

Fuentes de datos abiertas y pertinentes para la inteligencia artificial industrial

Si echa un vistazo a las categorías de IA industrial aplicada, verá que puede añadir IA a muchos productos y servicios. De este modo, mejorará la experiencia de sus clientes. En el caso de las herramientas de fabricación, por ejemplo, las máquinas que se autodiagnostican mejoran el rendimiento general de las instalaciones operativas. Aumentan su eficacia, fiabilidad y seguridad, e incrementan la longevidad de las máquinas. Ven sus propios signos de desgaste en las puntas de herramientas como taladros, hojas de sierra, herramientas de soldadura o alicates.

La automatización es la segunda aplicación que necesita datos. Los investigadores de tendencias lo llaman hiperautomatización. Contribuye a dar un nuevo impulso a la automatización ya existente de los procesos industriales. Vuelve obsoletas a las personas y desplaza los cambios insignificantes. Aquí, los datos de las normas de conducción autónoma y robótica inteligente se utilizan para dar formación individual a vehículos y máquinas industriales autónomas.

Un tercer ámbito en el que se aplica la IA es el descubrimiento de conocimientos para sistemas de ingeniería. El objetivo es encontrar las causas de los problemas y eliminar los riesgos mediante la IA. Muchas áreas críticas proporcionan muchos datos a través de sensores y registros históricos. En este caso, la IA podría crear conocimientos reales más allá de la detección de anomalías y la simple detección de modos de fallo. La IA podría predecir lo inesperado. Encuentra relaciones entre incidentes similares en el pasado y las lecturas actuales de los sensores. Esto permite evitar problemas antes incluso de que se produzcan.

¿Qué datos necesita?

A partir de estos campos de aplicación, puede buscar datos relevantes disponibles públicamente. Dado que muchas aplicaciones industriales requieren cantidades masivas de datos de sensores, estos datos no siempre están disponibles para su descarga directa. A veces es necesario acceder a los datos a través de una API determinada. Esta API crea una conexión con las bases de datos existentes y le permite extraerlos y analizarlos.

NASA

Un ejemplo de los datos de sensores disponibles es el conjunto de datos de mantenimiento predictivo de motores turborreactores suministrado por la NASA. Contiene datos de sensores de 100 motores del mismo modelo. El conjunto de datos incluye cuatro conjuntos diferentes de datos de motores que utilizan el simulador de motores de aeronaves C-MAPSS. Los motores se probaron en diferentes condiciones de funcionamiento y modos de fallo.

Estos datos sobre motores turbofán proceden del centro de excelencia de pronóstico de la NASA, PCoE. Este departamento de la NASA dispone de aún más conjuntos de datos abiertos. Presenta conjuntos de datos de varias universidades, agencias y empresas. Estos datos de series temporales ayudan a crear algoritmos de pronóstico. Muestran la transición de un estado nominal a un estado fallido. Se han incluido muchas tareas industriales diferentes. Encontrará datos de fresado y pruebas de rodamientos. Encontrará datos sobre electrónica y baterías.

El NDR

En el Reino Unido existen más repositorios abiertos y de libre acceso. El depósito nacional de datos sobre petróleo y gas del Reino Unido, NDR, ofrece 130 terabytes de datos de alta mar. Abarca más de 12.500 pozos, 5.000 estudios sísmicos y 3.000 oleoductos. Estos datos son de libre acceso para todos. Pero el NRD no es exclusivo del Reino Unido. Este tipo de repositorios nacionales de datos están disponibles en muchos países y ofrecen datos abiertos, un enfoque de gobierno abierto.

Los valiosos datos gubernamentales no se limitan a la industria del petróleo y el gas. El Servicio Geológico Británico también proporciona numerosos conjuntos de datos. Ofrece sismogramas en tiempo real y datos históricos de sus más de 100 estaciones sismográficas repartidas por todo el Reino Unido. Y más de 525 conjuntos de datos adicionales sobre diversos temas geológicos.

Los principales motores de búsqueda de datos abiertos

La mejor manera de encontrar fuentes de datos abiertos para su proyecto de IA es a través de motores de búsqueda, catálogos y agregadores específicos. Con estas herramientas podrá encontrar rápidamente un conjunto de datos adecuado. Le guiarán a través de la jungla de fuentes de datos abiertos disponibles. Al igual que el motor de búsqueda clásico, puede introducir un término correspondiente a lo que busca y el motor de búsqueda le mostrará conjuntos de datos interesantes.

El conjunto de datos de Google

La búsqueda de conjuntos de datos de Google, datasetsearch.research.google.com, ofrece una impresionante panorámica de los conjuntos de datos disponibles gratuitamente. Una vez realizada la búsqueda, los resultados no sólo ofrecen el enlace al repositorio. También ofrece información directa sobre los formatos de los datos y cómo acceder a ellos. Esta herramienta de reciente publicación incluye unos 25 millones de conjuntos de datos de acceso público.

Re3datos

El registro de repositorios de datos de investigación, re3data.org, ofrece una búsqueda de texto completo en sus repositorios enlazados. Dispone de una bonita herramienta de exploración gráfica en "búsqueda por temas" para encontrar datos abiertos. Pero para las ciencias de la ingeniería, sólo hay unos pocos resultados. Además, este motor de búsqueda no lleva directamente a los datos. Simplemente te envía a los repositorios desde los que continúa tu búsqueda.

Kaggle

Además de esto, merece la pena echar un vistazo a la conocida plataforma Kaggle, ya que organiza competiciones relacionadas con la industria de vez en cuando. También existe una nueva plataforma, llamada Unearthed, dedicada a resolver retos de ciencia de datos en el contexto de los conceptos de Industria 4.0 y Fábrica del Futuro.

Con estos puntos de partida, podrá encontrar rápidamente los datos abiertos adecuados. Los datos abiertos le ayudan a empezar de inmediato con su proyecto de inteligencia artificial industrial, por lo que no tendrá que esperar a que se transformen sus sensores operativos y su configuración empresarial.

¿Necesita la opinión de un experto?

Siga nuestras innovaciones en las redes sociales

Publicamos con frecuencia en las redes sociales (LinkedinTwitter y Medio) nuestras innovaciones y las nuevas funciones de nuestras soluciones de gestión industrial.

También estaremos encantados de compartir con usted las últimas tendencias en gestión industrial 4.0 a través de contenidos de alta calidad que podrá compartir con otras personas.