Existe un gran deseo en la naturaleza humana de tener la posibilidad de prever alternativas y escenarios probables ante diversas situaciones y formas de proceder. Este paradigma se ha planteado en un sinnúmero de películas y libros a lo largo del tiempo y hoy, más que nunca, nos estamos acercando a ello.
La alternativa que nos presentan los entornos virtuales es la capacidad de recrear entornos físicos dentro de un ordenador o una simulación. A este tipo de mundos artificiales se les conoce actualmente como “Digital Twins”. Estos modelos, que no son más que réplicas virtuales exactas de entornos o sistemas físicos existentes en la vida real, han podido ser recreados mediante la utilización de motores físicos muy parecidos a los que se utilizan hoy en día en la industria de los videojuegos para la simulación de entornos virtuales.
Estas bases de la simulación no serían prácticas sin uno o más objetos a estudiar dentro de un determinado entorno. Por ello, los datos que puede proporcionar un equipo o instalación monitorizados con sensores de temperatura, humedad, carga de trabajo, etc., pueden ser de gran valor a la hora de replicar estos resultados en un entorno controlado, que no implique consumo de material ni de dinero en modelos de objetos poco óptimos o defectuosos.
Reinforced Learning es un campo dentro de Machine Learning, que consiste en permitir que la máquina aprenda mediante la interacción con el entorno hasta obtener el resultado deseado, el cual es expresado por una función o un marcador. El mejor ejemplo para explicar este método es pensar en un ratón dentro de un laberinto en busca de queso.
La técnica de “premiar” o “castigar” a un proceso de aprendizaje de una máquina se le conoce como Reinforced Learning o aprendizaje reforzado, y consiste en un proceso que involucra dos partes: un agente y un entorno.
Si volvemos al ejemplo del ratón en el laberinto, el agente, que es el programa que realiza acciones (en este caso el ratón), ejecuta un movimiento que le puede acercar o alejar del objetivo o premio (queso). Todo este proceso supone un cierto período de prueba y error hasta conseguir el premio. Este ciclo se repite en las máquinas, dando incentivos al agente por las conductas que le acerquen a la recompensa y penalizaciones por las que le alejen.
Al fin y al cabo, es intentar recrear en un entorno virtual cómo aprenden los seres vivos a realizar tareas.
Esta técnica está basada en la corriente psicológica conocida como conductismo, donde si se lleva a cabo una conducta que obtenga una recompensa, esta acción es reforzada. En cambio, si se realiza una acción que tenga penalización o carezca de recompensa alguna, al final este comportamiento termina por extinguirse. Por ello es conocido como aprendizaje reforzado.
Es interesante ver que estos sistemas, cuando no tienen ideas o información previas respecto al entorno al que se enfrentan, desarrollan una función explorativa. Es decir, van tanteando el terreno para comprobar qué hay más allá.
Esta acción va seguida de un paso importante, que tiene lugar cuando descubren cómo obtener la recompensa. Pasan a realizar una función greedy o avariciosa viendo cómo se puede conseguir con el menor número de pasos posibles. Resulta que las máquinas de este estilo también comparten con nosotros la ley del mínimo esfuerzo para conseguir su objetivo marcado, ya que minimiza la función de coste para realizar la tarea.
Llegados a este punto es donde la Inteligencia Artificial toma el papel para ayudarnos con la simulación conductual de objetos.
Por ejemplo, mediante el uso de Reinforced Learning se pueden determinar cuáles son las acciones que hay que llevar a cabo para minimizar el consumo eléctrico de una instalación. En este caso vamos a tomar como ejemplo un edificio inteligente (Smart-Building), capaz de poder monitorizar la temperatura, la presión, la humedad y la luminiscencia captada.
A través de estos parámetros, con un histórico de datos captado a lo largo de un determinado intervalo de tiempo, se puede realizar un conjunto de simulaciones del entorno del edificio en el medio digital, señalando cuáles son las partes con las que se puede interactuar del edificio, tales como la apertura y/o cierre de persianas, ventanas, toldos; y el encendido y/o apagado de la iluminación, calefacción y aire acondicionado.
Con estas variables, el sistema puede encontrar cuál es el mejor modo de interactuar con ellas en función de las condiciones meteorológicas al momento, buscando siempre el menor consumo energético y que se llegue al margen de las condiciones establecidas dentro del edificio a través de múltiples iteraciones de ensayo-error y comparación en el motor digital de simulación.
Como posibles casos de implementación de estos sistemas podemos hacer una síntesis con los siguientes ejemplos por tipos de industria:
Como conclusión, se puede comprobar que la utilización combinada de un conjunto diverso de tecnologías complementarias es un factor que ayuda claramente a la aceleración y mejora de diversos procesos. ¿Quieres saber más?