Imaginemos describir en tiempo real un objeto a una persona y, según su descripción, características, y atributos que le vas ofreciendo, es capaz de plasmarlo en un dibujo. Esta destreza es sin duda compleja para la mayor parte de la población, dado que requiere una habilidad extraordinaria para trasladar una idea y un conjunto de atributos a un elemento visual. Este es el reto que se ha planteado la empresa OpenAI, cofundada en Sillicon Valley por Elon Musk y Sam Altman, que cuenta en su consejo con Reid Hoffman, fundador de LinkedIn.
Vivimos en un momento en el que el texto está siendo desplazado por la inmediatez de la imagen, que sensorialmente permite al ser humano contextualizar rápidamente y tener una visión más amplia sobre algo, frente a la laboriosa misión de extraer matices de un texto escrito. En palabras de Ilya Sutskever, científico de OpenAI, “Vivimos en un mundo visual. En el futuro, habrá modelos que entiendan tanto el texto como las imágenes. La Inteligencia Artificial podrá comprender mejor el lenguaje porque verá el significado de las palabras y de las frases”.
OpenAI ha diseñado un sistema de Inteligencia Artificial que hace precisamente esto, convertir una cadena de texto en una imagen. Lo han bautizado DALL-E, creando un curioso juego de palabras. Por un lado, su pronunciación en inglés sonaría como Dalí, el famoso pintor español. Por otro, está la analogía con la escritura del protagonista de la película de robots de Pixar, WALL-E.
Fuente: https://openai.com/blog/dall-e/
Los medios de comunicación se han hecho eco de esta nueva y disruptiva innovación a través de alguno de sus ejemplos más impactantes.
Fuente: https://openai.com/blog/dall-e/
Hasta el momento, se desconoce el detalle del modelo utilizado. OpenAI se ha limitado a esbozar la base teórica que hace funcionar el sistema y que se resume en dos elementos cruciales. Por un lado, GPT-3, y por otro, sistemas de redes neuronales adversarias (GANs).
GPT-3 es la tercera generación de sistemas de procesamiento del lenguaje natural (NLP) desarrollado por OpenAI. Su objetivo primordial es “entender” los textos escritos que recibe el sistema. Su funcionamiento se basa en una tecnología llamada “transformadores”. GPT-3 puede crear la estructura que forme parte de un idioma, lo que significa que puede responder preguntas, escribir documentos, traducir textos de un idioma a otro, incluso llegar a programar.
El segundo componente de DALL-E son las Redes Generativas Adversariales o GANs (Generative Adversarial Networks). Se trata de un tipo de redes neuronales utilizadas para el aprendizaje cuando no se dispone o se desconoce la categoría a la que corresponde cada tipo de dato. A este modo de aprendizaje se le denomina aprendizaje no supervisado, porque se ignora a priori la clasificación de los datos con los que se alimenta el sistema.
Las GANs están conformadas por dos redes neuronales: una red generadora y una red discriminadora, que ‘juegan’ entre sí. La red generadora intenta engañar a la red discriminadora, produciendo datos similares a los del conjunto de entrenamiento. La red discriminadora intenta no ser engañada, separando los datos reales de los falsos producidos por la red generadora. Estas redes trabajan simultáneamente para aprender y poderse entrenar con datos complejos tales como archivos de audio, vídeo o imágenes.
Fuente: https://openai.com/blog/dall-e/
La creación de DALL-E se basa en la exploración de diversas estrategias consistentes en el muestreo para la generación de imágenes que aprovechan los modelos ya entrenados. La síntesis de texto a imagen ha sido un área de investigación activa desde el trabajo pionero de Reed, cuyo enfoque utiliza una GAN condicionada a las incrustaciones de texto.
DALL-E es un transformador (una red neuronal secuencial utilizada para casos de reconocimiento del lenguaje natural) que se encarga de decodificar los datos que recibe a la entrada. Esta entrada de datos del sistema se compone tanto de texto como de imágenes. Este conjunto de datos de entrada se agrupa como un único flujo de tokens. Estos tokens contienen imágenes dentro de la base de datos, mediante las cuales se ha entrenado el sistema y se modelan según el texto que viene dado como dato de entrada.
Fuente: https://openai.com/blog/dall-e/
La naturaleza compositiva del lenguaje, ha permitido a los creadores del sistema unir conceptos para describir objetos tanto reales como imaginarios. Se ha comprobado que DALL-E también tiene la capacidad de combinar ideas dispares para sintetizar objetos, algunos de los cuales es bastante improbable que existan en el mundo real, tal como un caracol con forma de arpa. Se ha explorado esta capacidad en dos casos: la transferencia de cualidades de varios conceptos a los animales, y el diseño de productos inspirándose en conceptos no relacionados.
Como se puede comprobar, las posibilidades que ofrece el sistema son múltiples. La posibilidad de combinar varios conceptos inconexos y poder abstraerlos a la hora de realizar una composición visual con las entidades y cualidades recabadas en el texto de un nuevo objeto, es un nuevo campo a caballo entre la imaginación y los sueños.
Además de DALL-E, OpenAI ha diseñado también CLIP (Contrastive Language–Image Pre-training). Se trata de una red neuronal que aprende conceptos visuales de manera eficiente a partir de la supervisión del lenguaje natural. Trata de mitigar los problemas que hay actualmente relativos al coste que supone el etiquetado de imágenes, así como los específicos que son los modelos de visión artificial estándar, especializados en una tarea concreta, pero sin un sentido más general. CLIP se puede adaptar para realizar una amplia variedad de tareas de clasificación visual sin necesidad de ejemplos de formación adicionales.
CLIP es capaz de aprender una amplia gama de conceptos visuales directamente del lenguaje natural, siendo por tanto significativamente más flexible y general que los modelos actuales. Además, aprende a partir de datos no filtrados, muy variados y con mucho ruido, y está diseñado para usarse mediante el enfoque “zero-shot”.
Fuente: https://openai.com/blog/clip/
A medida que se va avanzando con el desarrollo de nuevos sistemas que emplean Inteligencia Artificial, vemos cómo los modelos utilizados se van refinando, mejorando y reutilizando para generar otros nuevos, mucho más sorprendentes y sofisticados.
En el caso de DALL-E, puede cambiar radicalmente el sector audiovisual en un futuro no muy lejano, permitiendo por ejemplo, construir representaciones visuales de un libro a partir de su texto, generar una película a partir del guión o incluso generar videojuegos a partir de la descripción de los mismos.