15 de septiembre de 2022

918

Modelos de síntesis de texto a imagen como DARLE puede convertir una leyenda de entrada en una visualización coherente. Sin embargo, muchas aplicaciones requieren procesar narrativas largas y expresiones metafóricas, condicionar las imágenes existentes y generar más de una imagen.

StoryDALL-E: Adaptación de transformadores de texto a imagen preentrenados para la continuación de la historia

Una instantánea de la demostración en el navegador disponible abiertamente para mega-StoryDALL-E entrenado en el conjunto de datos de Pororo. El panel derecho muestra las imágenes generadas por el modelo para los subtítulos ingresados por el usuario en el panel izquierdo.

Por lo tanto, un artículo reciente en arXiv.org explora métodos para adaptar un modelo de síntesis de texto a imagen previamente entrenado para tareas posteriores complejas, con un enfoque en la visualización de historias.

Los investigadores presentan una nueva tarea, la continuación de la historia. En esta tarea, se proporciona una escena inicial, y luego el modelo puede copiar y adaptar elementos de ella a medida que genera imágenes posteriores. Además, el modelo preentrenado (como DALL-E) se ajusta en una tarea secuencial de generación de texto a imagen, con la flexibilidad adicional de copiar desde una entrada anterior.

La adaptación, llamada StoryDALL-E, supera al modelo estándar basado en GAN en varias métricas.

Los avances recientes en la síntesis de texto a imagen han dado lugar a grandes transformadores preentrenados con excelentes capacidades para generar visualizaciones a partir de un texto determinado. Sin embargo, estos modelos no son adecuados para tareas especializadas como la visualización de historias, que requiere que un agente produzca una secuencia de imágenes dada una secuencia correspondiente de subtítulos, formando una narrativa. Además, encontramos que la tarea de visualización de la historia no se adapta a la generalización de tramas y personajes no vistos en nuevas narrativas. Por lo tanto, primero proponemos la tarea de continuación de la historia, donde la historia visual generada se condiciona a una imagen de origen, lo que permite una mejor generalización a las narrativas con nuevos personajes. Luego, mejoramos o adaptamos los modelos de síntesis de texto a imagen preentrenados con módulos específicos de tareas para (a) la generación secuencial de imágenes y (b) la copia de elementos relevantes de un marco inicial. Luego, exploramos el ajuste fino del modelo completo, así como el ajuste basado en indicaciones para la adaptación eficiente de los parámetros del modelo preentrenado. Evaluamos nuestro enfoque StoryDALL-E en dos conjuntos de datos existentes, PororoSV y FlintstonesSV, e introducimos un nuevo conjunto de datos DiDeMoSV recopilado de un conjunto de datos de subtítulos de video. También desarrollamos un modelo StoryGANc basado en Generative Adversarial Networks (GAN) para la continuación de la historia y lo comparamos con el modelo StoryDALL-E para demostrar las ventajas de nuestro enfoque. Mostramos que nuestro enfoque de adaptación supera a los modelos basados en GAN para la continuación de la historia y facilita la copia de elementos visuales de la imagen de origen, mejorando así la continuidad en la historia visual generada. Finalmente, nuestro análisis sugiere que los transformadores preentrenados luchan por comprender narrativas que contienen varios personajes. En general, nuestro trabajo demuestra que los modelos de síntesis de texto a imagen preentrenados se pueden adaptar para tareas complejas y de bajos recursos, como la continuación de una historia.

Sitio del proyecto: https://github.com/adymaharana/storydalle
Artículo de investigación: Maharana, A., Hannan, D. y Bansal, M., «StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation», 2022. Enlace: https://arxiv.org/abs/2209.06192

Source link

Artículo anterior

El final de la pandemia de COVID-19 está a la vista: OMS |

Artículo siguiente

Ante Francisco la vida evangélica de un pequeño rebaño

StoryDALL-E: Adaptación de transformadores de texto a imagen preentrenados para la continuación de la historia

Selección

Discurso del presidente António Costa en la ceremonia de apertura de la presidencia danesa del Consejo de la Unión Europea

Chile y Argentina entre los lugares más fríos de la tierra en forma de dieta anticiclón polar

50 años de citas: proteger la vida silvestre de la extinción impulsada por el comercio

Con desarrollo sostenible bajo amenaza, la cumbre de Sevilla revive la esperanza y la unidad

Sin tierra y encerrado: los jóvenes agricultores luchan por un futuro

La web

Categorías

Últimos artículos