Modelos de visión generativos
Workshop, UNAM, 2023
Este taller brinda a los participantes las habilidades y conocimientos necesarios para explorar los modelos de visión más comunes y aplicar técnicas intermedias en la generación artificial y transformación digital de imágenes.
Módulo 1: Visión e imágenes en IA generativa
- Modelos generativos (VAEs, GANs, Diffusion)
- Herramientas generadoras
- Midjourney, DALLE, Stable Diffusion, Craiyon, CLIP
Módulo 2: Text-to-image
- Ingeniería de comandos (prompts) para imágenes
- Estilos y atributos
- Prompt tunning
- Inpainting & outpainting
Módulo 3: Image-to-image
- Parametros iniciales
- Modificaciones del prompt
Módulo 4: Pattern-to-image
- Parametros iniciales
- Transfiriendo patrones
- Modificaciones del prompt
Módulo Avanzado: Conectividad con Python
- Playground y API de OpenAI
- Interfaz y API de Stability
- Las plataformas Github y Huggingface
- Google Colab para generación y procesamiento de imágenes
Referencias:
- DALL-E 2 prompt book
- Stable Diffusion prompt book
- Website: 30 prompts for AI art to inspire you
- Repositoio: Colab notebook Para el módulo avanzado
- Liu, J. (2023). How to imagine the world with text? From Text-to-image Generation View. Highlights in Science, Engineering and Technology, 39, 644-650. https://doi.org/10.54097/hset.v39i.6619
- Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D., & Taigman, Y. (2022). Make-A-Scene: Scene-Based Text-to-Image Generation with human Priors. arXiv (Cornell University). https://doi.org/10.48550/arxiv.2203.13131
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative adversarial networks. arXiv (Cornell University). https://doi.org/10.48550/arxiv.1406.2661
- Rombach, R. (2021, 20 diciembre). High-Resolution image synthesis with latent diffusion models. arXiv.org. https://arxiv.org/abs/2112.10752