Crear imágenes con VQGAN+CLIP

128 meneos

3901 clics

Crear imágenes con VQGAN+CLIP

VQGAN es una Red Generativa Antagónica. Estas redes son una clase de algoritmos de inteligencia artificial que se utilizan en el aprendizaje no supervisado, implementadas por un sistema de dos redes neuronales que compiten mutuamente en una especie de juego de suma cero. Esta técnica puede generar imágenes que parecen auténticas a humanos. CLIP es otra inteligencia artificial que permite transformar textos en imágenes. Es decir, en VQGAN+CLIP, CLIP introduce entradas de texto a VQGAN. Aquí te explicamos cómo usarlo.

81 47 0 K 295

49 comentarios

81 47 0 K 295

Comentarios destacados:

#1 Jakeukalane *

Disclaimer: Sí, esa wiki es mía.

Justificación para realizar este envío.

* Iba a publicar esto en formato artículo de menéame. Sin embargo, la edición de los artículos es mucho más limitada que el código wiki.
* Permite modificación futura. Es decir, a diferencia de mis artículos publicados anteriormente aquí, que tienen detalles obsoletos, podré ir modificando el texto en el futuro si fuera necesario.
* Permite edición colaborativa. De hecho la mayoría del artículo está maquetado y realizado por un colaborador (Avengium). Algo imposible en menéame.
* De las normas:
No tiene nada de malo enviar del propio blog; pero es mejor enviar sólo los artículos que consideres más interesantes y no abusar, procurando que la proporción de envíos de tu blog sea baja respecto al total de tus envíos.
Considero este envío interesante y es más que la suma de los artículos y vídeos que hemos usado para realizarlo (disponibles en el apartado "Enlaces externos"). Miraheze no tiene publicidad y la temática del resto de la wiki no trata de tecnología.
* Se aceptan correcciones y dudas (también si os da algún error, se puede buscar e incluir la solución).
** Incluso se aceptan ediciones directas de la wiki (obviamente siempre que no sean vandálicas).
* Eli versión IA es muy mono.

Un saludo

26 244
#2 kaos_subversivo

#1 muchisimas gracias por el envio

4 42
#3 elculebrilla

#1 Muy interesante, thx.

2 30
#4 jartádetó

Gracias #0 ,interesante.

3 39
#5 JOFRE *

Flipo con lo que se puede hacer VQGAN+CLIP

sigo una cuenta en Twitter que hizo varias y flipo como una AI puede llegar a esas conclusiones twitter.com/reparafoto/status/1402343018049454084

esta me dejo ojiplatico cuando puso de input la letra de la canción "nómadas" Franco Battiato
el resultado es flipante! que una AI pueda interpretar el significado de la cancion y crearte un cuadro!!
twitter.com/reparafoto/status/1399143503465222146

5 52
#6 llorencs *

Mola mazo (usando una expresión caduca). Gracias por el autobombo #0 #1

1 22
#7 eqas

No sabía que esto existía. Es alucinante.

1 22
#8 yer0

Mola mucho pero muy complejo para el usuario medio. Se necesita una web en la que le digas iteraciones, imagen de entrada, palabras, y des click.

3 33
#9 Jakeukalane *

#8 Pero eso ya pasa. Se puede usar desde el móvil y todo. Solo hay que rellenar los campos. Lo que eleva un poco la complejidad es tener que cargar el entorno primero, pero son clicks de ratón, no tienes que configurar nada.

Pero sí, ojalá hubiera eso.

Yo lo que quiero es intentar instalarlo en mi propio ordenador, parece compatible todo.

Eso también lo pondré en su momento en la wiki.

0 12
#10 shumoreniko19

¿Alguna imagen de docker o similar para los que tenemos prisa?

2 22
#11 montaycabe

Hostia puta, vamos a morir todos.

1 22
#12 snowdenknows

#5 Pensé que siempre iba a quedar el trabajo de artista sin colonizar por la automatización.. ya veo que no

4 52
#13 Vamvan

Pero que clase de brujería es esta ?

1 22
#14 AubreyDG

¡Muchas gracias por esta información!

1 21
#15 AubreyDG

#1 Una pregunta (no sé si estoy preguntando una gilipollez), ¿se sabe qué gráfica o gráficas tiene la máquina remota...?

1 21
#16 AubreyDG

Maria Teresa of Calcutta|porn actress

1 21
#17 IanGibson

Mis felicitaciones. Llevaba tiempo queriendo probarlo y con tus explicaciones ha sido increiblemente fácil. Gran aportación (friki, pero gran)

1 22
#18 Jakeukalane *

#15
NVIDIA-SMI 465.27 Driver Version: 460.32.03 CUDA Version: 11.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 Off | 00000000:00:04.0 Off | 0 |
| N/A 48C P8 10W / 70W | 0MiB / 15109MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage

Parece que una Nvidia Tesla T4

Pero no me he fijado en si todas la máquinas son iguales o no.

Yo en mi ordenador no podría usarlo porque me sale esto:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Creo que necesito activar alguna cosa. Pero nunca tengo tiempo de buscar.

1 21
#19 AubreyDG *

#16 Interacción 1: el cosmos, la nada, manchas sin forma. Interacción 50: CUIDADO QUE AQUÍ YA HAY TEMITA. Interacción 100: La AI necesita salir, conocer gente... que le dé el aire. Interacción 450: Esto se anima, aún hay esperanza.

1 21
#20 JOFRE

#12 es lo que hablaba con un colega, siempre en la ciencia ficción la Ai tenia la gran barrera es la creatividad, por ejemplo DATA en Star treck siempre quería ser mas humano y nunca se le daba bien.
y va y una AI en el siglo donde estoy viviendo (no dentro de 300 años) te hace una reinterpretación artística de una canción de Batiato bastante conseguía
flipé cuando lo vi

4 43
#21 Peachembela

"A la izquierda arriba pincha en conectar"

1 24
#22 PasaPollo

#1 Muchas gracias. Estos meneos merecen la pena.

1 26
#23 AubreyDG *

#21 Hostia, pues mi mente lo había interpretado bien.

1 21
#24 AubreyDG *

#19 Por un segundo ya me estaba frotando las... manos. Finalmente se ha quedado en una especie de pezón sobre textura de pavo desplumado en lecho de hábito de monja con perfil de libertina apenas esbozada.

2 31
#25 --673591--

Menuda papanatada.

2 4
#26 Jakeukalane *

#21 Mi dislexia de los lados atacando de nuevo. Corregido, gracias.

0 12
#27 Jakeukalane

#10 hub.docker.com/repository/docker/sborquez/vqgan_clip de xekex#5678

1 18
#28 MJDeLarra

#1 Eli no es un mono, es una elefanta naranja...

2 35
#29 Jakeukalane *

#28 pero es muy cuki. También este

0 12
#30 lectorcritico

#1 Yo creo que meneame y los foros deberian tener su propio wiki. Para no tener que repetir argumentos elaborados.
En su momento se llamaban contextopedias.

En meneame se negativiza mal y al primer envio propio le ponen spam, cuando las normas no lo consideran SPAM.
dot_csv tambien hablo d CLIP
www.youtube.com/watch?v=90QDe6DQXF4
www.youtube.com/watch?v=0BW9W9cuwR0

#12 #20 Al final todo son procesos matematicos tanto en cerebro como en maquinas.

3 37
#31 Jakeukalane

#30 Yo he tenido problemas con un usuario spammer que colocaba enlaces a mi página web por lo que dejé dicho que todo enlace a mi web podría ser considerado como spam. Pero ha pasado ya tiempo y no ha vuelto el spammer y esto tampoco es lo que suele haber en nuestra wiki.

Sobre dot_csv ya teníamos el primer vídeo enlazado. Ahora añadiré el segundo, gracias.

0 12
#32 lectorcritico

#31 Habia escrito sin leer la entradilla luego vi que hablabas de dot_csv
si ves apropiado puedes poner el de dall-e
www.youtube.com/watch?v=ztvtcKDrSwM

2 34
#33 Jakeukalane

#32 gracias, añadidos.

0 12
#34 rojo_separatista

#5, si flipas con VQGAN con Dall-e vas a alucinar en colores. El problema es que no se puede utilizar públicamente.

3 37
#35 Jakeukalane

#15 Ahora me ha salido una Tesla K80, así que va variando.

1 21
#36 xyria

#1 El envío es genial.

1 23
#37 bibapelula

Joder, no lo consigo usar y me frustra un monton jjaja

2 30
#38 Jakeukalane

#37 si tienes discord te puedo intentar ayudar paso a paso. El mío es Jakeukalane#2767

2 30
#39 bibapelula

#38 Eres un sol

1 19
#40 Jakeukalane *

#39 podría ayudar para saber cómo hacer el artículo más claro, a parte de que quiera ayudarte, que también.

0 12
#41 luiggi

Publicad vuestros resultados qué bien los habeis generado ...

3 42
#42 Jakeukalane *

#41 mi favorito en el móvil.
"fractal atom in unreal engine". 500 iteraciones

3 42
#43 shumoreniko19

#27 Gracias mil.

1 19
#44 Crul

Subreddit sobre el tema www.reddit.com/r/deepdream/

2 32
#45 IanGibson *

#42 #41 Es que hace cosas muy guapas si das con la tecla
"mind machine da vinci draw". 400 iteraciones

2 32
#46 Jakeukalane *

#44 Deep dream es anterior. No sé si se han adaptado para incluir también VQGAN pero el algoritmo deepdream original es otra cosa. Es bastante similar en el sentido de que permite transferencia de estilos, pero VQGAN+CLIP es totalmente otro nivel.

vale, sí, se han adaptado. A ver cuanto tarda deepdreamgenerator y resto de webs en subirse al tren.

En español, discord: discord.com/invite/bdH6swK4TJ

0 13
#47 Jakeukalane *

#14 #4 #2 #3 #6 #22 #36 gracias a todos. He actualizado la sección de contexto al ir viendo más ejemplos de cómo se usa. (por ejemplo los pesos estaban mal explicados ayer). También he corregido algunas cosas en errores y en general gracias a que he hablado con el creador del notebook en español. Cualquier duda adicional es bien recibida.

El discord donde está compartiendo la gente sus resultados es discord.com/invite/bdH6swK4TJ por si alguien quiere mostrar sus creaciones

cc #41 #15 #7 #13 #30 #5

3 46
#48 bibapelula

#40 Soy elchampi (si, tb el que estaba en mnm)

1 20
#49 Jakeukalane *

La página no está caída definitivamente. Esta en mantenimiento por actualización de Mediawiki. El texto, aunque no haya imágenes etc puede seguir viéndose aquí tuscriaturas.miraheze.org/wiki/Help:Generar_imágenes_con_VQGAN+CLIP

Mañana debería funcionar de nuevo.

0 13