Si existe en tu mente, lo puede dibujar: lo nuevo de OpenAI crea imágenes a partir de palabras

143 meneos

5211 clics

Si existe en tu mente, lo puede dibujar: lo nuevo de OpenAI crea imágenes a partir de palabras

A principios del pasado año te hablábamos de DALL-E, la inteligencia artificial de OpenAI capaz de generar imágenes de cualquier texto que escribiéramos.

| etiquetas: dall-e , agi , ia , openai

84 59 0 K 384 actualidad

58 comentarios

84 59 0 K 384 actualidad

Comentarios destacados:

#1 rojo_separatista

Me parece realmente brutal.

5 58
#2 rubentotal

No sé si funciona porque pongo "Abascal bujarra" "Abascal moro" y me devuelve fotos reales.

15 91
#3 rojo_separatista

#2, será que hace overfitting.

2 20
#4 --394145--

Cuidado a ver si de algunos cerebros no va a poder dibujar nada...

0 13
#5 rojo_separatista

Sin exagerar, creo que es de los avances tecnológicos más espectaculares de lo que va de siglo y a penas lo he visto reflejado en los medios de comunicación. Cuanto más veo, más me alucino, creo que el grado de desarrollo que está alcanzando la IA es muy superior a lo que cree la mayoría de la gente.

7 64
#6 noexisto

Al final hay una “Lista de espera”. Son listos

0 12
#7 Ferran

#5 Esto es todavía muy friki

1 15
#8 archivistica

¿Podéis poner enlace a la aplicación y no al artículo, por favor?

2 9
#9 zastiu

#8 openai.com/dall-e-2/

2 22
#10 andres.dev

Cumplirá la regla 34 con esta IA?

1 21
#11 pax0r

atpc los diseñadores gráficos

2 7
#12 rojo_separatista

#8, no está disponible, por ahora solo hay una lista de espera para poder usarla.

4 48
#13 Ribald

#1 Lo único en lo que me falla en general, es en los ojos. En otras imágenes generadas me pasa igual. No sé qué es, pero me da la impresión de que algo falla.

1 10
#14 Ribald *

We’ve limited the ability for DALL·E 2 to generate violent, hate, or adult images. By removing the most explicit content from the training data, we minimized DALL·E 2’s exposure to these concepts. We also used advanced techniques to prevent photorealistic generations of real individuals’ faces, including those of public figures.

Gracias a Dios que lo han tenido en cuenta. Me pregunto si en un rincón más oscuro de internet se generá una versión sin censurar.

#10 Parece que no

3 28
#15 elemilio

#5 Yo ya me he apuntado a la lista de espera para jugar.

Aqui podéis jugar a algo parecido
huggingface.co/spaces/multimodalart/latentdiffusion
Yo estuve generando algunas imágenes hace unos días. Aunque parece que ahora tiene problemillas...

1 12
#16 --647281--

#2 Uno de los mejores envíos de esta web en mucho tiempo, y los que tenéis la mente podrida por el fanatismo la llenáis de ataques políticos de mierda.

Por vuestra culpa tenemos una clase política terrible.

8 55
#17 rojo_separatista

#15, yo también me he apuntado, este que enlazas también lo probé, pero esto bastante lejos. Por ahora me la paso enganchado al twitter de sus creadores, mientras van colgando imágenes.

mobile.twitter.com/nickcammarata
mobile.twitter.com/prafdhar/status/1511863583906275328
mobile.twitter.com/Fraser

1 18
#18 Acuantavese

#5 Cada día me cuesta más captar la ironía aquí

0 11
#19 rubentotal *

#16 Algo de razón tienes, de hecho he dudado un poco en hacer la gracieta.
Pero sí, la gente tiene la mente podrida. Aunque puede servir como ejemplo de cosas que pedirá la gente a la web.
Recuerdo al principio de googlestreetview que se lo enseñé a unos conocidos. ¿ Sabes lo primero que buscaron ? Las putas que había en la calle en la zona de prostitución marginal. Es decir, tenían un montón de lugares del mundo para ver a pie de calle y eligieron eso. _{Ah y eran gente "normal" con algunos estudios}
Supongo que yo no soy mejor.

1 21
#20 elemilio

#17 Apuntados, gracias!

0 9
#21 ifYouStrikeMeDown

#15 También lo tienes aquí: colab.research.google.com/github/multimodalart/latent-diffusion-notebo

2 21
#22 ifYouStrikeMeDown

#10 Son unos mojigatos los de OpenAI, pasa algo parecido con GPT3. Ya llegará una alternativa libre.

1 15
#23 rojo_separatista

#18, el problema que me he encontrado cuando he enseñado esto a mi círculo cercano es que no ven más allá de una app que hace bonitos dibujitos. Que es esto al lado del grafeno, el bosón de higgs o la cura semanal a la enfermedad del Alzheimer, verdad?

La verdad es que quizás no sea evidente, pero más allá de esto, lo que nos demuestra esta IA es que ha desarrollado una capacidad de abstracción y comprensión del lenguaje natural que se está empezando acercar a la humana de forma espectacular a la humana. Quizás, no sea lo más evidente, pero sin duda es lo más relevante. No por lo que tenemos delante, que ya de por sí resulta bello y espectacular, sino por lo que se atisba de cara al futuro.

1 24
#24 DenisseJoel

#23 « lo que nos demuestra esta IA es que ha desarrollado una capacidad de abstracción y comprensión del lenguaje natural que se está empezando acercar a la humana de forma espectacular a la humana »

Yo creo que no. Esa interpretación ya la hacíamos los humanos en los tiempos del programa Eliza. De hecho, lo que hacen estos sistemas es "darnos el pego". Hacen cosas sorprendentes, pero de ahí a hablar de "capacidad de abstracción" o de "comprensión del lenguaje" va un abismo.
Una IA no sabe lo que es un gato, solo es capaz de encontrar elementos en común en imágenes etiquetadas como "gato".

3 46
#25 rojo_separatista

#24, creo que confundes capacidad de abstracción con conciencia de la realidad. Lo de Eliza, con mis disculpas pero nada que ver, a la que apretabas un poco estos asistentes conversacionales fallaban más que una escopeta de feria, no tenían ninguna clase de consistencia. A falta de poder jugar un poco con ello, yo diría que esto no ocurre con este modelo.

1 18
#26 DenisseJoel

#25 Si entendemos capacidad de abstracción en el sentido de extraer elementos en común y reglas de clasificación, en muchos dominios específicos ya nos ha superado.

0 11
#27 rojo_separatista *

#26, hasta ahora te diría que dependía mucho de en qué dominio, cuando la información estaba muy estructurada, sí era habitual encontrar modelos que superaran la capacidad humana.

Lo que me parece relevante de la noticia se este envío es que el dominio del que hablamos es el de las imágenes y el lenguaje natural, algo que per se no está estructurado pero que es la principal más importante que utilizamos los humanos comprender el mundo que nos rodea. Por eso me parecen tan relevantes los resultados de este trabajo. Había trabajos anteriores que ya apuntaron en esta dirección, Dall-e 1 y GPT-3, pero esto lo supera.

1 26
#28 Cuchipanda

#19 que no te haga sentir mal una cuenta clon que se dedica a blanquear cosas, amijo.

0 11
#29 Cuchipanda

#11 ¿qué te atepece hacer con ellos?

0 11
#30 ojosangrante *

#15 #17 supongo que conocéis hypnogram, midjourney, diffussion, vqganclip etc. Tengo una lista de notebooks también.

1 15
#31 ojosangrante

#11 tal cual. Es lo primero que dije yo cuando me enseñaron el del conejo sentado en el banco.

1 18
#32 ojosangrante

#8 no está pero tienes unas cuantas cosas basadas en modelos un poco peores como vqgan diffussion, midjourney (también la van a hacer de pago) hypnogram etc

0 8
#33 ojosangrante

#14 también dicen que no se puede para renderizar protestas. Tienen de "open" lo que yo de millonario. Esto es totalmente propietario y cerrado.

2 27
#34 rojo_separatista

#30, sí, además de GLIDE y a pesar de apuntar maneras, ninguno ha logrado la espectacularidad de este modelo. Pero lo que me preocupa más es que la gente se quede con la belleza de las imágenes resultantes antes que con la demostración de que es capaz de relacionar tan bien conceptos abstractos en un modelo multimodal de imágenes y texto.

2 30
#35 --516070--

#16 Bueno, no es más que la versión mejorada de algo que llevaba casi dos años en abierto y bien conocido por la comunidad

El envío bueno sería el de la primera versión , que crea dibujos con las palabras que pongas

Eso sí, era regulero. En esta noticia dicen que parece que lo han mejorado pero sigue siendo cerrado por lo que no lo podemos confirmar.

0 12
#36 --516070--

#5 Habrá que verlo en abierto para comprobar si hay mucha diferencia con el anterior ¿No?

Porque dice que usan GPT3, igual que el otro, por lo que en tema de comprensión de textos no hay avances en esta versión.

0 12
#37 --516070-- *

#22 GPT3 es de Open AI, estas diciendo lo mismo.

Para que llegue la alternativa libre alguien tiene que poner el dinero que ha puesto Elon encima de la mesa.

0 12
#38 ifYouStrikeMeDown

#37 GPT3 es de OpenAI, sí, pero Dall-E 2 no es GPT3.

0 6
#39 ojosangrante

#34 es flipante. Yo cuando hice el tutorial de vqgan mi hermana me decía "estas perdiendo el tiempo". Pero su marido nos dijo "pues esto tiene mucho potencial puede ser útil para mucha gente". Habiendo probado varios este tiene resultados tan espectaculares que la última vez que hablamos de esto (ayer, puede jaja) dudábamos de si el prompt era realmente sin retocar nada y no estaban usando las capas que dicen que soporta.

2 30
#40 --516070--

#38 Según esta noticia sí

0 12
#41 rojo_separatista

#36, sí, la crítica más importante que se le puede hacer es que no tenemos acceso al modelo y los desarrolladores pueden estar haciendo cherry picking.

1 23
#42 ifYouStrikeMeDown

#40 Solo dice vagamente que "aprovecha el potencial de GPT-3 para generar sus diseños". Y la única referencia a GPT-3 en el paper al que enlazan es "we generated 512 “artistic” captions using GPT-3 [4] by prompting it with captions for existing artwork".

0 6
#43 --516070--

#42 Conozco bien sin ser un experto. Tal como lo escribe Xataka entiendo que usan GPT3 para analizar el sentido de la frase

0 12
#44 ifYouStrikeMeDown

#43 Pero el paper al que enlazan en esa frase no dice eso.

En cualquier caso, aunque se derive de GPT-3, cosa que repito que no dicen ahí, decir que Dall-E es GPT3 sería como decir que Objective-C es C.

0 6
#45 --516070--

#44 Yo entiendo que usarían GPT3, como otras tantas librerías.

0 12
#46 rojo_separatista

#39, la frustración que siento yo es que veo que el común de los mortales no se dan cuenta del salto cualitativo que tenemos en frente. Por aquí me han dicho que Eliza, un modelo basado en reglas de los años 60 sin ninguna clase de aprendizaje automático, es más o menos igual se espectacular que eso.

2 30
#47 lestat

No genera imagenes violentas, no genera rostros fotorealistas... que se lo metan en los cojones, y cuando salgamos de esta era de subnormalidad para ofendiditos igual o pruebo.

2 26
#48 Nova6K0

#33 Es que hay código abierto, que de libre tiene poco.

Saludos.

0 10
#49 Nova6K0

#11 Pues la llevan clara, si quieren forrarse con esto. Porque si en una obra no interviene directamente un humano (y no decir cuatro frases, para que una "máquina" os haga un dibujo, no vale) esa obra no puede tener derechos de autor, y ya hay dos sentencias en ese sentido, por el uso de IAs.

Saludos.

0 10
#50 Nova6K0

#47

Saludos.

1 17
#51 woopi *

#23 Pues sí... Por cierto las versiones libres de "El beso" de Klimt que hace la IA son buenísimas. ¡Curioso!

0 9
#52 pax0r

#29 no le entiendo señor

0 10
#53 Cuchipanda *

#52 no se preocupe, cosas de mi ignorancia con el ATPC. EDIT: Ah, joder, a tomar por el horto lol, pensaba que eran las siglas de algo ténico. Ya me disculpa.

0 11
#54 saqueador

#5 Un poco exagerado si es...

0 9
#55 Janssen

No manches guey! Alta tecnología

0 16
#56 rojo_separatista

#54, no te culpo por pensar así.

0 15
#57 ojosangrante

#48 pero no es código abierto tampoco por lo que tengo entendido.

0 8
#58 the_unico

#14 Yo ya estaba pensando como sacar una versión sin esa limitación

0 9