edición general
171 meneos
3202 clics
Vicuna, un chatbot open source basado en GPT4

Vicuna, un chatbot open source basado en GPT4

Repositorio de Vicuna, un modelo basado en LLAMA, y reentrenado con outputs de gpt-4

| etiquetas: vivuna , chatbot , gpt4 , opensource
  1. @sorrillo

    He podido probarlo, y este si que responde como dios manda.

    El problema es la cantidad de recursos (60gb de ram y/o una gpu con 28 gb) pero este de momento, es el mejor de todos los "open source" que he ido viendo.
  2. ¿Existe algún modelo, con un nivel comparable, instalable en local y que entienda el castellano?

    edit: La demo me ha respondido en español. :-O
  3. #2 Que yo conozca, no.

    alpaca cabe en un equipo normal, pero está a años luz.
    llama (en el que se basa alpaca y vicuna) solo entiende el inglés (el español... meh)
  4. #1 i.ibb.co/6nxzmJG/foto1.jpg

    i.ibb.co/J5LWDrb/foto2.jpg

    Añado un par de pruebas (las que hago en cada chatbot que me encuentro) este es el primero "no oficial" que entiende el español y responde a lo que se le pregunta

    PD: es una conversación continua
  5. #2 En principio todo es instalable en local, otra cosa es que te salga rentable con los requisitos.
    Tampoco vale mucho la pena, están saliendo servicios de alquiler de GPU Cloud baratos a granel.

    Sobre el castellano, es cuestión de ponerse. Seguimos con lo de que inventen otros.
  6. #1 Gracias por el aviso.

    Lo he podido probar con el demo que han puesto y efectivamente da respuestas útiles para lo que yo necesitaría. Los requisitos son demasiado altos para mí por ahora pero le mantengo el ojo puesto.
  7. #2 legalmente no :roll: pero bueno de todas formas recomendaría esperar un poco a que se estabilice la cosa ya que están en medio del desarrollo y hay que cambiar o reconvertir los modelos cada dos por tres. Creo que la semana pasada hubo como 4 veces que rompieron la compatibilidad con modelos anteriores
  8. #5 El chatbot de you.com maneja muy bién el castellano, no hay cola de espera, el registro puedes hacerlo con un mail@inventado.bluff
    Programa medio bien, yo lo uso para sacar regex, y las tira bastante decentemente.
  9. #6 Es que algo me dice que "la calidad es cara" xD

    Si queremos un modelo decente, se necesitarán recursos para ello
  10. Si GPT-4 en sí no es libre, el proyecto no es libre del todo.
  11. #10 para que te hagas una idea, usar cualquier modelo de IA (3.5turbo, davinci o chatgpt4) de OpenIA para usar los outputs para entrenar a otra IA está completamente prohibido
    Tampoco se puede usar LLaMa (aunque este en tu ordenador) para uso comercial
  12. #9 Pero también hay optimizaciones.

    Los requisitos oficiales del Stable Diffusion creo que son 10 GB de VRam pero algunos se han currado optimizaciones y ahora puede ejecutarse en una GPU con 3 GB de VRam. No para entrenarlo peor sí para inferencia.

    Y quizá alguien se curre alguna técnica para lobotomizar el cerebro digital pero dejando funcionales las partes que consideremos esenciales, por ejemplo destrozando su capacidad de hacer poemas o hablar en ruso pero manteniendo la capacidad de programar de forma decente.

    Lo que yo estoy buscando es una IA que sepa programar y a la que la pueda entrenar con todo el código y proyectos de Unity 3D de mi hermano para que así sea la IA la que le haga los scripts y no yo :-D

    Y es que al GPT-3 le tengo que ir poniendo ejemplos de mi código y repitiéndole una y otra vez que mantenga mi estilo y mis criterios para que sea interoperable con el resto del proyecto, pero si pudiera entrenarlo específicamente en todos los proyectos que ya tenemos eso le saldría de forma natural, sin pedírselo.

    Tampoco tengo prisa, al ritmo que va esto en unos meses puede que sea realista sin mover un dedo, pero de mientras a ver si encuentro una formula que me lo permita. Estoy deseando quedar obsoleto por una IA, por favor cuanto antes mejor :-D
  13. #11 Llama es GPL, pero los modelos generados no.
  14. #11 Eso es un brindis al sol. Que yo sepa, OpenAI no meten ningún tipo de watermarking en el output que generan, así que que se jo***, quien roba a un ladrón...
  15. #14 por supuesto que es un brindis al sol con pequeñas empresas pero si un google (que ha salido un Extrabajador diciendo que lo están haciendo para bard) se les pilla pues la indemnización puede ser grande y más cómo son los americanos
  16. #11 Tengo mis dudas que puedan defender eso en un tribunal, después de estar entrenando su modelos modelos con teras y teras de datos pasando de los derechos de autor
  17. #15 Me refiero a que es prácticamente imposible demostrarlo (un extrabajador puede decir misa, no se puede creer), seas quién seas. En el futuro, me veo avisos del tipo "este modelo no se debe conectar a la API de OpenAI y ejecutar el script entrenar.py, porque entonces se estaría cometiendo un delito blablabla...". O incluso en la red, que estará inundada con archivos de texto de 100GB con origen "desconocido"... en serio, que no me imagino cómo podrían cazar a nadie sin watermarking.
  18. #16 mira ese enfoque no lo había tenido en cuenta, toda la razón
  19. #_2 Está esto, pero que usa Google Translator: github.com/oobabooga/text-generation-webui me respondió en castellano.

    Igual es más cómodo usar el Colab. Pero recuerdo que tardaba un montón en iniciarse.

    Es un proyecto ambicioso, con lo que es posible que incorporen futuros modelos en español.
  20. #2 Alpaca, con 4gb en una 1650 unas 3 palabras por segundo. (creo que es la versión 7B, la 13B ya se pasa)
    No programa. Sabe en que año se descubrió América. En cristiano poco más.

    Con 32GB de ram puedes montar 13B pero a 15 palabras por minuto o asi...
  21. Por ahí andan. Ya versión 32gb Ram bajo CPU. (No probada, descargando)
    por si #2  media
  22. #1 60gb de ram ¿Con qué procesador?, ¿a qué velocidad?
  23. Nada mal...
    Con LLamA no llegaba.  media
  24. #19 Lo mismito. Si quieres jugar, hay que poner pasta en GPU.
    Yo ya arruinado y la parienta mirando coches. (y espera que llegará factura de la luz)
  25. #2 Sí, pero creo que genera una palabra cada varios minutos en un ordenador gamer convencional.
  26. Cosas de informáticos :->
  27. #24 En la siguiente versión lo mismo te tira un for y todo.
  28. Salimos de las cryptos para que baje el precio de las gráficas y llega la IA... Menos mal que yo no juego mucho.
  29. ¿En estas open source quien es el propietario de los resultados?
    Leí algo el otro día de que no permitían usar resultados, textos, etc de otras IA porque el dueño del resultado era la empresa dueña de esa IA
  30. #12 Tabnine, una alternativa a Copilot, creo que se puede entrenar con tu propio código. No es open y no he mirado precios.
  31. #29 El cerebro humano tiene muchas limitaciones para paralelizar. ¿Qué tiene de malo regalar datos no personales a terceros? Parece que ambas partes pueden ganar, no todo en la vida es un juego de suma cero.
  32. #1 Pues poco ordenador doméstico lo va a ejecutar... hoy en dia se venden con 16gb de ram, los nuevos gama alta 32gb, 64gb lo encuentras raro y en gama muy alta... y lo mismo con la gpu, las hay entre 10 y 16gb, las tope de gama veo que tienen 24gb, así que tienes que tener 2 gpu si o si... lo veo al alcance de muy pocos, habrá que esperar a la versión optimizada (si siquiera es posible).
  33. #35 Un no-perdedor se ensambla su propio ordenador, 256GB minimo, hombre. :roll:
  34. Veo que hablan de la posibilidad de varios GPU o CPU, pero lo que me confunde es, y tal vez alguien me sepa decir o explicar... ¿cuánto disco duro hace falta? Porque para poder "saber" y "hacer" tanto, supongo que serán millones de datos leídos y almacenados, ¿no? Me imaginaría algo bestial, pero si alguien entiende le agradezco la aclaración.
  35. #24 print('2 4 6 8')

    ...de nada. Estos bichos están aún a años luz en eficiencia :troll:
  36. #23 Pues el procesador y su velocidad afecta directamente a la velocidad de procesamiento, yo diría que si quieres una respuesta "instantánea" no puedes bajar de un i9 o ryzen 9 potentillo.
  37. #35 Si, son una cantidad de recursos enorme, porque no se usan gpus normales, tendrás que tirar a una A100 de 40gb que en amazon son 5000€ y luego el equipo.

    Un ryzen 9 tope de gama son 600€, 60gb de ram... unos 300€ placa base unos 150-200€ y luego una fuente de alimentación que pueda con todo eso, que n se cuanto puede ser, pero no creo que baje de 300€.

    El equipo al completo sin contar gastos electricos, son unos 6500-7000€ (hay que sumar caja, monitores, SSD etc)

    Es caro? rotundamente si xD, pero bueno, no está muy lejos de un ordenador gamer con una 4090, que anda por los 2000€ la gráfica.
  38. #36 No sé en intel, pero yo tengo un ryzen 9 7950x y solo admite 128gb de ram... xD
  39. #36 No perdedor  media
  40. #31 Bueno, aqui tienes una ventaja, las gráficas relevantes para IA, no son para gaming

    Necesitas un tipo de procesador llamado "tensorcore" y que tenga "a puñaos" para dedicarlos a ese tema.

    Una gráfica para juegos no la necesita esos núcleos (que yo sepa) por lo que no se interfieren entre si.
  41. #42 Pues coges dos de esos, los ensamblas, y los pegas y te montas un PC virtual entre los dos, 'com un home':

    www.cgdirector.com/combine-processing-power-two-computers/

    1 + 1 = 2
    128 + 128 = 256 -> win
  42. #37 Solo necesitas los gb necesarios para descargar los pesos de la IA y el chat.

    En cuanto se ejecuta, se carga todo en RAM (por eso necesita la de dios xD) ya que la RAM es aún ahora, mucho mas rápida que los SSD, además que tiene una cantidad de lecturas y escrituras mucho mas alta que los ssd (te fundirías cualquier ssd si pretendieses usarlo como RAM)
  43. #40 Tengo un ryzen 7600X con 64gb de ram, 6gb de tarjeta de vídeo y un nmve samsung pro, me pregunto si sería "usable". ¿La "inteligencia" de la respuesta depende de algún modo de la capacidad de proceso o eso sólo limita la velocidad a la que "escupe" las repuestas?
  44. #45 Nunca he probado una placa multicore la verdad. Pero como sean mas tiquismiquis que las propias CPU con la marca y velocidad de la ram, al final va a ser un puto dolor de cabeza montarlo
  45. #1 Pero esos requisitos son para entrenarlo o para operarlo? Si es para operarlo habra que esperar a alguna optimizacion, aunque vi que tienen un modo 8 bit mode para maquinas mas modestas...
  46. En AWS, imagino que con una instancia c6g.metal con 64 de CPU y 128 GiB de memoria funcionaria. El coste es 2,176 dólares la hora. ¿Es correcto?
  47. #47 La inteligencia viene marcada por los pesos que cargas en RAM, imagínate que tienes una función de grado 3

    aX³ + bX² + cX + d = Z

    los pesos son los valores que por medio del entrenamiento se le han dado a los parámetros a, b,c,d esos son los datos que almacenas en RAM (por miles de millones)

    El procesador solo define las palabras por minuto que obtendrás, la velocidad de procesamiento de dicha respuesta.

    Dicho de otro modo y asumiendo que pudiese manejar 64gb de ram, un 386 podría correr la IA, extremadamente lento, pero sería igual de inteligente en sus respuestas que tu ryzen.

    PD: lo de la función es un ejemplo "para mortales" a saber que tiene una red neuronal dentro xD
  48. #51 Es lo que imaginaba, mil gracias por la respuesta.
  49. #49 Para operarlo (inferencia)

    Para entrenarlo los recursos suben muchisimo, necesitas 8 A100 de 80gb durante días calculando para obtener los pesos. Luego la inferencia requiere mucho menos.
  50. #50 He mirado otros cloud de ese tipo y el coste anda por ahi si.

    Dependiendo de cuanto tiempo vayas a usarlo, merece la pena o no.

    Es decir, si solo quieres verlo en funcionamiento (y no te vale con la demo que ponen ellos) sale rentable, lo pruebas un par de días y te dejas 100€.

    Si quieres mantenerlo porque te resulta útil, merece la pena comprar el hardware, son unos 7000€ que sería el equivalente a un cloud durante 130 días. A partir de ahi, ya estarías "ganando" con respecto al cloud.

    El problema es que dentro de 130 días saldrá otro modelo, que igual no puedes mover.

    De momento si, tirar de cloud para ir probando.
  51. #52 No tomes mi respuesta al pie de la letra, llevo relativamente poco formándome en el tema.

    Igual afectan otras cosas aparte de la velocidad de procesador, como su caché (para la velocidad) o el tipo de tecnología.

    Y como le dije otro usuario, eso es para inferencia (usar algo ya entrenado) si quieres entrenar, necesitas 8 a100 de 80gb (a 10000€ cada una xD) durante días.
  52. #34 La mayor parte del mundo quiere ganar pero sin arriesgar nada.

    Quieren que saquen mejores juegos pero sin dar feedback, mejores SO pero sin dar información de uso, y en este caso, que una IA sea cada vez mas cercana a AGI (IA fuerte, el siguiente nivel, indistinguible de una persona) pero sin que OpenAI pueda en este caso, tener acceso a los prompts de millones de personas para conseguirlo.
  53. #25 Pues espera a que salgan las versiones "Guanaco" y "Alpaca"... xD
  54. #24 Llama es muy estúpida xD y alpaca otro tanto, le pedí la "función" de mi post #3 y se ponía a meter sockets http y no se que mas xD

    Eso si, los que ahora son tontos de remate son alexa, google asistant y siri, despues de probar estos, volver a "ok google dame la hora" "lo siento no te he entendido" grrrrrrrrrrrrrrr

    xD
  55. #55 Si, lo que más me llama la atención es la diferencia de capacidad necesaria para usarlo VS entrenarlo. Imagino que en menos de un año o dos empezará a haber modelos refinados y "tuneados" para usos más "caseros", que estén específicamente entrenados para diferentes necesidades. Lo que no deja de comerme la cabeza es, por muy open source que sea, cómo saber (como bien dices) cómo cojones funciona la red neuronal o cómo "controlarla". Para mi esta tecnología es una absoluta caja negra... entiendo lo que hace, pero no tengo ni puta idea de cómo lo hace.
  56. #54 muchas gracias. ¿Crees que bajará el coste de por hora de CPU y GPU?
  57. #60 depende de las empresas.

    Si ven que la gente lo usa, puede que compren muchas tarjetas y el precio baje al ser algo masificado.

    Si no lo hacen (o simplemente, no hay esas tarjetas porque el número es limitado) el precio subirá.
  58. #59 Es literalmente una caja negra.

    Una red neuronal, tiene "capas"

    www.tibco.com/sites/tibco/files/media_entity/2021-05/neutral-network-d

    TIene las capas de entrada y de salida (que son los parámetros que metemos y los resultados) que sabemos lo que son.

    Pero las capas internas, u ocultas, es la IA quien decide como se comportan, y que pesos tiene, los varía a lo bestia hasta que en el conjunto de entrenamiento la entrada produce la salida deseada.

    Por ejemplo, imagína un conjunto de fotos de gatos y perros, y le dices a la IA "toma, estas fotos, que te he puesto en blanco y negro (igual ahora ya lo pillan en color) son de perros y gatos, modifica tus pesos hasta que con tus cálculos, obtengas la respuesta correcta"

    Y entonces adapta una función y los pesos (forma de las orejas, tamaño, bigotes, etc) y obtiene unos pesos para esa función, y cuando le pases una foto de un gato que no estaba en el dataset, descompone la foto y usando esos mismos pesos, te dice si es un gato o un perro. Pero internamente, no tenemos ni idea de como lo ha hecho.

    Porqué es diferente entrenamiento que inferencia?

    Piensa en probar combinaciones, cuando la IA no ha empezado, tiene que probar números para a b c d en un rango de -1 a 1 en pasos de 0,001

    Eso son 2000 pasos para "a" elevado a 4 parámetros (a b c d) 1,6*10¹³ combinaciones. Imagina con los 175 billones que tiene gpt3.5

    Probar eso lleva tiempo. Ahora bien, una vez tienes los pesos, tu ordenador solo tiene que descomponer la entrada que le mandes (foto, audio, un texto) y meterlo en la función, eso es un trabajo mucho mas sencillo y rápido que probar combinaciones, es un "simple" cálculo matemático en el que influye el procesador ya solo en cuantas palabras por minuto nos puede dar
  59. #4 Mmm, esas pruebas no me parecen muy complejas.
  60. #63 No no, para nada. Son chorradas.

    Pero es que alpaca gpt4all llama y alguna mas que he probado, no son capaces de responder a eso de forma decente.

    Es como mi pregunta tester xD
  61. #64 Vale vale, pensaba que era como tu prueba de fuego {0x1f603}
  62. #65 En absoluto, es la prueba para decir "este es imbecil" xD

    Si no pasa de ahi, ni me molesto en seguir preguntando.

    Lo que si te puedo decir es que le he preguntado cosas mas complejas y las ha respondido guay, hay que corregir alguna tontería, pero lo hace (puedes probarla tu chat.lmsys.org/ en la demo que ponen en github)
  63. #48

    Si te interesa el tema, puedes ver como hacer algo así:

    www.redhat.com/en/topics/high-performance-computing/what-is-high-perfo

    github.com/openhpc/ohpc/wiki/2.x

    en.wikipedia.org/wiki/OpenHPC

    Aqui una guia de como montar uno: github.com/openhpc/ohpc/releases/download/v2.6.GA/Install_guide-Leap_1

    Y si, justamente se usa para este tipo de casos:

    "What can you do with HPC?
    With the increased use of technologies like the Internet of Things (IoT), artificial intelligence (AI), and machine learning (ML), organizations are producing huge quantities of data, and they need to be able to process and use that data more quickly in real-time. "
  64. #46 Pues sigo alucinando y sin comprenderlo del todo, supongo que tendré que buscar un video YouTube donde me lo expliquen a modo "/r/explainlikeimfive/" porque mi mente no alcanza a comprender como puedes estar hablando de gigas y no miles de petabytes o exabytes...

    Por cierto, gracias por responder.
  65. #16 Eso creo que no es relevante, pero lo mismo no entiendo bien tu punto de vista. Para mí el problema que tendrían para defenderlo en un tribunal es que lo generado por una ia no puede tener copyright ni derechos de autor ninguno, por lo que podré usarlo sin tenerlos en cuenta para lo que yo quiera.
  66. Leyendo los comentarios, lo que parece increíble es que una cuenta de OpenAI cueste tan solo 20 dolares al mes.
  67. #68
    La cosa es, no estás almacenando las capitales ni los rios ni código ni nada.

    Un ordenador solo entiende de ceros y unos, entonces supongamos una función ax+b = z

    Tu codificas la información, y le vas pasando los ceros y unos a la función, pongamos que eso representa una foto de un gato.

    Entonces, le pasamos la foto de gato en binario, y en "z" le decimos "gato" en binario también.

    Ajustará a y b para que por medio de una operación matemática, el binario de la foto del gato le salga el binario de la palabra "gato".

    Ahora repetimos esto un número insano de veces, con distintas fotos de perros y gatos, donde cada vez ajusta un poquito mas a y b para poder abarcar todos los resultados.

    Una vez que está entrenada, la inteligencia artificial solo es un conjunto de números (pesos) que son los valores de a y b (multiplicado por billones en el caso de gpt3.5)

    Tu te descargas ese conjunto de números, y la función sobre la que se aplica, por ejemplo en nuestro caso -2,5 y 3,72 para a y b.

    Un tipo float (un número decimal) ocupa 4 bytes, si almacenamos 13 billones de esos (por eso se llama vicuna 13B) el total de espacio es de 52 gb de datos (por eso te piden 60 gb de ram)

    Eso es lo que se almacena, luego se aplican en la función y la IA está lista para que le pases una foto de tu gato, la convertirá a binario, y si está bien entrenada te dirá "si, tienes un gato"

    Lo de almacenarlo en RAM en lugar del SSD es por velocidad, aún hoy la RAM es mas rápida que los SSD.
  68. #54 Te lo has ganado: {0x1f37a}
    Muchas gracias, se aprecia mucho. :hug:
  69. #71 Gracias por la explicación, creo que te lo agradecí en otra parte del hilo, pero te doy otro premio adicional por si te viene bien: :ferrari:
  70. Ayer precisamente, en Colab(llevado por Google) banearon PygmalionAI, porque los usuarios estaban todo el dia cambiándose las cuentas para escribir sus fanfictions en conjunto con la IA, aportando poco a nivel de desarrollo... y estas cosas consumen una de recursos absolutamente salvaje. Y eso que es un modelo que de por sí consume mucho menos que los mas conocidos por la gente, que gente con ciertos modelos de gráficas de gama alta de Nvidia podría correr en offline. Aunque con el tiempo no dudo que la cosa se optimice mucho más, y tengamos IAs 'portátiles' competentes offline en todo tipo de dispositivos a medio plazo.
  71. #1 he hecho una prueba para ver qué tal programa y es peor que chatgpt 3.5 por mucho. Sabes de algún modelo parecido especializado en saber programar? algo tipo github copilot pero open source y con soporte para más lenguajes?
  72. #75 Nop, todos son modelos generales.

    Apúntate en la beta de copilot X que según dicen estará basado en gpt-4
  73. #69 En Estados Unidos se usan las contrademandas como técnica de defensa jurídica.
    Si tu me demandas porque dices que te he copiado, yo te demando por que lo tuyo ya lo habias copiado de otro, del que casualmente tengo sus derechos.
    Esto permite forzar un pacto
  74. #9 No. He tenido un bot para Telegram. Muy bueno. Pero a la semana me exigía un pago.
  75. #77 Entiendo lo que dices, pero en este caso lo veo más claro. Pero es que creo que no hay pacto que forzar porque no habrá caso, del mismo modo que ocurrió con la autofoto del mono (www.xatakafoto.com/actualidad/puede-un-mono-arrebatar-los-derechos-de-), en el que el dueño de la cámara no puede reclamar derechos de autor sobre la foto, el caso de la IA es similar y no se puede reclamar derechos de propiedad intelectual.
  76. #35 Supongo que si no se tienes esa cantidad de memoria se usa archivos en disco, así que aunque no tengas la memoria necesaria en la GPU o en la placa base tirará de SSD preferiblemente.

    ¿se puede usar de manera desconectada?
  77. #22 #55 Naaaa, los requisitos són solo temporales, ya verás cuando aprendan a comprimirlo como si fuese un archivo zip o rar el resultado, desde mi punto de vista no se necesita tanto proceso.

    De momento no saben separar la paja del trigo separado de la paja, esperando ver la convolución de la IA mejorando la red neuronal para mejorar su modelo de lenguaje en base al mismo, algo que no puede hacer sin sus herramientas, los usuarios claro está. :troll:
  78. Viendo que están con los juegos sobre los nombres de animales que viven en sudamérica (llama, alpaca), el nuevo nombre del LLM no es "vicuna", es Vicuña, con "ñ". Lo que pasa que los gringos no tiene ñ en el teclado xD
  79. #81 Ya están entrenando redes IA para generar mejores modelos. A la velocidad que van, para navidades tenemos GPT17.
    Y seguiremos sin saber como interpretar sus datos, cada vez menos.  media
comentarios cerrados

menéame