edición general
165 meneos
1779 clics
¡Ejecuta tu propio ChatGPT en local gratis y sin censura! (LM Studio + Mixtral)

¡Ejecuta tu propio ChatGPT en local gratis y sin censura! (LM Studio + Mixtral)  

Hace unos días en mi otro canal en dosv que donde doy todas las explicaciones teóricas de Cómo funciona la revolución de la Inteligencia artificial que estamos viviendo hoy os estuve hablando sobre los mixter of experts un tipo de arquitectura de Deep learning que actualmente se está utilizando tras estos enormes modelos de lenguaje que utilizamos para poder hablar con la Inteligencia artificial y que ha ganado bastante popularidad tras presuntamente descubrirse que esta podría ser la arquitectura que reside tras un modelo tan popular como gpt

| etiquetas: dotcsv , chatgpt , local , tutorial , sin censura , lm studio , mixtral
Comentarios destacados:              
#4 Pego y amplío lo que escribí hace un tiempo

Si alguien quiere probar alternativas libres a ChatGPT aquí van un par de recomendaciones para novatos, que usan modelos de código libre.

En local está GPT4all. Si no tienes una gráfica decente se ejecutará mediante CPU y la RAM normal: gpt4all.io/
Si tienes 8gbs de RAM o VRAM puedes ejecutar los modelos 7b, si tienes 16 GB, entonces puedes pasar a los de 14b

Se pueden descargar más modelos libres aquí, que es una persona que los convierte a formato GGUF: huggingface.co/TheBloke

Online hay varios Colabs. Google Colab es un servicio de alquiler de GPU mediante máquinas virtuales. Dan bastantes horas gratis de GPUs de 16 gigas de VRAM. Esto hace que se puedan probar modelos de 14b
Este es el más sencillo de usar que he encontrado (de momento): github.com/LostRuins/koboldcpp
Se puede ejecutar directamente aquí: colab.research.google.com/github/LostRuins/koboldcpp/blob/concedo/cola

Tiene medidas para…...
  1. Por ahora poco viable para quien no tenga una gpu decente
  2. Sin sensura
  3. El otro día quería hacer un curso pero están ocupados hasta marzo.
  4. Pego y amplío lo que escribí hace un tiempo

    Si alguien quiere probar alternativas libres a ChatGPT aquí van un par de recomendaciones para novatos, que usan modelos de código libre.

    En local está GPT4all. Si no tienes una gráfica decente se ejecutará mediante CPU y la RAM normal: gpt4all.io/
    Si tienes 8gbs de RAM o VRAM puedes ejecutar los modelos 7b, si tienes 16 GB, entonces puedes pasar a los de 14b

    Se pueden descargar más modelos libres aquí, que es una persona que los convierte a formato GGUF: huggingface.co/TheBloke

    Online hay varios Colabs. Google Colab es un servicio de alquiler de GPU mediante máquinas virtuales. Dan bastantes horas gratis de GPUs de 16 gigas de VRAM. Esto hace que se puedan probar modelos de 14b
    Este es el más sencillo de usar que he encontrado (de momento): github.com/LostRuins/koboldcpp
    Se puede ejecutar directamente aquí: colab.research.google.com/github/LostRuins/koboldcpp/blob/concedo/cola

    Tiene medidas para que Google no pueda leer las conversaciones, pero obviamente al ser su hardware podría hacerlo.

    Es dar el segundo botón de play y después de un rato te saldría un enlace de cloudflare.

    Hay que tener en cuenta que ChatGPT es un modelo más avanzado y más grande que los de 14b. Se dice que los modelos libres óptimos son los de 70b.

    Así que no esperéis el mismo rendimiento. También es posible que olvide cosas e instrucciones de la conversación porque a más contexto, más necesidad de potencia.

    #1 Está la posibilidad que he puesto.
  5. #1 Si ves el vídeo completo explica que la GPU se puede usar para quitarle carga a la CPU en mayor o menor medida, aunque lo más recomendable es cargarlo todo en la GPU para que no vaya arrastrando como un zombi sin piernas.

    Aunque por lo que parece sólo sirve para dar texto genérico, igual que los chatbots de principio de los 2000 pero con mejor retórica y chupando 96Gb de Vram. Así que aguantad los caballos que esto aun no sirve para que algunos metan fotos de su tía Berta para rejuvenecerla 20 años y zurrarse la sardina generando fotos guarras de ella.
  6. #5 Tú no sabes cómo está la tía Berta.
  7. #1 yo tengo una 1070 TI, y tira bastante bien
  8. #5

    ¿tienes alguna idea de lo que estás hablando?
  9. #4

    Como complemento recomiendo "The Oobabooga TextGen WebUI " para correr los LLMs

    Acá hay un buen video al respecto

    www.youtube.com/watch?v=lb_lC4XFedU&t=656s

    recomiendo mucho ese canal para todo lo que tiene que ver con IA sobre todo en local

    www.youtube.com/@Aitrepreneur/videos
  10. #8 Parece que conoce bien a su tía Berta.
  11. Pues ahora me voy q montar mi propio chatgpt, con casinos y furcias.
  12. #4 Buen resumen. Añado una que me ha gustado mucho por poder hacer RAG limitado y funciona con mi ancestral RTX 1050 de 2Gb
    github.com/ollama-webui/ollama-webui
    montas el docker y a vivir. Lo de arrastrar y soltar documentos, o imágenes e interrogar sobre su contenido todavía me sigue alucinando xD
  13. #5 Aunque por lo que parece sólo sirve para dar texto genérico

    A ver si va a ser por que son modelos de texto ...

    Para generación de imágenes en local hace tiempo que existe Stable Diffusion, para generar imágenes con una GPU de 4Gb o así basta, pero si lo que quieres es entrenarlo con fotografías o imágenes propias seguramente necesites una GPU de 12Gb de VRAM o quizá con algo menos también sea posible.
  14. #12 +1 para ollama + ollama-webui. Modelos que en oobabooga no conseguía que funcionaran correctamente, aquí han ido como la seda.
  15. Funciona con GPUs Radeon ?
  16. #11 Que coño! que le den a los casinos y al ChatGpt!
  17. #4: 8 Gb, imagino que nada más arrancar el ordenador. ¿no? xD
  18. #5 gerontofilo
  19. Yo lo único que os digo es que vayáis apañando RAM para poder cargar buenos modelos, y respecto a gráficas, las AMD os dan mas memoria por menos dinero que las Nvidia y, a fin de cuentas, eso es lo único que importa.
  20. #1 Exactamente. Hay que tener un tarjeta bien potente para correr eso medianamente bien. Si se recurre a modelos más pequeños, tienes una mierda pichanda en un palo. El tipo lo ejecuta en una doble tarjeta con casi 100GB de VRAM, que cuesta como 10.000 euros. Vaya engaño de vídeo! (al menos para el 99% de nosotros que no tenemos semejantes dineral para ese hardware)
  21. ¡ Eso, mátalo, mátalo !
  22. ¿Alguien sabe qué puede estar pasando en mi Windows 11 que no me deja instalar el LM Studio? Me dice installation has failed todo el tiempo, incluso como administrador.
  23. #20 Pues hoy por hoy o es Nvidia o como si no tuvieras gráfica.
  24. #20 Si no tienes una Nvidia olvidate del CUDA, y sin CUDA, a efectos prácticos, olvidate del ML en ordenadores personales.
  25. #8 Copio y pego de algún foro, no le pidas más xD
  26. #19 ...hasta que tenga una GPU decente
  27. #23 ¿quieres trastear con LLMs en windows? En zerio? xD
  28. #4 Muchas gracias, una explicación cojonuda
  29. #5 para lo de la tía berta existen otros modelos...
  30. #16 la mía (6700xt) la plataforma no la dectecta automáticamente al menos... :-(
  31. #29 ¿qué impedimento técnico habría para ello?
  32. #13 Puedes incluso usar Img2Img e Inpaint para alterar imágenes existentes o usarlas de base...
  33. #21 Yo tengo una 7900XTX con "sólo" 24GB de RAM y se supone que es una gráfica pepino (sí, enfocada a gaming más que a otras tareas)
  34. #33 Impedimentos ninguno, complicaciones muchas.
  35. #36 ¿Qué complicaciones? No recuerdo haber tenido ninguna.
  36. #26 Con los MAC ARM también puedes ejecutar los modelos 7b (con 16GB) y si tienes 32Gb los 14b. El rendimiento de un 7b en un M1 Pro es similar a una RTX3080 en velocidad de respuesta. Sin embargo, lo dicho por ahí arriba, los modelos pequeños valen para hacer algunas pruebas y cuatro cosillas
  37. #14 Le he puesto el zephir 7B con este prompt
    C# method to read a json file from a postman collection export that will read the collection variables, launch the requests and execute the test scripts

    Y lo he dejado a su bola...una hora mas tarde sigue produciendo codigo , con explicaciones y razonamiento. Cuando termine le echare un ojo a ver si se parece a lo que hice yo en su momento y a lo mejor aprendo algo :-)

    Lo mas probable es que alucine bastante el LLM y pierda de vista el objeto de la pregunta , pero como ejercicio de programacion es lo bastante bueno como para evaluar lo bien que entiende el concepto , y como estructura las respuestas. Obviamente no espero que sea capaz de reproducir como interpretar el codigo javascript que hace las pruebas en postman desde C# , pero si saca una forma de hacerlo en C#, igual pasa a ser mi modelo favorito para programacion.

    Para multimodal , el lava es como minimo curioso. Arrastras una foto sobre el chat, le dices que describa el contenido y la verdad es que me ha sorprendido muy gratamente
  38. #21 Pues paso de probar en la Raspberry... :-)
  39. #21 Por cierto, bromas aparte tampoco corre en el mío. Tengo 32Gb de RAM y una nVidia. Pero no corre por que el i7 de 2 generación no soporta la instrucción avx2, que parece que es una vectorial "avanzada" implementada en la 3 versión de los micros de intel. :-P Soy de informática vintage y no me apetece cambiar de ordenador porque este me llega para uso general... Por lo que ya jugaré con otros locales menos problemáticos. Saludos!
  40. #24 #26 LM Studio tiene soporte de AMD ROCm beta.

    Y si las cosas pintan como AMD quiere que pinten, es posible que en el futuro en la IA no todo sea tan "Nvidia-only". Y es que AMD esta ofreciendo material competente, más barato que Nvidia, con el doble de RAM (¡mas importante que la potencia de procesamiento!), y consumiendo menos. Coño, es que las 4090 gastan tanto que se queman solas, cojones...

    P.D.: Y no nos olvidemos de los AMD que llevan iGPU integradas. Un 8700G admite hasta 256GB gastando 65W...
  41. #42 de fanboys de Apple a fanboys de AMD. Como cambian los tiempos pero no las mañas.

    Saludos,
    - Fanboy de Nvidia
  42. #43 ¿Hola? Si ves que he dicho algo impreciso me avisas.
  43. #44 cero impreciso, todo lo contrario. Era un chascarrillo por el tinte de tu mensaje nomás. :hug:
  44. #39 para código, mejor que zephyr, te recomiendo deepseek-coder que tiene también una versión de 6.7b
  45. #46 Le echare un ojo , pero no era tanto el codigo en si como el "razonamiento" que tenia que hacer para sacarlo. Me ha sorprendido gratamente. Ahora estoy probando cosas con el dolphin-mixtral y va la hostia de lento , pero ahi va , sacando un caracter cada 5 minutos o asi xD
  46. #47 ¿pero que tienes, un 486? :-D
    Añade al prompt algo como "think step by step" y verás como razona.
  47. #48 un i5-7500 CPU @ 3.40GHz con 32Gb y una nvidia RTX 1050 de 2 Gb, no me pidas mucho mas hasta que llegue la devolución de hacienda xD
  48. #35 El problema es que esa tarjeta no sirve (aún) para la IA.
  49. #50 Por lo menos funciona con Stable Diffusion en Ubuntu :-D
  50. #51 Ah sí? No lo sabía. Stable Diffusion puede usar tarjetas de AMD?
  51. #53 Gracias por la info!!
comentarios cerrados

menéame