¡Ejecuta tu propio ChatGPT en local gratis y sin censura! (LM Studio + Mixtral)

165 meneos

1779 clics

¡Ejecuta tu propio ChatGPT en local gratis y sin censura! (LM Studio + Mixtral)

Hace unos días en mi otro canal en dosv que donde doy todas las explicaciones teóricas de Cómo funciona la revolución de la Inteligencia artificial que estamos viviendo hoy os estuve hablando sobre los mixter of experts un tipo de arquitectura de Deep learning que actualmente se está utilizando tras estos enormes modelos de lenguaje que utilizamos para poder hablar con la Inteligencia artificial y que ha ganado bastante popularidad tras presuntamente descubrirse que esta podría ser la arquitectura que reside tras un modelo tan popular como gpt

88 77 0 K 374 tecnología

54 comentarios

88 77 0 K 374 tecnología

Comentarios destacados:

#4 Pego y amplío lo que escribí hace un tiempo

Si alguien quiere probar alternativas libres a ChatGPT aquí van un par de recomendaciones para novatos, que usan modelos de código libre.

En local está GPT4all. Si no tienes una gráfica decente se ejecutará mediante CPU y la RAM normal: gpt4all.io/
Si tienes 8gbs de RAM o VRAM puedes ejecutar los modelos 7b, si tienes 16 GB, entonces puedes pasar a los de 14b

Se pueden descargar más modelos libres aquí, que es una persona que los convierte a formato GGUF: huggingface.co/TheBloke

Online hay varios Colabs. Google Colab es un servicio de alquiler de GPU mediante máquinas virtuales. Dan bastantes horas gratis de GPUs de 16 gigas de VRAM. Esto hace que se puedan probar modelos de 14b
Este es el más sencillo de usar que he encontrado (de momento): github.com/LostRuins/koboldcpp
Se puede ejecutar directamente aquí: colab.research.google.com/github/LostRuins/koboldcpp/blob/concedo/cola

Tiene medidas para…...

#1 pedrobotero

Por ahora poco viable para quien no tenga una gpu decente

1 22
#2 MSX_

Sin sensura

2 27
#3 manbobi

El otro día quería hacer un curso pero están ocupados hasta marzo.

0 13
#4 thorin

Pego y amplío lo que escribí hace un tiempo

Si alguien quiere probar alternativas libres a ChatGPT aquí van un par de recomendaciones para novatos, que usan modelos de código libre.

En local está GPT4all. Si no tienes una gráfica decente se ejecutará mediante CPU y la RAM normal: gpt4all.io/
Si tienes 8gbs de RAM o VRAM puedes ejecutar los modelos 7b, si tienes 16 GB, entonces puedes pasar a los de 14b

Se pueden descargar más modelos libres aquí, que es una persona que los convierte a formato GGUF: huggingface.co/TheBloke

Online hay varios Colabs. Google Colab es un servicio de alquiler de GPU mediante máquinas virtuales. Dan bastantes horas gratis de GPUs de 16 gigas de VRAM. Esto hace que se puedan probar modelos de 14b
Este es el más sencillo de usar que he encontrado (de momento): github.com/LostRuins/koboldcpp
Se puede ejecutar directamente aquí: colab.research.google.com/github/LostRuins/koboldcpp/blob/concedo/cola

Tiene medidas para que Google no pueda leer las conversaciones, pero obviamente al ser su hardware podría hacerlo.

Es dar el segundo botón de play y después de un rato te saldría un enlace de cloudflare.

Hay que tener en cuenta que ChatGPT es un modelo más avanzado y más grande que los de 14b. Se dice que los modelos libres óptimos son los de 70b.

Así que no esperéis el mismo rendimiento. También es posible que olvide cosas e instrucciones de la conversación porque a más contexto, más necesidad de potencia.

#1 Está la posibilidad que he puesto.

62 446
#5 Aeren

#1 Si ves el vídeo completo explica que la GPU se puede usar para quitarle carga a la CPU en mayor o menor medida, aunque lo más recomendable es cargarlo todo en la GPU para que no vaya arrastrando como un zombi sin piernas.

Aunque por lo que parece sólo sirve para dar texto genérico, igual que los chatbots de principio de los 2000 pero con mejor retórica y chupando 96Gb de Vram. Así que aguantad los caballos que esto aun no sirve para que algunos metan fotos de su tía Berta para rejuvenecerla 20 años y zurrarse la sardina generando fotos guarras de ella.

7 72
#6 woody_alien

#5 Tú no sabes cómo está la tía Berta.

11 98
#7 founds

#1 yo tengo una 1070 TI, y tira bastante bien

0 7
#8 visualito

#5

¿tienes alguna idea de lo que estás hablando?

8 66
#9 visualito

#4

Como complemento recomiendo "The Oobabooga TextGen WebUI " para correr los LLMs

Acá hay un buen video al respecto

www.youtube.com/watch?v=lb_lC4XFedU&t=656s

recomiendo mucho ese canal para todo lo que tiene que ver con IA sobre todo en local

www.youtube.com/@Aitrepreneur/videos

6 52
#10 thorin

#8 Parece que conoce bien a su tía Berta.

8 74
#11 ronko

Pues ahora me voy q montar mi propio chatgpt, con casinos y furcias.

18 122
#12 LoboAsustado

#4 Buen resumen. Añado una que me ha gustado mucho por poder hacer RAG limitado y funciona con mi ancestral RTX 1050 de 2Gb
github.com/ollama-webui/ollama-webui
montas el docker y a vivir. Lo de arrastrar y soltar documentos, o imágenes e interrogar sobre su contenido todavía me sigue alucinando

11 83
#13 sorrillo

#5 Aunque por lo que parece sólo sirve para dar texto genérico

A ver si va a ser por que son modelos de texto ...

Para generación de imágenes en local hace tiempo que existe Stable Diffusion, para generar imágenes con una GPU de 4Gb o así basta, pero si lo que quieres es entrenarlo con fotografías o imágenes propias seguramente necesites una GPU de 12Gb de VRAM o quizá con algo menos también sea posible.

6 57
#14 ACEC

#12 +1 para ollama + ollama-webui. Modelos que en oobabooga no conseguía que funcionaran correctamente, aquí han ido como la seda.

3 35
#15 Marcapasos

#11 Compro!

1 15
#16 Dectacubitus

Funciona con GPUs Radeon ?

0 6
#17 deepdoop

#11 Que coño! que le den a los casinos y al ChatGpt!

1 14
#18 mcfgdbbn3

#4: 8 Gb, imagino que nada más arrancar el ordenador. ¿no?

0 11
#19 --772776--

#5 gerontofilo

0 7
#20 Razorworks

Yo lo único que os digo es que vayáis apañando RAM para poder cargar buenos modelos, y respecto a gráficas, las AMD os dan mas memoria por menos dinero que las Nvidia y, a fin de cuentas, eso es lo único que importa.

0 7
#21 lawnmowerdog *

#1 Exactamente. Hay que tener un tarjeta bien potente para correr eso medianamente bien. Si se recurre a modelos más pequeños, tienes una mierda pichanda en un palo. El tipo lo ejecuta en una doble tarjeta con casi 100GB de VRAM, que cuesta como 10.000 euros. Vaya engaño de vídeo! (al menos para el 99% de nosotros que no tenemos semejantes dineral para ese hardware)

1 21
#22 Socavador

¡ Eso, mátalo, mátalo !

0 12
#23 Toranks

¿Alguien sabe qué puede estar pasando en mi Windows 11 que no me deja instalar el LM Studio? Me dice installation has failed todo el tiempo, incluso como administrador.

0 9
#24 levante

#20 Pues hoy por hoy o es Nvidia o como si no tuvieras gráfica.

4 43
#25 --710767--

» ver comentario
#26 Robus

#20 Si no tienes una Nvidia olvidate del CUDA, y sin CUDA, a efectos prácticos, olvidate del ML en ordenadores personales.

4 41
#27 KoLoRo

#8 Copio y pego de algún foro, no le pidas más

0 7
#28 Find

#19 ...hasta que tenga una GPU decente

1 18
#29 mandelbr0t *

#23 ¿quieres trastear con LLMs en windows? En zerio?

1 13
#30 sotillo

#4 Muchas gracias, una explicación cojonuda

0 10
#31 eljuligallego

#5 para lo de la tía berta existen otros modelos...

3 31
#32 shibabcn

#16 la mía (6700xt) la plataforma no la dectecta automáticamente al menos...

0 6
#33 --660959--

#29 ¿qué impedimento técnico habría para ello?

0 9
#34 mierdeame

#13 Puedes incluso usar Img2Img e Inpaint para alterar imágenes existentes o usarlas de base...

2 20
#35 mierdeame

#21 Yo tengo una 7900XTX con "sólo" 24GB de RAM y se supone que es una gráfica pepino (sí, enfocada a gaming más que a otras tareas)

1 15
#36 mandelbr0t

#33 Impedimentos ninguno, complicaciones muchas.

0 10
#37 shinjikari

#36 ¿Qué complicaciones? No recuerdo haber tenido ninguna.

2 26
#38 oscar8x

#26 Con los MAC ARM también puedes ejecutar los modelos 7b (con 16GB) y si tienes 32Gb los 14b. El rendimiento de un 7b en un M1 Pro es similar a una RTX3080 en velocidad de respuesta. Sin embargo, lo dicho por ahí arriba, los modelos pequeños valen para hacer algunas pruebas y cuatro cosillas

0 6
#39 LoboAsustado

#14 Le he puesto el zephir 7B con este prompt
C# method to read a json file from a postman collection export that will read the collection variables, launch the requests and execute the test scripts

Y lo he dejado a su bola...una hora mas tarde sigue produciendo codigo , con explicaciones y razonamiento. Cuando termine le echare un ojo a ver si se parece a lo que hice yo en su momento y a lo mejor aprendo algo

Lo mas probable es que alucine bastante el LLM y pierda de vista el objeto de la pregunta , pero como ejercicio de programacion es lo bastante bueno como para evaluar lo bien que entiende el concepto , y como estructura las respuestas. Obviamente no espero que sea capaz de reproducir como interpretar el codigo javascript que hace las pruebas en postman desde C# , pero si saca una forma de hacerlo en C#, igual pasa a ser mi modelo favorito para programacion.

Para multimodal , el lava es como minimo curioso. Arrastras una foto sobre el chat, le dices que describa el contenido y la verdad es que me ha sorprendido muy gratamente

0 7
#40 woopi

#21 Pues paso de probar en la Raspberry...

1 18
#41 woopi *

#21 Por cierto, bromas aparte tampoco corre en el mío. Tengo 32Gb de RAM y una nVidia. Pero no corre por que el i7 de 2 generación no soporta la instrucción avx2, que parece que es una vectorial "avanzada" implementada en la 3 versión de los micros de intel. Soy de informática vintage y no me apetece cambiar de ordenador porque este me llega para uso general... Por lo que ya jugaré con otros locales menos problemáticos. Saludos!

1 18
#42 Razorworks *

#24 #26 LM Studio tiene soporte de AMD ROCm beta.

Y si las cosas pintan como AMD quiere que pinten, es posible que en el futuro en la IA no todo sea tan "Nvidia-only". Y es que AMD esta ofreciendo material competente, más barato que Nvidia, con el doble de RAM (¡mas importante que la potencia de procesamiento!), y consumiendo menos. Coño, es que las 4090 gastan tanto que se queman solas, cojones...

P.D.: Y no nos olvidemos de los AMD que llevan iGPU integradas. Un 8700G admite hasta 256GB gastando 65W...

0 7
#43 caramelosanto

#42 de fanboys de Apple a fanboys de AMD. Como cambian los tiempos pero no las mañas.

Saludos,
- Fanboy de Nvidia

0 7
#44 Razorworks

#43 ¿Hola? Si ves que he dicho algo impreciso me avisas.

0 7
#45 caramelosanto

#44 cero impreciso, todo lo contrario. Era un chascarrillo por el tinte de tu mensaje nomás.

2 24
#46 ACEC *

#39 para código, mejor que zephyr, te recomiendo deepseek-coder que tiene también una versión de 6.7b

0 9
#47 LoboAsustado

#46 Le echare un ojo , pero no era tanto el codigo en si como el "razonamiento" que tenia que hacer para sacarlo. Me ha sorprendido gratamente. Ahora estoy probando cosas con el dolphin-mixtral y va la hostia de lento , pero ahi va , sacando un caracter cada 5 minutos o asi

0 7
#48 ACEC

#47 ¿pero que tienes, un 486?
Añade al prompt algo como "think step by step" y verás como razona.

0 9
#49 LoboAsustado

#48 un i5-7500 CPU @ 3.40GHz con 32Gb y una nvidia RTX 1050 de 2 Gb, no me pidas mucho mas hasta que llegue la devolución de hacienda

0 7
#50 lawnmowerdog

#35 El problema es que esa tarjeta no sirve (aún) para la IA.

0 9
#51 mierdeame

#50 Por lo menos funciona con Stable Diffusion en Ubuntu

0 6
#52 lawnmowerdog

#51 Ah sí? No lo sabía. Stable Diffusion puede usar tarjetas de AMD?

0 9
#53 mierdeame

#52 old.reddit.com/r/StableDiffusion/comments/160om1k/so_close_to_running_

1 15
#54 lawnmowerdog

#53 Gracias por la info!!

1 15