• Saltar al contenido principal
  • Saltar a la barra lateral principal
  • Blog
  • Sistemas Operativos
    • Todos los sistemas operativos del Raspberry Pi Imager en 2026
  • Tipos de Raspberry Pi
    • Selector interactivo de Raspberry Pi
    • Raspberry Pi: rivales y alternativas SBC en 2026 con Armbian y DietPi
  • Glosario
  • FAQ
  • Contacto
  • Cookies y RGPD
  • Acerca de

Raspberry para torpes

Blog sobre Raspberry Pi en español desde 2013. Guías de configuración, hardware, sistemas operativos y proyectos para todos los niveles.

modelos-llm-potato-os-raspberry-pi-5

Probando modelos LLM en Potato OS: cuál encaja en la Raspberry Pi 5

27 mayo, 2026 by manuti Deja un comentario

El artículo anterior explicaba cómo instalar y arrancar Potato OS en la Raspberry Pi 5. El sistema queda en marcha con el modelo Qwen3.5-2B-Q4_K_M descargado automáticamente. Funciona. Sin embargo, la pregunta llega sola: ¿es ese el mejor modelo que puede correr esta placa, o hay algo más capaz dentro del mismo límite de memoria?

La respuesta corta es que sí hay alternativas mejores. Encontrarlas, en cambio, lleva más trabajo del esperado. Este artículo cuenta exactamente ese proceso: los modelos que no pasan el corte, los que sí cargan, y cuál sale ganador en las pruebas de razonamiento. Probando patatas!!!

Hugging Face: cuenta, token y descarga con wget

Casi todos los modelos GGUF disponibles hoy se distribuyen a través de Hugging Face, el repositorio de referencia para modelos de lenguaje. Hasta hace poco era posible descargar modelos públicos sin cuenta. Eso ya no es así. Cualquier descarga directa devuelve ahora un error 401, incluso en repositorios de comunidad sin restricciones de licencia.

Crear una cuenta es gratuito y no requiere tarjeta. Basta con ir a huggingface.co/join, introducir correo electrónico y contraseña, y verificar la dirección. Una vez dentro, el siguiente paso es generar un token de acceso. En huggingface.co/settings/tokens aparece la opción de crear un token nuevo. Para descargar modelos es suficiente con el tipo Read. El sistema genera una cadena que empieza por hf_ y que hay que guardar.

Pantalla de creación de token en Hugging Face (tipo Read seleccionado)

Con el token en mano, la descarga desde la Raspberry Pi o desde cualquier equipo de la red se hace con wget añadiendo una cabecera de autorización:

wget --header="Authorization: Bearer hf_XXXXXXXXXX" \
  "https://huggingface.co/bartowski/Qwen_Qwen3-4B-GGUF/resolve/main/Qwen_Qwen3-4B-Q4_K_M.gguf"

Una vez descargado el fichero en el equipo local, se puede copiar a la Pi directamente con scp. El portal web de Potato OS también permite subir archivos desde el panel de Settings, aunque para ficheros de más de 2 GB la transferencia directa por SSH o la descarga conectado a la Raspberry Pi por SSH es más rápida.

Settings de Potato OS con las opciones de gestión de modelos

El indicador de RAM del portal no es fiable

Al cargar cualquier modelo, el panel de Potato OS muestra un porcentaje de uso de memoria que alarma: 91% con el Qwen3.5-2B, 94% con el Qwen3-4B, 96% con el Gemma 3 4B. Esos datos llevan a pensar que no hay margen para nada más. Sin embargo, la realidad es otra.

El comando free -h ejecutado por SSH mientras cualquiera de esos modelos está activo muestra más de 6 GB disponibles. La diferencia no es un error: es cómo Linux gestiona la memoria.

free -h
               total        used        free      shared  buff/cache   available
Mem:           7.9Gi       1.7Gi       491Mi        16Mi       5.9Gi       6.1Gi

Los modelos GGUF se cargan en memoria mediante mmap, una técnica que mapea el fichero del modelo en el espacio de memoria del proceso sin copiarlo físicamente. Linux contabiliza ese espacio dentro de buff/cache, no como memoria ocupada. Esa memoria se puede liberar si el sistema la necesita. Por eso la columna available de free -h muestra los 6 GB reales, mientras el portal cuenta el buff/cache como consumo fijo.

El indicador del portal es, en ese sentido, engañoso. Para saber si un modelo va a caber, la referencia correcta es la columna available de free -h, no el porcentaje de la interfaz web.

Comparativa GUI 96 vs free -h mostrando 6.2G available

Modelos que no pasan el corte

Con 6 GB disponibles y el sistema operativo funcionando, el límite práctico para el fichero GGUF está alrededor de los 4,5 GB. Varios modelos explorados no llegan a esa cifra o presentan otros problemas.

El Gemma 4 E4B de Google tiene trampa en el nombre. Pese a llamarse 4B, su fichero Q4_K_M pesa 4,9 GB y el UD-Q4_K_XL supera los 5 GB. Al intentar cargarlo, el proceso de inferencia agota la memoria y Potato OS se desconecta. El modelo descarga correctamente pero nunca llega a responder.

El Trinity-Nano-Preview Q6_K de Arcee AI ocupa 4,7 GB. Descarga sin problemas pero tampoco carga. El motivo es que durante el cambio de modelo Potato OS mantiene brevemente ambos ficheros en memoria, lo que supera el límite. Además, la cuantización Q6_K exige más recursos de inferencia que un Q4_K_M del mismo tamaño.

El Phi-4-mini de Microsoft descarga y tiene un tamaño razonable, pero su arquitectura no está soportada en la versión de ik_llama que incorpora Potato OS 0.7.2. El modelo queda en estado de carga indefinida.

Por último, los modelos de la familia GLM de Zhipu merecen mención aparte. Herramientas de estimación como llmfit los clasifican erróneamente como modelos pequeños porque confunden los parámetros activos del diseño MoE con el tamaño real del fichero. El GLM-4.5-Air tiene 110 mil millones de parámetros en total. Su versión Q4_K_M pesa casi 73 GB. No hay nada que hacer con él en una Pi 5.

Los que sí funcionan: resultados de razonamiento

Tres modelos cargan y responden sin problemas. Para comparar el razonamiento de forma sencilla, la prueba consiste en pedir el recuento de vocales y consonantes de la palabra PEPPERMINT. Es un caso donde el modelo tiene que analizar letra por letra sin inventarse nada.

El Gemma 3 4B Q4_K_M responde en 14 segundos a 4,71 tok/seg, pero la respuesta es incorrecta: cuenta cinco vocales cuando son tres. También dice que la palabra tiene doce letras cuando tiene diez. El resultado llega rápido, pero no se puede fiar de él.

El Qwen3.5-2B Q4_K_M, el modelo por defecto de Potato OS, es el más rápido de los tres con 7,33 tok/seg. Sin embargo, también falla: inventa letras que no existen, se contradice en el recuento y llega a conclusiones distintas en diferentes partes de la misma respuesta.

El Qwen3-4B Q4_K_M responde a 4,14 tok/seg. El análisis es estructurado, va letra por letra y llega a la conclusión correcta en vocales. En consonantes se queda en seis en lugar de siete, un error menor de conteo final. Es, con diferencia, la respuesta más fiable de las tres.

Respuesta incorrecta del Qwen3.5-2B (letras inventadas)
Respuesta estructurada del Qwen3-4B Q4_K_M 1
Respuesta estructurada del Qwen3-4B Q4_K_M 2

Qué modelo dejar instalado

El Qwen3-4B Q4_K_M es la recomendación para sustituir el modelo por defecto. Pesa 2,5 GB, carga bien dentro del límite de la Pi 5 de 8 GB y ofrece un razonamiento claramente superior al Qwen3.5-2B que viene preinstalado. La diferencia de velocidad, de 7 tok/seg a poco más de 4, es el precio por esa mejora de calidad. Para uso como asistente de código o consultas técnicas, ese ritmo es suficiente.

La URL de descarga, una vez creada la cuenta en Hugging Face, es:

wget --header="Authorization: Bearer hf_XXXXXXXXXX" \
  "https://huggingface.co/bartowski/Qwen_Qwen3-4B-GGUF/resolve/main/Qwen_Qwen3-4B-Q4_K_M.gguf"

Después de la descarga, hay que copiarlo a la Pi con scp, seleccionarlo en Settings del portal y guardar la configuración.

Las variantes Q6_K y Q8_0 del mismo modelo ofrecen mayor precisión pero caen por debajo de 3,5 tok/seg. Para sesiones de trabajo con un agente de código, ese ritmo hace la experiencia poco práctica. La cuantización Q4_K_M es el punto de equilibrio real entre calidad y velocidad en este hardware.

Settings con Qwen3-4B Q4_K_M como modelo activo 1
Settings con Qwen3-4B Q4_K_M como modelo activo 2.png

El modelo por defecto de Potato OS no es malo, pero tampoco es el mejor que puede correr esta placa. El Qwen3-4B Q4_K_M da un razonamiento claramente más sólido a una velocidad todavía práctica. Esa es la combinación que merece quedarse instalada.

Artículos relacionados:

  • gemma-4-12b-raspberry pi 5
    Gemma 4 12B en Raspberry Pi 5: probamos el LLM…
  • arrancar Raspberry Pi por USB
    Cómo arrancar la Raspberry Pi desde USB sin tarjeta…
  • Potato OS Raspberry Pi 5
    Potato OS: LLM local en tu Raspberry Pi 5
  • nano-pi-k1-plus
    Rivales Raspberry Pi: NanoPi K1 Plus

Publicado en: Proyectos Etiquetado como: gguf, hugging-face, ia-local, llm, modelos-lenguaje, potato-os, qwen, raspberry-pi-5

Barra lateral principal

Categorías

  • Cajas (9)
  • comandos (21)
  • Compras (116)
  • dudas (41)
  • Empezando (55)
  • Hardware (106)
  • Instalacion (64)
  • Media Center (56)
  • Negocios (5)
  • Proyectos (44)
  • Rivales (113)
  • Sistemas Operativos (68)
  • sorteo (2)
Raspberry Pi 5 - 4GB RAM
Raspberry Pi 5 - 4GB RAM
Ver precio en Amazon →
Raspberry Pi Zero 2W
Raspberry Pi Zero 2W
Ver precio en Amazon →

Por si te lo perdiste

Radxa Cubie A7S

Radxa Cubie A7S: rival compacta de Raspberry Pi

beagleplay

BeaglePlay: rival industrial de la Raspberry Pi con GPU PowerVR

gemma-4-12b-raspberry pi 5

Gemma 4 12B en Raspberry Pi 5: probamos el LLM multimodal en local

Raspberry Pi 5 - 8GB RAM
Raspberry Pi 5 - 8GB RAM
Ver precio en Amazon →

Visita la tienda Raspberry Pi en Amazon - enlace afiliado
© 2013–2026

Cookie y RGPD | Aviso Legal
Este sitio web usa cookies para mejorar su experiencia como usuario ► Aceptar Rechazar ◘ Si necesita Política de cookies
Política de Cookies

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Siempre activado
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
GUARDAR Y ACEPTAR