Lo que no te dicen de montar un LLM local | Blog Jubili Labs
Saltar al contenido principal
Volver a Insights
Inteligencia Artificial24 May 20267 min

Lo que no te dicen de montar un LLM local

Lo que no te dicen de montar un LLM local

Entre comprar un clúster de GPUs y usar una API cerrada hay más opciones de las que el hype deja ver. Siete cosas que conviene saber antes de decidir, con números reales de 2026.

Cada vez se habla más de montar tu propio modelo de lenguaje como la nueva frontera de la independencia tecnológica. Tus datos no salen de tu oficina, no dependes de un proveedor externo, controlas todo el proceso. La promesa es atractiva para cualquier fundador o equipo técnico que ya está cansado de pagar por token.

Entre la promesa y la implementación real hay un terreno lleno de matices que rara vez se explica con cuidado. Pasamos varias semanas investigando los números actuales y llegamos a siete puntos que conviene tener claros antes de comprar un servidor propio.

01

Conectarlo a Internet no lo hace más inteligente

Existe la idea de que un modelo de lenguaje sigue aprendiendo solo porque tiene acceso a Internet. Los parámetros de un modelo quedan fijos una vez que termina su entrenamiento. Darle acceso a Internet le permite buscar información actual o consultar herramientas al momento de responder, pero eso no cambia un solo número dentro del modelo.

Para que aprenda de tus documentos existen dos caminos y ninguno ocurre por accidente. El primero, llamado RAG, indexa tus documentos en una base de datos y le entrega los fragmentos relevantes en cada consulta, sin tocar el modelo. El segundo entrena el modelo de nuevo, con fine-tuning o preentrenamiento continuado, un proceso deliberado que ajusta sus parámetros.

La investigación reciente, incluidos estudios de Microsoft, muestra que el fine-tuning rinde mal cuando el objetivo es enseñarle hechos nuevos. El modelo tiende a memorizar ejemplos puntuales en lugar de generalizar el conocimiento y, cuando los hechos cambian después, puede alucinar con la misma confianza con la que antes decía la verdad. Un RAG suele rendir mejor para esto porque la información recuperada siempre está al día.


02

Aprender de tus documentos cuesta y no lo que la gente cree

Si el camino es un RAG, el costo está en la infraestructura de búsqueda, no en el entrenamiento. Barato y actualizable al instante.

Si el camino es fine-tuning, los números varían bastante según la técnica.

TécnicaTamaño del modeloCosto aproximado
LoRA o QLoRA7 a 8 mil millones de parámetrosUS$ 5 a 25
Fine-tuning completoClúster de varias GPUsUS$ 250 a 510
LoRA eficienteMás de 60 mil millones de parámetrosUS$ 500 a 5,000

Esos números suenan accesibles hasta que se suma lo que casi nadie menciona. Servir el modelo después del entrenamiento requiere una GPU encendida de forma constante. Y eso sí se paga todos los meses, mes tras mes, mientras el modelo esté en producción.

03

Actualizar el modelo y actualizar el conocimiento son cosas distintas

Cambiar a una versión más nueva del modelo base, cuando el proveedor la libera, es de bajo riesgo y conviene hacerlo cada vez que el salto de capacidad lo justifique.

Mantener al día el conocimiento de tu empresa es otra historia. Ahí un RAG debería ser el mecanismo por defecto porque permite refrescar la información casi al instante sin reentrenar nada. El fine-tuning periódico tiene sentido para ajustar tono o formato, no como forma de mantener el modelo actualizado con tus documentos. Entrenar sobre datos nuevos puede degradar capacidades que el modelo ya tenía, un problema que la literatura llama «olvido catastrófico». La investigación de los últimos meses muestra que ni siquiera las técnicas más eficientes lo evitan del todo.

Un RAG actualiza lo que el modelo sabe. El fine-tuning ajusta cómo se comporta. Confundir los dos es la forma más común de gastar dinero en el problema equivocado.


04

Las ventajas son reales, pero también el costo de mantenerlas

Un modelo local da control total sobre los datos, sin límites de uso de un tercero y sin depender de cambios de precio o caídas de servicio. A volumen alto puede salir hasta dieciocho veces más barato por token que una API premium. Para sectores regulados, como salud, legal o finanzas, simplifica el cumplimiento porque la información nunca sale de la infraestructura propia.

El costo de sostener todo eso también es real. La inversión en GPUs, redes y almacenamiento pesa, escalar toma semanas o meses en lugar de un clic y hace falta talento especializado en operación de infraestructura de IA, que es escaso y caro de contratar. Los modelos cerrados de los laboratorios más grandes siguen, en general, un paso adelante en tareas de razonamiento complejo, aunque la brecha se ha acortado bastante en el último año.

05

Lo gratuito no va a desaparecer, pero se está dividiendo en dos bandos

Meta viene endureciendo el acceso a Llama. La versión más reciente se distribuye bajo una licencia que no califica como código abierto en sentido estricto, con un tope de setecientos millones de usuarios mensuales y restricciones específicas para la Unión Europea. La mayoría de las empresas nunca va a tocar ese límite, pero la dirección del cambio es clara.

Los laboratorios chinos avanzan en sentido contrario. DeepSeek libera sus modelos bajo licencia MIT y Qwen, de Alibaba, bajo Apache 2.0, sin restricciones de uso ni regalías. Da la impresión de ser una jugada estratégica, pensada para capturar el ecosistema de desarrolladores y restarle terreno a los laboratorios cerrados de Estados Unidos.

Lo más probable es que esta división se profundice en lugar de cerrarse. Lo mejor de lo gratuito va a seguir viniendo, en buena parte, de laboratorios con incentivos geopolíticos para mantenerlo así.


06

El servidor de seis cifras no es la única puerta de entrada

Cuando se habla de montar un LLM local, la imagen mental suele ser un clúster de GPUs empresariales con un costo de seis cifras. Existe una categoría intermedia que cambia bastante la conversación.

Una mini PC, como la GMKtec EVO-X2, con un procesador AMD Ryzen AI Max+ 395 y 64 gigabytes de memoria, cuesta alrededor de dos mil dólares de compra única, consume entre cincuenta y ciento cuarenta watts y se enchufa a un tomacorriente normal. Ahí entra cómodo un modelo como Qwen3-Coder de treinta mil millones de parámetros, que en su cuantización recomendada ocupa entre dieciocho y veintidós gigabytes.

6 a 7 meses

Es lo que tarda en pagarse sola frente a rentar una GPU en la nube.

Comparado con rentar una GPU para el mismo uso, ocho horas diarias durante un mes, a precio medio de mercado. Después de eso, el costo marginal es de centavos de electricidad por hora.

Dos advertencias antes de entusiasmarse. Esta categoría de hardware es nueva y el soporte de software todavía está madurando, con variaciones de rendimiento según la versión de drivers instalada. Y está pensada para una persona o un equipo pequeño usando el modelo no en simultáneo, no para atender a muchos usuarios al mismo tiempo. Para una sola persona que necesita un asistente de código privado, tiene sentido. Para una empresa que quiere ofrecer IA a sus clientes, casi nunca.

07

El punto medio que nadie menciona

Entre comprar tu propio hardware y usar una API cerrada existe una tercera opción que rara vez se discute. Proveedores como Together AI, Fireworks o DeepInfra toman un modelo abierto, el mismo que cualquiera podría descargar, y lo corren en sus propios servidores. Tú envías tu texto, ellos lo procesan, pagas por la cantidad de texto usado y nunca instalas un driver ni mantienes un servidor.

Es parecido a la diferencia entre comprar una fotocopiadora para tu oficina y llevar tus documentos a un centro de copiado. En el centro de copiado pagas por página, no por la máquina, y nunca te preocupas por un atasco de papel. Lo que se pierde frente a tener tu propio modelo es que tus datos viajan hasta el servidor de ese proveedor, así que el control no es total. Sigue siendo mejor que enviarle todo a un modelo del que ni siquiera conoces los pesos.

Antes de gastar el dinero vale la pena hacerse una pregunta bastante más simple que comparar especificaciones de hardware. El problema que tienes hoy, ¿de verdad necesita un modelo corriendo en tu propia oficina o se resuelve con algo más puntual, sin tocar un servidor? El error más caro casi nunca es decidir no montar uno. Suele ser comprarlo sin tener clara esa respuesta.

Fuentes: Spheron Blog (2026). "How to Fine-Tune LLMs in 2026: Costs, GPUs, and Code." io.net (2026). "LLM Fine-Tuning Budget Guide: GPU Costs, Timelines, and What to Spend." Scopic Software (2026). "The Real Cost of Fine-Tuning LLMs." GMKtec, ficha de producto EVO-X2 AI Mini PC AMD Ryzen AI Max+ 395. Will It Run AI (2026). "Qwen3-Coder 30B A3B Instruct VRAM Requirements." Codersera (mayo 2026). "Open-Source LLMs Landscape: Qwen, Llama, DeepSeek." Investigación de Microsoft sobre las limitaciones del fine-tuning para incorporar hechos nuevos, referenciada en AgamiSoft LLM Fine-Tuning Guide 2026.