Ejecutar IA en sus propias instalaciones: on-premise, OSS, GPU y APU

Esta pregunta surge con frecuencia en las conversaciones con los responsables técnicos: ¿se puede ejecutar un modelo de IA de alto rendimiento en las propias instalaciones, sin enviar datos a OpenAI o Anthropic?

La respuesta corta: sí, y es más accesible de lo que se cree. La respuesta larga: depende del tamaño del modelo, de las prestaciones requeridas y del presupuesto para el equipo.

¿Qué es una implementación local?

«On-premise» significa que el modelo se ejecuta en su propia infraestructura, no en servidores de terceros. Sus datos no salen de su entorno. Usted controla las versiones. No hay costes marginales por consulta (solo el coste de la infraestructura).

Esto no significa necesariamente un rendimiento inferior. En 2025, los mejores modelos de código abierto (Llama 3 70B, Qwen 2.5 72B, Mistral Large 2) alcanzan un rendimiento comparable al de los modelos propietarios en muchas tareas especializadas. La diferencia sigue siendo apreciable en tareas muy generales y en tareas complejas de razonamiento, pero se ha reducido considerablemente.

Las APU: la sorpresa asequible

La revolución silenciosa de los últimos dos años se ha producido en las APU, unos procesadores que integran la CPU y la GPU en un mismo chip, con una memoria compartida de gran ancho de banda.

El Apple M4 Max (disponible a finales de 2024) cuenta con 128 GB de memoria unificada con un ancho de banda de 500 GB/s. Un modelo Llama 3 70B cuantificado en Q4 (que ocupa unos 40 GB) funciona en esta máquina a una velocidad de 15-20 tokens por segundo. Es suficiente para un uso interactivo, muy por debajo de la velocidad de una API en la nube, pero dentro de los límites de una interfaz de chat.

Un Mac Studio M4 Ultra con 192 GB cuesta entre 4 000 y 5 000 euros. Puede ejecutar un modelo de 70 000 millones de parámetros de forma local, sin una GPU independiente, con un consumo eléctrico de entre 80 y 100 W. Para una pyme o una consultora que maneja datos confidenciales y realiza entre 50 y 200 consultas al día, el cálculo económico puede salir a cuenta frente a los costes de la API en un plazo de 2 a 3 años.

Las GPU: la vía tradicional para los grandes volúmenes

Para volúmenes más grandes o modelos de mayor tamaño, la GPU sigue siendo la opción de referencia.

Un servidor con 2 GPU NVIDIA RTX 4090 (24 GB de VRAM cada una, ~1 500 euros cada una (precio en 2026)) puede ejecutar un modelo de 7 000 a 13 000 millones de parámetros a una velocidad aceptable. Para un modelo de 70 000 millones de parámetros, se necesitan entre 4 y 8 GPU o GPU profesionales (H100: más de 30 000 euros, A100: más de 15 000).

La infraestructura necesaria también supone un gasto: un servidor adecuado, refrigeración, un SAI y la gestión del sistema. Hay que contar con un 30-50 % del coste de la GPU en infraestructura asociada.

Las herramientas que lo hacen accesible

En 2023, ejecutar un LLM de forma local requería conocimientos muy especializados. En 2025, las herramientas han simplificado radicalmente el proceso:

Ollama: instalación de un modelo de lenguaje grande (LLM) local con un solo comando (ollama run llama3.2). Interfaz compatible con la API de OpenAI, por lo que tus aplicaciones pueden conectarse a tu instancia local.

llama.cpp: motor de inferencia optimizado para CPU y GPU, en el que se basan numerosas herramientas. Admite cuantificación y funciona en Windows, Linux y macOS.

Open WebUI: interfaz web local compatible con Ollama. Una réplica fiel de la experiencia de ChatGPT, pero en tu propia infraestructura.

LM Studio: herramienta de escritorio (Windows/Mac) para descargar y ejecutar modelos locales, con interfaz gráfica.

Lo que esto no resuelve

La implementación local resuelve el problema de la confidencialidad de los datos. No resuelve el problema de la calidad de las respuestas en tareas complejas (los modelos de vanguardia patentados siguen siendo superiores), ni la actualización de los modelos (usted gestiona el ciclo de vida), ni la seguridad de la infraestructura (usted es responsable de proteger su servidor).

Es una solución de compromiso. La soberanía tiene un coste en términos de recursos internos. La elección debe ser consciente, no por defecto.

¿Qué es una implementación local?#

Las APU: la sorpresa asequible#

Las GPU: la vía tradicional para los grandes volúmenes#

Las herramientas que lo hacen accesible#

Lo que esto no resuelve#

En el mismo eje

Open source vs. propietario: control, dependencia y el verdadero compromiso

¿Qué es una implementación local?

Las APU: la sorpresa asequible

Las GPU: la vía tradicional para los grandes volúmenes

Las herramientas que lo hacen accesible

Lo que esto no resuelve