Durante los primeros años del boom de la IA generativa, toda la inteligencia vivía en la nube: escribías una consulta, el texto viajaba a un servidor de OpenAI o Google en algún datacenter, un modelo enorme la procesaba, y la respuesta volvía. Funciona bien cuando tienes buena conexión y no te importa que tus datos salgan del dispositivo.

En 2026, eso está cambiando. La IA está llegando al hardware: NPUs en smartphones, chips especializados en portátiles y modelos diseñados específicamente para ejecutarse en dispositivos con recursos limitados. El procesamiento ocurre en el edge —en el dispositivo mismo o muy cerca del usuario— en lugar de en la nube centralizada.

NPU: el chip que todos tienen ya (aunque no lo sepan)

Una NPU (Neural Processing Unit) es un procesador especializado en operaciones matriciales, que son la base matemática de las redes neuronales. Es análoga a cómo la GPU es un procesador especializado para gráficos.

En 2026, prácticamente todos los dispositivos nuevos tienen una NPU:

  • Apple Neural Engine en los chips M4 y A18: hasta 38 TOPS (tera-operaciones por segundo)
  • Qualcomm Hexagon NPU en Snapdragon 8 Elite: 45 TOPS