Lakehouse: cuando los datos dejan de ser un problema
Una respuesta bastante lógica al problema de tener los datos, y poder explotarlos de manera natural.
Estamos en un punto curioso.
Después de años acumulando tecnología, herramientas y arquitecturas, muchas empresas tienen más datos que nunca… pero menos claridad que nunca sobre cómo usarlos de verdad.
Durante décadas hemos ido construyendo capas: primero el Data Warehouse, luego el Data Lake… y al final, sin darnos cuenta, hemos acabado con sistemas complejos, duplicados y caros de mantener.
Y justo ahí es donde aparece el Lakehouse. Y si es nativo en Iceberg.. mejor.
No como una moda, ni como un término bonito para presentaciones. Sino como una respuesta bastante lógica a un problema que llevamos arrastrando años: tener los datos, pero no saber explotarlos sin fricción. Es decir, simplifica en lugar de complicar.
¿De dónde viene todo esto?
Durante años hemos convivido con dos mundos que no terminaban de encajar:
El Data Warehouse: ordenado, fiable… pero caro y rígido
Los más mayores recordamos jornadas interminables definiendo cómo debería ser el universo de datos.. al que siempre le faltaba algo!!
El Data Lake: flexible y barato… pero muchas veces caótico
Muy bien enfocado, peero si estás en una organización grande, preparate a buscar un nombre de columna en una infinidad de tablas y - con suerte - aprenderte el diccionario de datos.
En la práctica, muchas organizaciones acababan teniendo los dos. Y pagando por duplicado.
El concepto de Data Lakehouse nace precisamente de esa fricción. La idea es bastante lógica: ¿por qué elegir entre control y flexibilidad si puedes tener ambos?
Aquí es donde aparece el cambio real. Empezamos a trabajar con datos en formatos abiertos, sobre almacenamiento barato en la nube, pero añadiendo una capa de gobierno seria: transacciones, control, calidad de datos, SQL eficiente… todo junto.
Y de repente, lo que antes eran dos mundos separados empieza a comportarse como uno solo.
Cuando los grandes se mueven… es por algo
Si llevas tiempo en tecnología, sabes leer estas señales. Cuando los grandes actores se alinean, no es casualidad.
Google está empujando BigQuery hacia modelos cada vez más abiertos e integrados
Amazon ha lanzado SageMaker Lakehouse para unificar analítica e IA
Microsoft está apostando fuerte con Fabric y su integración total con Azure
Databricks, que fue quien puso nombre al concepto, sigue marcando el ritmo
Esto no va de features. Va de estrategia.
Todos están resolviendo el mismo problema: eliminar silos (¿a quién no le suena este mantra?) y convertir los datos en algo realmente utilizable en tiempo real, tanto para negocio como para inteligencia artificial.
El detalle técnico que lo cambia todo
Si bajamos un poco al terreno técnico, hay un elemento clave que explica por qué ahora sí funciona: los formatos de tabla abiertos, especialmente Apache Iceberg.
Aquí está la verdadera revolución, aunque no siempre se vea.
Antes, cuando elegías una tecnología, te “casabas” con ella. Tus datos quedaban atrapados en un ecosistema concreto.
Ahora no.
Puedes almacenar los datos una sola vez y procesarlos con distintas herramientas:
Spark para procesado
SQL engines para analítica
herramientas de IA para entrenamiento
distintos clouds si lo necesitas
Todo sobre los mismos datos.
Esto, en términos de coste, flexibilidad y riesgo tecnológico, cambia completamente las reglas del juego.
Un ejemplo real
Vamos a aterrizarlo con algo muy claro: una plataforma de reparto de comida tipo Glovo o Uber Eats.
Aquí tienes:
millones de pedidos diarios
eventos en tiempo real (clics, rutas, tiempos)
datos de localización, valoraciones, comportamiento
Un volumen brutal.
Si montas esto con un enfoque lakehouse usando Google BigQuery, puedes hacer algo muy potente:
almacenas todos los eventos en bruto (barato)
consultas directamente con SQL (sin mover datos)
mezclas histórico + tiempo real
Por ejemplo:
“Dime qué restaurantes en Barcelona están superando en un 20% su tiempo medio de entrega en la última hora”
Eso se ejecuta sobre millones de registros… en segundos.
Y aquí viene lo importante:
No es solo análisis. Es acción.
ajustar precios dinámicamente
reasignar repartidores
anticipar cuellos de botella
alimentar modelos de predicción
Todo sobre la misma base.
El punto crítico que casi nadie tiene en cuenta: el coste
Y aquí entramos en uno de los temas que más nos obsesiona en IAfont: el coste en cloud e IA. Porque esta parte casi nunca se cuenta bien.
Montar un lakehouse es relativamente fácil hoy. Lo difícil es hacerlo sostenible.
Hemos visto situaciones reales donde:
consultas mal diseñadas multiplican el coste por 10
pipelines duplicados consumen recursos sin aportar valor
datos sin gobierno generan almacenamiento innecesario durante años
En arquitecturas como BigQuery, donde pagas por datos procesados, una mala query puede costarte más que todo el almacenamiento mensual. No es broma, según tengas o no tablas particionadas y hagas una query con ‘select *’ tu coste se dispara exponencialmente. Necesitas una estrategia de FinOps y de IAOps
Y si le añades IA (entrenamiento, embeddings, RAG…), el problema se amplifica.
Por eso insistimos tanto en:
particionado correcto
control de queries
diseño de pipelines eficiente
y, sobre todo, disciplina técnica
Aquí no gana el que más procesa… sino el que mejor optimiza.
Donde lo llevamos a la práctica: IAxLabs
Toda esta teoría no se queda en papel.
En IAxLabs estamos llevando este tipo de arquitecturas a algo tangible: pequeños laboratorios donde probamos, rompemos y entendemos cómo funcionan realmente estas piezas en cloud. Muy pronto los pondremos a disposición de tod@s.
Ahí trabajamos con:
Cloud Run, para servicios ligeros y escalables
Dataflow, para procesamiento de datos en streaming y batch
Kubernetes, cuando necesitas orquestación más compleja
y todo el ecosistema de datos e IA alrededor
La idea no es hacer demos bonitas. Es ver:
qué escala de verdad
qué falla cuando sube la carga
cuánto cuesta cada decisión
Porque al final, en este mundo, la diferencia no está en saber usar la tecnología… Está en saber usarla bien.
¿Qué es Apache Iceberg?
Apache Iceberg: formato de tabla abierto que permite versionado, transacciones ACID y consultas eficientes sobre datos en bruto sin necesidad de moverlos.
Apache Parquet: formato de almacenamiento en columnas que reduce el tamaño de los datos y acelera enormemente las consultas analíticas.
Dos piezas aparentemente pequeñas… pero que son la base de todo.
Conclusión
El Data Lakehouse no es el futuro. Es el presente. Los grandes ya han tomado posición, los estándares se están consolidando, y el mercado está creciendo a un ritmo que no deja lugar a dudas. Pero hay una diferencia clave respecto a otras olas tecnológicas:
Aquí no basta con adoptar. Hay que entender y tener claro qué va a pasar si no utilizas la tecnología de manera correcta. En un mundo con infinidad de datos a gestionar, no hacer las cosas con sentido y criterio te puede generar un problema de tiempo, estrategía y … dinero.
Porque si no controlas bien arquitectura, datos y costes… puedes tener la mejor plataforma del mundo y, aun así, tu beneficio tenderá a 0.
FAQs
¿Va a desaparecer el Data Warehouse?
No del todo, pero cada vez más casos se integran dentro del modelo lakehouse.
¿Iceberg es mejor que Delta Lake?
Más que mejor, es más abierto e interoperable. Y eso pesa mucho a largo plazo.
¿Tengo que migrar todo ya?
No. Empieza poco a poco, con casos de valor real.


