Este curso proporciona una formación completa en ingeniería de datos de extremo a extremo utilizando Azure Databricks y Unity Catalog. A lo largo del programa, los participantes aprenderán a pasar desde la configuración inicial del entorno hasta el despliegue en producción, cubriendo aspectos clave como la configuración de entornos, la gobernanza de datos a nivel empresarial y la optimización de cargas de trabajo.
Durante el curso, se explorará cómo diseñar y construir pipelines de ingestión de datos robustos, implementar mecanismos de seguridad y gobernanza mediante Unity Catalog, y desplegar soluciones optimizadas en arquitecturas lakehouse. Al finalizar, los participantes contarán con las habilidades prácticas necesarias para implementar, asegurar y mantener soluciones lakehouse escalables que cumplan con los requisitos exigentes de entornos empresariales.


Explorar Azure Databricks
Primeros pasos con Azure Databricks
Identificar workloads de Azure Databricks
Comprender conceptos clave
Gobernanza de datos usando Unity Catalog y Microsoft Purview
Exercise – Explorar Azure Databricks
Comprender la arquitectura de Azure Databricks
Comprender la arquitectura de Azure Databricks
Comprender Unity Catalog managed storage
Comprender external storage
Comprender default storage (serverless compute)
Comprender las integraciones de Azure Databricks
Comprender la integración con Microsoft Fabric
Comprender la integración con Power BI
Comprender la integración con VS Code
Comprender la integración con Power Platform
Comprender la integración con Copilot Studio
Comprender la integración con Microsoft Purview
Comprender la integración con Microsoft Foundry
Seleccionar y configurar recursos de compute en Azure Databricks
Elegir un tipo de compute adecuado
Configurar el rendimiento del compute
Configurar características del compute
Instalar libraries para compute
Configurar acceso al compute
Crear y organizar objetos en Unity Catalog
Aplicar naming conventions
Crear catalog
Crear schema
Crear tables y views
Crear volumes
Implementar operaciones DDL
Implementar foreign catalog
Configurar instrucciones de AI/BI Genie
Proteger objetos de Unity Catalog
Comprender el ciclo de vida de una query
Implementar estrategias de control de acceso
Comprender el control de acceso de granularidad fina
Implementar row filtering y column masking
Acceder a secrets de Azure Key Vault
Autenticar el acceso a datos con service principals
Autenticar el acceso a recursos con managed identities
Gobernar objetos de Unity Catalog
Crear y preservar definiciones de tables
Configurar ABAC con tags y policies
Aplicar políticas de retención de datos
Configurar y gestionar data lineage
Configurar audit logging
Diseñar una estrategia segura de Delta Sharing
Diseñar e implementar modelado de datos con Azure Databricks
Diseñar lógica de ingestión y configuración de data sources
Elegir una herramienta de ingestión de datos
Elegir un formato de data table
Diseñar e implementar un esquema de particionado de datos
Elegir un tipo de Slowly Changing Dimension (SCD)
Implementar Slowly Changing Dimension (SCD) tipo 2
Diseñar e implementar una tabla temporal (history table) para registrar cambios en el tiempo
Elegir la granularidad en una columna o tabla según los requisitos
Elegir entre managed tables y unmanaged tables
Diseñar e implementar una estrategia de clustering
Ingerir datos en Unity Catalog
Ingerir datos con Lakeflow Connect
Ingerir datos con notebooks
Ingerir datos con métodos SQL
Ingerir datos con CDC feed
Ingerir datos con Spark Structured Streaming
Ingerir datos con Auto Loader
Ingerir datos con Lakeflow Spark Declarative Pipelines
Limpiar, transformar y cargar datos en Unity Catalog
Analizar (profile) los datos
Elegir tipos de datos para columnas
Resolver duplicados y valores null
Transformar datos con filtros y agregaciones
Transformar datos con joins y set operators
Transformar datos con denormalization y pivots
Cargar datos con merge, insert y append
Implementar y gestionar restricciones de calidad de datos con Azure Databricks
Implementar validation checks
Implementar comprobaciones de tipos de datos
Detectar y gestionar schema drift
Gestionar la calidad de datos con pipeline expectations
Diseñar e implementar data pipelines con Azure Databricks
Diseñar el orden de operaciones para un pipeline
Elegir entre notebooks y Lakeflow Pipelines
Diseñar la lógica de jobs en Lakeflow
Diseñar manejo de errores en pipelines y jobs
Crear un pipeline con notebook
Crear un pipeline con Lakeflow Spark Declarative Pipelines
Implementar Lakeflow Jobs con Azure Databricks
Crear configuración y setup de un job
Configurar triggers de jobs
Programar (schedule) un job
Configurar alertas de jobs
Configurar reinicios automáticos
Implementar procesos del ciclo de desarrollo en Azure Databricks
Aplicar buenas prácticas de control de versiones con Git
Gestionar branching y pull requests
Implementar una estrategia de testing
Configurar y empaquetar Databricks Asset Bundles (DABs)
Desplegar bundles con Databricks CLI
Monitorizar, solucionar problemas y optimizar workloads en Azure Databricks
Monitorizar y gestionar el consumo de clusters
Solucionar problemas y reparar Lakeflow Jobs
Solucionar problemas en Spark jobs y notebooks
Investigar problemas de caching, skew, spill y shuffle
Implementar log streaming con Azure Log Analytics

Descubre todas nuestra novedades, se el primero en apuntarte a nuestros eventos o beneficiate de nuestras promociones…