Implementar soluciones de ingeniería de datos

Implement data engineering solutions using Azure Databricks

DP-750

Apúntate

Información del

Programa

Apúntate

Duración:

20 horas

Localidad:

Madrid

Modalidad:

Online Direct

Fecha:

16/03/2026

Apúntate

Curso DP-750 Implement data engineering solutions using Azure Databricks

Este curso proporciona una formación completa en ingeniería de datos de extremo a extremo utilizando Azure Databricks y Unity Catalog. A lo largo del programa, los participantes aprenderán a pasar desde la configuración inicial del entorno hasta el despliegue en producción, cubriendo aspectos clave como la configuración de entornos, la gobernanza de datos a nivel empresarial y la optimización de cargas de trabajo.

Durante el curso, se explorará cómo diseñar y construir pipelines de ingestión de datos robustos, implementar mecanismos de seguridad y gobernanza mediante Unity Catalog, y desplegar soluciones optimizadas en arquitecturas lakehouse. Al finalizar, los participantes contarán con las habilidades prácticas necesarias para implementar, asegurar y mantener soluciones lakehouse escalables que cumplan con los requisitos exigentes de entornos empresariales.

Requisitos

Conocimientos fundamentales de data analytics y conceptos de data engineering.

Comprensión básica de cloud storage y organización de datos.

Familiaridad con SQL y patrones de acceso a datos.

Experiencia en programación con Python y uso de notebooks.

Buen conocimiento de Azure Databricks workspaces y conceptos de Unity Catalog.

Conocimientos básicos de seguridad en Azure, incluyendo Microsoft Entra ID.

Familiaridad con control de versiones usando Git.

Objetivos

Comprender la arquitectura y los componentes principales de Azure Databricks y Unity Catalog.

Configurar y gestionar entornos de ingeniería de datos en Azure Databricks.

Diseñar y desarrollar pipelines de ingestión de datos robustos y escalables.

Implementar gobernanza y seguridad de datos utilizando Unity Catalog.

Optimizar cargas de trabajo y procesos de ingeniería de datos en arquitecturas lakehouse.

Desplegar soluciones de ingeniería de datos en entornos de producción cumpliendo requisitos empresariales.

Aplicar buenas prácticas para gestionar, mantener y escalar plataformas de datos en Azure.

Temario

Apúntate

Módulo 1 – Configurar y preparar un entorno de Azure Databricks

Explorar Azure Databricks
- Primeros pasos con Azure Databricks
- Identificar workloads de Azure Databricks
- Comprender conceptos clave
- Gobernanza de datos usando Unity Catalog y Microsoft Purview
- Exercise – Explorar Azure Databricks
Comprender la arquitectura de Azure Databricks
- Comprender la arquitectura de Azure Databricks
- Comprender Unity Catalog managed storage
- Comprender external storage
- Comprender default storage (serverless compute)
Comprender las integraciones de Azure Databricks
- Comprender la integración con Microsoft Fabric
- Comprender la integración con Power BI
- Comprender la integración con VS Code
- Comprender la integración con Power Platform
- Comprender la integración con Copilot Studio
- Comprender la integración con Microsoft Purview
- Comprender la integración con Microsoft Foundry
Seleccionar y configurar recursos de compute en Azure Databricks
- Elegir un tipo de compute adecuado
- Configurar el rendimiento del compute
- Configurar características del compute
- Instalar libraries para compute
- Configurar acceso al compute
Crear y organizar objetos en Unity Catalog
- Aplicar naming conventions
- Crear catalog
- Crear schema
- Crear tables y views
- Crear volumes
- Implementar operaciones DDL
- Implementar foreign catalog
- Configurar instrucciones de AI/BI Genie

Módulo 2 – Proteger y gobernar objetos de Unity Catalog en Azure Databricks

Proteger objetos de Unity Catalog
- Comprender el ciclo de vida de una query
- Implementar estrategias de control de acceso
- Comprender el control de acceso de granularidad fina
- Implementar row filtering y column masking
- Acceder a secrets de Azure Key Vault
- Autenticar el acceso a datos con service principals
- Autenticar el acceso a recursos con managed identities
Gobernar objetos de Unity Catalog
- Crear y preservar definiciones de tables
- Configurar ABAC con tags y policies
- Aplicar políticas de retención de datos
- Configurar y gestionar data lineage
- Configurar audit logging
- Diseñar una estrategia segura de Delta Sharing

Módulo 3 – Preparar y procesar datos con Azure Databricks

Diseñar e implementar modelado de datos con Azure Databricks
- Diseñar lógica de ingestión y configuración de data sources
- Elegir una herramienta de ingestión de datos
- Elegir un formato de data table
- Diseñar e implementar un esquema de particionado de datos
- Elegir un tipo de Slowly Changing Dimension (SCD)
- Implementar Slowly Changing Dimension (SCD) tipo 2
- Diseñar e implementar una tabla temporal (history table) para registrar cambios en el tiempo
- Elegir la granularidad en una columna o tabla según los requisitos
- Elegir entre managed tables y unmanaged tables
- Diseñar e implementar una estrategia de clustering
Ingerir datos en Unity Catalog
- Ingerir datos con Lakeflow Connect
- Ingerir datos con notebooks
- Ingerir datos con métodos SQL
- Ingerir datos con CDC feed
- Ingerir datos con Spark Structured Streaming
- Ingerir datos con Auto Loader
- Ingerir datos con Lakeflow Spark Declarative Pipelines
Limpiar, transformar y cargar datos en Unity Catalog
- Analizar (profile) los datos
- Elegir tipos de datos para columnas
- Resolver duplicados y valores null
- Transformar datos con filtros y agregaciones
- Transformar datos con joins y set operators
- Transformar datos con denormalization y pivots
- Cargar datos con merge, insert y append
Implementar y gestionar restricciones de calidad de datos con Azure Databricks
- Implementar validation checks
- Implementar comprobaciones de tipos de datos
- Detectar y gestionar schema drift
- Gestionar la calidad de datos con pipeline expectations

Módulo 4 – Desplegar y mantener pipelines de datos y cargas de trabajo con Azure Databricks

Diseñar e implementar data pipelines con Azure Databricks
- Diseñar el orden de operaciones para un pipeline
- Elegir entre notebooks y Lakeflow Pipelines
- Diseñar la lógica de jobs en Lakeflow
- Diseñar manejo de errores en pipelines y jobs
- Crear un pipeline con notebook
- Crear un pipeline con Lakeflow Spark Declarative Pipelines
Implementar Lakeflow Jobs con Azure Databricks
- Crear configuración y setup de un job
- Configurar triggers de jobs
- Programar (schedule) un job
- Configurar alertas de jobs
- Configurar reinicios automáticos
Implementar procesos del ciclo de desarrollo en Azure Databricks
- Aplicar buenas prácticas de control de versiones con Git
- Gestionar branching y pull requests
- Implementar una estrategia de testing
- Configurar y empaquetar Databricks Asset Bundles (DABs)
- Desplegar bundles con Databricks CLI
Monitorizar, solucionar problemas y optimizar workloads en Azure Databricks
- Monitorizar y gestionar el consumo de clusters
- Solucionar problemas y reparar Lakeflow Jobs
- Solucionar problemas en Spark jobs y notebooks
- Investigar problemas de caching, skew, spill y shuffle
- Implementar log streaming con Azure Log Analytics

Implement data engineering solutions using Azure Databricks

DP-750

Información del

Programa

Duración:

Localidad:

Modalidad:

Fecha:

Curso DP-750 Implement data engineering solutions using Azure Databricks

Requisitos

Conocimientos fundamentales de data analytics y conceptos de data engineering.

Comprensión básica de cloud storage y organización de datos.

Familiaridad con SQL y patrones de acceso a datos.

Experiencia en programación con Python y uso de notebooks.

Buen conocimiento de Azure Databricks workspaces y conceptos de Unity Catalog.

Conocimientos básicos de seguridad en Azure, incluyendo Microsoft Entra ID.

Familiaridad con control de versiones usando Git.

Objetivos

Comprender la arquitectura y los componentes principales de Azure Databricks y Unity Catalog.

Configurar y gestionar entornos de ingeniería de datos en Azure Databricks.

Diseñar y desarrollar pipelines de ingestión de datos robustos y escalables.

Implementar gobernanza y seguridad de datos utilizando Unity Catalog.

Optimizar cargas de trabajo y procesos de ingeniería de datos en arquitecturas lakehouse.

Desplegar soluciones de ingeniería de datos en entornos de producción cumpliendo requisitos empresariales.

Aplicar buenas prácticas para gestionar, mantener y escalar plataformas de datos en Azure.

Temario

¿Tienes dudas? Te ayudamos a encontrar la mejor formación

Curso:

Plazas abiertas hasta:

Duración:

¿Cómo nos conociste?

Registrate a nuestra newsletter