Skip to content

7. AWS Glue

7.1. Introducción a AWS Glue

AWS Glue es un servicio de integración de datos en la nube de Amazon Web Services diseñado para facilitar la preparación y transformación de datos. Se utiliza principalmente para tareas de ETL (Extract, Transform, Load) y para crear catálogos de datos que pueden ser utilizados en análisis.

7.2. Características Principales

  • Sin Servidor: AWS Glue opera sin necesidad de gestión de infraestructura, proporcionando una solución escalable y flexible.
  • Integración de Datos: Facilita la detección, preparación, migración e integración de datos provenientes de diversas fuentes.
  • Características Avanzadas: Incluye la creación de catálogos de datos, rastreo de datos y la capacidad de trabajar con flujos de trabajo complejos.

7.3. Componentes y Arquitectura

7.3.1 Componentes Principales

AWS Glue se compone de varios elementos clave que trabajan en conjunto para facilitar la integración de datos de manera eficiente y sin servidores. Estos componentes incluyen:

  • Crawlers:
    • Los crawlers son responsables de explorar y extraer metadatos de diversas fuentes de datos, como bases de datos, almacenes de datos y sistemas de archivos.
    • Automáticamente descubren la estructura de los datos, catalogándolos para su posterior procesamiento en tareas ETL.
  • Jobs:
    • Los jobs son unidades de trabajo que ejecutan transformaciones sobre los datos extraídos por los crawlers.
    • Permiten realizar tareas de limpieza, transformación y enriquecimiento de datos utilizando Apache Spark
  • Development Endpoints:
    • Estos endpoints proporcionan un entorno interactivo para el desarrollo y depuración de scripts de transformación de datos.
    • Facilitan el proceso de escritura y prueba de código antes de implementar trabajos en producción.
  • Data Catalog:
    • El catálogo de datos de AWS Glue almacena información sobre los metadatos de los datos extraídos y transformados.
    • Ofrece una vista centralizada y organizada de los datos, facilitando la gestión y consulta de información sobre estos.

Estos componentes trabajan de manera integrada, permitiendo a los usuarios gestionar, transformar y analizar datos de manera eficaz y sin preocuparse por la complejidad de la infraestructura subyacente.

7.3.2. Arquitectura Serverless

Al ser sin servidor, AWS Glue elimina la complejidad asociada con la gestión de la infraestructura, permitiendo un enfoque más eficiente

7.4. Ventajas y Casos de Uso

  • Ventajas: AWS Glue simplifica la administración de datos, reduce la complejidad en el procesamiento de datos y mejora la eficiencia global.
  • Casos de Uso: Ideal para la preparación de datos para análisis, integración de diversas fuentes de datos y automatización de flujos de trabajo ETL.

La documentación oficial de AWS Glue la puedes encontrar aqui