데이터엔지니어 직무에 있다보면 AWS Glue 라는 단어를 한두번은 들어본적이 있다.
데이터 분석을 쉽게 해주는 Serverless data integration service 이다.
70개가 넘는 데이터소스와 연동하여 데이터를 discovery, prepare, move, integrate 할 수 있는 솔루션이다.
현업에서 사용해본적은 없지만 정말 다방면으로 많은 기능을 제공해주는 솔루션이라고 생각이 들었다.
AWS 공식 문서에서는 AWS Glue의 특징을 크게 3가지 범주로 나눴다
쉽게 이해해보면 ETL을 위한 데이터 파이프라인을 구축하고 모니터링 할 수 있는 솔루션이라는 생각이 들었다.
데이터 파이프라인 구축을 위해서 데이터를 탐색하는 과정이 필요하고 실제 ETL을 위한 프로세스를 구축하고 모니터링 하는 전 과정까지 많은 부분을 Cover 해주고 있는 것 같다.
또한 스키마 추론을 해주는 AWS Glue Crawlers 와 ETL 파이프라인을 Visual 해주고 그래픽 인터페이스를 제공해주는 AWS Glue Studio 가 있다.
AWS Glue를 통해서 ETL 작업 파이프라인을 구축하면 위와 같은 아키텍처이다.
AWS Glue Data Catalog에 crawler에서 정의한 데이터 metadata, schem을 정의한다.
AWS Glue는 스크립트를 통해 ETL 파이프라인 작업을 생성할 수 있다.
스크립트는 구체적인 트리거 요구사항에 따라 동작 가능하다. (time-based or event-based)
AWS glue anti-pattern (https://docs.aws.amazon.com/whitepapers/latest/big-data-analytics-options/aws-glue.html#anti-patterns-glue)
간단하게 AWS Glue에 대해서 살펴봤다.
정말 많은 기능을 제공해준다고 생각해서 ETL 파이프라인 구축이 쉽게 가능하다고 생각한다.
대용량에 데이터에 대해서도 비용 효율적이고 퍼포먼스가 나올지는 더 알아보고 싶다는 생각이 들었다.
마지막에 정리한 Anti pattern을 보면 결국 대용량의 처리를 위해서는 AWS EMR로 spark 환경을 구축하는게 효율적이라고 생각이들었따.
AWS EMR on EKS 공부하기 (1) | 2024.09.01 |
---|---|
AWS EMR 공부하기 (0) | 2024.08.30 |
AWS Athena 공부 (0) | 2024.08.26 |