상세 컨텐츠

본문 제목

AWS Glue 공부

AWS/Processing

by 데이터 개발자 2024. 8. 25. 18:34

본문

데이터엔지니어 직무에 있다보면 AWS Glue 라는 단어를 한두번은 들어본적이 있다.

데이터 분석을 쉽게 해주는 Serverless data integration service 이다.

 

 

70개가 넘는 데이터소스와 연동하여 데이터를 discovery, prepare, move, integrate 할 수 있는 솔루션이다.

현업에서 사용해본적은 없지만 정말 다방면으로 많은 기능을 제공해주는 솔루션이라고 생각이 들었다.

 

 

AWS Glue Features

 

AWS 공식 문서에서는 AWS Glue의 특징을 크게 3가지 범주로 나눴다

  • Discovery and organize data
  • Transfrom, prepare, and clean data for analysis
  • Build and monitor data pipeline

 

쉽게 이해해보면 ETL을 위한 데이터 파이프라인을 구축하고 모니터링 할 수 있는 솔루션이라는 생각이 들었다.

데이터 파이프라인 구축을 위해서 데이터를 탐색하는 과정이 필요하고 실제 ETL을 위한 프로세스를 구축하고 모니터링 하는 전 과정까지 많은 부분을 Cover 해주고 있는 것 같다.

 

또한 스키마 추론을 해주는 AWS Glue Crawlers 와 ETL 파이프라인을 Visual  해주고 그래픽 인터페이스를 제공해주는 AWS Glue Studio 가 있다.

 

 


AWS Glue architecture

 

AWS Glue를 통해서 ETL 작업 파이프라인을 구축하면 위와 같은 아키텍처이다.

 

AWS Glue Data Catalog에 crawler에서 정의한 데이터 metadata, schem을 정의한다.

AWS Glue는 스크립트를 통해 ETL 파이프라인 작업을 생성할 수 있다.

스크립트는 구체적인 트리거 요구사항에 따라 동작 가능하다. (time-based or event-based)

 

 

AWS Glue Anti-pattern


AWS glue anti-pattern (https://docs.aws.amazon.com/whitepapers/latest/big-data-analytics-options/aws-glue.html#anti-patterns-glue)

  • multiple ETL egine : AWS Glue ETL은 spark가 베이스 엔진이다. 스팍이 아닌 hive, pig 등 다른엔진을 사용하려고 하면 효율적이지 못하다.
  • Configurable Spark environment : spark 환경 설정에 대해서 custom하게 구축하고 싶다면 AWS EMR 또는 AWS EMR on EKS 를 추천한다. (AWS Glue는 full-managed service로 설정에 대한 한계가 있다.)

 

 

생각

간단하게 AWS Glue에 대해서 살펴봤다.

정말 많은 기능을 제공해준다고 생각해서 ETL 파이프라인 구축이 쉽게 가능하다고 생각한다.

대용량에 데이터에 대해서도 비용 효율적이고 퍼포먼스가 나올지는 더 알아보고 싶다는 생각이 들었다.

마지막에 정리한 Anti pattern을 보면 결국 대용량의 처리를 위해서는 AWS EMR로 spark 환경을 구축하는게 효율적이라고 생각이들었따.

'AWS > Processing' 카테고리의 다른 글

AWS EMR on EKS 공부하기  (1) 2024.09.01
AWS EMR 공부하기  (0) 2024.08.30
AWS Athena 공부  (0) 2024.08.26

관련글 더보기