AWS Athena 서비스에 대해서 공부해봤다.
사실 AWS에서 데이터 엔지니어링 기술 셋 중에 가장 궁금한 기술이였다.
SQL을 사용해 S3에 저장 된 데이터를 쿼리하는 서비스이다.
데이터를 로드할 필요 없이 S3에 저장되어 있으면 바로 쿼리가 가능하다.
2016년 Athena가 처음 출시 됐을때 오픈 소스인 SQL 쿼리 엔진인 Presto 기반으로 설계되었다.
Serverless 서비스로 다양한 데이터 포맷을 지원하게 된다.
관리형 서비스로 직접 인프라나 관리가 필요하지 않는다.
S3에 저장 된 데이터들을 바로바로 분석하고 데이터를 살펴보기 좋은 솔루션이라고 생각한다.
AWS 서비스를 활용해 serverless 한 데이터 분석 환경을 손쉽게 구성이 가능하다.
S3에 저장 된 데이터를 AWS Glue <-> AWS Athena <-> AWS QuickSight를 통해 데이터 분석 환경을 쉽게 구성할 수 있다.
더 다양한 아키텍처들이 있겠지만, 정말 클라우드 서비스를 활용한 확장성과 생산성은 굉장히 크다고 생각한다.
Athena 사용을 검토할때 anti-pattern에 대해서 알아봤다.
이 밖에 다양한 기능들을 제공하고 있다.
2022년 에는 Athena에서 Spark 까지 지원하게 된 것 같다.
데이터 분석 엔진으로 SQL, Spark 를 선택하여 AWS Athena를 사용한다.
Spark를 위한 별도의 구성없이 바로 사용하는 것이 굉장히 큰 장점이라고 생각한다.
물론 AWS Glue에서 공부했었던 것 처럼 환경에 대한 제약은 있을 것 같다는 생각이 들었다.
한편으로는 Spark가 빅데이터 영역에서 얼마나 많이 사용되고 성능적으로 가치가 있는지 느껴졌다.
Spark에 대해서 다시 한번 공부해보고 정리해보고 싶은 생각이 들었다.
AWS EMR on EKS 공부하기 (3) | 2024.09.01 |
---|---|
AWS EMR 공부하기 (0) | 2024.08.30 |
AWS Glue 공부 (1) | 2024.08.25 |