상세 컨텐츠

본문 제목

AWS EMR on EKS 공부하기

AWS/Processing

by 데이터 개발자 2024. 9. 1. 16:44

본문

이전 포스팅에서 AWS EMR 에 대해서 공부했다.

 

https://jrograming.tistory.com/18

 

AWS EMR 공부하기

AWS EMR 이란??EMR (Elastic MapReduce)로 불렸으며 Hadoop, Spark 등 빅데이터 처리를 위한 플랫폼이다.Hahoop의 yarn cluster와 같은 개념으로 이해했다.   AWS EMR 구성EMR 클러스터의 컴포넌트를 알아보자. 모두

jrograming.tistory.com

 

오늘은 AWS EMR을 EKS 환경에서 구축하고 운영하는 부분에 대해서 공부를 했다.

 

 

AWS EMR on EKS?

EMR on EKS = Elastic MapReduce on Elastic Kubernetes Service

약자를 풀어보면 대충 감이 온다. AWS EMR을 쿠버네티스 환경에서 운영하는 것이다.

 

AWS EMR on EKS를 사용하면 팀원들끼리 대용량의 데이터를 더 쉽고 비용 효율적으로 사용이 가능하다.

  • EKS 클러스터의 리소스 풀을 사용해 별도의 인프라 구축 없이 EMR을 사용할 수 있다

 

 

AWS EMR vs AWS EMR on EKS

 

Architecture

EMR on EKS를 사용하면 애플리케이션과 인프라에 대한 커플링이 매우 적다.

EMR job을 제출하게 되면 잡에 정의 된 다양한 애플리케이션 레벨의 파라미터들을 사용해 EKS에서 파드와 컨테이너를 deploy하게 된다.

job 별로 개별적인 pod를 사용하기 때문에 각 잡들마다 커플링 없이 동작이 가능하다.

 

 

Concept

  • Kubernetes namespace : AWS EKS에서 k8s namespace를 사용해 클러스터 리소스를 여러 사용자와 애플리케이션을 분리한다.
  • Virtual cluster : AWS EMR이 등록한 k8s namespace 이다. 
  • Job run : spark jar, pyspark, sparkSQL 을 AWS EMR on EKS에 제출하는 것이다.
  • AWS EMR Containers : AWS EMR on EKS 의 API 이름이다

 

실제 AWS EKS 환경에서 스팍 잡을 실행하는 방법에 대해서 아래 블로그에 자세히 나와있다.

공부를 하고 실제 동작시켜볼때 참고하면 좋을 것 같다.

 

https://aws.amazon.com/ko/blogs/tech/amazon-eks-spark-submission-comparison/

 

Amazon EKS 환경에서 다양한 Spark 애플리케이션 제출 방법 비교하기 | Amazon Web Services

Amazon EKS 환경에서는 다양한 방법으로 Spark 애플리케이션을 제출할 수 있습니다. 현재 Amazon EKS 환경에서 지원하는 Spark 애플리케이션 제출 방법에는 spark-submit CLI를 활용하는 방법, Spark Operator를

aws.amazon.com

 

 

 

 

'AWS > Processing' 카테고리의 다른 글

AWS EMR 공부하기  (0) 2024.08.30
AWS Athena 공부  (0) 2024.08.26
AWS Glue 공부  (1) 2024.08.25

관련글 더보기