상세 컨텐츠

본문 제목

AWS Redshift 란 무엇인가

AWS/Storage

by 데이터 개발자 2024. 8. 20. 22:42

본문

오늘은 AWS Redshift에 대해서 공부해보려고 한다.

데이터 웨어하우스 시스템으로 데이터 엔지니어 분야에서 굉장히 중요한 부분이라고 생각한다.

 

최근에는 Data Lake, Data Lakehouse 의 등장으로 Data Warehouse 아키텍처가 상대적으로 관심이 덜 해졌지만, 아직까지도 굉장히 중요한 영역이라고 생각한다.

 

https://jrograming.tistory.com/2

 

Data Warehouse, Data Lake, Data Lakehouse

Data Storage Architecture데이터 저장 아키텍처로 3가지에 대해서 공부해봤다.Data Warehouse, Data Lake, Data Lakehouse우선 한 장의 사진으로 정리한걸 보면 이해가 훨씬 쉽다.아래 사진은 Databricks 의 Data Lakehous

jrograming.tistory.com

 

 

AWS Redshift

AWS에서 제공하는 Full-managed service 이며 Petabyte까지 스케일이 가능한 Data Warehouse 이다.

사용한 만큼 비용을 지불하기 때문에 비용 효율적이며, 굉장히 빠른 성능을 제공한다고 한다.

 

Online transaction processing (OLTP) 가 아닌 Online analytical processing (OLAP) 이다.

요구사항에 따라 Scale Up, Down이 가능하며 replication & backup 기능까지 제공된다.

 

 

Architecture

 

아래는 Redshift를 사용한 Data warehouse system 아키텍처이다.

JDBC/ODBC/DATA API를 통해 Redshift와 인터페이싱이 가능하다.

 

https://docs.aws.amazon.com/ko_kr/redshift/latest/dg/c_high_level_system_architecture.html

 

Cluster 부분을 자세히 살펴보자

Leader NodeCompute Node (CN)으로 구성되어 있다.

 

Leader Node

compute node들과 client program들과 통신을 하는 노드이다. 개발자가 실행한 쿼리를 파싱하고 쿼리 플랜을 세우게 된다.

 

Compute Node

leader node에서 컴파일한 코드들을 각각의 Compute Node에서 실행하게 된다. 

실행 결과를 leader node로 전달하게 된다.

 

Node slices

각 compute node들은 slice로 파티션 되어 있다. (위 아키텍처의 CN1~4안에 파란색 박스)

slice마다 노드의 메모리와 디스크 공간을 가지고 있다. node size를 통해서 slice 수를 조정 가능하다.

leader node 에서 slice로 분산된 데이터들을 관리하게 된다.

 

Redshift Managed Storage (RMS)

RMS는 S3를 스토리지로 사용하며 데이터 웨어하우스의 데이터는 RMS에 저장되고 관리된다. 

 

 

 

이 밖에 공부해야할 AWS Redshift의 개념이 많다고 생각한다.

하나하나 공부해보며 정리해보려고 한다

'AWS > Storage' 카테고리의 다른 글

SQL, RDBMS vs NoSQL 공부  (4) 2024.08.19
AWS S3 Object Lambda 공부하기  (1) 2024.08.18
AWS EBS, AWS EFS 공부하기 (feat. S3)  (2) 2024.08.18
AWS S3 Storage Class  (0) 2024.08.18
AWS S3 Versions, Lifecycle  (1) 2024.08.18

관련글 더보기