Data Engineer Log

고정 헤더 영역

글 제목

메뉴 레이어

Data Engineer Log

메뉴 리스트

  • 홈
  • 분류 전체보기 (36)
    • Career (5)
    • Data Engineer (5)
    • AWS (17)
      • Storage (8)
      • Database (3)
      • Processing (4)
    • Database (1)
      • MongoDB (1)
    • Book & Think (5)
    • 개발 기록 (1)
      • 로컬 개발 환경 (1)
    • Infra (2)
      • Kubernetes (1)
      • Terraform (1)

검색 레이어

Data Engineer Log

검색 영역

컨텐츠 검색

AWS

  • 맥북 AWS Cli 설치 & EKS 접속

    2024.10.03 by 데이터 개발자

  • AWS EMR on EKS 공부하기

    2024.09.01 by 데이터 개발자

  • AWS EMR 공부하기

    2024.08.30 by 데이터 개발자

  • AWS Athena 공부

    2024.08.26 by 데이터 개발자

  • AWS Glue 공부

    2024.08.25 by 데이터 개발자

  • AWS Redshift 란 무엇인가

    2024.08.20 by 데이터 개발자

  • AWS DynamoDB Streams 공부

    2024.08.19 by 데이터 개발자

  • AWS DynamoDB 공부

    2024.08.19 by 데이터 개발자

맥북 AWS Cli 설치 & EKS 접속

맥북에서 AWS Cli를 초기 셋팅하고 EKS에 접속하는 방법이다.추후에 또 셋팅할일이 있을 것 같아서 기록해두려고한다. AWS Cli 설치하기# 설치$ wget https://awscli.amazonaws.com/AWSCLIV2.pkg$ sudo ln -s /folder/installed/aws-cli/aws /usr/local/bin/aws$ sudo ln -s /folder/installed/aws-cli/aws_completer /usr/local/bin/aws_completer# 설치 확인$ $ which aws/usr/local/bin/aws $ aws --versionaws-cli/2.17.20 Python/3.11.6 Darwin/23.3.0 botocore/2.4.5https://doc..

AWS 2024. 10. 3. 15:39

AWS EMR on EKS 공부하기

이전 포스팅에서 AWS EMR 에 대해서 공부했다. https://jrograming.tistory.com/18 AWS EMR 공부하기AWS EMR 이란??EMR (Elastic MapReduce)로 불렸으며 Hadoop, Spark 등 빅데이터 처리를 위한 플랫폼이다.Hahoop의 yarn cluster와 같은 개념으로 이해했다.   AWS EMR 구성EMR 클러스터의 컴포넌트를 알아보자. 모두jrograming.tistory.com 오늘은 AWS EMR을 EKS 환경에서 구축하고 운영하는 부분에 대해서 공부를 했다.  AWS EMR on EKS?EMR on EKS = Elastic MapReduce on Elastic Kubernetes Service약자를 풀어보면 대충 감이 온다. AWS EMR을 ..

AWS/Processing 2024. 9. 1. 16:44

AWS EMR 공부하기

AWS EMR 이란??EMR (Elastic MapReduce)로 불렸으며 Hadoop, Spark 등 빅데이터 처리를 위한 플랫폼이다.Hahoop의 yarn cluster와 같은 개념으로 이해했다.   AWS EMR 구성EMR 클러스터의 컴포넌트를 알아보자. 모두 EC2 인스턴스에 구축되어 있으며 각 인스턴스는 Node라고 불린다.Hadoop HDFS처럼 노드 개념이랑 비슷하다고 생각했다. 노드의 종류는 3가지가 있다.Primary node : 클러스터를 관리하는 노드이다. 테스크의 상태를 관리하거나 클러스터의 heath check를 하게 된다.Core node : task들을 실행하고 HDFS의 데이터를 저장하는 노드이다. Task node : 실제로 task가 동작하게 된다. HDFS에 데이터는 저..

AWS/Processing 2024. 8. 30. 21:45

AWS Athena 공부

AWS Athena 서비스에 대해서 공부해봤다.사실 AWS에서 데이터 엔지니어링 기술 셋 중에 가장 궁금한 기술이였다.  AWS Athena?SQL을 사용해 S3에 저장 된 데이터를 쿼리하는 서비스이다.데이터를 로드할 필요 없이 S3에 저장되어 있으면 바로 쿼리가 가능하다. 2016년 Athena가 처음 출시 됐을때 오픈 소스인 SQL 쿼리 엔진인 Presto 기반으로 설계되었다. Serverless 서비스로 다양한 데이터 포맷을 지원하게 된다.관리형 서비스로 직접 인프라나 관리가 필요하지 않는다. S3에 저장 된 데이터들을 바로바로 분석하고 데이터를 살펴보기 좋은 솔루션이라고 생각한다.  Data analysis architecture AWS 서비스를 활용해 serverless 한 데이터 분석 환경을 ..

AWS/Processing 2024. 8. 26. 21:51

AWS Glue 공부

데이터엔지니어 직무에 있다보면 AWS Glue 라는 단어를 한두번은 들어본적이 있다.데이터 분석을 쉽게 해주는 Serverless data integration service 이다.  70개가 넘는 데이터소스와 연동하여 데이터를 discovery, prepare, move, integrate 할 수 있는 솔루션이다.현업에서 사용해본적은 없지만 정말 다방면으로 많은 기능을 제공해주는 솔루션이라고 생각이 들었다.  AWS Glue Features AWS 공식 문서에서는 AWS Glue의 특징을 크게 3가지 범주로 나눴다Discovery and organize dataTransfrom, prepare, and clean data for analysisBuild and monitor data pipeline 쉽..

AWS/Processing 2024. 8. 25. 18:34

AWS Redshift 란 무엇인가

오늘은 AWS Redshift에 대해서 공부해보려고 한다.데이터 웨어하우스 시스템으로 데이터 엔지니어 분야에서 굉장히 중요한 부분이라고 생각한다. 최근에는 Data Lake, Data Lakehouse 의 등장으로 Data Warehouse 아키텍처가 상대적으로 관심이 덜 해졌지만, 아직까지도 굉장히 중요한 영역이라고 생각한다. https://jrograming.tistory.com/2 Data Warehouse, Data Lake, Data LakehouseData Storage Architecture데이터 저장 아키텍처로 3가지에 대해서 공부해봤다.Data Warehouse, Data Lake, Data Lakehouse우선 한 장의 사진으로 정리한걸 보면 이해가 훨씬 쉽다.아래 사진은 Databri..

AWS/Storage 2024. 8. 20. 22:42

AWS DynamoDB Streams 공부

데이터엔지니어 분야에서 일을 하다 보니 Streams이라는 단어를 보면 항상 눈길이 간다.실시간 프로세싱, 파이프라인 구축에 Streams은 자주 등장하는 개념이기때문이다. DynamoDB에서 Strems 개념이 있어서 간단히 살펴봤다.  DynamoDB Streams테이블의 데이터(item)가 create/update/delete 됐을때 발생하는 이벤트이다.in near-real time (거의 실시간) 으로 이벤트 발생 순서대로(order) 발생한다고 한다. 각각의 Streams 데이터에는 테이블 정보, 이벤트 시간.. 등 메타데이터들이 포함되어 있고 24시간동안의 retention을 가지게 된다.공식 문서에서는 아래와 같은 아키텍처를 소개해줬다.  실제 DynamoDB Streams을 Kinesis..

AWS/Database 2024. 8. 19. 21:55

AWS DynamoDB 공부

Amazon DynamoDB AWS에서 제공하는 Serverless NoSQL 데이터베이스 서비스이다.NoSQL로 기존 RDB와의 차이점은 별로의 포스팅에 작성해두었다.  https://jrograming.tistory.com/11 SQL, RDBMS vs NoSQL 공부AWS Storage를 공부하려고 보니 Database의 RDB와 NoSQL을 또 살펴보게 됐다.해당 주제는 내가 신입 사원 면접을 준비하는 과정에서 공부했던 내용인데 결국 또 공부하게 될 만큼 굉장히 중요한 주제라jrograming.tistory.com  굉장히 유연한 확장성과 빠른 성능을 제공중인 데이터베이스로 많은 요구사항에 사용된다고 생각한다.  DynamoDBServerless NoSQL databaseFull managed s..

AWS/Database 2024. 8. 19. 21:38

추가 정보

인기글

최신글

페이징

이전
1 2 3
다음
TISTORY
Data Engineer Log © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바