Data Engineer Log

고정 헤더 영역

글 제목

메뉴 레이어

Data Engineer Log

메뉴 리스트

  • 홈
  • 분류 전체보기 (36)
    • Career (5)
    • Data Engineer (5)
    • AWS (17)
      • Storage (8)
      • Database (3)
      • Processing (4)
    • Database (1)
      • MongoDB (1)
    • Book & Think (5)
    • 개발 기록 (1)
      • 로컬 개발 환경 (1)
    • Infra (2)
      • Kubernetes (1)
      • Terraform (1)

검색 레이어

Data Engineer Log

검색 영역

컨텐츠 검색

AWS/Storage

  • AWS Redshift 란 무엇인가

    2024.08.20 by 데이터 개발자

  • SQL, RDBMS vs NoSQL 공부

    2024.08.19 by 데이터 개발자

  • AWS S3 Object Lambda 공부하기

    2024.08.18 by 데이터 개발자

  • AWS EBS, AWS EFS 공부하기 (feat. S3)

    2024.08.18 by 데이터 개발자

  • AWS S3 Storage Class

    2024.08.18 by 데이터 개발자

  • AWS S3 Versions, Lifecycle

    2024.08.18 by 데이터 개발자

  • AWS S3 vs HDFS

    2024.08.17 by 데이터 개발자

  • Amazon S3 개념 (AWS S3)

    2024.08.17 by 데이터 개발자

AWS Redshift 란 무엇인가

오늘은 AWS Redshift에 대해서 공부해보려고 한다.데이터 웨어하우스 시스템으로 데이터 엔지니어 분야에서 굉장히 중요한 부분이라고 생각한다. 최근에는 Data Lake, Data Lakehouse 의 등장으로 Data Warehouse 아키텍처가 상대적으로 관심이 덜 해졌지만, 아직까지도 굉장히 중요한 영역이라고 생각한다. https://jrograming.tistory.com/2 Data Warehouse, Data Lake, Data LakehouseData Storage Architecture데이터 저장 아키텍처로 3가지에 대해서 공부해봤다.Data Warehouse, Data Lake, Data Lakehouse우선 한 장의 사진으로 정리한걸 보면 이해가 훨씬 쉽다.아래 사진은 Databri..

AWS/Storage 2024. 8. 20. 22:42

SQL, RDBMS vs NoSQL 공부

AWS Storage를 공부하려고 보니 Database의 RDB와 NoSQL을 또 살펴보게 됐다.해당 주제는 내가 신입 사원 면접을 준비하는 과정에서 공부했던 내용인데 결국 또 공부하게 될 만큼 굉장히 중요한 주제라고 생각한다. Database의 중요한 부분 중 하나로 하나씩 알아보자 SQL, RDBMS관계형 데이터베이스라고 불린다데이터를 Column, Row로 구성된 테이블 형식으로 저장한다Colume : 데이터 속성, Row : 데이터 값Transaction 을 보장하고 엄격한 스키마 관리로 명확한 데이터 구조를 보장한다데이터 무결성이 중요한 시스템에 용이하다 (높은 수준의 ACID)Scale up (Vertical Scaling) / Horizontal scaling = reading capacit..

AWS/Storage 2024. 8. 19. 09:21

AWS S3 Object Lambda 공부하기

AWS S3 Object LambdaS3에 저장되어 있는 Object를 Lambda를 사용해 데이터를 수정하는 것이다.아래 아키텍처를 보면 더 직관적으로 이해가 가능하다. S3 GET, HEAD, LIST 요청에 람다 코드를 추가해서 데이터가 반환될때 로직이 적용된 데이터가 반환된다.Use Case데이터 형식 변환 (XML -> Json)이미지 크기 동적 조정이미지 워터마크데이터 암호화... 요구사항에 따라 다양하게 활용 가능할 것 같다.데이터 엔지니어링 과정에서 데이터 전치리나 로직을 처리하는 파이프라인이 필요한데 S3 Object Lambda 간단한 파이프라인들은 대체할 수 있지 않을까 생각이 들었다.이 부분은 현업에서 활용을해보면서 추후 생각을 더 포스팅해보려고 한다. 전체적인 동작아래 그림을 보면..

AWS/Storage 2024. 8. 18. 18:58

AWS EBS, AWS EFS 공부하기 (feat. S3)

AWS EBS  Elastic Block Storage 의 약자로 EC2 인스턴스와 함께 사용하는 블록 스토리지 이다. (network drive)해당 스토리지에 저장 된 데이터는 인스턴스가 제거되거나 멈추더라도 데이터는 유지 된다.한번에 하나의 인스턴스에 mount 될 수 있으며 특정 Availability zone에 생성된다.Block Storage VolumneNetwork drive (not physical drive)one AZ 쉽게 이해하면 EC2의 로컬 하드 디스크라고 생각하고 사용하면 된다.로컬 디스크 처럼 SSD/HDD 등 불륨 유형을 제공하며 확장성 높게 사용이 가능하다.재시작 없이 Volume 변경이 가능하다.  또한 Snapshot과 암호화 등 저장 스토리를 위한 다양한 기능을 제공..

AWS/Storage 2024. 8. 18. 14:56

AWS S3 Storage Class

S3 Storage Class AWS S3의 경우 각각의 object마다 Storage Class 를 가지고 있다.실제 S3에 데이터를 올리면 default로 Standard 스토리지 클래스를 가지게 된다.  S3 에서는 다양한 Storage Class를 제공하여 비용 효율적으로 요구사항이네 비즈니스 니즈에 맞게 설정이 가능하다.또한, 각 object의 Storage Class의 관리는 AWS S3 Lifecylce을 통해 가능하다.(아래 포스팅에서 S3 Lifecycle에 대한 개념을 공부했다) https://jrograming.tistory.com/6 AWS S3 Versions, LifecycleS3 Versionsing AWS의 Versioning에 대해서 공부해봤다. S3에 저장 된 파일들의 V..

AWS/Storage 2024. 8. 18. 14:25

AWS S3 Versions, Lifecycle

S3 Versionsing AWS의 Versioning에 대해서 공부해봤다. S3에 저장 된 파일들의 Version을 설정하는 것이다.AWS의 Version은 Bucket level 로 설정이 가능하다.  S3 버전 관리를 사용하면 Bucket에 저장된 모든 버전의 객체를 모두 보존, 검색 및 복원이 가능하다.버전을 설정하는 방법은 AWS Console에서 '속성 > 버킷 버전 관리' 을 활성화 하면 버전 관리가 가능하다. 참고로 버전 설정 이전에 존재하던 파일들은 version정보에 'null' 값이 들어가게된다.  아래와 깉이 파일을 PUT 하게 되면 새로운 버전이 생성된다.(현재 객체를 수정하는 일부 작업에서는 새 객체에 PUT 작업을 수행하지 않으므로 새 버전이 생성되지 않는다) 아래와 같이 파일..

AWS/Storage 2024. 8. 18. 14:04

AWS S3 vs HDFS

AWS S3을 공부하다가 S3와 HDFS의 차이점과 장단점이 궁금해졌다.우선 HDFS(Hadoop Distributed File System)에 대해서 간단히 정리하고 비교해보려고 한다.  HDFS Hadoop Distributed File Sytem의 약자로 대규모 데이터를 저장하고 처리하기 위한 분산 파일 시스템이다.빅데이터 처리를 위한 등장한 오픈소스로 Hadoop Ecosystem와 같이 데이터 처리를 위한 파일 시스템이다. HDFS의 아키텍처로는 NameNode와 DataNode가 있다. NameNode메타데이터 관리 : 파일 시스템의 네임스페이스 및 파일과 디렉토리의 메타데이터를 관리한다.파일 블록들이 어떤 DataNode에 저장 되어 있는지 관리한다클라이언트 요청을 처리한다복제, 시스템 상태..

AWS/Storage 2024. 8. 17. 17:49

Amazon S3 개념 (AWS S3)

오늘은 AWS S3 (=Amazon Simple Storage Service) 에 대해서 공부해봤다.업무에서 직접적으로 사용해본적은 없지만 이름도 정말 많이 들어봤던 S3.  Cloud Object Storage로 S3는 AWS 서비스 중 가장 기본적인 서비스가 아닐까 생각이 든다. 데이터 엔지니어링 분야에서 데이터를 저장 하는 저장소는 굉장히 중요하다고 생각한다.raw data가 될 수도 있고, Transform을 데이터, BI/Report 용 데이터 등 다양한 데이터들을 저장 할 수 있는 저장소는 필수적이다. 개념적인 부분 심화적인 부분(Version, Replication, Life Cycle..) 을 공부해보면서 하나하나 정리해보려고 한다.  AWS S3란 무엇인가?AWS에서 제공하는 Cloud ..

AWS/Storage 2024. 8. 17. 12:08

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
Data Engineer Log © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바