Data Engineer Log

고정 헤더 영역

글 제목

메뉴 레이어

Data Engineer Log

메뉴 리스트

  • 홈
  • 분류 전체보기 (36)
    • Career (5)
    • Data Engineer (5)
    • AWS (17)
      • Storage (8)
      • Database (3)
      • Processing (4)
    • Database (1)
      • MongoDB (1)
    • Book & Think (5)
    • 개발 기록 (1)
      • 로컬 개발 환경 (1)
    • Infra (2)
      • Kubernetes (1)
      • Terraform (1)

검색 레이어

Data Engineer Log

검색 영역

컨텐츠 검색

Data Engineer

  • Iceberg 란 무엇인가?

    2024.12.15 by 데이터 개발자

  • Kafka Connect Plugin 설치하기

    2024.09.19 by 데이터 개발자

  • Kafka Connect 공부하기 (1)

    2024.09.18 by 데이터 개발자

  • AWS EC2 인스턴스에 Kafka Cluster 구축하기

    2024.09.13 by 데이터 개발자

  • Data Warehouse, Data Lake, Data Lakehouse

    2024.08.16 by 데이터 개발자

Iceberg 란 무엇인가?

Iceberg? Iceberg는 빅데이터 분석을 위한 open table format 중 하나이다.데이터레이크에서 대규모 데이터를 효율적으로 관리하고 분석할 수 있도록 설계되어 있다. 확장성, 성능, 그리고 복잡한 요구사항까지 충족되며 다양한 데이터 레이크 환경에서 동작할 수 있다. (HDFS, S3, Google Cloud Storage..) 데이터 엔지니어는 Apache Iceberg를 사용해 대규모 데이터를 빠르고 효율적이고 안정적으로 관리할 수 있다.특히 Spark, Flink, Hive, Trino 등 다양한 데이터 처리 엔진과 통합하여 사용할 수 있다.Iceberg에 대한 다양한 기능들을 하나하나 공부해보고 정리해보려고 한다.  Iceberg의 장점다양한 장점과 이점들이 있지만 AWS에 정리..

Data Engineer 2024. 12. 15. 21:10

Kafka Connect Plugin 설치하기

Kakfa Connect를 사용하면서 다양한 Plugin을 사용할 수 있다.cutom한 plugin 들은 Connectors, Transformaers, Converters 등 다양하게 활용이 가능하다. 각각의 Plugin 들은 독립적인 Jar 파일로 Plugin 끼리 서로 영향을 받지 않게됩니다. Kafka Connect가 동작할때 설정해준 plugin path 에서 정의 된 plugins 들을 사용하게 된다.아래 설정을 통해서 plugin path를 지정할 수 있다. 해당 설정은 Worker를 동작할때 properties file로 지정이 가능하다.plugin.path=/usr/local/share/kafka/plugins  이전 포스팅에서 AWS EC2 인스턴스에 Kafka Cluster를 구축해봤..

Data Engineer 2024. 9. 19. 14:44

Kafka Connect 공부하기 (1)

오늘은 Kafka Connect를 정리해보려고 한다. Kafka Connect 란?Kafka Connect는 Kafka 와 다른 System들을 연동하는 툴이다.오픈소스로 Apache Kafka의 컴포넌트 중 하나이다. Kafka Connect 이외에 ksqlDB, Kafka Streams 도 있지만, 오늘은 Kafka Connect 에 대해서 알아봤다.쉽고 간단하게 Connector를 구성하여 다양한 데이터 소스에서 카프카와의 연동이 가능하다.   Kafka Connect 개념Kafka Connect에서 사용되는 개념이 있는데 간단히 정리해보자.Connectors : Tasks들을 관리하는 추상화 데이터 스트림Tasks : 데이터를 어떻게 카프카로 복사하기 위한 구현Workers : Connector와..

Data Engineer 2024. 9. 18. 14:04

AWS EC2 인스턴스에 Kafka Cluster 구축하기

카프카 클러스터를 EC2 인스턴스에 구축해봤다.    Confluent에서 제공하는 ansible playbook을 사용하면 정말 쉽게 구축이 가능하다.https://github.com/confluentinc/cp-ansible GitHub - confluentinc/cp-ansible: Ansible playbooks for the Confluent PlatformAnsible playbooks for the Confluent Platform. Contribute to confluentinc/cp-ansible development by creating an account on GitHub.github.com 해당 playbook을 통해 아래 component들 모두 구축이 가능하다ZookeeperK..

Data Engineer 2024. 9. 13. 21:53

Data Warehouse, Data Lake, Data Lakehouse

Data Storage Architecture데이터 저장 아키텍처로 3가지에 대해서 공부해봤다.Data Warehouse, Data Lake, Data Lakehouse우선 한 장의 사진으로 정리한걸 보면 이해가 훨씬 쉽다.아래 사진은 Databricks 의 Data Lakehouse 에 대한 블로그에 소개 된 그림이다. https://www.databricks.com/kr/glossary/data-lakehouse   기존의 Data Warehoues 와 Data Lake 의 장점을 가져와 만들었다는 Data Lakehouse 를 소개하고 있다.하나 씩 공부해보자.  Data Warehouse 다양한 소스들을 Structured Data 로 저장하여 복잡한 쿼리나, 데이터 분석을 위해 사용된다.주로 E..

Data Engineer 2024. 8. 16. 08:44

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
Data Engineer Log © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바