'Data Engineer' 카테고리의 글 목록

Data Engineer

Iceberg? Iceberg는 빅데이터 분석을 위한 open table format 중 하나이다.데이터레이크에서 대규모 데이터를 효율적으로 관리하고 분석할 수 있도록 설계되어 있다. 확장성, 성능, 그리고 복잡한 요구사항까지 충족되며 다양한 데이터 레이크 환경에서 동작할 수 있다. (HDFS, S3, Google Cloud Storage..) 데이터 엔지니어는 Apache Iceberg를 사용해 대규모 데이터를 빠르고 효율적이고 안정적으로 관리할 수 있다.특히 Spark, Flink, Hive, Trino 등 다양한 데이터 처리 엔진과 통합하여 사용할 수 있다.Iceberg에 대한 다양한 기능들을 하나하나 공부해보고 정리해보려고 한다. Iceberg의 장점다양한 장점과 이점들이 있지만 AWS에 정리..

Data Engineer 2024. 12. 15. 21:10

Kafka Connect Plugin 설치하기

Kakfa Connect를 사용하면서 다양한 Plugin을 사용할 수 있다.cutom한 plugin 들은 Connectors, Transformaers, Converters 등 다양하게 활용이 가능하다. 각각의 Plugin 들은 독립적인 Jar 파일로 Plugin 끼리 서로 영향을 받지 않게됩니다. Kafka Connect가 동작할때 설정해준 plugin path 에서 정의 된 plugins 들을 사용하게 된다.아래 설정을 통해서 plugin path를 지정할 수 있다. 해당 설정은 Worker를 동작할때 properties file로 지정이 가능하다.plugin.path=/usr/local/share/kafka/plugins 이전 포스팅에서 AWS EC2 인스턴스에 Kafka Cluster를 구축해봤..

Data Engineer 2024. 9. 19. 14:44

Kafka Connect 공부하기 (1)

오늘은 Kafka Connect를 정리해보려고 한다. Kafka Connect 란?Kafka Connect는 Kafka 와 다른 System들을 연동하는 툴이다.오픈소스로 Apache Kafka의 컴포넌트 중 하나이다. Kafka Connect 이외에 ksqlDB, Kafka Streams 도 있지만, 오늘은 Kafka Connect 에 대해서 알아봤다.쉽고 간단하게 Connector를 구성하여 다양한 데이터 소스에서 카프카와의 연동이 가능하다. Kafka Connect 개념Kafka Connect에서 사용되는 개념이 있는데 간단히 정리해보자.Connectors : Tasks들을 관리하는 추상화 데이터 스트림Tasks : 데이터를 어떻게 카프카로 복사하기 위한 구현Workers : Connector와..

Data Engineer 2024. 9. 18. 14:04

AWS EC2 인스턴스에 Kafka Cluster 구축하기

카프카 클러스터를 EC2 인스턴스에 구축해봤다. Confluent에서 제공하는 ansible playbook을 사용하면 정말 쉽게 구축이 가능하다.https://github.com/confluentinc/cp-ansible GitHub - confluentinc/cp-ansible: Ansible playbooks for the Confluent PlatformAnsible playbooks for the Confluent Platform. Contribute to confluentinc/cp-ansible development by creating an account on GitHub.github.com 해당 playbook을 통해 아래 component들 모두 구축이 가능하다ZookeeperK..

Data Engineer 2024. 9. 13. 21:53

Data Warehouse, Data Lake, Data Lakehouse

Data Storage Architecture데이터 저장 아키텍처로 3가지에 대해서 공부해봤다.Data Warehouse, Data Lake, Data Lakehouse우선 한 장의 사진으로 정리한걸 보면 이해가 훨씬 쉽다.아래 사진은 Databricks 의 Data Lakehouse 에 대한 블로그에 소개 된 그림이다. https://www.databricks.com/kr/glossary/data-lakehouse 기존의 Data Warehoues 와 Data Lake 의 장점을 가져와 만들었다는 Data Lakehouse 를 소개하고 있다.하나 씩 공부해보자. Data Warehouse 다양한 소스들을 Structured Data 로 저장하여 복잡한 쿼리나, 데이터 분석을 위해 사용된다.주로 E..

Data Engineer 2024. 8. 16. 08:44

Data Engineer Log

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

Data Engineer

추가 정보

인기글

최신글

페이징

티스토리툴바