๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง

์‹ค์‹œ๊ฐ„ ๋ถ„์„ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ• - 00. ์•„ํ‚คํ…์ฒ˜ ์†Œ๊ฐœ

Tempo 2025. 5. 14. 08:28
Kafka๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ , Iceberg์™€ Delta Lake์— ์ €์žฅํ•œ ๋’ค,
Spark๋กœ ์ฒ˜๋ฆฌํ•ด๋ณด๋Š” ์‹ค์‹œ๊ฐ„ ๋ถ„์„ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”ฅ ์ด ์‹œ๋ฆฌ์ฆˆ์˜ ๋ชฉํ‘œ

Docker ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง์—์„œ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๊ธฐ์ˆ  ์Šคํƒ์ธ Kafka, Data Lake(Iceberg, Delta lake)๋ฅผ ์ง์ ‘ ๊ตฌ์„ฑํ•˜๊ณ  ํ…Œ์ŠคํŠธ ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์•„๋ž˜ ๋‚ด์šฉ๋“ค์— ๋Œ€ํ•ด ์†Œ๊ฐœํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

  • Kafka ์‹ค์‹œ๊ฐ„ ๋ถ„์„ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•
  • Docker ๊ธฐ๋ฐ˜ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ํ™˜๊ฒฝ ๊ตฌ์ถ•
  • Iceberg Vs Delta Lake ์ฐจ์ด์  ๋น„๊ต

 

 

์•„ํ‚คํ…์ฒ˜ ์†Œ๊ฐœ

  • Kafka๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ง์ ‘ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋„๋ก RedPanda๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • Iceberg์™€ Delta-Lake๋Š” ๊ณต์‹ ์‚ฌ์ดํŠธ ๋ฐ ๊ณต์‹ github์—์„œ ์ œ๊ณตํ•˜๋Š” ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • Minio๋Š” AWS์˜ S3(๋˜๋Š” GCP์˜ Cloudstorage)์˜ ์—ญํ• ๋กœ ๋ฐ์ดํ„ฐ๋ ˆ์ดํฌ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  Iceberg, Delta lake๋Š” jupyter notebook์„ ํฌํ•จํ•˜๊ณ  ์žˆ์–ด Spark๋ฅผ ํ…Œ์ŠคํŠธ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋“  ๋ฆฌ์†Œ์Šค๋Š” Docker(Docker Compose)๋กœ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

 

๋ฐ˜์‘ํ˜•