[Tech] 데이터 민주화란 무엇인가?
·
📰 Tech Trends
데이터 민주화 ( Data Democratization )모든 구성원이 데이터로 의사결정 하는 조직 만들기들어가며데이터가 새로운 석유라고 불리는 시대에서, 기업들은 점점 더 많은 데이터를 수집하고 있다. 하지만 단순히 데이터를 많이 보유하는 것만으로는 충분하지 않다. 중요한 것은 조직 내 모든 구성원이 필요한 데이터에 접근하고, 이를 활용하여 더 나은 의사결정을 내릴 수 있도록 하는 것이다. 이것이 바로 '데이터 민주화 (Data Democratization)'의 핵심이다. 데이터 민주화란 무엇인가?정의와 핵심 개념데이터 민주화는 조직 내 모든 구성원이 기술적 배경에 관계없이 적절한 데이터에 접근하고, 이를 이해하며, 자신감있게 활용할 수 있도록 하는 지속적인 프로세스이다. 이는 단순히 데이터 접근권한을..
[Data Engineering] dbt란 무엇인가?
·
📊 Data Engineering
dbt란 무엇인가?dbt는 간단한 SELECT 쿼리를 통해 데이터를 변환하는 데 도움이 되는 개발 프레임워크이다.dbt(Data Build Tool)는 데이터 엔지니어링 분야에서 원시 데이터를 데이터 웨어하우스 내에 분석에 적합한 형태로 변환(Transform)하는 데 사용되는 오픈소스 도구이다. 특히 ELT(Extract, Load, Transform) 파이프라인의 'T' 단계를 담당하며, 데이터 웨어하우스에 이미 적재된 데이터를 효과적으로 변환하는 데 중점을 둔다. dbt는 SQL을 핵심 언어로 사용하며, 여기에 소프트웨어 엔지니어링의 모범 사례(버전 관리, 테스트, 모듈화 등)를 접목하여 데이터 변환 프로세스를 더욱 안정적이고 효율적으로 만든다. 이를 통해 데이터 분석가와 엔지니어는 신뢰할 수 있고..
[Data Engineering] Batch Processing과 Stream Processing이란?
·
📊 Data Engineering
Batch Processing이란?Batch Processing(일괄 처리)는 컴퓨터가 데이터를 일괄 처리하여 대량의 반복적인 작업을 처리하는 방식이다.이 방식은 즉각적인 결과를 요구하지 않고, 시간을 절약하며, 컴퓨팅 성능을 낮춘다.일괄 처리는 대규모 데이터 세트를 분석할 때 자세한 보고서를 생성하며, 일관성과 리소스 효율성을 달성하는 데 이상적이다,하지만 즉각적인 피드백이나 조치가 필요한 작업에는 항상 적합한 것은 아니다. Stream Processing이란?Stream Processing (스트림 처리)는 데이터를 지속적으로 수집하고 분석한다.데이터가 누적될 때까지 기다릴 필요 없이 즉시 처리할 수 있다.따라서 변화에 즉시 대응할 수 있으며, 이는 신속한 의사 결정이 필요한 작업에 매우 중요하다.스..
[Data Engineering] Apache Airflow 기반의 데이터 파이프라인 Part.01
·
📊 Data Engineering
해당 포스트는 "Apache Airflow 기반의 데이터 파이프라인" 책을 참고하여 작성되었음을 밝힙니다.Apache Airflow 기반의 데이터 파이프라인 데이터 파이프라인데이터 파이프라인은 원하는 결과를 얻기 위해 실행되는 여러 태스크(Task) 또는 동작으로 구성된다.Ex.) 실시간 날씨 대시보드 구현을 위한 단계별 태스크날씨 API를 통한 일기 예보 데이터 가져오기서비스 목적에 부합한 데이터 정제 및 변환 (화씨 -> 섭씨 등)변환된 데이터 날씨 대시보드로 전송서로 다른 태스크는 정해진 순서대로 진행되어야 한다.그 이유로, 사용할 데이터를 가져오기 전에 변환 시도는 의미가 없으며, 변환되지 않은 데이터를 전송해선 안되기 때문이다.따라서 프로세스 실행 시, 암묵적으로 정해진 태스크 순서대로 실행되..
[Software Engineering] 멀티 패러다임 프로그래밍이란?
·
🧪 Software Engineering
멀티 패러다임 프로그래밍이란?멀티 패러다임 프로그래밍(Multi-paradigm Programming)은 하나의 프로그래밍 언어 또는 프로그램이 두 가지 이상의 프로그래밍 패러다임을 지원하거나 사용하는 방식을 말한다. 각 패러다임은 문제를 해결하는 사고방식 또는 코드 구조화 방법을 제공하며, 멀티 패러다임 접근은 이 중 적절한 방식을 조합하여 더 유연하고 효율적인 프로그램을 만드는 것을 목표로 한다. 대표적인 프로그래밍 패러다임 종류 패러다임 주요 특징 대표 언어 / 적용 사례 절차형 (Procedural)순차적 명령 실행. 명렁어 기반. 함수 중심. C객체지향 (Object-Oriented)데이터와 메서드를 객체로 캡슐화. 상속, 다형성, 추상화. Java, C++함수형 (Functional)상태 ..
[Data Engineering] 데이터 웨어하우스와 ETL/ELT는 어떻게 구성되는가?
·
📊 Data Engineering
데이터 웨어하우스와 ETL/ELT데이터 레이크(Data Lake)란?구조화/반정형/비구조화 데이터를 원형 그대로 저장할 수 있는 저장소로그 파일, 이미지, JSON, CSV 등 다양한 형식의 데이터를 장기 보존 가능보통 데이터 웨어하우스보다 저장 용량이 훨씬 크고 비용 효율이 뛰어남대표적인 예시: Aamzon S3💡 데이터 레이크 + 데이터 웨어하우스를 함께 사용하는 구조가 현대적인 데이터 플랫폼의 기본 형태이다. ETL vs ELT구분ETL (Extract -> Transform -> Load)ELT (Extract -> Load -> Transform)처리 위치외부에서 가공 후 DW로 적재DW에 먼저 적재한 뒤 내부에서 가공주 사용자데이터 엔지니어분석가, Analytics Engieer대표 도구A..