[Data Engineering] 데이터 파이프라인이란?
·
📊 Data Engineering
데이터 파이프라인이란?데이터 파이프라인(Data Pipeline)은 다양한 소스에서 데이터를 수집하고, 이를 처리 및 변환한 후, 최종적으로 저장하거나 분석할 수 있는 형태로 전달하는 일련의 과정과 시스템을 의미한다. 데이터 파이프라인은 데이터의 흐름을 자동화하고 효율적으로 관리함으로써, 조직이 데이터 기반의 의사결정을 내리는 데 필수적인 역할을 한다. 1. 데이터 파이프라인의 구성 요소1.1. 데이터 소스 (Data Sources)데이터 파이프라인은 다양한 소스에서 데이터를 수집한다. 데이터 소스는 구조화된 데이터(예: 관계형 데이터베이스), 반구조화된 데이터(예: JSON, XML), 비구조화된 데이터(예: 로그 파일, 멀티미디어 파일) 등 다양한 형태일 수 있다. 주요 데이터 소스에는 다음이 포함된..
[Data Engineering] 데이터 엔지니어란?
·
📊 Data Engineering
데이터 엔지니어란?데이터 엔지니어(Data Engineer)는 데이터를 수집하고 저장하고 전달하는 데이터 파이프라인(Data Pipeline)을 설계하고 운영하는 사람입니다. 데이터를 사용하는 데이터 분석가, 데이터 과학자, 머신러닝 엔지니어가 신뢰할 수 있는 데이터에 빠르게 접근할 수 있도록 기반을 마련해주는 역할입니다. 주요 역할역할설명데이터 수집 (Ingestion)다양한 소스(웹 로그, DB, API 등)로부터 데이터를 수집합니다.데이터 처리 및 정제 (Transformation)수집된 데이터를 정제하고 가공합니다 (ETL 또는 ELT).데이터 저장 (Storage)정제된 데이터를 적절한 데이터 저장소에 저장합니다 (DWH, Data Lake 등).데이터 파이프라인 구축 및 운영자동화된 파이프라인..
[SWE] Architecture Decision Record(ADR)이란?
·
🧪 Software Engineering
Architecture Decision Record(ADR)소프트웨어 시스템을 설계하거나 개발할 때 발생하는 중요한 아키텍처 결정을 기록하는 문서로, 단순한 기록을 넘어 어떤 문제 상황에서, 어떤 대안을 고려하였고, 왜 특정 선택을 했는지를 명확히 남기는 것이 목적이다. ADR을 작성하는 이유는 다음과 같다:과거의 결정을 이해하고 추적할 수 있도록 돕는다.새롭게 합류한 팀원들이 왜 그런 구조가 되었는지 빠르게 이해할 수 있다.시스템이 변화하거나 성장할 때 이전 결정을 참고하거나 수정할 수 있게 한다."그때 왜 이렇게 했지?"를 방지하여 팀의 지식 자산을 구축한다.ADR 기본 구성항목설명Title결정의 간단한 제목Status현재 상태 (예: Proposed, Accepted, Deprecated)Conte..
[자격증] ADsP 3과목 정리 (1)
·
📜 Certification/ADsP
1장 - R기초와 데이터 마트01. R 기초① 다양한 통계 분석 프로그램데이터 분석을 위한 도구로 SAS, SPSS, S-Link 등 다양한 소프트웨어가 있지만 R과 Python이 가장 보편적으로 사용되고 있음이 둘은 오픈소스라는 큰 특징과 더불어 고차원적인 계산이 가능하고 복잡한 통계기법을 폭넓게 다룰 수 있으며, 데이터 시각화에 최적화된 환경을 제공함 SPSSSASRPython프로그램 비용유료, 고가유료, 고가오픈소스설치 용량대용량대용량저용량다양한 모듈 지원 및 비용별도 구매별도 구매오픈소스최근 알고리즘 및 기술 반영느림다소 느림빠름매우 빠름학습자료 입수의 편의성유료 도서 위주유료 도서 위주다양한 공개 논문 및 자료공개 커뮤니티N/AN/A활발매우 활발R 언어를 활용하여 작성된 함수에 다라 데이터를 분..
[자격증] ADsP 2과목 정리
·
📜 Certification/ADsP
1장 - 데이터 분석 기획의 이해01. 분석 기획과 분석 방법론① 분석 기획의 정의분석 기획이란 실제 분석을 수행하기 전 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업을 의미함어떠한 목표(What)를 달성하기 위하여 어떠한 데이터를 가지고 어떠한 방식(How)으로 수행할지에 대한 일련의 계획을 수립하는 중요한 사전작업임② 분석 기획의 특징데이터 사이언티스트의 요구 역량인 수학/통계학적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니스에 대한 이해와 전문성에 대한 고른 역량과 시각 등이 요구됨③ 분석 대상과 그 방법에 따른 4가지 분석 주제 분석 대상 (What)○X분석 방법 (How)○최적화(Optimization)발견(Discovery..
[자격증] ADsP 1과목 정리
·
📜 Certification/ADsP
1장 - 데이터의 이해01. 데이터와 정보① 데이터의 정의데이터(Data)는 보통 연구나 조사 등의 바탕이 되는 재료 혹은 자료를 의미함1900년 대 중반 컴퓨터의 시대가 도래하면서 그 의미가 기술적이고 사실적인 의미의 '자료'로 변화하였음② 데이터의 특성데이터는 있는 그대로의 사실처럼 가공되지 않은 자료, 즉 객관적인 사실을 의미데이터의 존재적 특성: 있는 그대로의 사실을 나타내는 것정보는 이러한 데이터로부터 얻은 것으로 가공된 자료를 의미정보의 당위적 특성: 추론·예측·전망·추정을 위한 정보의 근거가 될 수 있는 것③ 데이터의 유형정성적 데이터 vs 정량적 데이터정성적 데이터: 기준이 명확하지 않기에 집합으로 표현할 수 없는 데이터 (ex. 언어, 문자 등)정량적 데이터: 기준이 명확하여 집합으로 표..