작성자 별 이미지
다양한 소스로부터 엄청난 양의 데이터가 유입되면서 데이터 엔지니어링은 데이터 생태계에 필수적인 요소가 되었습니다. 그리고 조직은 데이터 엔지니어 팀을 구축하고 확장하려고 합니다.
분석가와 같은 일부 데이터 역할에는 강력한 SQL 및 프로그래밍 기술이 있는 한 반드시 현장에서의 사전 경험이 필요하지 않습니다. 그러나 데이터 엔지니어링에 뛰어들려면 일반적으로 데이터 분석이나 소프트웨어 엔지니어링에 대한 이전 경험이 도움이 됩니다.
따라서 데이터 엔지니어링 분야에서 경력을 쌓고 싶다면 이 가이드를 통해 다음을 수행할 수 있습니다.
- 데이터 엔지니어링과 데이터 엔지니어의 역할에 대해 자세히 알아보세요.
- 필수 데이터 엔지니어링 개념을 숙지하세요.
데이터 엔지니어링이 무엇인지 논의하기 전에 데이터 엔지니어링의 필요성을 검토하는 것이 도움이 됩니다. 한동안 데이터 공간에 있었다면 SQL로 관계형 데이터베이스를 쿼리하는 SQL 쿼리와 SQL 유사 언어로 NoSQL 데이터베이스를 쿼리하는 데 능숙할 것입니다.
하지만 추가 분석 및 보고를 위해 데이터가 어떻게 그곳에 도달했습니까? 입력하다 데이터 공학.
우리는 데이터가 레거시 데이터베이스부터 사용자 대화, IoT 장치까지 다양한 형태로 다양한 소스에서 나온다는 것을 알고 있습니다. 원시 데이터를 데이터 저장소로 가져와야 합니다. 확장하려면: 데이터 저장소에서 바로 사용할 수 있는 형태로 제공되기 전에 다양한 리소스의 데이터를 추출하고 처리해야 합니다.
데이터 엔지니어링은 분석 및 기타 애플리케이션에 사용할 수 있는 액세스 가능한 통합 데이터 저장소로 다양한 리소스의 원시 데이터를 수집하고 통합하는 모든 프로세스 집합을 포함합니다.
데이터 엔지니어는 무엇을 합니까?
데이터 엔지니어링이 무엇인지 이해하면 데이터 엔지니어가 일상적으로 수행하는 작업을 추측하는 데 확실히 도움이 되었을 것입니다. 데이터 엔지니어의 책임에는 다음이 포함되지만 이에 국한되지는 않습니다.
- 다양한 소스에서 데이터 추출 및 통합 - 데이터 수집.
- 분석을 위한 데이터 준비: 분석 및 기타 다운스트림 작업을 위한 데이터를 준비하기 위해 적절한 변환을 적용하여 데이터를 처리합니다. 데이터 정리, 검증 및 변환이 포함됩니다.
- 소스에서 대상까지의 데이터 흐름을 포함하는 데이터 파이프라인을 설계, 구축 및 유지 관리합니다.
- 데이터 수집, 처리, 저장을 위한 인프라(인프라 관리)를 설계하고 유지합니다.
이제 데이터 엔지니어링의 중요성과 조직 내 데이터 엔지니어의 역할을 이해했으므로 몇 가지 기본 개념을 검토할 차례입니다.
데이터 소스 및 유형
앞서 언급한 대로 우리는 관계형 데이터베이스, 웹 스크래핑부터 뉴스피드, 사용자 채팅에 이르기까지 모든 범위의 모든 리소스에서 들어오는 데이터를 보유하고 있습니다. 이러한 소스에서 나오는 데이터는 세 가지 광범위한 범주 중 하나로 분류될 수 있습니다.
- 구조화 된 데이터
- 반구조화된 데이터
- 비정형 데이터
다음은 개요입니다.
타입 | 형질 | 예 |
구조화 된 데이터 | 잘 정의된 스키마가 있습니다. | 관계형 데이터베이스, 스프레드시트 등의 데이터 |
반구조화된 데이터 | 일부 구조가 있지만 엄격한 스키마는 없습니다. 일반적으로 추가 정보를 제공하는 메타데이터 태그가 있습니다. | JSON 및 XML 데이터, 이메일, zip 파일 등 포함 |
비정형 데이터 | 잘 정의된 스키마가 부족합니다. | 이미지, 비디오 및 기타 멀티미디어 파일, 웹사이트 데이터 |
데이터 저장소: 데이터 웨어하우스, 데이터 레이크 및 데이터 마트
다양한 소스에서 수집된 원시 데이터는 적절한 저장소에 보관되어야 합니다. 관계형 및 비관계형 데이터베이스 모두에 대해 이미 잘 알고 있어야 합니다. 하지만 다른 데이터 저장소도 있습니다.
이를 검토하기 전에 두 가지 데이터 처리 시스템, 즉 OLTP 및 OLAP 시스템에 대해 알아보는 것이 도움이 될 것입니다.
- OLTP or 온라인 트랜잭션 처리 시스템은 재고 관리와 같은 애플리케이션을 위한 일상적인 운영 데이터를 저장하는 데 사용됩니다. OLTP 시스템에는 분석 및 비즈니스 통찰력 도출에 사용할 수 있는 데이터를 저장하는 관계형 데이터베이스가 포함되어 있습니다.
- 올랩 or 온라인 분석 처리 시스템은 복잡한 분석을 수행하기 위해 대량의 과거 데이터를 저장하는 데 사용됩니다. 데이터베이스 외에도 OLAP 시스템에는 데이터 웨어하우스와 데이터 레이크도 포함됩니다(자세한 내용은 곧 설명).
데이터 저장소의 선택은 데이터의 소스와 유형에 따라 결정되는 경우가 많습니다. 공통 데이터 저장소를 살펴보겠습니다.
- 데이터웨어 하우스: 데이터 웨어하우스는 들어오는 데이터를 저장하는 단일 종합 저장소를 의미합니다.
- 데이터 레이크: 데이터 레이크를 사용하면 반정형 및 비정형 데이터를 포함한 모든 데이터 유형을 처리하지 않고 원시 형식으로 저장할 수 있습니다. 데이터 레이크는 ELT 프로세스의 대상인 경우가 많습니다(곧 설명하겠습니다).
- 데이터 마트: 데이터 마트를 특정 비즈니스 사용 사례에 맞게 맞춤화된 데이터 웨어하우스의 작은 하위 섹션으로 생각할 수 있습니다.
- 데이터 레이크 하우스: 최근에는 데이터 웨어하우스의 구조와 구성을 제공하면서 데이터 레이크의 유연성을 허용하는 데이터 레이크 하우스도 인기를 얻고 있습니다.
데이터 파이프라인: ETL 및 ELT 프로세스
데이터 파이프라인은 ETL 및 ELT 프로세스를 통해 소스에서 대상 시스템까지의 데이터 이동을 포괄합니다.
ETL—추출, 변환 및 로드—프로세스에는 다음 단계가 포함됩니다.
- 다양한 소스에서 데이터 추출
- 데이터 변환 - 데이터 정리, 검증 및 표준화
- 데이터 저장소 또는 대상 애플리케이션에 데이터 로드
ETL 프로세스에는 데이터 웨어하우스가 대상인 경우가 많습니다.
ELT—추출, 로드 및 변환 —은 추출, 변환 및 로드 대신 단계가 추출, 로드 및 변환 순서로 진행되는 ETL 프로세스의 변형입니다.
즉, 변환이 적용되기 전에 소스에서 수집된 원시 데이터가 데이터 저장소에 로드됩니다. 이를 통해 특정 애플리케이션에 특정한 변환을 적용할 수 있습니다. ELT 프로세스에는 데이터 레이크가 대상으로 있습니다.
데이터 엔지니어가 알아야 할 도구 목록은 엄청날 수 있습니다.
작성자 별 이미지
하지만 걱정하지 마세요. 학생 결석으로 전화하지 마십시오 데이터 엔지니어로 취업하려면 모든 분야의 전문가가 되어야 합니다. 데이터 엔지니어가 알아야 할 다양한 도구를 나열하기 전에 데이터 엔지니어링에는 다음을 포함한 광범위한 기본 기술이 필요하다는 점에 유의하는 것이 중요합니다.
- 프로그래밍 언어: 프로그래밍 언어(바람직하게는 Python, Scalar, Java 중 하나)에 대한 중급~고급 능력
- 데이터베이스 및 SQL: 데이터베이스 설계에 대한 이해도가 높고, MySQL, PostgreSQL 등의 관계형 데이터베이스와 MongoDB 등의 비관계형 데이터베이스를 모두 다룰 수 있는 능력
- 명령줄 기본 사항: 쉘 스크립팅, 데이터 처리 및 명령줄에 대한 지식
- 운영 체제 및 네트워킹에 대한 지식
- 데이터 웨어하우징 기본 사항
- 분산 시스템의 기본
기본적인 기술을 배우면서도 반드시 프로젝트 구축 당신의 실력을 보여주는 것입니다. 학습하고, 배운 내용을 프로젝트에 적용하고, 작업하면서 더 많은 것을 배우는 것만큼 효과적인 것은 없습니다!
또한 데이터 엔지니어링에는 버전 제어, 로깅, 애플리케이션 모니터링을 포함한 강력한 소프트웨어 엔지니어링 기술도 필요합니다. Docker와 같은 컨테이너화 도구와 Kubernetes와 같은 컨테이너 조정 도구를 사용하는 방법도 알아야 합니다.
사용하는 실제 도구는 조직에 따라 다를 수 있지만 다음 사항을 알아두면 도움이 됩니다.
- DBT 분석 엔지니어링을 위한 (데이터 구축 도구)
- 아파치 스파크 빅데이터 분석 및 분산 데이터 처리를 위한
- 기류 데이터 파이프라인 조정을 위해
- 클라우드 컴퓨팅의 기본 사항 및 다음과 같은 하나 이상의 클라우드 제공업체와 협력 AWS or Microsoft Azure.
데이터 웨어하우징 및 스트림 처리 도구를 포함한 엔지니어링 도구에 대해 자세히 알아보려면 다음을 읽어보세요. 10가지 최신 데이터 엔지니어링 도구.
이 데이터 엔지니어링 소개가 유익한 정보가 되었기를 바랍니다. 대규모 데이터 시스템을 설계, 구축 및 유지 관리하는 것이 흥미로우면 확실히 데이터 엔지니어링을 시도해 보세요.
데이터 엔지니어링 줌캠프 프로젝트 기반 커리큘럼을 찾고 있다면 데이터 엔지니어링을 배우기에 좋은 곳입니다. 자주 묻는 질문 목록을 읽어보실 수도 있습니다. 데이터 엔지니어 면접 질문 당신이 알아야 할 것이 무엇인지에 대한 아이디어를 얻으려면.
발라 프리야 C 인도 출신의 개발자이자 테크니컬 라이터입니다. 그녀는 수학, 프로그래밍, 데이터 과학 및 콘텐츠 제작의 교차점에서 일하는 것을 좋아합니다. 그녀의 관심 분야와 전문 분야는 DevOps, 데이터 과학 및 자연어 처리입니다. 그녀는 읽기, 쓰기, 코딩, 커피를 즐깁니다! 현재 그녀는 자습서, 사용 방법 가이드, 의견 등을 작성하여 개발자 커뮤니티와 지식을 배우고 공유하는 작업을 하고 있습니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 자동차 / EV, 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- BlockOffsets. 환경 오프셋 소유권 현대화. 여기에서 액세스하십시오.
- 출처: https://www.kdnuggets.com/2023/07/beginner-guide-data-engineering.html?utm_source=rss&utm_medium=rss&utm_campaign=a-beginners-guide-to-data-engineering
- :있다
- :이다
- :아니
- :어디
- 1
- 10
- 8
- a
- 능력
- 소개
- IT에 대해
- 얻기 쉬운
- 가로질러
- 실제
- 또한
- 추가
- 추가 정보
- 많은
- 앞으로
- All
- 수
- 수
- 이미
- 또한
- 아마존
- 금액
- an
- 분석
- 분석자
- 분석
- 분석
- 및
- 어떤
- 아파치
- 어플리케이션
- 어플리케이션
- 적용된
- 신청
- 적용
- 있군요
- 지역
- AS
- 질문
- At
- 저작
- 가능
- 기초
- BE
- 가
- 되고
- 된
- 전에
- 존재
- 큰
- 빅 데이터
- 두
- 흩어져
- 넓은
- 빌드
- 건물
- 사업
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- by
- CAN
- 채용
- 적재
- 케이스
- 카테고리
- 선택
- 분류 한
- 청소관련
- 클라우드
- 클라우드 컴퓨팅
- 코딩
- 수집
- 수집
- 제공
- 오는
- 공통의
- 일반적으로
- 커뮤니티
- 복잡한
- 포괄적 인
- 컴퓨팅
- 개념
- 컨테이너
- 함유량
- 콘텐츠 제작
- 제어
- 대화
- 창조
- 현재
- 교육 과정
- 데이터
- 데이터 분석
- 데이터 분석
- 데이터 엔지니어
- 데이터 레이크
- 데이터 처리
- 데이터 과학
- 데이터웨어 하우스
- 데이터웨어 하우스
- 데이터베이스
- 데이터베이스
- 매일
- 명확히
- 보여
- 의존
- 디자인
- 설계
- 목적지
- 결정된
- 개발자
- 디바이스
- 개발자
- DID
- 토론
- 분산
- 분산 데이터 처리
- 분산 시스템
- do
- 도커
- 하지
- 말라
- 생태계
- 유효한
- 이메일
- 에워 싸다
- 포괄
- 기사
- 엔지니어링
- 엔지니어
- 엔터 버튼
- 필수
- 흥분하다
- 펼치기
- 경험
- 전문가
- 전문적 지식
- 추출물
- 익숙한
- 정통
- 들
- 파일
- 유연성
- 흐름
- 수행원
- 럭셔리
- 형태
- 체재
- 양식
- 발견
- 에
- 기본적인
- 추가
- 일반적으로
- 얻을
- 주기
- Go
- 좋은
- 큰
- 안내
- 안내서
- 있다
- 도움
- 도움
- 도움이
- 그녀의
- 역사적인
- 집
- 집들이
- 방법
- 그러나
- HTML
- HTTPS
- 거대한
- 생각
- if
- 중요성
- 중대한
- in
- 포함
- 포함
- 포함
- 들어오는
- 인도
- 유입
- 정보
- 인프라
- 통찰력
- 를 받아야 하는 미국 여행자
- 통합
- 통합
- 관심
- 중간의
- 교차
- 인터뷰
- 으로
- 개요
- 목록
- 재고 관리
- IOT
- IoT 장치
- IT
- 일
- 여행
- JPG
- JSON
- 너 겟츠
- 알아
- 지식
- Kubernetes
- 소금물
- 땅
- 언어
- 언어
- 넓은
- 배우다
- 배운
- 배우기
- 가장 작은
- 유산
- 처럼
- 좋아하는
- 제한된
- 링크드인
- 명부
- 리스팅
- ll
- 하중
- 로깅
- 긴
- 찾고
- 만든
- 유지하다
- 유지
- 구축
- math
- XNUMX월..
- 말하는
- 메타 데이터
- Microsoft
- 현대
- 모니터링
- 배우기
- 멀티미디어
- 다수
- MySQL의
- 즉
- 자연의
- 자연어
- 자연 언어 처리
- 필연적으로
- 필요
- 네트워킹
- news
- 아니
- 주의
- 아무것도
- of
- 제공
- 자주
- on
- ONE
- 운영
- 운영체제
- 운영
- 의견
- or
- 오케스트레이션
- 주문
- 조직
- 조직
- 기타
- 아웃
- 위에
- 개요
- 특별한
- 개
- 관로
- 장소
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 인기 문서
- Postgresql
- Prepare
- 너무 이른
- 이전에
- 방법
- 프로세스
- 처리
- 프로그램 작성
- 프로젝트
- 프로젝트 기반
- 제공
- 공급자
- Python
- 쿼리
- 살갗이 벗어 진
- 원시 데이터
- 도달
- 읽기
- 읽기
- 최근에
- 의미
- 통계 보고서
- 저장소
- 필요
- 필요
- 제품 자료
- 책임
- 리뷰
- 까다로운
- 직위별
- 역할
- s
- 규모
- 과학
- 스크 레이 핑
- 세트
- 몇몇의
- 공유
- 그녀
- 껍질
- 곧
- 영상을
- 단일
- 숙련 된
- 기술
- 작은
- So
- 소프트웨어
- 소프트웨어 공학
- 일부
- 출처
- 지우면 좋을거같음 . SM
- 스페이스 버튼
- 구체적인
- 스펙트럼
- SQL
- 단계
- 저장
- 흐름
- 강한
- 구조
- 이러한
- 적당한
- 확인
- 시스템은
- 작업
- 팀
- 테크니컬
- 그
- XNUMXD덴탈의
- 소스
- 그들의
- 그들
- 그곳에.
- Bowman의
- 그들
- 생각
- 이
- 세
- 을 통하여
- 시간
- 에
- 너무
- 수단
- 검색을
- 거래상의
- 변환
- 변환
- 변환
- 변화
- 자습서
- 두
- 유형
- 일반적으로
- 이해
- 이해
- 통일
- us
- 사용
- 유스 케이스
- 익숙한
- 사용자
- 유효 기간
- 검증
- 종류
- 여러
- 버전
- 버전 관리
- 동영상
- 볼륨
- 창고
- 창고
- we
- 웹
- 웹 스크래핑
- 웹 사이트
- 잘 정의 된
- 뭐
- 어느
- 동안
- 과
- 없이
- 작업
- 일하는
- 걱정
- 작가
- 쓰기
- XML
- 당신
- 너의
- 제퍼 넷
- 지퍼