치트 시트와 함께 dplyr를 사용하여 R에서 데이터 준비!
R dplyr의 강력한 데이터 랭글링 도구를 활용하여 데이터를 정리하고 준비하세요.
나는 우리가 좋든 싫든 데이터 준비가 모든 데이터 과학 프로젝트의 주요 부분이라고 이전에 썼습니다. 데이터 준비는 데이터 수집, 데이터 저장 및 처리, 데이터 정리, 기능 엔지니어링의 초기 단계를 포함하여 비즈니스 분석에 사용할 반복 가능한 프로세스에서 데이터를 준비하는 작업으로 구성됩니다.
데이터 팀이 데이터 랭글링 작업을 수행하는 데 사용할 수 있는 일반적인 도구는 최소한 세 가지가 있습니다.
- Spark와 같은 많은 빅 데이터 플랫폼에서 지원되는 SQL은 데이터 레이크 파일 수집과 같은 원시 소스에서 대략적인 데이터 필터링 및 수집을 수행하는 데 탁월합니다.
- Pandas 라이브러리와 함께 Python의 인기와 기능이 점점 늘어나고 있습니다.
- 특히 dplyr 패키지를 사용하는 R은 다른 R 라이브러리의 방대한 오픈 소스 컬렉션을 기반으로 하는 응집력 있는 기능 세트를 제공합니다.
이 세 가지 중에서 선택하는 것은 조직에서 사용할 수 있는 기술, 사용 가능한 인프라 및 코드 기반, 사용하는 데 필요한 고급 모델에 따라 달라질 수 있습니다. 이 기사에서는 R을 사용하는 이유에 초점을 맞추고 편리한 참조 시트를 제공합니다.
2016년에 소개된 dplyr에는 R의 데이터 준비를 위한 탁월한 도구로 만드는 몇 가지 중요한 기능이 있습니다.
- 업계에서 사용되는 거의 모든 데이터 소스 또는 파일 형식에 대한 데이터 연결입니다.
- dplyr은 조화로운 패키지로 구축되어 R 세계의 다른 패키지를 통합할 경우 복잡하거나 혼란스러울 수 있는 많은 작업을 단순화합니다.
- 스크립트는 버전 제어 및 Dev Ops 방식과 쉽게 통합됩니다.
- AI/ML 모델과의 통합을 위해 강력한 R 라이브러리에 데이터를 쉽게 전달
다음 "빠른 참조" 가이드는 데이터 준비의 각 단계에 대한 dplyr 접근 방식의 샘플링을 제공합니다. 이는 dplyr 기능이나 옵션의 전체 목록이 아니라 시작점을 의미합니다.
고해상도를 원하시면 클릭하세요
XNUMX년 전에는 R이 데이터 과학의 유일한 플레이어였지만, Python과 SQL의 경쟁이 심화되면서 한 생태계에 도입된 기능이 다른 생태계로 빠르게 복사되거나 이식되면서 더욱 발전했습니다. 광범위한 R 사용자 커뮤니티는 라이브러리가 살아 있고 발전하고 있는지 확인하여 R에 대한 투자가 향후 XNUMX년 동안 관련성을 갖도록 노력해 온 역사를 가지고 있습니다. 언젠가는 dplyr과 Tidyverse가 더 이상 데이터 준비를 위한 최선의 선택이 아닐 수도 있습니다. 그러나 지금은 탁월한 선택을 합니다(%>% 파이프와 같은 몇 가지 어색한 구문 요소에도 불구하고!).
동반 게시물: 치트 시트로 SQL 데이터 준비!
바이오 : 스탠 퍼슬리 데이터웨어 하우스 및 분석 컨설턴트입니다. Eide Bailly 기술 컨설팅 유타주 솔트 레이크 시티 소재. 그는 또한 University of Utah Eccles School of Business의 겸임 교수이기도합니다. 저자에게 연락 할 수 있습니다. 이메일을 통해.
관련 :
지난 30 일 동안의 주요 기사 | |||||
---|---|---|---|---|---|
|
|
출처: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html
- "
- 2016
- 취득
- 중
- 분석
- 기사
- BEST
- 빅 데이터
- 빌드
- 사업
- 비즈니스 인텔리전스
- City
- 청소관련
- 암호
- 공통의
- 커뮤니티
- 경쟁
- 연결
- 컨설턴트
- Coursera
- 데이터
- 데이터 레이크
- 데이터 과학
- 데이터 과학자
- 데이터 저장
- 데이터웨어 하우스
- 일
- 데브
- 생태계
- 엔지니어링
- 특색
- 특징
- 그림
- 초점
- 체재
- 무료
- 가득 찬
- 미래
- 힘내
- 큰
- 성장하는
- 안내
- 처리
- 능숙한
- 높은
- history
- HTTPS
- 영상
- 포함
- 산업
- 인프라
- 완성
- 인텔리전스
- 인터뷰
- 투자
- IT
- 배우기
- 이점
- 도서관
- 링크드인
- 명부
- 기계 학습
- 주요한
- 제공
- 옵션
- 조직
- 기타
- 플랫폼
- 플레이어
- 유가 증권
- 게시물
- 프로젝트
- 프로젝트
- Python
- 살갗이 벗어 진
- 이유
- 학교
- 과학
- 세트
- 기술
- SQL
- 줄기
- 저장
- 이야기
- 지원
- 기술
- Technology
- 미래
- 상단
- 대학
- 유타
- 버전 관리
- 심상
- 창고
- 세계
- X