치트 시트와 함께 dplyr를 사용하여 R에서 데이터 준비!

R dplyr의 강력한 데이터 랭글링 도구를 활용하여 데이터를 정리하고 준비하세요.

By 스탠 퍼슬리, 데이터 웨어하우스 및 분석 컨설턴트.

나는 우리가 좋든 싫든 데이터 준비가 모든 데이터 과학 프로젝트의 주요 부분이라고 이전에 썼습니다. 데이터 준비는 데이터 수집, 데이터 저장 및 처리, 데이터 정리, 기능 엔지니어링의 초기 단계를 포함하여 비즈니스 분석에 사용할 반복 가능한 프로세스에서 데이터를 준비하는 작업으로 구성됩니다.

데이터 팀이 데이터 랭글링 작업을 수행하는 데 사용할 수 있는 일반적인 도구는 최소한 세 가지가 있습니다.

Spark와 같은 많은 빅 데이터 플랫폼에서 지원되는 SQL은 데이터 레이크 파일 수집과 같은 원시 소스에서 대략적인 데이터 필터링 및 수집을 수행하는 데 탁월합니다.
Pandas 라이브러리와 함께 Python의 인기와 기능이 점점 늘어나고 있습니다.
특히 dplyr 패키지를 사용하는 R은 다른 R 라이브러리의 방대한 오픈 소스 컬렉션을 기반으로 하는 응집력 있는 기능 세트를 제공합니다.

이 세 가지 중에서 선택하는 것은 조직에서 사용할 수 있는 기술, 사용 가능한 인프라 및 코드 기반, 사용하는 데 필요한 고급 모델에 따라 달라질 수 있습니다. 이 기사에서는 R을 사용하는 이유에 초점을 맞추고 편리한 참조 시트를 제공합니다.

2016년에 소개된 dplyr에는 R의 데이터 준비를 위한 탁월한 도구로 만드는 몇 가지 중요한 기능이 있습니다.

업계에서 사용되는 거의 모든 데이터 소스 또는 파일 형식에 대한 데이터 연결입니다.
dplyr은 조화로운 패키지로 구축되어 R 세계의 다른 패키지를 통합할 경우 복잡하거나 혼란스러울 수 있는 많은 작업을 단순화합니다.
스크립트는 버전 제어 및 Dev Ops 방식과 쉽게 통합됩니다.
AI/ML 모델과의 통합을 위해 강력한 R 라이브러리에 데이터를 쉽게 전달

다음 "빠른 참조" 가이드는 데이터 준비의 각 단계에 대한 dplyr 접근 방식의 샘플링을 제공합니다. 이는 dplyr 기능이나 옵션의 전체 목록이 아니라 시작점을 의미합니다.

고해상도를 원하시면 클릭하세요

여기에서 빠른 참조 PDF를 다운로드하세요..

XNUMX년 전에는 R이 데이터 과학의 유일한 플레이어였지만, Python과 SQL의 경쟁이 심화되면서 한 생태계에 도입된 기능이 다른 생태계로 빠르게 복사되거나 이식되면서 더욱 발전했습니다. 광범위한 R 사용자 커뮤니티는 라이브러리가 살아 있고 발전하고 있는지 확인하여 R에 대한 투자가 향후 XNUMX년 동안 관련성을 갖도록 노력해 온 역사를 가지고 있습니다. 언젠가는 dplyr과 Tidyverse가 더 이상 데이터 준비를 위한 최선의 선택이 아닐 수도 있습니다. 그러나 지금은 탁월한 선택을 합니다(%>% 파이프와 같은 몇 가지 어색한 구문 요소에도 불구하고!).

동반 게시물: 치트 시트로 SQL 데이터 준비!

바이오 : 스탠 퍼슬리 데이터웨어 하우스 및 분석 컨설턴트입니다. Eide Bailly 기술 컨설팅 유타주 솔트 레이크 시티 소재. 그는 또한 University of Utah Eccles School of Business의 겸임 교수이기도합니다. 저자에게 연락 할 수 있습니다. 이메일을 통해.

관련 :

= 이전 포스트

다음 게시물 =>

지난 30 일 동안의 주요 기사

가장 인기 많은
초보자로서 강력한 데이터 과학 포트폴리오를 구축하는 방법 최고의 기술 회사의 데이터 과학 SQL 인터뷰 질문 기계 학습 박사 학위를 받기 전에 마스터했으면 하는 XNUMX가지 도구 풀 스택 데이터 과학으로 가는 길 데이터 과학자를 위한 8가지 필수 Git 명령

가장 많이 공유 한
기계 학습 모델의 약점을 찾는 방법 풀 스택 데이터 과학으로 가는 길 데이터 과학을 위한 Coursera의 38개 무료 과정 STEM 학위 없이 데이터 과학자가 되는 방법 당신을 고용할 20가지 기계 학습 프로젝트