Chuẩn bị dữ liệu trong R bằng dplyr, với Cheat Sheet!

= Trước bài

Bài tiếp theo =>

tags: Cheat Sheet, Chuẩn bị dữ liệu, R

Tận dụng các công cụ sắp xếp dữ liệu mạnh mẽ trong dplyr của R để làm sạch và chuẩn bị dữ liệu của bạn.

By Stan Pugsley, Nhà tư vấn phân tích và kho dữ liệu.

Bình luận

Trước đây tôi đã viết rằng dù muốn hay không, chuẩn bị dữ liệu là một phần quan trọng của mọi dự án khoa học dữ liệu. Chuẩn bị dữ liệu bao gồm các nhiệm vụ chuẩn bị dữ liệu trong quy trình có thể lặp lại để sử dụng trong phân tích kinh doanh, bao gồm thu thập dữ liệu, lưu trữ và xử lý dữ liệu, làm sạch dữ liệu và giai đoạn đầu của kỹ thuật tính năng.

Có ít nhất ba công cụ phổ biến mà các nhóm dữ liệu có thể sử dụng để thực hiện các tác vụ sắp xếp dữ liệu đó:

SQL, được hỗ trợ bởi nhiều nền tảng dữ liệu lớn như Spark, rất tuyệt vời để thực hiện việc lọc và thu thập dữ liệu thô từ các nguồn thô như bộ sưu tập tệp hồ dữ liệu
Python, với thư viện Pandas, ngày càng phổ biến và nhiều tính năng
R, cụ thể là sử dụng gói dplyr, cung cấp một tập hợp các chức năng gắn kết được hỗ trợ bởi bộ sưu tập mã nguồn mở khổng lồ của các thư viện R khác.

Sự lựa chọn của bạn trong số ba điều đó có thể sẽ phụ thuộc vào các kỹ năng có sẵn trong tổ chức của bạn, cơ sở hạ tầng và cơ sở mã có sẵn cũng như các mô hình nâng cao cần thiết để sử dụng. Đối với bài viết này, chúng tôi sẽ tập trung vào các lý do nên sử dụng R và cung cấp một bảng tham khảo hữu ích.

dplyr, được giới thiệu vào năm 2016, có một số tính năng quan trọng khiến nó trở thành một công cụ tuyệt vời để chuẩn bị dữ liệu trong R.

Kết nối dữ liệu cho hầu hết mọi nguồn dữ liệu hoặc định dạng tệp được sử dụng trong ngành.
dplyr được xây dựng như một gói hài hòa, đơn giản hóa nhiều tác vụ có thể lộn xộn hoặc khó hiểu nếu bạn ghép các gói khác từ thế giới R lại với nhau.
Tập lệnh được tích hợp dễ dàng với kiểm soát phiên bản và thực hành Dev Ops
Dễ dàng chuyển dữ liệu sang các thư viện R mạnh mẽ để tích hợp với các mô hình AI/ML

Hướng dẫn “Tham khảo nhanh” sau đây sẽ đưa ra một ví dụ mẫu về các cách tiếp cận dplyr đối với từng bước trong quá trình chuẩn bị dữ liệu. Đây không phải là một danh sách đầy đủ các chức năng hoặc tùy chọn của dplyr, mà là một điểm khởi đầu.

Nhấp để có độ phân giải cao

Tải xuống Tài liệu tham khảo nhanh PDF tại đây.

Một thập kỷ trước, R là người chơi duy nhất cho khoa học dữ liệu, nhưng sự cạnh tranh ngày càng tăng từ Python và SQL chỉ làm cho nó trở nên tốt hơn, vì các tính năng được giới thiệu trong một hệ sinh thái nhanh chóng được sao chép hoặc chuyển sang hệ sinh thái khác. Cộng đồng người dùng R rộng lớn có lịch sử hoạt động để đảm bảo thư viện của họ vẫn tồn tại và phát triển, đảm bảo rằng khoản đầu tư của bạn vào R sẽ phù hợp trong một thập kỷ nữa. Một ngày nào đó trong tương lai, có lẽ dplyr và Tidyverse sẽ không còn là lựa chọn tốt nhất để chuẩn bị dữ liệu nữa. Nhưng hiện tại, họ đã đưa ra một lựa chọn tuyệt vời (mặc dù có một vài yếu tố cú pháp khó xử như đường dẫn %>%!)

Bài đăng đồng hành: Chuẩn bị dữ liệu trong SQL, với Cheat Sheet!

Tiểu sử: Stan Pugsley là nhà tư vấn phân tích và kho dữ liệu với Tư vấn Công nghệ Eide Bailly có trụ sở tại Thành phố Salt Lake, UT. Ông cũng là giảng viên trợ giảng tại Trường Kinh doanh Eccles thuộc Đại học Utah. Bạn có thể liên hệ với tác giả qua email.

Liên quan:

= Trước bài

Bài tiếp theo =>

Câu chuyện hàng đầu trong 30 ngày qua

Phổ biến nhất

Được chia sẻ nhiều nhất
Cách tìm điểm yếu trong mô hình học máy của bạn Đường dẫn đến Khoa học dữ liệu ngăn xếp đầy đủ 38 khóa học miễn phí về Coursera cho Khoa học Dữ liệu Cách trở thành Nhà khoa học dữ liệu mà không cần bằng STEM 20 dự án máy học sẽ được bạn thuê