チートシートを使用したdplyrを使用したRでのデータ準備!

ソースノード: 1878484

チートシートを使用したdplyrを使用したRでのデータ準備!

R の dplyr の強力なデータ ラングリング ツールを活用して、データをクリーンアップして準備します。


画像好むと好まざるとにかかわらず、データ準備はすべてのデータサイエンスプロジェクトの主要な部分です。 データ準備は、データの取得、データの保存と処理、データのクリーニング、機能エンジニアリングの初期段階など、ビジネス分析で使用するための反復可能なプロセスでデータを準備するタスクで構成されます。

 
データチームがこれらのデータラングリングタスクを実行するために使用できる一般的なツールは、少なくともXNUMXつあります。

  • Sparkのような多くのビッグデータプラットフォームでサポートされているSQLは、データレイクファイルコレクションのような生のソースからの大まかなデータフィルタリングと収集を行うのに優れています。
  • Pandasライブラリを備えたPythonは、人気と機能が高まっています
  • Rは、特にdplyrパッケージを使用して、他のRライブラリの膨大なオープンソースコレクションに裏打ちされた機能のまとまりのあるセットを提供します。

これらXNUMXつの中から選択するかどうかは、組織で利用できるスキル、利用できるインフラストラクチャとコードベース、および使用する必要のある高度なモデルによって異なります。 この記事では、Rを使用する理由に焦点を当て、便利なリファレンスシートを提供します。

2016年に導入されたdplyrには、Rでのデータ準備のための優れたツールとなるいくつかの重要な機能があります。

  • 業界で使用されているほぼすべてのデータソースまたはファイル形式のデータ接続。
  • dplyrは調和のとれたパッケージとして構築されており、Rの世界の他のパッケージをつなぎ合わせると、面倒または混乱する可能性のある多くのタスクが簡素化されます。
  • スクリプトは、バージョン管理およびDevOpsプラクティスと簡単に統合できます
  • AI / MLモデルと統合するための強力なRライブラリへのデータの簡単な受け渡し

次の「クイック リファレンス」ガイドでは、データ準備の各ステップに対する dplyr アプローチのサンプルを示します。 これは dplyr の関数やオプションの完全なリストを意図したものではなく、出発点としての意味があります。

フィギュア
クリックして高解像度

 

クイックリファレンスPDFはこちらからダウンロードしてください.

XNUMX年前、Rはデータサイエンスの唯一のプレーヤーでしたが、PythonやSQLとの競争の激化により、あるエコシステムで導入された機能がすぐに別のエコシステムにコピーまたは移植されるため、Rが改善されただけです。 幅広いRユーザーコミュニティには、ライブラリが生きていて進化していることを確認し、Rへの投資が今後XNUMX年間に関連することを保証するための作業の歴史があります。 将来的には、おそらくdplyrとTidyverseは、データ準備に最適な選択肢ではなくなります。 しかし今のところ、それらは優れた選択をします(%>%パイプのようないくつかの厄介な構文要素にもかかわらず!)

コンパニオン投稿: SQL でのデータ準備、虎の巻付き!

 
バイオ: スタン・パグズリー は、データウェアハウスおよび分析コンサルタントです。 EideBaillyテクノロジーコンサルティング ユタ州ソルトレイクシティを拠点としています。 彼はまた、ユタ大学エクルズビジネススクールの非常勤教授でもあります。 あなたは作者に連絡することができます メールで.

関連する

出典: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html

タイムスタンプ:

より多くの KDナゲット