チートシートを使用したdplyrを使用したRでのデータ準備！

= 前の投稿

次の投稿 =>

タグ：チートシート, データの準備, R

R の dplyr の強力なデータラングリングツールを活用して、データをクリーンアップして準備します。

By スタン・パグズリー, データウェアハウスおよび分析コンサルタント。

注釈

好むと好まざるとにかかわらず、データ準備はすべてのデータサイエンスプロジェクトの主要な部分です。データ準備は、データの取得、データの保存と処理、データのクリーニング、機能エンジニアリングの初期段階など、ビジネス分析で使用するための反復可能なプロセスでデータを準備するタスクで構成されます。

データチームがこれらのデータラングリングタスクを実行するために使用できる一般的なツールは、少なくともXNUMXつあります。

Sparkのような多くのビッグデータプラットフォームでサポートされているSQLは、データレイクファイルコレクションのような生のソースからの大まかなデータフィルタリングと収集を行うのに優れています。
Pandasライブラリを備えたPythonは、人気と機能が高まっています
Rは、特にdplyrパッケージを使用して、他のRライブラリの膨大なオープンソースコレクションに裏打ちされた機能のまとまりのあるセットを提供します。

これらXNUMXつの中から選択するかどうかは、組織で利用できるスキル、利用できるインフラストラクチャとコードベース、および使用する必要のある高度なモデルによって異なります。この記事では、Rを使用する理由に焦点を当て、便利なリファレンスシートを提供します。

2016年に導入されたdplyrには、Rでのデータ準備のための優れたツールとなるいくつかの重要な機能があります。

業界で使用されているほぼすべてのデータソースまたはファイル形式のデータ接続。
dplyrは調和のとれたパッケージとして構築されており、Rの世界の他のパッケージをつなぎ合わせると、面倒または混乱する可能性のある多くのタスクが簡素化されます。
スクリプトは、バージョン管理およびDevOpsプラクティスと簡単に統合できます
AI / MLモデルと統合するための強力なRライブラリへのデータの簡単な受け渡し

次の「クイックリファレンス」ガイドでは、データ準備の各ステップに対する dplyr アプローチのサンプルを示します。これは dplyr の関数やオプションの完全なリストを意図したものではなく、出発点としての意味があります。

クリックして高解像度

クイックリファレンスPDFはこちらからダウンロードしてください.

XNUMX年前、Rはデータサイエンスの唯一のプレーヤーでしたが、PythonやSQLとの競争の激化により、あるエコシステムで導入された機能がすぐに別のエコシステムにコピーまたは移植されるため、Rが改善されただけです。幅広いRユーザーコミュニティには、ライブラリが生きていて進化していることを確認し、Rへの投資が今後XNUMX年間に関連することを保証するための作業の歴史があります。将来的には、おそらくdplyrとTidyverseは、データ準備に最適な選択肢ではなくなります。しかし今のところ、それらは優れた選択をします（％>％パイプのようないくつかの厄介な構文要素にもかかわらず！）

コンパニオン投稿: SQL でのデータ準備、虎の巻付き!

バイオ：スタン・パグズリー は、データウェアハウスおよび分析コンサルタントです。 EideBaillyテクノロジーコンサルティングユタ州ソルトレイクシティを拠点としています。彼はまた、ユタ大学エクルズビジネススクールの非常勤教授でもあります。あなたは作者に連絡することができますメールで.

関連する

= 前の投稿

次の投稿 =>

過去30日間の人気記事

一番人気

ほとんど共有
機械学習モデルの弱点を見つける方法フルスタックデータサイエンスへの道データサイエンスのためのCourseraの38の無料コース STEMの学位を持たないデータサイエンティストになる方法あなたを雇う20の機械学習プロジェクト