データ サイエンティストとして Python コードにコメントを付ける方法 - KDnuggets

データ サイエンティストとして Python コードにコメントを付ける方法 – KDnuggets

ソースノード: 2486230

データ サイエンティストとして Python コードにコメントを付ける方法
DALL・E 3 で生成された画像
 

データサイエンティストは刺激的な立場に置かれました。現代の仕事ではプログラミング言語を使用する必要がありますが、仕事上覚えておく必要のあるビジネスの側面は依然としてたくさんあります。データ サイエンティストが使用する Python コードには、通常、ビジネス上の問題を解決する方法に関するストーリーテリングが反映されているのはこのためです。データサイエンティストにとっての環境も注目に値します。 Jupyter Notebook IDE を使用すると、データ操作とモデル開発を実験するための優れた方法が可能になります。 

コーディング活動の方法が異なると、データ サイエンティストはプログラミング活動中に異なる作業を行うことになります。これには、コードを説明するアクティビティであるコメント アクティビティが含まれます。要件の変更が常にあり、共同作業を行うデータ サイエンティストにとって、コメントを通じてコードの適切な説明を提供することが重要です。

この記事では、データ サイエンティストとして Python コードのコメント付けを実行する方法について説明します。あなたのアクティビティを改善し、あなたのコードを読む人に価値をもたらすさまざまな点について話し合います。それでは始めましょう。

先に進む前に、2 つの異なるタイプのコメントについて少し学びましょう。 1 つ目は ' を使用する単一行のコメントです。#コード内の ' 表記。通常、コードの簡単な説明に使用されます。たとえば、次のコードは、単一行のコメントの使用例を示しています。

# The code is to import the Pandas package and call it pd
import pandas as pd

 

コメントを作成するもう 1 つの方法は、三重引用符を使用する複数行の方法を使用することです。技術的には、これらはコメントではなく文字列オブジェクトですが、変数に代入しない場合、Python はそれらを無視します。次の例で実際の動作を確認できます。

"""
The code below would import the Pandas package, and we would call them pd throughout the whole working environment. """
import pandas as pd

このセクションでは、コメントに関する一般的なヒントについて説明します。これらのヒントはプログラマーにとってのベスト プラクティスであるため、必ずしもデータ サイエンティストに適用できるわけではありませんが、覚えておくと良いでしょう。ヒントは次のとおりです。

  1. 読みやすさを高めるために、説明するコードのすぐ上の別の行にコメントを配置することを検討してください。
  2. 作業中のコード全体でコメントのスタイルが一貫していること。
  3. 聴衆が理解できないことがわかっている場合は、理解しにくい専門用語や専門用語を使用しないでください。
  4. 明らかなことの説明を避けるために、価値を追加する場合にのみコメントします。
  5. コメントが関連性がなくなった場合は、コメントを維持および更新します。

これらは、より良いコメント エクスペリエンスを提供するための一般的なガイドラインです。ここで、データサイエンティスト向けのより具体的な話に移りましょう。

データ サイエンティストにとって、コーディング活動はソフトウェア エンジニアや Web 開発者のコ​​ーディング活動とは異なります。それが、コメント活動に違いが生じる理由です。ここでは、私たちデータサイエンティストに特有のヒントをいくつか紹介します。

1. コメントを使用して複雑なプロセスやアクティビティを明確にする

データ サイエンスの活動には多くの実験プロセスが含まれるため、説明しなければ読者や将来の私たちを混乱させる可能性があります。コードのコメントは、特に多くのステップが含まれる場合に、意図をより適切に説明するのに役立ちます。たとえば、以下のコードは、正規化とスケーリングによって外れ値を削除する方法を説明します。

# Perform data normalization (Min-Max scaling)
normalized_data = (data - np.min(data)) / (np.max(data) - np.min(data)) # Remove outliers by using the sigma rule (3 standard deviations removal)
removed_outlier_data = normalized_data[np.abs(stats.zscore(normalized_data)) 3]

上記のコメントは、各プロセスで何が行われたか、およびその背後にある概念を説明しています。コードで使用した概念を指定することは、私たちが行ったことを理解するために不可欠です。

これは前処理に限定されるものではなく、データ サイエンスのあらゆるステップでコメントすることができます。データの取得からモデルの監視に至るまで、誰でも理解できるようにコメントすることは良い習慣です。データ サイエンティストとして、私たちのコメントがコードと分析的洞察の間の架け橋になる可能性があることを忘れないでください。

2. コメントの基準を設ける

データ サイエンスの活動はコラボレーション プロセスであるため、誰もが理解できる標準的な構造を持つことが望ましいです。一人で作業する場合でも、知っているであろう基準があるので役立ちます。たとえば、作成した関数ごとにコメントを標準化できます。

# Function: name of the function
# Usage: description of how to use the function
# Parameters: list the parameters and explain them
# Output: explain the output

上記は標準的な例であり、独自に何かを作成することもできます。このような標準がある場合は、同じスタイル、言語、略語を使用することを忘れないでください。

3. コメントを使用してワークフローを支援する

共同作業環境では、チームがワークフローを理解するためにコメントすることが不可欠です。コメントを使用すると、新しいコードがいつ更新されるか、または次に何を行う必要があるかを理解するのに役立ちます。たとえば、別の関数の更新によりプロセスにバグが発生するため、次にバグを修正する必要があります。

# TODO: Fix this function ASAP
some_function_to_fix()

4. Markdown ノートブックのセルを実装する

実験にノートブックを使用するため、データ サイエンティスト IDE は非常に優れています。ノートブックのセルを使用すると、各コードを分離できるため、コード全体を実行する必要がなく、独立して実行できます。ノートブックのセルはコードに限定されず、Markdown セルに変換できます。 

Markdown は、テキストがどのように見えるかを記述する書式設定言語です。セルでは、マークダウンによって以下のコードをさらに詳しく説明できます。マークダウンを使用する利点は、標準のコメント プロセスよりも詳細にコメントできることです。表、画像、LaTeX などを追加することもできます。

たとえば、以下の画像は、Markdown を使用してプロジェクト、目的、手順を説明する方法を示しています。 

 

データ サイエンティストとして Python コードにコメントを付ける方法
 

Jupyter Markdown Cell について詳しくは、 ドキュメント 自分に何ができるかをさらに理解するために。

コメントは、コードで何が起こったのかを読者が明確にするのに役立つため、データ サイエンティストの活動に不可欠な部分です。データ サイエンティストの場合、私たちの作業プロセスが異なるため、コメント プロセスはソフトウェア エンジニアや Web 開発者とは若干異なります。そのため、この記事では、データ サイエンティストとしてコメントする際に使用できるヒントをいくつか紹介します。ヒントは次のとおりです。

  1. コメントを使用して複雑なプロセスやアクティビティを明確にする
  2. コメントの基準があること
  3. コメントを使用してワークフローを支援する
  4. Markdown ノートブックのセルを実装する

私はそれが役に立てば幸いです。
 
 

コーネリアス・ユダ・ウィジャヤ は、データ サイエンス アシスタント マネージャー兼データ ライターです。 Allianz Indonesia でフルタイムで働いている間、彼はソーシャル メディアやライティング メディアを通じて Python とデータのヒントを共有するのが大好きです。

タイムスタンプ:

より多くの KDナゲット