データサイエンティストとして Python コードにコメントを付ける方法

プラトン再発行

フォロワー： 0

データサイエンティストとして Python コードにコメントを付ける方法
DALL・E 3 で生成された画像

データサイエンティストは刺激的な立場に置かれました。現代の仕事ではプログラミング言語を使用する必要がありますが、仕事上覚えておく必要のあるビジネスの側面は依然としてたくさんあります。データサイエンティストが使用する Python コードには、通常、ビジネス上の問題を解決する方法に関するストーリーテリングが反映されているのはこのためです。データサイエンティストにとっての環境も注目に値します。 Jupyter Notebook IDE を使用すると、データ操作とモデル開発を実験するための優れた方法が可能になります。

コーディング活動の方法が異なると、データサイエンティストはプログラミング活動中に異なる作業を行うことになります。これには、コードを説明するアクティビティであるコメントアクティビティが含まれます。要件の変更が常にあり、共同作業を行うデータサイエンティストにとって、コメントを通じてコードの適切な説明を提供することが重要です。

この記事では、データサイエンティストとして Python コードのコメント付けを実行する方法について説明します。あなたのアクティビティを改善し、あなたのコードを読む人に価値をもたらすさまざまな点について話し合います。それでは始めましょう。

先に進む前に、2 つの異なるタイプのコメントについて少し学びましょう。 1 つ目は ' を使用する単一行のコメントです。#コード内の ' 表記。通常、コードの簡単な説明に使用されます。たとえば、次のコードは、単一行のコメントの使用例を示しています。

# The code is to import the Pandas package and call it pd
import pandas as pd

コメントを作成するもう 1 つの方法は、三重引用符を使用する複数行の方法を使用することです。技術的には、これらはコメントではなく文字列オブジェクトですが、変数に代入しない場合、Python はそれらを無視します。次の例で実際の動作を確認できます。

"""
The code below would import the Pandas package, and we would call them pd throughout the whole working environment. """
import pandas as pd

このセクションでは、コメントに関する一般的なヒントについて説明します。これらのヒントはプログラマーにとってのベストプラクティスであるため、必ずしもデータサイエンティストに適用できるわけではありませんが、覚えておくと良いでしょう。ヒントは次のとおりです。

読みやすさを高めるために、説明するコードのすぐ上の別の行にコメントを配置することを検討してください。
作業中のコード全体でコメントのスタイルが一貫していること。
聴衆が理解できないことがわかっている場合は、理解しにくい専門用語や専門用語を使用しないでください。
明らかなことの説明を避けるために、価値を追加する場合にのみコメントします。
コメントが関連性がなくなった場合は、コメントを維持および更新します。

これらは、より良いコメントエクスペリエンスを提供するための一般的なガイドラインです。ここで、データサイエンティスト向けのより具体的な話に移りましょう。

データサイエンティストにとって、コーディング活動はソフトウェアエンジニアや Web 開発者のコーディング活動とは異なります。それが、コメント活動に違いが生じる理由です。ここでは、私たちデータサイエンティストに特有のヒントをいくつか紹介します。

1. コメントを使用して複雑なプロセスやアクティビティを明確にする

データサイエンスの活動には多くの実験プロセスが含まれるため、説明しなければ読者や将来の私たちを混乱させる可能性があります。コードのコメントは、特に多くのステップが含まれる場合に、意図をより適切に説明するのに役立ちます。たとえば、以下のコードは、正規化とスケーリングによって外れ値を削除する方法を説明します。

# Perform data normalization (Min-Max scaling)
normalized_data = (data - np.min(data)) / (np.max(data) - np.min(data)) # Remove outliers by using the sigma rule (3 standard deviations removal)
removed_outlier_data = normalized_data[np.abs(stats.zscore(normalized_data)) 3]

上記のコメントは、各プロセスで何が行われたか、およびその背後にある概念を説明しています。コードで使用した概念を指定することは、私たちが行ったことを理解するために不可欠です。

これは前処理に限定されるものではなく、データサイエンスのあらゆるステップでコメントすることができます。データの取得からモデルの監視に至るまで、誰でも理解できるようにコメントすることは良い習慣です。データサイエンティストとして、私たちのコメントがコードと分析的洞察の間の架け橋になる可能性があることを忘れないでください。

2. コメントの基準を設ける

データサイエンスの活動はコラボレーションプロセスであるため、誰もが理解できる標準的な構造を持つことが望ましいです。一人で作業する場合でも、知っているであろう基準があるので役立ちます。たとえば、作成した関数ごとにコメントを標準化できます。

# Function: name of the function
# Usage: description of how to use the function
# Parameters: list the parameters and explain them
# Output: explain the output

上記は標準的な例であり、独自に何かを作成することもできます。このような標準がある場合は、同じスタイル、言語、略語を使用することを忘れないでください。

3. コメントを使用してワークフローを支援する

共同作業環境では、チームがワークフローを理解するためにコメントすることが不可欠です。コメントを使用すると、新しいコードがいつ更新されるか、または次に何を行う必要があるかを理解するのに役立ちます。たとえば、別の関数の更新によりプロセスにバグが発生するため、次にバグを修正する必要があります。

# TODO: Fix this function ASAP
some_function_to_fix()

4. Markdown ノートブックのセルを実装する

実験にノートブックを使用するため、データサイエンティスト IDE は非常に優れています。ノートブックのセルを使用すると、各コードを分離できるため、コード全体を実行する必要がなく、独立して実行できます。ノートブックのセルはコードに限定されず、Markdown セルに変換できます。

Markdown は、テキストがどのように見えるかを記述する書式設定言語です。セルでは、マークダウンによって以下のコードをさらに詳しく説明できます。マークダウンを使用する利点は、標準のコメントプロセスよりも詳細にコメントできることです。表、画像、LaTeX などを追加することもできます。

たとえば、以下の画像は、Markdown を使用してプロジェクト、目的、手順を説明する方法を示しています。

データサイエンティストとして Python コードにコメントを付ける方法

Jupyter Markdown Cell について詳しくは、ドキュメント自分に何ができるかをさらに理解するために。

コメントは、コードで何が起こったのかを読者が明確にするのに役立つため、データサイエンティストの活動に不可欠な部分です。データサイエンティストの場合、私たちの作業プロセスが異なるため、コメントプロセスはソフトウェアエンジニアや Web 開発者とは若干異なります。そのため、この記事では、データサイエンティストとしてコメントする際に使用できるヒントをいくつか紹介します。ヒントは次のとおりです。