データサイエンスの成功には、コンテキスト、一貫性、コラボレーションが不可欠です

ソースノード: 1882940

データサイエンスの成功には、コンテキスト、一貫性、コラボレーションが不可欠です
による写真 mohamed_hassan onPixabay

 

人工知能(AI)と機械学習(ML)の分野は、2021年の終わりに、将来が不透明な初期の分野ではなくなりました。 AIとMLは、データサイエンスのより広い世界に多大な影響を与える影響力のある領域に成長しました。これは、 より真実であり続けている 今年を通して。

AI、ML、そしてその後のデータサイエンスは拡大を続けていますが、データサイエンスチームの成功を左右する可能性のあるパラメーターも拡大し​​ています。 AIとMLの分野から重要で深遠な洞察を得る機会は、XNUMX台のラップトップで操作するXNUMX人のデータサイエンティストよりも大きなデータサイエンスチームを前提としています。 分析のために取得、クリーンアップ、および準備する必要のあるデータが多すぎるため、データサイエンティストの平均的な就業時間のかなりの部分を消費するプロセスであり、XNUMX人で処理することはできません。 

最新のデータサイエンスプロジェクトは、データ準備、以前のデータサイエンスプロジェクト、および複数のデータサイエンスと共有する必要のあるデータモデルを展開するための潜在的な方法に関する重要な情報を中心に展開しています。 したがって、データサイエンスの成功を確実にするために、データサイエンスチームがデータのコンテキスト、一貫性、および安全なコラボレーションを必要とする理由を調査することが重要です。 これらの各要件をすばやく調べて、今後のデータサイエンスの成功がどのようになるかをよりよく理解できるようにしましょう。

パートXNUMX:コンテキスト

 
将来のデータサイエンスの成功の調査は、コンテキストから始まります。反復型モデル構築のプロセスはありません。 それは試行錯誤の実験に依存しています 文書化され、保存され、データサイエンティストが利用できるようになる制度的知識がなくても、長持ちする可能性があります。 そして、それでも、適切な文書と保管が不足しているため、多くの制度的知識が定期的に失われています。

この一般的なシナリオを考えてみてください。ジュニアまたは市民のデータサイエンティストは、スキルを向上させるためにプロジェクトに引き込まれますが、すぐに苦労します。 同期および非同期のコラボレーション 文脈の欠如のため。 これらのアドホックチームメンバーは、対話しているデータ、過去に問題に対処した人々、および以前の作業が現在のプロジェクトの状況にどのように影響したかについて詳しく知るためのコンテキストが必要です。

プロジェクト、データモデル、およびそれらのワークフローを適切に文書化する必要があると、データサイエンティストのチームの気が散りやすくなり、XNUMX人のチームが単独で作業することは言うまでもありません。 リーダーは、 フリーランスの開発者を雇う 現代のデータサイエンスプロジェクトの標準的なレビューとフィードバックセッションを改善するために、制度的知識の保存と普及に向けて時間を費やすこと。 これらのセッション、ソフトウェアシステム、ワークベンチ、およびベストプラクティスは、プロジェクト関連のコンテキストのより効果的なキャプチャを合理化し、将来のジュニアおよびシチズンデータサイエンティストのデータ発見可能性を向上させることができます。

データサイエンスの成功には、 知識の合理化された管理 とその周辺のコンテキスト。 これがないと、新人、後輩、市民のデータサイエンティストは、プロジェクトへのオンボーディングと有意義な貢献に苦労する可能性があり、その結果、チームは以前の作業に貢献するのではなく、プロジェクトを再作成することになります。 

パートXNUMX:一貫性

 
MLとAIの分野は、金融サービス、健康とライフサイエンス、製造業に関して根本的な変化に貢献してきました。 ただし、これらの業界は重要な規制環境の影響を受けます。 これは、規制された環境で行われるAIプロジェクトは、明確な監査証跡で再現可能でなければならないことを意味します。 言い換えれば、データサイエンスプロジェクトに何らかの形で関与しているITおよびビジネスリーダーは、次のことを行う必要があります。 データの一貫性のレベルを確保する 彼らのデータサイエンスプロジェクトの結果に関しては。 

信頼できるレベルの一貫性を期待できるITおよびビジネスリーダーは、AIが促進するタイプの戦略的シフトを行うときにも自信を得ることができます。 データサイエンスプロジェクトに関しては多くの危機に瀕しており、それらに多くの投資が行われているため、データサイエンティストは、保証されたレベルの再現性で運用できるインフラストラクチャに値します。 最初から最後まで。 この完全な再現性は、データサイエンスプロジェクトが十分に重要であり、ビジネス目標に沿っているかどうかを判断するために経営幹部が探しているデータの一貫性につながります。

これらの経営幹部は、科学チームが拡大するにつれて、古いプロジェクトの結果の一貫性を確保するために必要なトレーニングセットとハードウェア要件も拡大することを期待する必要があります。 したがって、環境の管理を支援するプロセスとシステムは、データサイエンスチームの拡大にとって絶対に必要です。 たとえば、データサイエンティストがラップトップを使用していて、データエンジニアがクラウドVMで実行されているライブラリの異なるバージョンを実行している場合、そのデータサイエンティストは、データモデルがマシンごとに異なる結果を生成するのを見る可能性があります。 結論:経営幹部は、データ共同作業者がまったく同じソフトウェア環境を共有する一貫した方法を持っていることを確認する必要があります。

パートXNUMX:コラボレーション

 
最後に、安全なコラボレーションの重要性に到達します。 企業が業務を在宅勤務モデルに移行し続けるにつれて、組織は、データサイエンスのコラボレーションが対面でのコラボレーションよりもはるかに難しいことを認識しています。 一部のコアデータサイエンスの職務は、単一のデータサイエンス(データの準備、調査、データモデルの反復)の助けを借りて管理できますが、経営幹部の大多数は、誤ってコラボレーションを途中でやめ、その後、リモートの生産性を妨げています。

しかし、プロジェクト参加者間の効果的かつリモートな調整とプロジェクトデータのセキュリティをどのように促進するのでしょうか。 答えは、データサイエンスプロジェクトに関連する共有可能な作業ファイルとデータにあります それをより実行可能にします 情報をリモートで広めるため。 また、プロジェクト関連データの配布が簡単になるほど、情報の共有が簡単になり、リモートデータコラボレーションが容易になります。 データサイエンスプロジェクトの参加者は、クラウドベースのツールを活用して、研究の背後にあるセキュリティを強化できます。 しかし、あまりにも多くのリーダーが、コラボレーションを奨励せず、生産性を低下させるという過ちを犯しました。

まとめ

 
近年のデータサイエンスの分野で展開された純粋な進歩は、前例のないものであり、率直に言って驚くべきものです。 データサイエンスの進歩により、世界中の企業が、AIとMLによって可能になったイノベーションなしに、これまですぐに利用できる回答がほとんどなかった質問に対処できるようになりました。 

ただし、データサイエンスの世界が成熟し、成長し続けるにつれて、経営幹部と彼らが監督するデータサイエンスチームは、よりアドホックで反応的な作業方法から移行する時が来ました。 データサイエンティストがコンテキスト、一貫性、およびソフトウェアワークベンチのようなより優れたコラボレーションを生成するために使用できるリソースは、データサイエンスの成功に不可欠である可能性があります。 最終的に、プロジェクトはデータサイエンティスト、エンジニア、アナリスト、および研究者に必要な労力を減らし、この分野の継続的で驚くべき成功をより加速させることができます。

 
 
ナフラ・デイビス ソフトウェア開発者およびテクニカルライターです。 テクニカルライティングに専念する前に、彼女は、とりわけ興味深いことに、Samsung、Time Warner、Netflix、Sonyなどのクライアントを持つInc.5,000の体験型ブランディング組織でリードプログラマーを務めることができました。

ソース:https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

タイムスタンプ:

より多くの KDナゲット