Sama は新たに 70 万ドルを投じて、データセットのクラウド ラベリングの平等性を高めることを目指しています

ソースノード: 1391003

機械学習システムをトレーニングするためのデータを提供する企業である Sama は、First Ascent Ventures、Salesforce Ventures、Vistara Capital Partners、および既存の投資家が参加し、CDPQ が主導して設立したシリーズ B で 70 万ドルを調達しました。 CEOのウェンディ・ゴンザレス氏は、同社はこの資金を「チームが完全なAIライフサイクルを管理できるようにする」新製品でプラットフォームを成長させるために利用すると述べた。

データ サイエンティストは、データのロードやクリーニングなどのデータ準備タスクに時間の約 45% を費やします。 従った アナコンダへ。別 レポート Alation の調査によると、データ リーダーの 97% が、データを無視した結果、新たな収益機会を逃したり、パフォーマンスを適切に予測しなかったり、不適切な投資を行ったりした結果に苦しんでいることがわかりました。さらにもう一つ 研究 これは MIT Technology Review Insights によるもので、Databricks の委託によるものであり、機械学習のビジネスへの影響が、エンドツーエンドのライフサイクル管理における課題によって主に制限されていることを明らかにしています。

Leila Janah によって設立され、カリフォルニア州サンフランシスコに本拠を置く Sama (旧名 Samasource) は、2018 年にデータ入力、センチメント分析、データ転記に重点を置いてパートナー配信センターとの最初の関係を構築しました。 2009 年、同社はテクノロジー プラットフォームである SamaHub の初期バージョンを立ち上げ、Microsoft が会社のサービスを構築するために使用する画像や注釈の提供など、多数の商用プロジェクトに着手しました。 Xbox Kinect.

「ジャナは、人々を貧困から永久に救い出すには、有意義な生活賃金の仕事を与えることが最善の方法だと信じていました」とゴンザレス氏は電子メールでVentureBeatに語った。 「これまでのところ、当社は、AI のより公平な未来に近づけるために、十分なサービスを受けられていないコミュニティに実用的なキャリア スキルを提供する、責任あるトレーニングと雇用プログラムを提供する唯一の AI トレーニング データ プロバイダーです。」

データプラットフォーム

現在、Sama はクラウドパワーのプラットフォームをホストしており、企業はビデオ、画像、コンピューター生成の形状、レーダー、自然言語など、AI モデルをトレーニングするためにラベル付けされたデータを取得できます。運輸とナビゲーション、小売と電子商取引、ロボット工学と製造などの業界の顧客はデータセットの代金を支払い、「クラウドワーカー」はサマからの支払いと引き換えにアノテーションを提供します。

Sama は、市場の多くのデータラベル付けおよび注釈プラットフォームと競合しています。 DefinedCrowd, 群集の花, Labelbox, 優れたAI, スケール.ai Amazon Mechanical Turk のような既存企業も同様です。しかし同社は、クラウドワーカー向けの機械学習支援アノテーションツールなど、プラットフォームとプロセスを改善するために毎月160億XNUMX万件のイベントを追跡することで優れた製品を提供していると主張している。

サマ

上: Sama のバックエンド ツールでラベル付けされたオブジェクト。

画像クレジット: サマ

「当社のラベラーは平均勤続年数が 3 年で、お客様と協力してエッジケースを特定し、アノテーションのベスト プラクティスを推奨する対象分野の専門家です」とサマ氏は Web サイトで説明しています。 「サンプリングは品質管理者にフィードバックを提供し、チームが効率的かつ効果的に作業できるようにすると同時に、タスクを「保留」し、高度なスクリプティングによってパイプラインの早い段階でエラーを検出します。」

企業が Sama と契約すると、Sama のプラットフォームは「マイクロモデル」を作成します。これは、ラベラーの注釈付けを支援するための事前にラベル付けされたデータの生成に使用されます。アノテーターは機械学習によって生成されたラベルを検証し、サマは企業と協力してエッジケースを特定し、アノテーションのベストプラクティスを推奨します。

アノテーションとデプロイメントの後、Sama は継続的なフィードバックを提供し、運用環境のモデルを監視できます。さらに、このプラットフォームは「フレームレベル」の注釈とエッジケースに関するデータを生成し、モデルをより迅速に市場に投入できるように設計されたレポートを作成できます。

影響

教師あり学習 (ラベルのトレーニングが必要なモデルのタイプの 1 つ) は、企業で使用される機械学習の最も一般的な形式です。最近のオライリー誌では レポート, 回答者の 82% が、組織では教師あり学習と教師なし学習 (ラベルが必要ない) または半教師あり学習 (少量のラベルのみが必要) を採用することを選択したと回答しました。そして 従った Gartner によれば、教師あり学習は、2022 年まで組織が最も活用する機械学習のタイプであり続けるでしょう。

ラベルに耐えることができるのは、 特徴 ただし、不平等です。たとえば、メカニカル・ターク労働者の推定2%未満はグローバル・サウス諸国出身であり、大多数は米国とインド出身です。 ImageNet — 最近のコンピューター ビジョンの進歩に不可欠なデータセット — は、データ ラベラーの仕事なしには不可能でした。しかし、ImageNet の従業員自身の時給の中央値は 2 ドルで、米国連邦最低賃金の時給 4 ドルを超える人はわずか 7.25% であり、生活賃金とは程遠いものです。

Sama は、サービスが行き届いていない地域のコミュニティに機会を提供するという使命のもと、競合他社よりも高いアノテーター料金 (8 日あたり約 XNUMX ドル) を支払っていると主張しています。 MITとInnovations for Poverty Actionが実施したXNUMX年間のランダム化試験では、ケニアのナイロビに住むクラウドワーカーのうち、トレーニングを受けてサマの採用候補者に加わった人は、トレーニングのみを受けたクラウドワーカーと比べて、失業率が低く、平均月収が高かった。

サマ

この研究では、Sama のクラウドワーカーの成果と他のデータラベル付けスタートアップで雇用されたクラウドワーカーの成果を比較していません。しかしゴンザレス氏は、この結果は「議論の余地のない事実を示し」ており、「世界中のコミュニティに対する[サマの]影響モデルの価値を実証している」と述べている。

Sama は 120 人のフルタイム従業員と 3,500 人のアノテーターを雇用しており、Google、Nvidia、GM、Walmart、Getty、およびフォーチュン 25 企業の 50% 以上に顧客を抱えています。同社のクラウドワーカーは、1.5 年だけで 2020 億のデータ ポイントに最新のアノテーションを付けました。資金調達ラウンドで、Sama が調達した資金総額は約 85 万ドルに達します。

「私たちの顧客にはフォーチュン 2000 企業が含まれます」とゴンザレス氏は言います。 「注目すべきことに、サマの…トレーニング データは最近、Google によって AI アルゴリズムを強化するために利用されました。 プロジェクトガイドライン、視覚障害のある人が自立して走るのを支援します。高品質で正確なトレーニング データを使用すると、アプリケーションはランナーの位置を正確に推定し、音声フィードバックを提供できるため、ランナーは自己修正できます。現在、私たちはこのソリューションを視覚障害者コミュニティにとって利用しやすいオプションにすることを目標に、プロジェクト ガイドラインの拡張に取り組んでいます。」

VentureBeatの

VentureBeatの使命は、技術的な意思決定者が革新的なテクノロジーと取引についての知識を習得するためのデジタルタウンスクエアになることです。 私たちのサイトは、あなたが組織を率いるときにあなたを導くためのデータ技術と戦略に関する重要な情報を提供します。 以下にアクセスして、コミュニティのメンバーになることをお勧めします。

  • あなたが興味を持っている主題に関する最新情報
  • ニュースレター
  • ゲート付きのソートリーダーコンテンツと、次のような貴重なイベントへの割引アクセス 変換2021: もっと詳しく知る
  • ネットワーク機能など

会員になる

出典: https://venturebeat.com/2021/11/04/sama-aims-to-bring-greater-equality-to-crowd-labeling-of-datasets-with-new-70m/

タイムスタンプ:

より多くの AI – ベンチャービート