機械学習システムをトレーニングするためのデータを提供する企業である Sama は、First Ascent Ventures、Salesforce Ventures、Vistara Capital Partners、および既存の投資家が参加し、CDPQ が主導して設立したシリーズ B で 70 万ドルを調達しました。 CEOのウェンディ・ゴンザレス氏は、同社はこの資金を「チームが完全なAIライフサイクルを管理できるようにする」新製品でプラットフォームを成長させるために利用すると述べた。
データ サイエンティストは、データのロードやクリーニングなどのデータ準備タスクに時間の約 45% を費やします。 従った アナコンダへ。別 レポート Alation の調査によると、データ リーダーの 97% が、データを無視した結果、新たな収益機会を逃したり、パフォーマンスを適切に予測しなかったり、不適切な投資を行ったりした結果に苦しんでいることがわかりました。さらにもう一つ 研究 これは MIT Technology Review Insights によるもので、Databricks の委託によるものであり、機械学習のビジネスへの影響が、エンドツーエンドのライフサイクル管理における課題によって主に制限されていることを明らかにしています。
Leila Janah によって設立され、カリフォルニア州サンフランシスコに本拠を置く Sama (旧名 Samasource) は、2018 年にデータ入力、センチメント分析、データ転記に重点を置いてパートナー配信センターとの最初の関係を構築しました。 2009 年、同社はテクノロジー プラットフォームである SamaHub の初期バージョンを立ち上げ、Microsoft が会社のサービスを構築するために使用する画像や注釈の提供など、多数の商用プロジェクトに着手しました。 Xbox Kinect.
「ジャナは、人々を貧困から永久に救い出すには、有意義な生活賃金の仕事を与えることが最善の方法だと信じていました」とゴンザレス氏は電子メールでVentureBeatに語った。 「これまでのところ、当社は、AI のより公平な未来に近づけるために、十分なサービスを受けられていないコミュニティに実用的なキャリア スキルを提供する、責任あるトレーニングと雇用プログラムを提供する唯一の AI トレーニング データ プロバイダーです。」
データプラットフォーム
現在、Sama はクラウドパワーのプラットフォームをホストしており、企業はビデオ、画像、コンピューター生成の形状、レーダー、自然言語など、AI モデルをトレーニングするためにラベル付けされたデータを取得できます。運輸とナビゲーション、小売と電子商取引、ロボット工学と製造などの業界の顧客はデータセットの代金を支払い、「クラウドワーカー」はサマからの支払いと引き換えにアノテーションを提供します。
Sama は、市場の多くのデータラベル付けおよび注釈プラットフォームと競合しています。 DefinedCrowd, 群集の花, Labelbox, 優れたAI, スケール.ai Amazon Mechanical Turk のような既存企業も同様です。しかし同社は、クラウドワーカー向けの機械学習支援アノテーションツールなど、プラットフォームとプロセスを改善するために毎月160億XNUMX万件のイベントを追跡することで優れた製品を提供していると主張している。
「当社のラベラーは平均勤続年数が 3 年で、お客様と協力してエッジケースを特定し、アノテーションのベスト プラクティスを推奨する対象分野の専門家です」とサマ氏は Web サイトで説明しています。 「サンプリングは品質管理者にフィードバックを提供し、チームが効率的かつ効果的に作業できるようにすると同時に、タスクを「保留」し、高度なスクリプティングによってパイプラインの早い段階でエラーを検出します。」
企業が Sama と契約すると、Sama のプラットフォームは「マイクロモデル」を作成します。これは、ラベラーの注釈付けを支援するための事前にラベル付けされたデータの生成に使用されます。アノテーターは機械学習によって生成されたラベルを検証し、サマは企業と協力してエッジケースを特定し、アノテーションのベストプラクティスを推奨します。
アノテーションとデプロイメントの後、Sama は継続的なフィードバックを提供し、運用環境のモデルを監視できます。さらに、このプラットフォームは「フレームレベル」の注釈とエッジケースに関するデータを生成し、モデルをより迅速に市場に投入できるように設計されたレポートを作成できます。
影響
教師あり学習 (ラベルのトレーニングが必要なモデルのタイプの 1 つ) は、企業で使用される機械学習の最も一般的な形式です。最近のオライリー誌では レポート, 回答者の 82% が、組織では教師あり学習と教師なし学習 (ラベルが必要ない) または半教師あり学習 (少量のラベルのみが必要) を採用することを選択したと回答しました。そして 従った Gartner によれば、教師あり学習は、2022 年まで組織が最も活用する機械学習のタイプであり続けるでしょう。
ラベルに耐えることができるのは、 特徴 ただし、不平等です。たとえば、メカニカル・ターク労働者の推定2%未満はグローバル・サウス諸国出身であり、大多数は米国とインド出身です。 ImageNet — 最近のコンピューター ビジョンの進歩に不可欠なデータセット — は、データ ラベラーの仕事なしには不可能でした。しかし、ImageNet の従業員自身の時給の中央値は 2 ドルで、米国連邦最低賃金の時給 4 ドルを超える人はわずか 7.25% であり、生活賃金とは程遠いものです。
Sama は、サービスが行き届いていない地域のコミュニティに機会を提供するという使命のもと、競合他社よりも高いアノテーター料金 (8 日あたり約 XNUMX ドル) を支払っていると主張しています。 MITとInnovations for Poverty Actionが実施したXNUMX年間のランダム化試験では、ケニアのナイロビに住むクラウドワーカーのうち、トレーニングを受けてサマの採用候補者に加わった人は、トレーニングのみを受けたクラウドワーカーと比べて、失業率が低く、平均月収が高かった。
この研究では、Sama のクラウドワーカーの成果と他のデータラベル付けスタートアップで雇用されたクラウドワーカーの成果を比較していません。しかしゴンザレス氏は、この結果は「議論の余地のない事実を示し」ており、「世界中のコミュニティに対する[サマの]影響モデルの価値を実証している」と述べている。
Sama は 120 人のフルタイム従業員と 3,500 人のアノテーターを雇用しており、Google、Nvidia、GM、Walmart、Getty、およびフォーチュン 25 企業の 50% 以上に顧客を抱えています。同社のクラウドワーカーは、1.5 年だけで 2020 億のデータ ポイントに最新のアノテーションを付けました。資金調達ラウンドで、Sama が調達した資金総額は約 85 万ドルに達します。
「私たちの顧客にはフォーチュン 2000 企業が含まれます」とゴンザレス氏は言います。 「注目すべきことに、サマの…トレーニング データは最近、Google によって AI アルゴリズムを強化するために利用されました。 プロジェクトガイドライン、視覚障害のある人が自立して走るのを支援します。高品質で正確なトレーニング データを使用すると、アプリケーションはランナーの位置を正確に推定し、音声フィードバックを提供できるため、ランナーは自己修正できます。現在、私たちはこのソリューションを視覚障害者コミュニティにとって利用しやすいオプションにすることを目標に、プロジェクト ガイドラインの拡張に取り組んでいます。」
VentureBeatの
VentureBeatの使命は、技術的な意思決定者が革新的なテクノロジーと取引についての知識を習得するためのデジタルタウンスクエアになることです。 私たちのサイトは、あなたが組織を率いるときにあなたを導くためのデータ技術と戦略に関する重要な情報を提供します。 以下にアクセスして、コミュニティのメンバーになることをお勧めします。
- あなたが興味を持っている主題に関する最新情報
- ニュースレター
- ゲート付きのソートリーダーコンテンツと、次のような貴重なイベントへの割引アクセス 変換2021: もっと詳しく知る
- ネットワーク機能など
- 2020
- アクセス
- Action
- AI
- AIトレーニング
- アルゴリズム
- Amazon
- 分析
- 申し込み
- オーディオ
- BEST
- ベストプラクティス
- 10億
- ビルド
- ビジネス
- ビジネスへの影響
- 資本
- キャリア
- 例
- 最高経営責任者(CEO)
- クレーム
- クリーニング
- クローザー
- コマーシャル
- コマンドと
- コミュニティ
- コミュニティ
- 企業
- 会社
- 競合他社
- Computer Vision
- コンテンツ
- 契約
- 国
- クレジット
- Customers
- データ
- データブリック
- 中
- 配達
- デジタル
- 早い
- 利益
- eコマース
- エッジ(Edge)
- 雇用
- Enterprise
- 平等
- イベント
- 交換
- 専門家
- 特徴
- 連邦政府の
- 名
- フォーム
- フランシスコ
- 資金調達
- 資金調達ラウンド
- 未来
- AIの未来
- ガートナー
- 与え
- グローバル
- GM
- でログイン
- 成長する
- ガイド
- 雇用
- HTTPS
- 識別する
- ImageNet
- 影響
- 含めて
- 包含
- インド
- 産業
- 不平等
- 情報
- 洞察
- 関心
- インベストメント
- 主要株主
- IT
- ケニア
- 知識
- ラベリング
- ラベル
- 言語
- 最新の
- つながる
- LEARN
- 学習
- ツェッペリン
- 活用します
- 限定的
- 機械学習
- 大多数
- 作成
- 製造業
- 市場
- Microsoft
- 百万
- ミッション
- マサチューセッツ工科大学(MIT)
- 自然言語
- ナビゲーション
- 新製品
- Nvidia
- 機会
- オプション
- 組織
- 組織
- その他
- パートナー
- パートナー
- 支払う
- 支払い
- のワークプ
- パフォーマンス
- プラットフォーム
- プラットフォーム
- プール
- 貧困
- 電力
- プロダクト
- 生産
- 製品
- 演奏曲目
- プロジェクト
- プロジェクト(実績作品)
- 品質
- レーダー
- ランダム化
- 価格表
- の関係
- レポート
- 結果
- 小売
- 収入
- レビュー
- ロボット工学
- ラン
- salesforce
- サマソース
- サン
- サンフランシスコ
- 規模
- 科学者たち
- 感情
- シリーズ
- シリーズB
- スキル
- 小さい
- So
- サウス
- 過ごす
- 広場
- スタートアップ
- 勉強
- 教師あり学習
- 供給
- システム
- 技術的
- テクノロジー
- テクノロジー
- 時間
- 追跡
- トレーニング
- 輸送サービス
- トライアル
- 私達
- 失業
- us
- 値
- VentureBeatの
- ベンチャーズ
- 対
- 動画
- ビジョン
- 賃金
- Walmart
- ウェブサイト
- 誰
- 仕事
- 労働者
- 作品