Superb AIがお届けする機械学習プロジェクトチーム向けの価値ある四方山話

学習データのワークフローをマシーンラーニングの専門家のように考える方法とは?

»

はじめに

コンピュータの登場以来、そして現代のデータベースの普及に伴い、私たちのコンピューティングニーズのほとんどは、主に「構造化データ」に依存してきました。しかし、時とともに新しいデータ時代に突入し、デジタルデータの世界では、画像、動画、テキスト、音声などの非構造化データが構造化データの数を大きく上回っています。さらに、ガートナー社は、企業データの80%以上が非構造化データであり、これは毎年55~60%の割合で増加していると推定しています。未来は、非構造化データの中に埋もれている洞察を解き放つことにあるのです。

リレーショナル・データベースやその他のフォーマット化され分類されたデータは、従来の列-行データベースやMicrosoft Excelのテーブルのようなスプレッドシートに簡単に保存できるため、依然として重要な存在です。しかし、非構造化データの普及と偏在により、データ価値のピークとして長く独占的に君臨してきたその地位は急速に損なわれつつあります。今日、データ「価値」の重要な指標は、文書から画像、ビデオ、オーディオストリーム、ソーシャルメディアの投稿まで、私たちが通常使用するあらゆるものを網羅する「非構造化データ」から生じることが多くなっています。

しかし、非構造化データの性質上、従来のようにコンピュータで簡単に解釈、検索、分析することができないという初歩的な問題があります。与えられたデータを解析し、タグ付けし、機械が解釈できる構造化されたフォーマットに変換するためには、必然的に膨大な量の人間の手による入力が必要となります。驚くことではありませんが、近年まで多くの組織がまだその作業を行うことをためらっているのが現状です。

IDCによると、2018年の間に、ストレージサプライヤーは、すべてのストレージメディアタイプの世界中のインストールベースに、700エクサバイトを超えるストレージ容量を追加しました。2018年から2023年にかけて、全世界のストレージ容量のインストールベースは2倍以上になり、2023年には11.7ゼタバイトに達するとIDCは予測しています。むしろ、すでに収集された膨大な量の非構造化データは、経験の浅いチームにとっては、有用な情報や目的を得るためのマイニングを試みることさえ躊躇させるのが常です。つい最近まで、この多様で漠然としたデジタルな真実の源からビジネス価値を引き出すのに利用できる必要十分なテクノロジーが不足していました。

しかし、もうこのようなことはありません。現在では、非構造化データから得られる洞察にアクセスするために特別に作られた、人工知能を搭載した多くの新しく革新的なデータ分析ツールが存在します。MLOpsはまだ始まったばかりの概念ですが、その重要なギャップを埋めようとするエコシステムが生まれつつあります。しかし、マシンラーニング専門家の間では、非構造化データの可能性を完全に実現するためには、最新のテクノロジーを採用するだけでは不十分だという懸念が高まっています。組織はこれまでの運用上のサイロを打ち破る必要があり、単に学習データをラベル付けして保存するだけでなく、マシンラーニングチームがコラボレーション、共有でき、そして最も重要なことですが、企業利用レベルのAIを生み出すためのシームレスな反復作業を可能にするように設計された拡張性の高い超並列データハブアプローチが必要となります。

このため、マシンラーニングチームがエンタープライズレベルの学習データパイプラインを作成しようとする場合、その場しのぎのポイントソリューション以上のものが必要になります。マシンラーニングチームが必要とするのは、コラボレーション、スピード、品質のニーズに対応した高度なプラットフォームであり、プロダクショングレードのモデルを迅速に開発することを目的として高品質のデータセットを作成・管理することです。

優れたAIを構築するためのやりがいのある取り組みに乗り出すマシンラーニングチームを支援するために、私たちは最も重要な質問を集めて回答するとともに、学習データプロセスを構造化するのに役立つ最先端のフレームワークを提供しようと試みました。この論文で示された戦術と戦略のいくつかを採用することで、マシンラーニングチームは現在のシステムを評価し、データプラットフォームがマシンラーニング運用ワークフロー全体に対してより統合された部分になる方法について理解することができます。 理想的な機械学習データプラットフォームが取り組むべき4つの主要な柱についてお話する前に、まずマシンラーニングライフサイクルの基本を紹介し、本番レベルのマシンラーニングシステムをうまく展開するために自問すべき重要な問いかけについて説明します。

マシンラーニングライフサイクル

かつて、マシンラーニングシステムは、比較的簡単なプロセスで開発され、デプロイされていました。しかし、現在では、マシンラーニングのライフサイクルは、はるかに複雑になっています。データセットは継続的な更新と複数のペルソナからの寄与が必要であり、そのようなワークフローをサポートする新しいマシンラーニングデータプラットフォームが必要とされています。

その結果、初期のマシンラーニングシステム構築のアプローチは、ほとんどが直線的かつ連続的であり、以下の一連のステップから大きく外れることはなかったのです。

1. 既存の生データ(画像、動画、テキストなど)を整理し、クリーニングする。

2. 生データにアノテーションを施し、学習用データセットを作成する。

3. マシンラーニングモデルを学習させる

4. 学習したモデルをデプロイする

結論から言うと、昔は単純だったものが、今日のマシンラーニングのライフサイクルはもっと複雑となっています。実際、データを集めただけでは、今日のマシンラーニングプロジェクトには対応できないと言わざるを得ません。

マシンラーニングプロジェクトのスコープを設定する前に、私たちが日常的に尋ねなければならない質問のリストを紹介します。そして、AI分野の複雑化と革新が進むにつれて、このリストは増え続けるでしょう。このような質問に答えることは、マシンラーニングプロジェクトを始める人にとっては詳細すぎるかもしれませんが、何が可能なのかの広がりを把握することは重要なことです。マシンラーニングプロジェクトを始める前に、マシンラーニング専門家が一般的に投げかける最も意味のある質問をリストアップしています。

次のマシンラーニングプロジェクトに着手する前に聞くべき17の重要な質問

ビジネスの理解

1. マシンラーニングシステムから何を得ることを期待していますか?

2. 正確な適用シナリオと期待されるビジネスインパクトは何か?

3. マシンラーニングを使用することで期待される性能と制限を理解していますか?

4. マシンラーニングモデルの性能をどのように監視し、測定しますか?

モデリング

1. どのようなマシンラーニングモデルを使用しますか?

2. 計算速度(推論速度)、精度、正確さ、再現性など、性能に対する要求は何ですか?

3. 学習に対する要求は?クラウドサーバーに依存しますか?モデルを継続的に更新しますか?

データの取得と把握

1. モデルを学習させるのに十分なデータがありますか?そうでない場合、どのように追加データを収集しますか?クラウドソーシング、ウェブクロール、既成のデータセットの購入などでしょうか?

2. データソースは法的にどうなのか?著作権で保護されているか?

3. データ補強の技術を導入しますか?

4. あなたのユースケースは、合成的に生成されたデータに頼ることができますか?

データのラベリング

1. データのラベリングは誰が行うのですか?社内にデータラベリングチームがありますか?ラベリングエージェンシーに委託しますか?

2. どのデータラベリングツールを使用しますか?可視化、統計、バージョン管理、複数人での共同作業など、必要な機能をサポートしていますか?

3. ラベリング・プロセスをスピードアップするために、事前に学習させた機械学習モデルを使用しますか?その場合、当該モデルをトレーニングするためのアクセス権がありますか?このモデルの再トレーニングはどのくらいの頻度で行う予定ですか?

モデルのトレーニング

1. データセットを構築した後、どのようなインフラストラクチャを使ってモデルを学習させるか?社内のGPUサーバーか、クラウドサーバーか?

2. TPUのような高度なハードウェアへのアクセスは必要ですか?

3. モデル学習は社内で行うのか、それともサードパーティのモデル学習サービスを利用するのか?ハイパーパラメータのチューニングとアーキテクチャの検索を自動化するか(Auto-ML)?

これらは、プロダクショングレードのマシンラーニングシステムをトレーニングし、デプロイするために答えなければならない質問のほんの一部に過ぎません。そして、最も重要な部分を要約すると、ここで終わりではありません。最初のプロトタイプのマシンラーニングモデルができたら、モデルのパフォーマンスが悪いところを分析してデバッグし、マシンラーニング開発サイクルの中で継続的に反復する必要があります。

最後に

AIソリューションを大規模に実装することは、非常に困難であることは広く知られています。Deeplearning.aiは、「マシンラーニングを使用している企業のうち、モデルのデプロイに成功したのはわずか22%」と報告しています。

また、この課題の大部分は、間違いなくマシンラーニングワークフローの断片化と、必ずしもアウトプットの品質や速度を向上させずにコラボレーションの複雑さを増大させる、サイロ化されているチームに起因していることもうなずけます。これは非常にフラストレーションの溜まることであり、チームが継続的に高品質なデータを更新、維持し、本番レベルのマシンラーニングモデルをトレーニング、デプロイすることを大幅に遅らせたり、完全に阻害したりする可能性があります。また、多くのリソース重視のマシンラーニングチームは、MLOpsインフラストラクチャを構築しようとする際に、高度に技術的で分かりにくいソフトウェアソリューションの海をかき分け、学習曲線を通らなければならないことに圧倒されていると感じています。そこで、Superb AIは、数十年にわたるマシンラーニングの経験から集めた最高の洞察と実践を統合し、マシンラーニングチームに力を与え、マシンラーニング開発サイクルを改革し、ワークフローツールそのものではなく、素晴らしいAI技術の構築に焦点を戻すことができるソリューションを提供することに意欲を燃やしています。

ラーニングデータとマシンラーニング開発を民主化するというこの根本的な使命が、私たちSuperb AIのプラットフォームの核心となるものです

Superb AIについて

Superb AIは、データサイエンティスト、研究者、マシンラーニングエンジニアによって2018年に設立されました。AIのトレーニングに必要なデータの準備作業を自動化し、データセットの構築と反復を迅速、体系的、かつ反復可能にするエンドツーエンドのトレーニングデータプラットフォームを提供しております。Superb AIは、あらゆる規模のチームがトレーニングデータをラベル付け、管理、キュレート、提供する方法を改革しています。25以上の出版物、7,300以上の引用、100以上の特許など、コンピュータビジョンとディープラーニングにおける数十年の経験と学術的研究により、Superb AIはあらゆる段階の企業がコンピュータビジョンアプリケーションをこれまで以上に迅速に構築、展開できるよう支援しております。詳細情報、無料での利用開始については、superb-ai.comにアクセスしてください。

Comment(1)

コメント

匿名

「この論文」とか「その結果」とか、何なんでしょう。
別の所で書いた文章を切り貼りしているのでしょうか?
それはいいとして、結局何の話がしたかったんでしょうか。タイトルも意味不明です。

コメントを投稿する