テクノロジー

AIの学習にオブジェクトストレージが適している理由とは?

2023 December 13By David Boland

このブログは 2023 年9月27日に David Boland によって投稿されたWhy Train AI on Object Storageを翻訳したものです。


私たちがAI(人工知能)を活用する未来は、「いつか」ではなく、現在すでに到来しています。あなたがこの文章を読んでいる今も、多くの人々がAIを活用したソリューションを使用し、画像の生成、洞察の収集、管理タスクの自動化などを行っています。AIを導入したソフトウェア製品も増えているため、ビジネスに最適なAIモデルを構築する方法について悩む場合も出てくるでしょう。

モデルを構築する前に、組織はまず、データを考慮する必要があります。AIモデルはメディアからの関心が高く、注目を集めるものですが、特別な注意を払うべきなのはAIモデルを動かしているデータの方なのです。AIの質は与えられたデータに左右されることは周知の事実です。そして、最高のAIに必要なのがオブジェクトストレージです。本ブログでは、AIアプリケーションでオブジェクトストレージを使用する際に考慮すべき重要なポイントについてご紹介します。

データの規模

AIの原理には、学習用のデータが多ければ多いほど性能が向上するというものがあります。大規模な学習に用いられるデータ量は数十から数百ペタバイトの領域であり、SAN、NASといった従来のストレージで合理的に補うことができる範囲をはるかに超えています。

こういった規模に対応できる唯一のオプションが、オブジェクトストレージです。オブジェクトストレージは無限に拡張でき、AIモデルトレーニングで利用するのに必要な、数ペタバイトに及ぶデータセットを収容することができます。また、オブジェクトストレージは構造化、非構造化、半構造化など、さまざまなレベルのデータに対応しています。これらのデータは、いずれもAIの学習データとして利用できます。

API

S3 APIは、事実上、オブジェクトストレージの標準であり、広く採用されていることから、AIおよびML(機械学習)のストレージとして、利用されることがあり得ます。AIモデルは、このS3 APIを利用することで、メタデータによる収集や、情報の取り込みを伴うストレージと通信することが容易になります。

オブジェク トストレージ サービスでは、一般的に、オブジェクト永続性のプロトコルであるRESTful APIへのサポートがあり、最新のAIアーキテクチャの土台を築くことができます。一方、NAS、ブロックストレージ、ファイルストレージなど、他のストレージタイプでは、サポートされるAPIの数が制限されています。

オブジェクトストレージのコストは一般的に安価で、AIの学習データを統合すれば更にコストを抑えることができます。しかし、一般的なオブジェクトストレージの場合、請求額のほぼ半分をAPIの使用量が占めていことに注意する必要があります。つまり、特に大規模なデータセットでAIを学習させる場合、こういったコストが大幅に増える可能性があるのです。そのため、適切なオブジェクトストレージプロバイダーを選ぶことが不可欠です。Wasabi Hot Cloud StorageはS3 APIをサポートしているうえ、追加のデータアクセス料金がかかならいため、予算設定に悪影響を及ぼすことがありません。

セキュリティとコンプライアンス

パブリックストレージを利用する際、データ所有者が最初に懸念するべきなのがデータのセキュリティです。これには、顧客の個人情報や企業の機密情報が含まれる場合があります。また、金融や医療業界の場合はデータ管理の規制も存在するため、データの取扱いに関して、さまざまなルールを考慮する必要があります。

機密性の高いAI学習データは、安全かつコンプライアンスに準拠したストレージに保存することが肝要です。オブジェクトロックなどの機能を使用してデータを保護することで、学習データのセキュリティがさらに強化され、設定された保存期間が終了するまで変更や削除できなくなります。

もちろん、AIを活用したアプリケーションを作成する場合は、さらに多くの課題があります。これらの課題を克服するためのより詳細なガイドについては、ウェビナー「Avoiding the Pitfalls of Cloud Storage for Edge and AI-Powered Applications(エッジやAI搭載のアプリケーションを管理するクラウドストレージを利用する際、避けるべき落とし穴について)」にぜひご視聴ください。

accademic
ジェネラルSINET6経由でWasabiが利用できるようになりました!

データ活用を加速させる「構造化データ」と「非構造化データ」とは?