ジェネラル
生成AIの学習データが招くコスト増 費用を抑えるための戦略とは
社内向けの生成AIやRAG(検索拡張生成)を構築する際、その土台となるのが社内に蓄積されたドキュメントや画像などのデータです。これらをクラウドに集約してAIの学習に活用する取り組みが広がっていますが、一方でストレージの利用料金が想定を上回り、運用面の課題として浮かび上がるケースも少なくありません。
AIの精度向上において学習データの量と質は重要ですが、それを保管するコストは見落とされがちです。本記事では、生成AIプロジェクトでストレージコストが増加する要因を整理したうえで、限られた予算の中でデータを管理・運用するための考え方を解説します。
生成AIの進化と学習データ増大のジレンマ
生成AIを業務で活用しようとすると、多くのプロジェクトで「データは増やしたいが、コストは抑えたい」という相反する要請に向き合うことになります。まずは、このジレンマがなぜ生じるのか、その背景を整理します。
生成AIの精度を左右する「データ量」の重要性
生成AIの精度はデータ量に大きく依存します。自社の業務に即した回答を返すためには、社内規定やマニュアル、過去の問い合わせ履歴といった自社固有のデータを取り込むことが必要です。特にRAGのように外部データを参照させる仕組みでは、参照元となるデータの量と網羅性が回答の質に影響します。
扱うデータの種類も、テキストだけにとどまりません。画像や音声、各種ログなど多様な形式のデータを学習に用いるケースが増え、この結果、クラウドに保管するデータ容量も従来より大きくなっています。
データ量に比例しない「IT予算」の厳しい現実
データを増やすほどAIの精度向上につながりやすい一方で、IT予算を同じペースで増やせる企業は多くありません。データ量と予算の増え方は必ずしも一致しないため、どこかで折り合いをつけることが必要です。
とはいえ、コストを懸念してデータの収集や保管を絞り込めば、AIの精度に影響しかねません。データ量を確保しつつ、いかにコストを抑えるか。この両立が、プロジェクト担当者にとっての課題となります。
学習データのクラウド集約で発生する「コストの罠」
保存先や料金体系を十分に検討しないまま社内データをクラウドに集約していくと、想定外の請求につながることがあります。ここでは、見落とされやすい二つの落とし穴を取り上げます。
高価な一次ストレージへの一極集中の危険性
データ集約を進める際、扱いやすさを優先して、すべてのデータを高性能な一次ストレージにまとめて保管してしまうことが少なくありません。
たしかにAWS S3の標準クラスのようなストレージは、学習や推論にすぐ使うデータの保管先として適しています。しかし、集約したデータの中には、当面は使わないドキュメントやアクセス頻度の低いバックアップも含まれます。こうしたデータまで容量単価の高いストレージに置き続けると、利用していないデータのために費用がかさんでいくことになります。
見落としがちな「下りデータ転送料」と「APIリクエスト課金」
クラウドストレージの料金は、容量単価だけで決まるわけではありません。主要なクラウドサービスの多くは、保管したデータを外部へ取り出す際の「下りデータ転送料」や、データの読み書きなどの操作に対する「APIリクエスト課金」を設けています。
AIの学習では、同じデータを繰り返し読み出す処理が発生します。学習を回すたびにこうした従量課金が積み重なるため、容量単価だけを見て見積もっていた費用と、実際の請求額に開きが出ることが少なくありません。料金を比較する際は、容量単価に加えて、転送やリクエストに伴う費用も確認しておくことが大切です。
コストを抑えて学習データを管理する3つのポイント
増え続けるデータと限られた予算を両立させるには、保存先や運用の工夫が必要です。ここでは、コストを抑えながらデータを蓄積していくための3つのポイントを紹介します。
ストレージの階層化
データレイクの構築
ベンダーロックインの回避
ポイント1:ストレージの階層化
最初に検討したいのが、データの使い方に応じて保存先を分ける「階層化」です。学習や推論に現在使っているアクティブなデータは高速なストレージに、当面使う予定のないデータは低コストのストレージに置く、といった整理を行います。
すべてのデータを一律に高性能なストレージへ置くのではなく、利用頻度に応じて配置を分けるだけでも、全体の費用を抑えやすくなります。
ポイント2:データレイクの構築
AIプロジェクトでは、どのデータが後から役立つかを事前に見極めるのが難しい場面があります。そのため、ひとまず多様なデータをそのまま蓄積しておける「データレイク」の構築が有効です。
その受け皿として適しているのが、オブジェクトストレージです。テキストや画像、音声といった非構造化データを形式を問わず保存でき、容量の拡張もしやすい特性があります。比較的低コストなオブジェクトストレージを選べば、将来の活用を見込んだデータを、費用を抑えつつ蓄積することが可能です。
ポイント3:ベンダーロックインの回避
特定のクラウドサービスにデータを集約しすぎると、後から別のサービスへ移したくなった際に、移行の手間や転送費用がネックになることがあります。いわゆる「ベンダーロックイン」の状態です。
新しい生成AIモデルやツールを試したいと考えたとき、データを柔軟に移動・連携できる状態にしておくことは、選択肢を確保するうえで重要です。複数のクラウドを使い分ける「マルチクラウド戦略」も視野に入れ、データの可搬性を保てる基盤を整えておくとよいでしょう。
Wasabiを学習データのデータレイクに選ぶ理由
シャドーAIへの有効な対策は、データそのものの管理体制を見直すことです。散在するデータを一箇所に集約し、適切なアクセス制御をかけることで、情報漏洩リスクを根本から低減できます。
「大量の学習データを安価かつ予測可能なコストで保管したい」というデータレイクの要件に応えるのが、クラウドストレージのWasabiです。生成AIプロジェクトの保管基盤としてWasabiが適している理由を見ていきます。
>Wasabi Hot Cloud Storage | Wasabi Technologies Japan合同会社
低価格で大容量の学習データを保存可能
Wasabiの特長の一つは、容量単価の低さです。複雑な階層別の料金体系を設けず、シンプルな料金で提供されているため、保管するデータが増えても費用の見通しを立てやすい点がメリットとなります。大量の学習データを蓄積するデータレイクの基盤として、予算面の負担を抑えやすい選択肢といえるでしょう。
下りデータ転送料・APIリクエスト料金が無料
下りデータ転送料とAPIリクエストに対する課金を設けていない点もWasabiの特長です。AIの学習では大量のデータを繰り返し読み出すため、これらの従量課金は他のサービスでは負担になりやすい部分です。これらが費用に加算されないことで、保管データ量を基準に費用を見積もりやすくなります。
※料金体系は変更される場合があります。また、転送量の無料利用には保存容量に応じた上限などの条件が設けられている場合があるため、最新の条件を公式情報でご確認ください。
AWS S3互換と堅牢なセキュリティ体制
WasabiはAWS S3互換のAPIに対応しており、エンドポイント等を変更するだけで、既存のAWS環境やS3対応のツールとシームレスな連携が可能です。セキュリティ面でも、データを一定期間変更・削除できないようにするオブジェクトロック機能を備え、誤操作やランサムウェアによるデータの改ざん・暗号化への対策として活用できます。
まとめ
自社向けの生成AIの精度は、学習に用いるデータの量と質に大きく左右されます。しかし、増え続けるデータをすべて高性能なストレージに保管し続けると、ストレージ費用がプロジェクトの負担になりかねません。
費用を抑えながら運用を続けるには、データの使い方に応じて保存先を分け、容量単価だけでなく転送やリクエストに伴う費用も含めて管理することが重要です。Wasabiのようなコストパフォーマンスに優れたストレージをデータレイクとして組み合わせる構成は、その有力な選択肢の一つとなります。生成AIの活用を検討する際には、まずは自社のストレージ環境の見直しから始めてみてはいかがでしょうか。
&w=1920&q=75)