技術パートナー

Snowflakeのデータストレージに役立つWasabi

2023 September 13By Luke Boland

昨今、世界中がマルチクラウドへと移行しています。多くの企業では、ワークロード、アプリケーション、データなどを複数のプラットフォームに分散させることで、特定ベンダーへ過度に依存することなく、コストやリスクを減らそうという働きが見られます。このような環境を実現するのが、マルチクラウドです。

先日、クラウドデータプラットフォームのリーダー企業であるSnowflakeでは、Wasabi Hot Cloud Storageのサポートが追加されました。これにより、非構造化データ(ビジネス文書、ビデオ、電子メール、オーディオファイルなど)、半構造化データ(JSON、Avro、ORC、Parquet、XMLファイルなど)保存を大規模なクラウド企業に代わってユーザー自身が行えるようになりました。Wasabiは様々な種類のデータに対応しているため、Snowflakeのデータレイク・ソリューションにも大きく貢献しています。

Snowflakeのサービスはクラウドベースのデータ分析を提供することに特化しており、ユーザーはリアルタイムの洞察を確認しながら、ビジネスを包括的に理解することができます。

さらに、Snowflakeでデータレイクを構築しているユーザーは、Wasabiの「外部ステージ」を作成できるようになりました。Snowflakeでは、ストレージ内におけるデータファイルの場所を「ステージ」と呼びます。ステージには、内部・外部の二種類があります。内部ステージはユーザーが保持するSnowflakeアカウントの一部であり、テーブルからデータファイルをロードおよびアンロードする際、中間の格納場所として使用されます。つまり、データを取り込むフェーズにおいて、ユーザーがファイルを配置するフォルダとお考えください。一方、外部ステージはSnowflakeサービスの外部に置くができ、ユーザーが所有、管理、支払いを行います。このステージのストレージ消費に関する料金は、Snowflakeではなく、AWS、Google、Microsoft、もしくはWasabiから請求されます。

SnowflakeにWasabiの外部ステージが追加されたことで、ユーザーは以下ふたつのユースケースに対応できるようになりました。

  1. 非構造化データを保存し、Snowflakeのデータベーステーブルへの入力に使用する

  2. Snowflakeの外部テーブルを保存し、他のユーザーと共有する

Enterprise-Cloud-Storage-Pyramid


外部テーブルとSnowflakeのクロスクラウド機能によって、特定のクラウドやリージョンに限定されない状態でデータを保存することができるようになりました。このようなマルチクラウド環境は、金融サービス、メディア、エンタメ、医療など、連携が不可欠な業界・事例においてとても役立ちます。例えば、AWS上でSnowflakeを実行しながら外部テーブルをWasabiに保存しているユーザーは、異なるリージョンおよびクラウド上でSnowflakeを実行している他のユーザーとそのテーブルを共有することができます。これが、真のマルチクラウド設計です。

Snowflakeのデータレイクにおいて、外部ステージとしてWasabiを活用すると、データのアップロードに余分なAWS S3料金が発生することもありません。こういった料金は、非常に高くつく場合があります。例えば、医療機関では、医師の手書きメモのPDF、保険証や処方箋のスクリーンショット、コールセンターの録音などを保存することがあります。こういったデータは膨大な量に相当するため、アップロード代として高額なAWS S3料金が請求されるかもしれません。さらに、AWS S3バケット内のオブジェクトに対するLISTリクエストにも費用が掛かります。一方、WasabiではAPIリクエストに対する料金が一切発生しません。そのため、請求書に書かれた金額を見て驚かされることがなくなります。Wasabiのクラウドストレージにかかるコストは予測可能なため、予算が立てやすくなります。

データファイルがWasabiの外部ステージにアップロードされると、Simple Notification Service (SNS)からSnowpipe(Snowflakeにおいて継続的にデータをロードする機能)へ通知が届き、新規ファイルとしてAWSアカウント内のSnowflakeデータベーステーブルへ自動的にコピーされます。

Snowpipe


組織では、生の非構造化データを安価な形で保存しながら、必要に応じて後から構造を追加する必要があります。こうすることでビジネスインテリジェンスのニーズへ迅速に対応できるほか、データが元の形式で必要になった際にも困らないよう、データの忠実性も確保されます。

Wasabiでは、テラバイトあたりの料金は月額6.99ドルです。これは、AWS S3、Azure Blob、Googleのオブジェクトストレージにかかる金額よりもおよそ80%安価です。AWS S3では、使用するリージョンによってテラバイトあたり毎月20ドル~25ドルの費用が掛かります。

先述したとおり、外部ステージを使用する際は、AWS、Azure、Google、Cloudflare R2ではAPI料金・オペレーション料金が適用されます。Wasabiでは、APIリクエストにかかる料金が無償化されています。

パートナーや顧客、リモートワーカーが外部テーブルを共有しながら非構造化データを入力する場合、 AWS、Azure、Googleでは下り転送料が発生します。マルチクラウド環境に移行したくても、この下り転送料がネックになることがよくあります。下り転送料を回避しようとして、データの共有や外部からのアクセスを制限すると、本来得られるはずだった価値やビジネスインテリジェンスに関する洞察を失うことになります。一方、Wasabiでは下り転送料なしでマルチクラウド環境を実現することができます。これによってSnowflakeユーザーは、特定の要件(費用対効果、地理的な範囲、コンプライアンス要件、特殊なサービスなど)に基づきながら、異なるクラウドプロバイダーを活用することができます。

SnowflakeにおけるWasabiの活用に関して、より詳しい情報はこちらのWasabi Knowledge Base articleをご確認ください。

accademic
ジェネラルSINET6経由でWasabiが利用できるようになりました!

データ活用を加速させる「構造化データ」と「非構造化データ」とは?