Cloudera Altusの概要

Cloudera Altusは、パブリッククラウドインフラストラクチャー内でCDHを使って大規模なデータの分析や処理を行えるサービスを持つクラウドサービスプラットフォームです。Cloudera Altusは、クラウド上でクラスターを高速にプロビジョニングし、データのワークロードの構成と実行が容易になるように設計されています。

Altusは、様々なデータエンジニアリングのワークロードに対応できるよう、MapReduce2(MR2)、Hive on MR2、Spark、Hive-on-Spark(HoS)といった複数の分散処理のエンジンの選択肢を用意しています。ユーザーの皆様は、ETL、機械学習、大規模なデータ処理といったワークロードをこれらの分散処理エンジンで管理できます。

Altusは、クラウドサービスプロバイダーのアーキテクチャー内で動作します。AltusはユーザーのAWSアカウント内のVPCにクラスターを構築し、AltusのジョブはAmazon S3に対してデータの読み書きを行います。

Altusは、Webユーザーインターフェースと共にコマンドラインインターフェース(CLI)も提供しています。クラスターの作成やクラスター上でのジョブの実行といったタスクは、AltusコンソールやCLIから行えます。Altusコンソールは、Environmentやアカウントのセットアップなどの管理タスクも行えるようになっています。

Altusは、ETLやバッチ処理のジョブなど、特にデータサイエンスやデータエンジニアリングのワークロードのためのクラスターの作成及びジョブの実行を可能にするData Engineeringサービスを提供しています。

Altusの機能

Cloudera Altusは、以下の機能を提供します。

Environment
Altus Environmentは、ユーザーのAWS環境内でAltusのクラスター及びジョブが利用するリソースを定義します。管理者は、他のユーザーに対して個別にAltus Environmentをセットアップして割り当て、利用を許可したAWSアカウント及びリソースだけをセキュアに利用してもらうことができます。
  • クラスターのデプロイメントのためのAWSのアカウントとリソースの指定
  • 単一のAltusアカウントから複数のAWSアカウントへのクラスターのプロビジョニング
  • ユーザー単位でのAltus Environmentへの権限の指定
ユーザー管理
ユーザーのAltusでの権限やリソースへのアクセス権は、ロールをユーザーに割り当てることで管理できます。Altusには、データエンジニアと管理者に割り当てることができるロールが、あらかじめ定義されています。
  • ユーザーの認可及びアクセス権の管理
  • 管理者とデータエンジニアのためのロール
クラスター
Altusは、ユーザーのAWSアカウントに対して単一ユーザーの一時的なクラスターをプロビジョニングします。ジョブの処理に適したコンピュートエンジンを使うようなクラスターの設定及び構築も容易です。
  • データエンジニアリングクラスターの高速かつ容易なプロビジョニング
  • コンピュートエンジンとしてHive、Spark、MapReduce2(MR2)、Hive on Sparkをサポート
  • クラスターごとのジョブキュー
  • クラスターごとに1つのパイプラインを持つワークフロー
ジョブ
ユーザーは、自分のAWSアカウント内で必要なサービスを含むクラスターにジョブを投入して実行させることができます。
  • ジョブ中心のモデル:投入、トラブルシューティング、複製、終了、履歴の表示
  • クラスターの作成、ジョブの処理、クラスターの終了を一度に行えるAPIが利用可能
  • エラー発生時にジョブのパイプラインを終了させることが可能
  • 直接Amazon S3のデータを読み書きして顧客のデータを処理
  • トラブルシューティングとモニタリング:
    • Cloudera Managerのモニタリング、メトリクス、ジョブ履歴サーバーへのアクセスが可能
    • サーバー及びワークロードログファイルをAmazon S3にアーカイブ可能
  • ワークロード分析:ジョブのパフォーマンスのモニタリングと最適化、そしてトラブルシューティング
  • スポットインスタンスをコンピュートワーカーノードとして利用可能