Post-Job (ELT)


Post-Job (ELT)


ELT とは?

ELT(Extract(抽出)、Load(ロード)、Transform(変換))は、変換などのデータの変更がロード処理後に行われるデータ抽出の手法です。現代のクラウドデータウェアハウスはストレージとスケーラビリティを備えているため、データすべてを移動して、その後変更を加えることができます。ELT 変換により、カラム名の変更、SQL 関数の適用によるデータ値の変更、および同期先カラムへのそれらのマッピングが可能になります。Sync データパイプライン内で直接計算される新しい値を追加することもできます。

ELT とETL (Extract, Transform, Load) の主な違いは、手順を実行する順序です。ELT にはETL と比較して多くの利点があります。

  • パフォーマンス:現代のデータベースには膨大なストレージが備わっているため、ELT で、変更を実装する前に更新されたデータをすべて移動することができます。データを事前に整形したり加工する必要がないので、これまでのETL の手法と比べて変換のスピードや効率が大幅に上昇します。
  • シンプルさ:大量のデータを移動する必要がある際には、ELT は変換処理をストリーム化してシンプルにします。

変換ページ

変換ページを開くには、CData Sync 上部のメニューバーから変換をクリックします。

Nav バー

変換ページでは、以下が可能です。

  • 新しい変換の追加
  • 設定済みの変換のリストを表示
  • 変換の編集および削除
  • クエリの実行

変換の追加

新しい変換を追加するには、

  1. [変換を追加]ボタンをクリックします。
  2. [新しい変換を作成]モーダルが表示されるので、変換名を入力して関連付ける接続を選択します。 3[作成]をクリックします。

変換を追加

変換の詳細ページ

変換の詳細ページは2つのセクションで構成されています。

  • 接続 接続を表示します。編集はできません。
  • ジョブ設定 以下で説明する4つの設定タブがあります。

タスク

[タスク]タブでは、変換の一部として実行されるクエリを管理できます。[設定]をクリックして、変換を入力してください。セミコロン(;)で区切ることで、複数のステートメントを入力できます。複数のステートメントを入力すると、ステートメントは順次実行される個別のタスクにパースされます。ログは実行されるステートメント毎に記録されます。

トリガー

[トリガー]セクションでは、変換をスケジュール に従って実行、または特定のジョブの完了後に実行するよう設定できます。After Job を設定する場合、変換のトリガーとなるジョブを選択し、オプションでそのジョブ内のタスクのリストを選択します。タスクが選択されていない場合、変換はジョブ完了後に実行されます。1つ以上のタスクが選択されている場合、同期先に新しいデータがロードされた場合のみ、ジョブ完了後に変換が実行されます。

通知

変換はジョブ実行の完了時にE メール通知を送信するように設定できます。メールサーバーの構成の詳細は、通知を参照してください。

ログと履歴

[ログ]セクションでは、現在実行中の変換をモニタし以前の変換をレビューできます。Verbosity の各レベルに含まれる情報とログファイルの取得方法についての詳細は、ログと履歴を参照してください。

全データベース用のサンプルクエリ

重複レコード

CREATE OR REPLACE TABLE dbo.Accounts_Deduplicated as (
  SELECT *, row_number() over (partition by id order by modified desc) as duplicate_rank 
  FROM dbo.Accounts
);	
DELETE FROM dbo.Accounts_Deduplicated	WHERE duplicate_rank > 1;