Azure Data Lake Storage

Version 25.3.9414


Azure Data Lake Storage


CData Sync アプリケーションからAzure Data Lake Storage コネクタを使用して、Azure Data Lake Storage からデータを取得してサポートされている任意の同期先に移動できます。これを行うには、コネクタを追加し、コネクタへの認証を行い、接続を完了する必要があります。

Supported File Formats

When Sync writes data to Azure Data Lake Storage, you can choose the file format for the exported data. The following file formats are supported for the Azure Data Lake Storage destination:

  • (Default) CSV—Plain text comma-separated values.

  • Avro—A row-based binary format that supports schema evolution.

  • Parquet—A columnar storage format that is optimized for analytics.

Azure Data Lake Storage コネクタを追加

Sync でAzure Data Lake Storage のデータを使用できるようにするには、まず以下の手順でコネクタを追加する必要があります。

  1. Sync のダッシュボードから接続ページを開きます。

  2. 接続を追加をクリックしてコネクタを選択ページを開きます。

  3. データソースタブをクリックしてAzure Data Lake Storage 行に移動します。

  4. 行末にある接続を設定アイコンをクリックして、新しい接続ページを開きます。接続を設定アイコンが利用できない場合は、コネクタをダウンロードアイコンをクリックしてAzure Data Lake Storage コネクタをインストールします。新規コネクタのインストールについて詳しくは、接続を参照してください。

Azure Data Lake Storage への認証

コネクタを追加したら、必須プロパティを設定する必要があります。

  • Connection Name: Enter a connection name of your choice.

  • File Format: Select the file format that you want to use: Delta Parquet, CSV (default), Avro, and Parquet.

    Note: The Delta Parquet file format is not supported for Sync source connectors.

  • Azure Storage Account: Enter the name of your Azure storage account.

  • URI: Enter the path of the file system and folder that contains your files (for example, abfss://MyFileSystem/FolderName).

CData Sync supports authenticating to Azure Data Lake Storage in several ways. Select your authentication method below to proceed to the relevant section that contains the authentication details.

Azure Active Directory

To connect with an Azure Active Directory (AD) user account, specify the following properties:

  • Auth Scheme: Select AzureAD.

  • Use Lake Formation: Select True if you want the AWS Lake Formation service to retrieve temporary credentials. These temporary credentials enforce access policies against the user based on the configured IAM role. You can use this service when you authenticate through AzureAD, Okta, ADFS, and PingFederate, while providing a Security Assertion Markup Language (SAML) assertion. The default setting for Use Lake Formation is False.

Azure Managed Service Identity

Azure 仮想マシン上でCData Sync が実行されている場合にAzure マネージドサービスID(MSI)を利用するには、Auth SchemeAzure MSI を選択します。追加のプロパティは必要ありません。

Azure Service Principal

To connect with an Azure service principal and client secret, set the following properties:

  • Auth Scheme: Select AzureServicePrincipal.

  • Azure Tenant: Enter the Microsoft Online tenant to which you want to connect.

  • OAuth Client Id: Enter the client Id that you were assigned when you registered your application with an OAuth authorization server.

  • OAuth Client Secret: Enter the client secret that you were assigned when you registered your application with an OAuth authorization server.

  • (Optional) Scope: Specify the scope of your access to the application.

  • (Optional) OAuth Authorization URL: Enter the OAuth authorization URL for the OAuth service.

  • (Optional) OAuth Access Token URL: Enter the URL from which to retrieve the access token.

  • (Optional) OAuth Refresh Token URL: Enter the URL from which to refresh the OAuth token.

To obtain the OAuth client Id and client secret for your application:

  1. Log in to the Azure portal.

  2. In the left navigation pane, select All services. Then, search for and select App registrations.

  3. Click New registrations.

  4. Enter an application name and select Any Azure AD Directory - Multi Tenant.

  5. After you create the application, copy the application (client) Id value that is displayed in the Overview section. Use this value as the OAuth client Id.

  6. Navigate to the Certificates & Secrets section and select New Client Secret for the application.

  7. Specify the duration and save the client secret. After you save it, the key value is displayed.

  8. Copy this value because it is displayed only once. You will use this value as the OAuth client secret.

  9. On the Authentication tab, make sure to select Access tokens (used for implicit flows).

Azure Service Principal Certificate

To connect with an Azure service principal and client certificate, set the following properties:

  • Auth Scheme: Select AzureServicePrincipalCert.

  • Azure Tenant: Enter the Microsoft Online tenant to which you want to connect.

  • OAuth JWT Cert – Enter your Java web tokens (JWT) certificate store.

  • OAuth JWT Cert Type – Enter the type of key store that contains your JWT Certificate. The default type is PEMKEY_BLOB.

  • OAuth Client Id - Enter the client Id that you were assigned when you registered your application with an OAuth authorization server.

  • (Optional) Scope: Specify the scope of your access to the application.

  • (Optional) OAuth Authorization URL: Enter the OAuth authorization URL for the OAuth service.

  • (Optional) OAuth Access Token URL: Enter the URL from which to retrieve the access token.

  • (Optional) OAuth Refresh Token URL: Enter the URL from which to refresh the OAuth token.

  • (Optional) OAuth JWT Cert Password: Enter the password for your OAuth JWT certificate.

  • (Optional) OAuth JWT Cert Subject: Enter the subject of your OAuth JWT certificate.

To obtain the OAuth certificate for your application:

  1. Log in to the Azure portal.

  2. In the left navigation pane, select All services. Then, search for and select App registrations.

  3. Click New registrations.

  4. Enter an application name and select Any Azure AD Directory - Multi Tenant.

  5. After you create the application, copy the application (client) Id value that is displayed in the Overview section. Use this value as the OAuth client Id.

  6. Navigate to the Certificates & Secrets section and select Upload certificate. Then, select the certificate to upload from your local machine.

  7. Specify the duration and save the client secret. After you save it, the key value is displayed.

  8. Copy this value because it is displayed only once. You will use this value as the OAuth client secret.

  9. On the Authentication tab, make sure to select Access tokens (used for implicit flows).

Azure Access Key

Azure のアクセスキーで接続するには、次のプロパティを設定します。

  • Auth Scheme:Access Key を選択。

  • Azure Access Key:ストレージアカウントに関連付けられているアクセスキーを入力。

アクセスキーを取得するには:

  1. Azure ポータルにルートアカウントの資格情報を使用してサインインします。

  2. ストレージ アカウントをクリックして、使用するストレージアカウントを選択します。

  3. 設定アクセス キーをクリックします。ページ上にストレージ アカウント名とキーが表示されます。

Azure Shared Access Signature

Azure の共有アクセス署名で接続するには、次のプロパティを設定します。

  • Auth Scheme:AzureStorageSAS を選択。

  • Azure Shared Access Signature:ストレージアカウントに関連付けられている共有アクセス署名を入力。

Azure 共有アクセス署名を作成するには:

  1. Azure ポータルにルートアカウントの資格情報を使用してサインインします。

  2. ストレージ アカウントをクリックして、使用するストレージアカウントを選択します。

  3. 設定Shared Access Signature をクリックします。

  4. アクセスポリシーとトークンの有効期限を設定します。

  5. SAS の生成をクリックし、生成されたトークンをコピーします。

Complete Your Connection

To complete your connection:

  1. Specify the following properties:

    For the CSV file format:

    • FMT: Enter the format that you want to use to parse all text files. The default format is CsvDelimited.

    • Aggregate Files: Specify whether you want to aggregate all the files that are located in the URI directory and that have the same schema into a single table named AggregatedFiles. The default option is False.

    • Include Column Headers: Specify whether you want to obtain column headers from the first lines of the specified files. The default option is True.

    For the Avro and Parquet file formats:

    • Data Model: Select the data model that you want to use to parse documents for your format and to generate the database metadata. The default data model is Document.

    • Aggregate Files: Specify whether you want to aggregate all the files that are located in the URI directory and that have the same schema into a single table named AggregatedFiles. The default option is False.

  2. 高度な設定タブで接続の高度な設定を定義します。(ただし、ほとんどの場合これらの設定は必要ありません。)

  3. AzureAD で認証する場合は、Azure Data Lake Storage への接続 をクリックしてAzure Data Lake Storage アカウントに接続します。

  4. 作成およびテストをクリックして接続を作成します。