AWS Glue と AWS Lambda ユーザー定義関数を使用して Amazon Redshift の機密データを保護するために列レベルの暗号化を実装する

プラトン再発行

フォロワー： 0

Amazonレッドシフトは超並列処理 (MPP) の完全マネージド型のペタバイト規模のデータウェアハウスであり、既存のビジネスインテリジェンスツールを使用してすべてのデータを簡単かつ費用対効果の高い方法で分析できます。

企業がデータウェアハウジングソリューションを Amazon Redshift に合わせてモダナイズしている場合、個人を特定できる情報 (PII) や保護対象の医療情報 (PHI) などの機密データに追加のデータ保護メカニズムを実装することが一般的な要件です。厳格なデータセキュリティとプライバシーの義務。 Amazon Redshift は、ロールベースのアクセス制御、行レベルのセキュリティ、列レベルのセキュリティ、および動的データマスキングを、その他のデータベースセキュリティ機能とともに提供し、組織がきめ細かいデータセキュリティを適用できるようにします。

セキュリティに敏感なアプリケーションでは、デフォルトのサーバー側の暗号化 (保存データの暗号化) に加えて、機密データをきめ細かく保護するために、列レベル (またはフィールドレベル) の暗号化が必要になることがよくあります。つまり、機密データは常にディスク上で暗号化され、適切な権限を持つユーザーがデータの復号化を要求するまでメモリ内で暗号化されたままにする必要があります。列レベルの暗号化は、特定のユーザーまたはアプリケーションのみがアクセスできるように、システム処理全体で機密データを保護する追加のセキュリティレイヤーを提供します。この暗号化により、データを必要としており、データを復号化するために必要な資格情報を持っている承認済みのプリンシパルのみが、データを復号化できるようになります。

この投稿では、Amazon Redshift で独自の列レベルの暗号化メカニズムを実装する方法を示します。 AWSグルーデータを Amazon Redshift にロードする前に機密データを暗号化し、使用する AWSラムダとしてユーザー定義関数 (UDF) を Amazon Redshift で使用して、標準の SQL ステートメントを使用してデータを復号化します。 Lambda UDF は、Lambda でサポートされている任意のプログラミング言語 (Java、Go、PowerShell、Node.js、C#、Python、Ruby、カスタムランタイムなど) で記述できます。 Lambda UDF は、SELECT、UPDATE、INSERT、DELETE などの任意の SQL ステートメント、およびスカラー関数が許可されている SQL ステートメントの任意の句で使用できます。

ソリューションの概要

次の図は、ソリューションアーキテクチャを示しています。

このアーキテクチャをセットアップする方法を説明するために、次の手順を説明します。

合成 PII データを含むサンプルデータファイルを Amazon シンプルストレージサービス（Amazon S3）バケット。
サンプルの 256 ビットデータ暗号化キーが生成され、安全に保存されます。 AWSシークレットマネージャー.
AWS Glue ジョブは、S3 バケットからデータファイルを読み取り、Secrets Manager からデータ暗号化キーを取得し、PII 列のデータ暗号化を実行し、処理されたデータセットを Amazon Redshift テーブルにロードします。
Secrets Manager から同じデータ暗号化キーを参照する Lambda 関数を作成し、受信したペイロードデータのデータ復号化ロジックを実装します。
Lambda 関数は、ラムダ UDF 適切な AWS IDおよびアクセス管理 (IAM) Amazon Redshift クラスターが引き受けることを承認されているロール。
以下を使用してサンプルクエリを発行することにより、データ復号化機能を検証できます。 AmazonRedshiftクエリエディターv2.0. 必要に応じて、独自の SQL クライアントまたはビジネスインテリジェンスツールでテストすることもできます。

前提条件

ソリューションをデプロイするには、次の前提条件を満たしていることを確認してください。

一つ持っている AWSアカウント. この投稿では、次を使用して必要な AWS リソースを構成します。 AWS CloudFormation セクションに us-east-2 領域。
Amazon S3、AWS Glue、Amazon Redshift、Secrets Manager、Lambda、および AWS クラウド9.

AWSCloudFormationを使用してソリューションをデプロイする

次の手順を実行して、CloudFormation テンプレートを使用して必要な AWS リソースをプロビジョニングします。

AWSアカウントにサインインします。
選択する 発射スタック:
AWS リージョンに移動します (たとえば、 us-east-2).
スタック名、スタックの名前を入力するか、デフォルトのままにします (aws-blog-redshift-column-level-encryption).
RedshiftMasterユーザー名、Amazon Redshift クラスターの管理者ユーザーアカウントのユーザー名を入力するか、デフォルトのままにします (master).
Redshiftマスターユーザーのパスワードで、Amazon Redshift クラスターの管理者ユーザーアカウントの強力なパスワードを入力します。
選択 AWS CloudFormationがIAMリソースを作成する可能性があることを認めます.
選択する スタックを作成.

CloudFormation スタックの作成プロセスが完了するまでに約 5 ～ 10 分かかります。

スタックの作成が完了すると、スタック上に出力タブで、次の値を記録します。
1. AWSCloud9IDE
2. AmazonS3BucketForDataUpload
3. IAMRoleForRedshiftLambdaUDF
4. LambdaFunctionName

サンプルデータファイルを Amazon S3 にアップロードする

列レベルの暗号化機能をテストするには、合成データのサンプルによって生成されますモッカルー. サンプルデータセットには、合成 PII と、電話番号、電子メールアドレス、クレジットカード番号などの機密フィールドが含まれています。この投稿では、クレジットカード番号フィールドを暗号化する方法を示しますが、独自の要件に応じて他の PII フィールドに同じ方法を適用できます。

CloudFormation スタックのセットアップ中に、AWS Cloud9 インスタンスがプロビジョニングされます。 AWS Cloud9 コンソールから、またはキーを使用して CloudFormation スタック出力から取得した URL にアクセスして、インスタンスにアクセスできます。 AWSCloud9IDE.

AWS Cloud9 ターミナルで、次のコマンドを実行してサンプルデータセットを S3 バケットにコピーします。

S3_BUCKET=$(aws s3 ls| awk '{print $3}'| grep awsblog-pii-data-input-)
aws s3 cp s3://aws-blogs-artifacts-public/artifacts/BDB-2274/pii-sample-dataset.csv s3://$S3_BUCKET/

シークレットを生成し、Secrets Manager を使用して保護します

データ暗号化キーとして使用する 256 ビットのシークレットを生成します。次の手順を完了します。

AWS Cloud9 環境で新しいファイルを作成します。

次のコードスニペットを入力します。私たちは、暗号パッケージを使用してシークレットを作成し、 AWS SDK for Python（Boto3） Secrets Manager でシークレット値を安全に保存するには:

from cryptography.fernet import Fernet
import boto3
import base64 key = Fernet.generate_key()
client = boto3.client('secretsmanager') response = client.create_secret( Name='data-encryption-key', SecretBinary=base64.urlsafe_b64decode(key)
) print(response['ARN'])

ファイル名を付けてファイルを保存します generate_secret.py (またはで終わる任意の名前 .py).
以下を実行して、必要なパッケージをインストールします。 pip install ターミナルでのコマンド：
```
pip install --user boto3
pip install --user cryptography
```
次のコマンドを使用して Python スクリプトを実行し、シークレットを生成します。
```
python generate_secret.py
```

Amazon Redshift でターゲットテーブルを作成する

CloudFormation スタックのセットアップ中に、単一ノードの Amazon Redshift クラスターがプロビジョニングされます。暗号化された PII 列を含むデータセットを格納するためのターゲットテーブルを作成するには、次の手順を実行します。

Amazon Redshift コンソールで、プロビジョニングされたクラスターのリストに移動し、クラスターを選択します。
クラスタに接続するには、 クエリデータ ドロップダウンメニュー、選択 クエリエディタv2でのクエリ.
Amazon Redshift Query Editor V2 を初めて使用する場合は、[デフォルト設定] を選択して受け入れます。 アカウントを構成する.
クラスターに接続するには、クラスター名を選択します。
データベース、入る demodb.
ユーザー名、入る master.
パスワード 、パスワードを入力してください。

CloudFormation の設定に従って、ユーザー名とパスワードを変更する必要がある場合があります。

選択する 接続を作成する.

クエリエディターで、次の DDL コマンドを実行して、次の名前のテーブルを作成します。 pii_table:

CREATE TABLE pii_table( id BIGINT, full_name VARCHAR(50), gender VARCHAR(10), job_title VARCHAR(50), spoken_language VARCHAR(50), contact_phone_number VARCHAR(20), email_address VARCHAR(50), registered_credit_card VARCHAR(50)
);

ベストプラクティスとして、可能な限り小さい列サイズを使用することをお勧めします。特定のユースケースごとに、これらのテーブル定義を変更する必要がある場合があります。必要以上に大きな列を作成すると、データテーブルのサイズに影響を与え、クエリのパフォーマンスに影響を与えます。

AWS Glue でソースと宛先の Data Catalog テーブルを作成する

CloudFormation スタックは、3 つの AWS Glue データクローラーをプロビジョニングしました。XNUMX つは Amazon SXNUMX データソース用で、もう XNUMX つは Amazon Redshift データソース用です。クローラーを実行するには、次の手順を実行します。

AWS Glue コンソールで、選択します Crawlers ナビゲーションペインに表示されます。
という名前のクローラーを選択します glue-s3-crawler、を選択します クローラーを実行する クローラージョブをトリガーします。
という名前のクローラーを選択します glue-redshift-crawler、を選択します クローラーを実行する.

クローラーが完成したら、 テーブル類 結果を確認するためのページ。の下に登録された XNUMX つのテーブルが表示されます。 demodb データベース。

AWS Glue ETL ジョブを作成してデータ暗号化を実行する

CloudFormation スタックのセットアップの一部として AWS Glue ジョブがプロビジョニングされますが、抽出、変換、ロード (ETL) スクリプトは作成されていません。 ETL スクリプトを作成し、 /glue-script AWS Glue ジョブを実行するために、プロビジョニングされた S3 バケットの下のフォルダ。

AWS Cloud9 コンソールを使用するか、キーを使用して CloudFormation スタック出力から取得した URL にアクセスして、AWS Cloud9 環境に戻ります。 AWSCloud9IDE.

私たちは、使用悪口 AES-SIV 暗号化アルゴリズムを使用して決定論的暗号化を実装するためのパッケージです。これは、任意のプレーンテキスト値に対して、生成された暗号化された値が常に同じであることを意味します。この暗号化アプローチを使用する利点は、ポイントルックアップ、等価結合、グループ化、および暗号化された列のインデックス作成が可能になることです。ただし、決定論的暗号化を性別、ブール値、ステータスフラグなどのカーディナリティの低いデータに適用する場合は、潜在的なセキュリティへの影響にも注意する必要があります。

AWS Cloud9 環境で新しいファイルを作成し、次のコードスニペットを入力します。

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.dynamicframe import DynamicFrameCollection
from awsglue.dynamicframe import DynamicFrame import boto3
import base64
from miscreant.aes.siv import SIV
from pyspark.sql.functions import udf, col
from pyspark.sql.types import StringType args = getResolvedOptions(sys.argv, ["JOB_NAME", "SecretName", "InputTable"])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args["JOB_NAME"], args) # retrieve the data encryption key from Secrets Manager
secret_name = args["SecretName"] sm_client = boto3.client('secretsmanager')
get_secret_value_response = sm_client.get_secret_value(SecretId = secret_name)
data_encryption_key = get_secret_value_response['SecretBinary']
siv = SIV(data_encryption_key) # Without nonce, the encryption becomes deterministic # define the data encryption function
def pii_encrypt(value): if value is None: value = "" ciphertext = siv.seal(value.encode()) return base64.b64encode(ciphertext).decode('utf-8') # register the data encryption function as Spark SQL UDF udf_pii_encrypt = udf(lambda z: pii_encrypt(z), StringType()) # define the Glue Custom Transform function
def Encrypt_PII (glueContext, dfc) -> DynamicFrameCollection: newdf = dfc.select(list(dfc.keys())[0]).toDF() # PII fields to be encrypted pii_col_list = ["registered_credit_card"] for pii_col_name in pii_col_list: newdf = newdf.withColumn(pii_col_name, udf_pii_encrypt(col(pii_col_name))) encrypteddyc = DynamicFrame.fromDF(newdf, glueContext, "encrypted_data") return (DynamicFrameCollection({"CustomTransform0": encrypteddyc}, glueContext)) # Script generated for node S3 bucket
S3bucket_node1 = glueContext.create_dynamic_frame.from_catalog( database="demodb", table_name=args["InputTable"], transformation_ctx="S3bucket_node1",
) # Script generated for node ApplyMapping
ApplyMapping_node2 = ApplyMapping.apply( frame=S3bucket_node1, mappings=[ ("id", "long", "id", "long"), ("full_name", "string", "full_name", "string"), ("gender", "string", "gender", "string"), ("job_title", "string", "job_title", "string"), ("spoken_language", "string", "spoken_language", "string"), ("contact_phone_number", "string", "contact_phone_number", "string"), ("email_address", "string", "email_address", "string"), ("registered_credit_card", "long", "registered_credit_card", "string"), ], transformation_ctx="ApplyMapping_node2",
) # Custom Transform
Customtransform_node = Encrypt_PII(glueContext, DynamicFrameCollection({"ApplyMapping_node2": ApplyMapping_node2}, glueContext)) # Script generated for node Redshift Cluster
RedshiftCluster_node3 = glueContext.write_dynamic_frame.from_catalog( frame=Customtransform_node, database="demodb", table_name="demodb_public_pii_table", redshift_tmp_dir=args["TempDir"], transformation_ctx="RedshiftCluster_node3",
) job.commit()

スクリプトをファイル名で保存します pii-data-encryption.py.

次のコマンドを実行して、スクリプトを目的の S3 バケットの場所にコピーします。

S3_BUCKET=$(aws s3 ls| awk '{print $3}'| grep awsblog-pii-data-input-)
aws s3 cp pii-data-encryption.py s3://$S3_BUCKET/glue-script/pii-data-encryption.py

スクリプトが正常にアップロードされたことを確認するには、 Jobs > Create New Job AWS Glue コンソールのページ。次の名前のジョブを見つけることができるはずです。 pii-data-encryption-job.
選択するラン AWS Glue ジョブをトリガーします。まず、AWS Glue データカタログに登録されている S3 バケットからソースデータを読み取り、次に列マッピングを適用してデータを期待されるデータ型に変換し、続いて PII フィールドの暗号化を実行し、最後に暗号化されたデータをターゲット Redshift テーブルに追加します。このサンプルデータセットでは、プロセス全体が 5 分以内に完了するはずです。に切り替えることができます Active Runs タブでジョブのステータスを監視します。

データ復号化を実行するように Lambda 関数を設定する

CloudFormation スタックのセットアップ中に、データ復号ロジックを備えた Lambda 関数がデプロイされます。関数は Lambda コンソールで見つけることができます。

以下は、Lambda 関数で使用される Python コードです。

import boto3
import os
import json
import base64
import logging
from miscreant.aes.siv import SIV logger = logging.getLogger()
logger.setLevel(logging.INFO) secret_name = os.environ['DATA_ENCRYPT_KEY'] sm_client = boto3.client('secretsmanager')
get_secret_value_response = sm_client.get_secret_value(SecretId = secret_name)
data_encryption_key = get_secret_value_response['SecretBinary'] siv = SIV(data_encryption_key) # Without nonce, the encryption becomes deterministic # define lambda function logic
def lambda_handler(event, context): ret = dict() res = [] for argument in event['arguments']: encrypted_value = argument[0] try: de_val = siv.open(base64.b64decode(encrypted_value)) # perform decryption except: de_val = encrypted_value logger.warning('Decryption for value failed: ' + str(encrypted_value)) res.append(json.dumps(de_val.decode('utf-8'))) ret['success'] = True ret['results'] = res return json.dumps(ret) # return decrypted results

Lambda 関数を独自にデプロイする場合は、必ず悪口あなたのパッケージ展開パッケージ.

Amazon Redshift で Lambda UDF を登録する

Lambda で定義されたカスタム関数を SQL クエリの一部として使用する Lambda UDF を作成できます。 Lambda UDF は Lambda で管理され、アクセス権限を制御して、Amazon Redshift でこれらの UDF を呼び出すことができます。

Amazon Redshift Query Editor V2 に戻り、Lambda UDF を登録します。

CREATE EXTERNAL FUNCTION コマンドを実行し、Amazon Redshift クラスターが引き受けて Lambda を呼び出すことが承認されている IAM ロールを提供します。

CREATE OR REPLACE EXTERNAL FUNCTION pii_decrypt (value varchar(max))
RETURNS varchar STABLE
LAMBDA '<--Replace-with-your-lambda-function-name-->'
IAM_ROLE '<--Replace-with-your-redshift-lambda-iam-role-arn-->';

CloudFormation スタックで Lambda 名と Amazon Redshift IAM ロールを見つけることができます出力タブ：

LambdaFunctionName
IAMRoleForRedshiftLambdaUDF

Amazon Redshift で列レベルの暗号化機能を検証する

デフォルトでは、新しい Lambda UDF を実行する権限が付与されています PUBLIC. 新しく作成した UDF の使用を制限するには、 PUBLIC 次に、特定のユーザーまたはグループに権限を付与します。 Lambda UDF のセキュリティと権限の詳細については、次を参照してください。 Lambda UDF のセキュリティと権限の管理.

あなたは superuser または持っている sys:secadmin 次の SQL ステートメントを実行するロール:

GRANT SELECT ON "demodb"."public"."pii_table" TO PUBLIC;
CREATE USER regular_user WITH PASSWORD '1234Test!';
CREATE USER privileged_user WITH PASSWORD '1234Test!';
REVOKE EXECUTE ON FUNCTION pii_decrypt(varchar) FROM PUBLIC;
GRANT EXECUTE ON FUNCTION pii_decrypt(varchar) TO privileged_user;

まず、実行します SELECT 非常に機密性の高いデータフィールド、この場合は registered_credit_card 列は、Amazon Redshift テーブルで暗号化されるようになりました。

SELECT * FROM "demodb"."public"."pii_table";

Lambda UDF を使用する権限が付与されていない通常のデータベースユーザーの場合、Lambda UDF を使用しようとすると、権限が拒否されたというエラーが表示されます。 pii_decrypt() 関数：

SET SESSION AUTHORIZATION regular_user;
SELECT *, pii_decrypt(registered_credit_card) AS decrypted_credit_card FROM "demodb"."public"."pii_table";

データの復号化に Lambda UDF を使用する権限を付与された特権データベースユーザーは、 pii_decrypt() 関数：

SET SESSION AUTHORIZATION privileged_user;
SELECT *, pii_decrypt(registered_credit_card) AS decrypted_credit_card FROM "demodb"."public"."pii_table";

オリジナル registered_credit_card に示すように、値を正常に取得できます。 decrypted_credit_card コラム。

清掃

今後料金が発生しないようにするには、この投稿の一部として作成したすべての AWS リソースを必ずクリーンアップしてください。

CloudFormation スタックは、AWS CloudFormation コンソールまたは AWSコマンドラインインターフェイス (AWS CLI)。デフォルトのスタック名は aws-blog-redshift-column-level-encryption.

まとめ

この投稿では、Amazon Redshift にカスタムの列レベルの暗号化ソリューションを実装する方法を示しました。これにより、クラウドデータウェアハウスに保存された機密データに追加の保護レイヤーが提供されます。 CloudFormation テンプレートを使用すると、特定のビジネスシナリオに合わせてさらにカスタマイズできるデータパイプラインを簡単にセットアップできます。また、AWS Glue ETL コードを変更して、複数のデータフィールドを同時に暗号化したり、異なる列に異なるデータ暗号化キーを使用してデータセキュリティを強化したりすることもできます。このソリューションを使用すると、人間のアクターがデータウェアハウスにプレーンテキストで格納されている機密データにアクセスできる機会を制限できます。

このソリューションとソースコードの詳細については、次のWebサイトをご覧ください。 GitHubリポジトリ. Amazon Redshift UDF を使用してさまざまなビジネス上の問題を解決する方法の詳細については、次を参照してください。ユーザー定義関数 (UDF) の使用例および Amazon Redshift UDF.