Amazon Redshift、AWS Data Exchange、Amazon QuickSight を使用して地理空間洞察で顧客データを強化する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

顧客についてもっと知ることは常に有益です。 AWSデータ交換公開されている国勢調査データを簡単に使用して、顧客データセットを充実させることができます。

米国国勢調査局は 10 年ごとに米国の国勢調査を実施し、世帯調査データを収集します。このデータは匿名化され、集約され、一般公開されます。国勢調査局がデータを収集および集計する最小の地理的エリアは、道路、道路、鉄道、小川、その他の水域、その他の目に見える物理的および文化的特徴、および国勢調査局の地図に示される法的境界によって形成される国勢調査ブロックです。。

顧客が住んでいる国勢調査区域がわかれば、その顧客の人口統計的特徴について一般的な推論を行うことができます。これらの新しい属性を使用すると、セグメンテーションモデルを構築して、パーソナライズされたメッセージングの対象となる個別の顧客グループを識別できます。このデータは AWS Data Exchange で購読できます。また、データ共有を使用すると、クエリを実行するためにアカウントにデータのコピーを保存するために料金を支払う必要はありません。

この投稿では、顧客の住所を使用して、米国国勢調査局のデータセットからの追加の人口統計の詳細でデータセットを強化する方法を示します。

ソリューションの概要

このソリューションには、次の高レベルの手順が含まれています。

セットアップ AmazonRedshiftサーバーレスエンドポイントを設定して顧客データをロードします。
場所のインデックスを設定します Amazonロケーションサービス.
書く AWSラムダ位置情報サービスを呼び出すためのユーザー定義関数 (UDF) Amazonレッドシフト.
AWS Data Exchange で国勢調査データを購読します。
地理空間クエリを使用して、住所を国勢調査ブロックにタグ付けします。
Amazon Redshift で新しい顧客データセットを作成します。
新規顧客データを評価するアマゾンクイックサイト.

次の図は、ソリューションのアーキテクチャを示しています。

アーキテクチャ図

前提条件

次のものを使用できます AWS CloudFormation template 必要なインフラストラクチャを展開します。導入する前に、次の方法で QuickSight アクセスにサインアップする必要があります。 AWSマネジメントコンソール.

汎用住所データを Amazon Redshift にロードする

Amazon Redshift は、クラウド上のフルマネージド型のペタバイト規模のデータウェアハウスサービスです。 Redshift Serverless を使用すると、データウェアハウスインフラストラクチャを管理することなく、あらゆるサイズの分析ワークロードを簡単に実行できます。

住所データをロードするには、まず Redshift サーバーレスワークグループを作成します。次に、Amazon Redshift Query Editor v2 を使用して顧客データをロードします。 Amazon シンプルストレージサービス（Amazon S3）。

Redshiftサーバーレスワークグループを作成する

Redshift サーバーレスアーキテクチャには 2 つの主要コンポーネントがあります。

名前空間 – データベースオブジェクトとユーザーのコレクション。ネームスペースは、スキーマ、テーブル、ユーザー、データ共有、スナップショットなど、Redshift Serverless で使用するすべてのリソースをグループ化します。
ワークグループ – コンピューティングリソースのコレクション。ワークグループには、Redshift Serverless コンソールを使用して構成できるネットワークとセキュリティの設定があります。 AWSコマンドラインインターフェイス (AWS CLI)、または Redshift サーバーレス API。

ネームスペースとワークグループを作成するには、以下を参照してください。 Amazon Redshift Serverless を使用したデータウェアハウスの作成。この演習では、ワークグループサンドボックスと名前空間に adx-demo という名前を付けます。

Query Editor v2 を使用して Amazon S3 から顧客データをロードする

Query Editor v2 を使用すると、Web インターフェイスを通じてクエリを送信し、データウェアハウスにデータをロードできます。 AWS アカウント用に Query Editor v2 を設定するには、以下を参照してください。 Query Editor V2 を使用して、Amazon Redshift でデータの読み込みを簡単かつ安全に。構成したら、次の手順を実行します。

次の SQL を使用して、 customer_data データウェアハウスの開発データベース内のスキーマ:

CREATE SCHEMA customer_data;

次の SQL DDL を使用して、顧客の住所データをロードするターゲットテーブルを作成します。

CREATE TABLE customer_data.customer_addresses (
    address character varying(256) ENCODE lzo,
    unitnumber character varying(256) ENCODE lzo,
    municipality character varying(256) ENCODE lzo,
    region character varying(256) ENCODE lzo,
    postalcode character varying(256) ENCODE lzo,
    country character varying(256) ENCODE lzo,
    customer_id integer ENCODE az64
) DISTSTYLE AUTO;

ファイルには列ヘッダーがなく、パイプ (|) で区切られています。 Amazon S3 またはローカルデスクトップからデータをロードする方法については、を参照してください。データベースへのデータのロード.

位置情報サービスを使用して住所データをジオコーディングおよび強化する

位置情報サービスを使用すると、アプリケーションに位置データと機能を追加できます。これには、地図、名所、ジオコーディング、ルーティング、ジオフェンス、追跡などの機能が含まれます。

データは Amazon Redshift にあるため、SQL ステートメントを使用して位置情報サービス API にアクセスする必要があります。データの各行には、Location Service API を使用して情報を追加し、ジオタグを付けたい住所が含まれています。 Amazon Redshift を使用すると、開発者は SQL SELECT 句、Python、または Lambda を使用して UDF を作成できます。

Lambda は、サーバーのプロビジョニングや管理を行わずにコードを実行できるコンピューティングサービスです。 Lambda UDF を使用すると、複雑なロジックを使用してカスタム関数を作成し、サードパーティのコンポーネントと統合できます。スカラー Lambda UDF は、関数の呼び出しごとに 1 つの結果を返します。この場合、Lambda 関数は受信したデータの行ごとに 1 回実行されます。

この投稿では、Location Service API を使用して顧客の住所にジオタグを付け、検証する Lambda 関数を作成します。次に、この Lambda 関数を Redshift インスタンスに UDF として登録し、SQL コマンドから関数を呼び出せるようにします。

Location Service の場所インデックスを作成し、Lambda 関数とスカラー UDF を作成する手順については、を参照してください。 Amazon Redshift から Amazon Location Service にアクセスする。この投稿では、ESRI をプロバイダーとして使用し、場所インデックスに名前を付けます。 placeindex.redshift.

次のコードを使用して新しい関数をテストします。このコードは、ワシントン DC のホワイトハウスの座標を返します。

select public.f_geocode_address('1600 Pennsylvania Ave.','Washington','DC','20500','USA');

AWS Data Exchange から人口統計データを購読する

AWS Data Exchange は、3,500 を超えるプロバイダーの 300 以上の製品が、ファイル、API、または Amazon Redshift クエリを通じて、それを使用するデータレイク、アプリケーション、分析、機械学習モデルに直接配信されるデータマーケットプレイスです。

まず、Redshift 名前空間に許可を与える必要があります。 AWS IDおよびアクセス管理 (IAM) AWS Data Exchange のサブスクリプションにアクセスします。次に、サンプル人口統計データを購読できます。次の手順を実行します。

IAM コンソールで、 AWSDataExchangeSubscriberFullAccess 管理ポリシーを、名前空間の作成時に割り当てた Amazon Redshift コマンドアクセスロールに適用します。
AWS Data Exchange コンソールで、データセットに移動します。 ACS – 社会人口統計 (米国、国勢調査ブロックグループ、2019)、CARTOによって提供されます。
選択する 購読を続ける、を選択します ニュースレター登録.

サブスクリプションの構成には数分かかる場合があります。

サブスクリプションが完了したら、Redshift Serverless コンソールに戻ります。
ナビゲーションペインで、 データ共有.
ソフトウェア設定ページで、下図のように プラン契約確認 タブで、サブスクライブしたばかりのデータ共有を選択します。
データ共有の詳細ページで、 データ共有からデータベースを作成する.
前に作成した名前空間を選択し、サブスクライブしたデータセットの共有オブジェクトを保持する新しいデータベースの名前を指定します。

クエリエディター v2 では、作成したばかりの新しいデータベースと XNUMX つの新しいテーブルが表示されます。XNUMX つはブロックグループのポリゴンを保持し、もう XNUMX つは各ブロックグループの人口統計情報を保持します。

クエリエディター v2 データソースエクスプローラー

地理空間クエリを使用して、ジオコーディングされた顧客データを国勢調査データに結合します

空間データには、ラスターデータとベクターデータという 2 つの主なタイプがあります。ラスターデータはピクセルのグリッドとして表現されますが、この投稿の範囲外です。ベクターデータは頂点、エッジ、ポリゴンで構成されます。地理空間データを使用すると、頂点緯度と経度の点として表され、 エッジ は頂点のペア間の接続です。地図上の 2 つの交差点を結ぶ道路を考えてください。あ ポリゴン は、連続的な形状を形成する一連の接続エッジを持つ頂点のセットです。オハイオ州の州境が多角形で表現できるのと同じように、単純な長方形は多角形です。サブスクライブした geography_usa_blockgroup_2019 データセットには 220,134 行があり、それぞれが単一の国勢調査ブロックグループとその地理的形状を表しています。

Amazon Redshift は、ベクトルベースの空間データのストレージとクエリをサポートしています。 GEOMETRY および GEOGRAPHY データ型。 Redshift SQL 関数を使用して、ポリゴン内のポイント操作などのクエリを実行して、特定の緯度/経度のポイントが特定のポリゴンの境界 (州や郡の境界など) 内にあるかどうかを判断できます。このデータセットでは、 geom の列 geography_usa_blockgroup_2019 タイプは GEOMETRY です。

私たちの目標は、ジオタグ付きの各住所がどの国勢調査ブロック (ポリゴン) に該当するかを判断し、国勢調査ブロックについて知っている詳細情報で顧客記録を充実させることです。次の手順を実行します。

UDF からのジオコーディング結果を使用して新しいテーブルを作成します。

CREATE TABLE customer_data.customer_addresses_geocoded AS 
select address
    ,unitnumber
    ,municipality
    ,region
    ,postalcode
    ,country
    ,customer_id
    ,public.f_geocode_address(address||' '||unitnumber,municipality,region,postalcode,country) as geocode_result
FROM customer_data.customer_addresses;

次のコードを使用して、JSON 列からさまざまな住所フィールドと緯度/経度の座標を抽出し、その結果を含む新しいテーブルを作成します。

CREATE TABLE customer_data.customer_addresses_points AS
SELECT customer_id
    ,geo_address
    address
    ,unitnumber
    ,municipality
    ,region
    ,postalcode
    ,country
    ,longitude
    ,latitude
    ,ST_SetSRID(ST_MakePoint(Longitude, Latitude),4326) as address_point
            --create new geom column of type POINT, set new point SRID = 4326
FROM
(
select customer_id
    ,address
    ,unitnumber
    ,municipality
    ,region
    ,postalcode
    ,country
    ,cast(json_extract_path_text(geocode_result, 'Label', true) as VARCHAR) as geo_address
    ,cast(json_extract_path_text(geocode_result, 'Longitude', true) as float) as longitude
    ,cast(json_extract_path_text(geocode_result, 'Latitude', true) as float) as latitude
        --use json function to extract fields from geocode_result
from customer_data.customer_addresses_geocoded) a;

このコードでは、 ST_POINT という緯度経度座標から新しい列を作成する関数 address_point タイプ GEOMETRY およびサブタイプ POINT の。それは、 ST_SetSRID geospatial 関数を使用して、新しい列の空間参照識別子 (SRID) を 4326 に設定します。

SRID は、ジオメトリデータを評価するときに使用される空間参照系を定義します。地理空間データを結合または比較する場合、一致する SRID があることが重要です。既存のジオメトリ列の SRID を確認するには、 ST_SRID 関数。 SRID と GEOMETRY データ型の詳細については、以下を参照してください。 Amazon Redshift での空間データのクエリ.

これで、顧客の住所がジオメトリ列の緯度/経度ポイントとしてジオコーディングされたので、結合を使用して、新しいポイントがどの国勢調査ブロック形状に含まれるかを特定できます。

CREATE TABLE customer_data.customer_addresses_with_census AS
select c.*
    ,shapes.geoid as census_group_shape
    ,demo.*
from customer_data.customer_addresses_points c
inner join "carto_census_data"."carto".geography_usa_blockgroup_2019 shapes
on ST_Contains(shapes.geom, c.address_point)
    --join tables where the address point falls within the census block geometry
inner join carto_census_data.usa_acs.demographics_sociodemographics_usa_blockgroup_2019_yearly_2019 demo
on demo.geoid = shapes.geoid;

前述のコードは、という新しいテーブルを作成します。 customer_addresses_with_censusこれにより、顧客の住所が、その顧客が属する国勢調査ブロックと、その国勢調査ブロックに関連付けられた人口統計データに結合されます。

これを行うには、 ST_CONTAINS この関数は 2 つのジオメトリデータタイプを入力として受け入れ、最初の入力ジオメトリの XNUMXD 投影に XNUMX 番目の入力ジオメトリが含まれる場合に TRUE を返します。この例では、国勢調査ブロックが多角形で表現され、住所が点で表現されています。 SQL ステートメント内の結合は、点が多角形の境界内にある場合に成功します。

QuickSight で新しい人口統計データを視覚化する

QuickSight は、どこにいても一緒に働く人々にわかりやすい洞察を提供するために使用できるクラウドスケールのビジネスインテリジェンス (BI) サービスです。 QuickSight はクラウド内のデータに接続し、さまざまなソースからのデータを結合します。

まず、顧客ベースの人口統計をより深く理解するのに役立つ新しい計算フィールドをいくつか構築しましょう。これは QuickSight で行うことも、SQL を使用して Redshift ビューで列を構築することもできます。以下は Redshift ビューのコードです。

CREATE VIEW customer_data.customer_features AS (
SELECT customer_id 
    ,postalcode
    ,region
    ,municipality
    ,geoid as census_geoid
    ,longitude
    ,latitude
    ,total_pop
    ,median_age
    ,white_pop/total_pop as perc_white
    ,black_pop/total_pop as perc_black
    ,asian_pop/total_pop as perc_asian
    ,hispanic_pop/total_pop as perc_hispanic
    ,amerindian_pop/total_pop as perc_amerindian
    ,median_income
    ,income_per_capita
    ,median_rent
    ,percent_income_spent_on_rent
    ,unemployed_pop/coalesce(pop_in_labor_force) as perc_unemployment
    ,(associates_degree + bachelors_degree + masters_degree + doctorate_degree)/total_pop as perc_college_ed
    ,(household_language_total - household_language_english)/coalesce(household_language_total) as perc_other_than_english
FROM "dev"."customer_data"."customer_addresses_with_census" t );

QuickSight が Redshift サーバーレスエンドポイントと通信できるようにするには、次の手順を実行します。

これで、QuickSight で新しいデータセットを作成できるようになりました。

QuickSightコンソールで、 データセット ナビゲーションペインに表示されます。
選択する 新しいデータセット.

クイックサイトで新しいデータセットを作成する

新しいデータソースからデータセットを作成し、 Redshift: 手動接続 オプションを選択します。

Redshift手動接続

Redshift Serverless ワークグループの接続情報を指定します。

ワークグループのエンドポイントと、ワークグループの設定時に作成したユーザー名とパスワードが必要になります。 Redshift Serverless コンソールでワークグループ設定に移動すると、ワークグループのエンドポイントを見つけることができます。次のスクリーンショットは、必要な接続設定の例です。接続タイプが、QuickSight で以前に構成した VPC 接続の名前であることに注意してください。 Redshift コンソールからエンドポイントをコピーする場合は、フィールドに入力する前に、URL の末尾からデータベースとポート番号を必ず削除してください。

Redshift編集データソース

新しいデータソース構成を保存します。

データセットに使用するテーブルを選択するように求められます。

新しい派生フィールドを含む、作成した新しいビューを選択します。

クイックサイトでテーブルを選択

選択 データを直接クエリする.

これにより、QuickSight インメモリデータストアにデータが取り込まれるのではなく、ビジュアライゼーションがデータベース内のデータに直接接続されます。

データを直接クエリする

収入レベルの中央値のヒストグラムを作成するには、Sheet1 の空白のビジュアルを選択し、その下のヒストグラムビジュアルアイコンを選択します。 ビジュアルタイプ.
選択する median_income 下 フィールドリスト それをドラッグして、値よくフィールド。

これにより、次の分布を示すヒストグラムが作成されます。 median_income お客様が住んでいる国勢調査ブロックグループに基づいて、お客様を対象としています。

QuickSight ヒストグラム

まとめ

この投稿では、企業が AWS Data Exchange で利用可能なオープン国勢調査データを使用して、人口統計の観点から顧客ベースの高度な理解を容易に得る方法を実証しました。顧客の居住地に基づいた顧客の基本的な理解は、よりターゲットを絞ったマーケティングキャンペーンの基盤として機能し、製品開発やサービス提供に影響を与えることもあります。

いつものように、AWS は皆様からのフィードバックをお待ちしております。ご意見やご質問をコメント欄に残してください。

著者について

トニー・ストリッカー AWS のデータ戦略チームの主任技術者であり、上級幹部がデータドリブンの考え方を採用し、イノベーションを促進し、具体的で具体的なビジネス成果に向けて推進できる方法で人材、プロセス、テクノロジーを調整するのを支援しています。彼はデータウェアハウスアーキテクトおよびデータサイエンティストとしての経歴を持ち、石油とガス、金融サービス、公共部門、製造を含む複数の業界の生産にソリューションを提供してきました。トニーは余暇には、犬や猫と遊んだり、家の改善プロジェクトに取り組んだり、ビンテージのエアストリームキャンピングカーをレストアしたりすることが好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/enrich-your-customer-data-with-geospatial-insights-using-amazon-redshift-aws-data-exchange-and-amazon-quicksight/

タイムスタンプ： 2024 年 3 月 18 日

タイムスタンプ： 2023 年 5 月 4 日

プラトン再発行

Amazon QuickSight は、TalentReef が顧客により多くの情報に基づいた採用決定を行えるよう支援します

Okta を使用して Amazon OpenSearch サーバーレスの SAML フェデレーションを設定する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー