使用 UDF 和 AWS Lambda 扩展 Amazon Athena 中的地理空间查询

由柏拉图重新发布

关注： 0

亚马逊雅典娜是一种无服务器和交互式查询服务，可让您轻松分析数据亚马逊简单存储服务 (Amazon S3) 和 25 多个数据源，包括本地数据源或使用 SQL 或 Python 的其他云系统。 Athena 内置功能包括查询地理空间数据; 例如，你可以计算加利福尼亚州每个县的地震次数. 在县一级进行分析的一个缺点是，它可能会给您一种误导性印象，即加利福尼亚州的哪些地区发生地震最多。这是因为县的大小不均；一个县可能仅仅因为它是一个大县就发生了更多的地震。如果我们想要一个分层系统，允许我们放大和缩小以聚合不同大小相同的地理区域的数据怎么办？

在这篇文章中，我们提出了一个解决方案，它使用 Uber 的六边形层次空间索引 (H3) 将地球划分为大小相等的六边形。然后我们使用 Athena 用户定义函数 (UDF) 来确定每次历史地震发生在哪个六边形。由于六边形大小相同，因此该分析给出了地震倾向于发生的位置的公平印象。

最后，我们将生成如下图所示的可视化效果，显示美国西部不同地区的历史地震次数。

H3 将地球划分为大小相等的正六边形。六边形的数量取决于所选择的分辨率，这可能在 0（122 个六边形，每个边长约为 1,100 公里）到 15（569,707,381,193,162 个六边形，每个边长约为 50 厘米）之间变化。 H3 可以在区域级别进行分析，每个区域具有相同的大小和形状。

解决方案概述

解决方案扩展 Athena 的内置地理空间功能通过创建一个由 AWS Lambda. 最后，我们使用一个亚马逊SageMaker 笔记本运行呈现为霍罗珀斯地图. 下图说明了此体系结构。

端到端架构如下：

将历史地震的 CSV 文件上传到 S3 存储桶中。
An AWS胶水外部表是基于地震 CSV 创建的。
Lambda 函数计算参数（纬度、经度、分辨率）的 H3 六边形。该函数是用 Java 编写的，可以使用 Athena 中的查询作为 UDF 调用。
SageMaker 笔记本使用适用于熊猫的 AWS 开发工具包在 Athena 中运行 SQL 查询的包，包括 UDF。
Plotly Express 包渲染了每个六边形中地震次数的等值线图。

先决条件

在本文中，我们使用 Athena 读取 Amazon S3 中的数据，使用与我们的地震数据集关联的 AWS Glue 数据目录中定义的表。在权限方面，主要有两个要求：

配置亚马逊 S3

第一步是创建一个S3 bucket来存储地震数据集，如下：

从以下位置下载历史地震的 CSV 文件 GitHub上.
在Amazon S3控制台上，选择水桶在导航窗格中。
创建存储桶.
针对桶名，为您的数据桶输入一个全球唯一的名称。
创建文件夹, 然后输入文件夹名称 earthquakes.
将文件上传到 S3 存储桶。在这个例子中，我们上传 earthquakes.csv 文件到 earthquakes 字首。

在 Athena 中创建表

导航到 Athena 控制台以创建表。完成以下步骤：

在Athena控制台上，选择 查询编辑器.
使用下拉菜单选择您喜欢的工作组。

在 SQL 编辑器中，使用以下代码在默认数据库中创建一个表：

CREATE external TABLE earthquakes
( earthquake_date STRING, latitude DOUBLE, longitude DOUBLE, depth DOUBLE, magnitude DOUBLE, magtype STRING, mbstations STRING, gap STRING, distance STRING, rms STRING, source STRING, eventid STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE LOCATION 's3://<MY-DATA-BUCKET>/earthquakes/';

为 Athena UDF 创建 Lambda 函数

有关如何构建 Athena UDF 的详尽说明，请参阅使用用户定义的函数查询. 我们使用 Java 11 和优步 H3 Java 绑定构建 H3 UDF。我们提供 UDF 的实现 GitHub上.

有几种选择使用 Lambda 部署 UDF. 在这个例子中，我们使用 AWS管理控制台. 对于生产部署，您可能希望使用基础设施即代码，例如 AWS云开发套件（AWS CDK）。有关如何使用 AWS CDK 部署 Lambda 函数的信息，请参阅项目代码库. 另一个可能的部署选项是使用 AWS Serverless Application Repository (SAR)。

部署 UDF

使用控制台部署 Uber H3 绑定 UDF，如下所示：

转到二进制目录中 GitHub上存储库，并下载 aws-h3-athena-udf-*.jar 到您的本地桌面。
创建一个名为 Lambda 的函数 H3UDF 运行时 设置 Java 11（Corretto）及建筑设置 x86_64.
上载 aws-h3-athena-udf*.jar 文件中。
将处理程序名称更改为 com.aws.athena.udf.h3.H3AthenaHandler.
在 一般配置 部分中，选择编辑将 Lambda 函数的内存设置为 4096 MB，这是适用于我们示例的内存量。您可能需要为您的用例设置更大的内存大小。

使用 Lambda 函数作为 Athena UDF

创建 Lambda 函数后，您就可以将其用作 UDF。以下屏幕截图显示了函数的详细信息。

您现在可以将该函数用作 Athena UDF。在 Athena 控制台上，运行以下命令：

USING EXTERNAL FUNCTION lat_lng_to_cell_address(lat DOUBLE, lng DOUBLE, res INTEGER)
RETURNS VARCHAR
LAMBDA '<MY-LAMBDA-ARN>'-- Replace with ARN of your Lambda function.
SELECT *, lat_lng_to_cell_address(latitude, longitude, 4) AS h3_cell
FROM earthquakes
WHERE latitude BETWEEN 18 AND 70;

udf/examples 文件夹中 GitHub上存储库包含 Athena 查询的更多示例。

开发 UDF

现在我们已经向您展示了如何使用 Lambda 为 Athena 部署 UDF，让我们更深入地了解如何开发这些类型的 UDF。如中所述使用用户定义的函数查询，为了开发一个UDF，我们首先需要实现一个继承的类 UserDefinedFunctionHandler. 然后我们需要实现类内部的功能，可以用作 Athena 的 UDF。

我们通过定义一个类来开始 UDF 实现 H3AthenaHandler 继承了 UserDefinedFunctionHandler. 然后我们实现函数，作为定义在优步 H3 Java 绑定. 我们确保 H3 Java 绑定 API 中定义的所有函数都已映射，以便它们可以在 Athena 中用作 UDF。例如，我们映射 lat_lng_to_cell_address 前面例子中使用的函数 latLngToCell H3 Java 绑定。

除了调用 Java 绑定之外， H3AthenaHandler 检查输入参数是否为空。空检查很有用，因为我们不假设输入为非空。实际上，H3 索引或地址的空值并不罕见。

下面的代码显示了实现 get_resolution 功能：

/** Returns the resolution of an index. * @param h3 the H3 index. * @return the resolution. Null when h3 is null. * @throws IllegalArgumentException when index is out of range. */ public Integer get_resolution(Long h3){ final Integer result; if (h3 == null) { result = null; } else { result = h3Core.getResolution(h3); } return result; }

一些H3 API函数，例如 cellToLatLng 回报 List<Double> 两个元素，其中第一个元素是纬度，第二个元素是经度。我们实现的 H3 UDF 提供了一个返回的函数知名文本 (WKT) 表示。例如，我们提供 cell_to_lat_lng_wkt，它返回一个 Point WKT 字符串而不是 List<Double>. 然后我们可以使用的输出 cell_to_lat_lng_wkt 结合内置的空间雅典娜功能 ST_GeometryFromText 如下：

USING EXTERNAL FUNCTION cell_to_lat_lng_wkt(h3 BIGINT) RETURNS VARCHAR
LAMBDA '<MY-LAMBDA-ARN>'
SELECT ST_GeometryFromText(cell_to_lat_lng_wkt(622506764662964223))

Athena UDF 仅支持标量数据类型，不支持嵌套类型。但是，某些 H3 API 会返回嵌套类型。例如， polygonToCells H3 中的函数需要一个 List<List<List<GeoCoord>>>. 我们的实施 polygon_to_cells UDF 收到一个 Polygon 取而代之的是 WKT。下面显示了使用此 UDF 的示例 Athena 查询：

-- get all h3 hexagons that cover Toulouse, Nantes, Lille, Paris, Nice USING EXTERNAL FUNCTION polygon_to_cells(polygonWKT VARCHAR, res INT)
RETURNS ARRAY(BIGINT)
LAMBDA '<MY-LAMBDA-ARN>'
SELECT polygon_to_cells('POLYGON ((43.604652 1.444209, 47.218371 -1.553621, 50.62925 3.05726, 48.864716 2.349014, 43.6961 7.27178, 3.604652 1.444209))', 2)

使用 SageMaker 笔记本进行可视化

A SageMaker 笔记本是运行 Jupyter notebook 应用程序的托管机器学习计算实例。在此示例中，我们将使用 SageMaker notebook 编写和运行我们的代码以可视化我们的结果，但如果您的用例包括 Apache Spark，则使用适用于 Apache Spark 的亚马逊雅典娜将是一个不错的选择。有关 SageMaker 安全最佳实践的建议，请参阅使用Amazon SageMaker构建安全的机器学习环境. 您可以按照以下说明创建自己的 SageMaker notebook：

在SageMaker控制台上，选择 笔记本 在导航窗格中。
笔记本实例.
创建笔记本实例.
输入笔记本实例的名称。
选择现有的 IAM 角色或创建一个角色允许您运行 SageMaker 并授予对 Amazon S3 和 Athena 的访问权限。
创建笔记本实例.
等待笔记本状态从 Creating 至 InService.
通过选择打开笔记本实例 朱皮特 or Jupyter实验室.

探索数据

我们现在已准备好探索数据。

在 Jupyter 控制台上，在全新，选择 笔记本.
点击 选择内核 下拉菜单，选择 conda_python3。
通过选择加号添加新单元格。
在您的第一个单元中，下载标准 SageMaker 环境中未包含的以下 Python 模块：
```
!pip install geojson
!pip install awswrangler
!pip install geomet
!pip install shapely
```
GeoJSON 是一种流行的格式，用于以 JSON 格式存储空间数据。这 geojson 模块允许您使用 Python 轻松读写 GeoJSON 数据。我们安装的第二个模块， awswrangler，是个适用于熊猫的 AWS 开发工具包. 这是将数据从各种 AWS 数据源读取到 Pandas 数据框中的一种非常简单的方法。我们用它从 Athena 表中读取地震数据。

接下来，我们导入所有用于导入数据、重塑数据并可视化的包：

from geomet import wkt
import plotly.express as px
from shapely.geometry import Polygon, mapping
import awswrangler as wr
import pandas as pd
from shapely.wkt import loads
import geojson
import ast

我们开始使用 athena.read_sql._query AWS SDK for pandas 中的功能。 Athena 查询有一个使用 UDF 添加列的子查询 h3_cell 到每一行 earthquakes 表，根据地震的纬度和经度。解析函数 COUNT 然后用于找出每个 H3 单元格中的地震次数。对于这个可视化，我们只对地震感兴趣在美国境内，因此我们过滤掉数据框中感兴趣区域之外的行：

def run_query(lambda_arn, db, resolution): query = f"""USING EXTERNAL FUNCTION cell_to_boundary_wkt(cell VARCHAR) RETURNS ARRAY(VARCHAR) LAMBDA '{lambda_arn}' SELECT h3_cell, cell_to_boundary_wkt(h3_cell) as boundary, quake_count FROM( USING EXTERNAL FUNCTION lat_lng_to_cell_address(lat DOUBLE, lng DOUBLE, res INTEGER) RETURNS VARCHAR LAMBDA '{lambda_arn}' SELECT h3_cell, COUNT(*) AS quake_count FROM (SELECT *, lat_lng_to_cell_address(latitude, longitude, {resolution}) AS h3_cell FROM earthquakes WHERE latitude BETWEEN 18 AND 70 -- For this visualisation, we're only interested in earthquakes within the USA. AND longitude BETWEEN -175 AND -50 ) GROUP BY h3_cell ORDER BY quake_count DESC) cell_quake_count""" return wr.athena.read_sql_query(query, database=db) lambda_arn = '<MY-LAMBDA-ARN>' # Replace with ARN of your lambda.
db_name = '<MY-DATABASE-NAME>' # Replace with name of your Glue database.
earthquakes_df = run_query(lambda_arn=lambda_arn,db=db_name, resolution=4)
earthquakes_df.head()

以下屏幕截图显示了我们的结果。