HawkEye 360 Uses Amazon SageMaker Autopilot To Streamline Machine Learning Model Development For Maritime Vessel Risk Assessment

Ponovno objavil Platon

Spremljevalci: 0

To objavo sta napisala Ian Avilez in Tim Pavlick iz HawkEye 360.

HawkEye 360 je komercialni ponudnik analitike podatkov o satelitskih konstelacijah radijskih frekvenc (RF). Naši zanimivi signali vključujejo zelo visokofrekvenčne (VHF) radijske postaje Pritisni in govori, pomorske radarske sisteme, svetilnike AIS, satelitske mobilne komunikacije in drugo. Naša ponudba Mission Space, izdana februarja 2021, omogoča analitikom misij, da intuitivno vizualizirajo RF signale in analitiko, kar jim omogoča prepoznavanje dejavnosti in razumevanje trendov. Ta zmožnost izboljšuje zavedanje pomorske situacije za analitike misije, kar jim omogoča, da prepoznajo in opredelijo zlobno vedenje, kot je nezakonit ribolov ali prenos nezakonitega blaga z ladje na ladjo.

Naslednji posnetek zaslona prikazuje izkušnjo Mission Space HawkEye 360.

Podatki RF so lahko s prostim očesom ogromni brez filtriranja in naprednih algoritmov za razčlenjevanje in karakterizacijo ogromne količine neobdelanih podatkov. HawkEye 360 je sodeloval z Amazon ML Solutions Lab za vgradnjo zmogljivosti strojnega učenja (ML) v našo analitiko. Pod vodstvom laboratorija Amazon ML Solutions Lab smo uporabili Amazonski SageMaker avtopilot za hitro ustvarjanje visokokakovostnih modelov umetne inteligence za oceno tveganja pomorskih plovil, ohranjanje popolne vidljivosti in nadzora nad ustvarjanjem modela ter zagotavljanje zmožnosti enostavne uvedbe in spremljanja modela v proizvodnem okolju.

Skriti vzorci in razmerja med lastnostmi plovil

Morska plovila se odlikujejo po številnih značilnostih, ki se nanašajo na plovilo samo, njegovo delovanje in upravljanje ter njegovo zgodovinsko obnašanje. Vedeti, katere značilnosti kažejo na sumljivo plovilo, ni takoj jasno. Ena od nalog HawkEye 360 je odkrivanje skritih vzorcev in samodejno opozarjanje analitikov na nenormalne pomorske dejavnosti. Hawkeye 360 dosega to opozarjanje regij z uporabo raznolikega nabora spremenljivk v kombinaciji z lastniško RF geoanalitiko. Ključni poudarek teh prizadevanj je ugotoviti, za katera plovila obstaja večja verjetnost, da se bodo vključila v sumljive pomorske dejavnosti, kot je nezakonit ribolov ali prenos nezakonitega blaga z ladje na ladjo. Algoritmi ML razkrijejo skrite vzorce, če obstajajo, ki bi se sicer izgubili v ogromnem morju kompleksnosti.

Naslednja slika prikazuje nekaj obstoječega vedenja iskanja vzorcev, ki je bilo vgrajeno v Mission Space. Mission Space samodejno identificira druge primere sumljivega plovila. Prepoznavanje ključnih funkcij, ki najbolj napovedujejo sumljivo vedenje, omogoča enostaven prikaz teh funkcij v Mission Space. To uporabnikom omogoča razumevanje povezav med slabimi akterji, ki jih sicer ne bi nikoli videli. Mission Space je bil namenoma zasnovan tako, da analitikom misij pokaže na te povezave.

Naslednja slika prikazuje nekaj obstoječega vedenja iskanja vzorcev, ki je bilo vgrajeno v Mission Space.

Izzivi odkrivanja nenavadnega vedenja pomorskih plovil

Podatkovno jezero HawkEye 360 vključuje veliko količino informacij o plovilih, zgodovino in analitične spremenljivke. Pri tako širokem naboru RF podatkov in analitike je treba obravnavati nekatere težave z naravnimi podatki. Občasno poročanje plovil povzroči manjkajoče vrednosti v nizih podatkov. Upoštevati je treba razlike med vrstami podatkov. Prej je raziskovanje podatkov in osnovno modeliranje običajno trajalos analitikom prihranijo velik kos časa. Ko so podatki pripravljeni, se izvede vrsta samodejnih eksperimentov, da se zoži na nabor najbolj obetavnih modelov umetne inteligence, od tam pa se postopno izbere tisti, ki je najbolj primeren za podatke in raziskovalna vprašanja. Za HawkEye 360 je to avtomatizirano raziskovanje ključnega pomena za določanje, katere funkcije in kombinacije funkcij so ključne za napovedovanje, kako verjetno je, da bo plovilo sodelovalo v sumljivem vedenju.

Za pospešitev tega procesa smo uporabili avtopilot s hitrim ugotavljanjem, katere lastnosti podatkov so uporabne pri napovedovanju sumljivega vedenja. Avtomatizacija raziskovanja in analize podatkov omogoča našim podatkovnim znanstvenikom, da porabijo manj časa za pregovarjanje s podatki in ročno načrtovanje funkcij ter pospešuje zmožnost prepoznavanja značilnosti plovila, ki najbolj napovedujejo sumljivo obnašanje plovila.

Kako smo uporabili avtopilot za hitro ustvarjanje visokokakovostnih modelov ML

Kot del opravila avtopilota se hitro ustvari več kandidatnih modelov za vrednotenje z enim klicem API-ja. Avtopilot je pregledal podatke in ovrednotil več modelov, da bi določil optimalno kombinacijo metod predprocesiranja, algoritmov ML in hiperparametrov. To je bistveno skrajšalo časovni okvir raziskovanja modela in nam omogočilo, da hitro preizkusimo primernost ML za naše edinstvene hipoteze.

Naslednja koda prikazuje našo nastavitev in klic API-ja:

input_data_config = [{ 'DataSource': { 'S3DataSource': { 'S3DataType': 'S3Prefix', 'S3Uri': 's3://{}/{}/train'.format(bucket,prefix) } }, 'TargetAttributeName': 'ship_sanctioned_ofac' } ] output_data_config = { 'S3OutputPath': 's3://{}/{}/output'.format(bucket,prefix) } from time import gmtime, strftime, sleep timestamp_suffix = strftime('%d-%H-%M-%S', gmtime()) auto_ml_job_name = 'automl-darkcount-' + timestamp_suffix print('AutoMLJobName: ' + auto_ml_job_name) sm.create_auto_ml_job(AutoMLJobName=auto_ml_job_name, InputDataConfig=input_data_config, OutputDataConfig=output_data_config, RoleArn=role)

Delovni proces avtopilota

Opravilo avtopilota je sestavljeno iz naslednjih dejanj:

Razdelitev podatkov v sklope in validacijske nize
Analiziranje podatkov za priporočilo konfiguracije kandidata
Izvajanje inženiringa funkcij za ustvarjanje optimalno transformiranih funkcij, ki ustrezajo algoritmu
Prilagoditev hiperparametrov za ustvarjanje lestvice najboljših modelov
Odkrivanje najboljšega modela kandidata na podlagi dane metrike vrednotenja

Ko smo usposobili več modelov, Autopilot združi in zloži usposobljene kandidate na podlagi dane metrike (glejte naslednjo kodo). Za to aplikacijo smo uporabili oceno F1, ki daje enakomerno težo tako natančnosti kot priklicu. To je pomemben dejavnik, ko so razredi neuravnoteženi, kar so v tem naboru podatkov.

candidates = sm.list_candidates_for_auto_ml_job(AutoMLJobName=auto_ml_job_name, SortBy='FinalObjectiveMetricValue')['Candidates'] index = 1 print("List of model candidates in descending objective metric:") for candidate in candidates: print (str(index) + " " + candidate['CandidateName'] + " " + str(candidate['FinalAutoMLJobObjectiveMetric']['Value'])) index += 1

Naslednja koda prikazuje naš rezultat:

List of model candidates in descending objective metric: 1 tuning-job-1-1be4d5a5fb8e42bc84-238-e264d09f 0.9641900062561035 2 tuning-job-1-1be4d5a5fb8e42bc84-163-336eb2e7 0.9641900062561035 3 tuning-job-1-1be4d5a5fb8e42bc84-143-5007f7dc 0.9641900062561035 4 tuning-job-1-1be4d5a5fb8e42bc84-154-cab67dc4 0.9641900062561035 5 tuning-job-1-1be4d5a5fb8e42bc84-123-f76ad56c 0.9641900062561035 6 tuning-job-1-1be4d5a5fb8e42bc84-117-39eac182 0.9633200168609619 7 tuning-job-1-1be4d5a5fb8e42bc84-108-77addf80 0.9633200168609619 8 tuning-job-1-1be4d5a5fb8e42bc84-179-1f831078 0.9633200168609619 9 tuning-job-1-1be4d5a5fb8e42bc84-133-917ccdf1 0.9633200168609619 10 tuning-job-1-1be4d5a5fb8e42bc84-189-102070d9 0.9633200168609619

Zdaj lahko iz najboljšega kandidata ustvarimo model, ki ga lahko hitro uvedemo v proizvodnjo:

model_name = 'automl-darkcount-25-23-07-39' model = sm.create_model(Containers=best_candidate['InferenceContainers'], ModelName=model_name, ExecutionRoleArn=role) print('Model ARN corresponding to the best candidate is : {}'.format(model['ModelArn']))

Naslednja koda prikazuje naš rezultat:

Model ARN corresponding to the best candidate is : arn:aws:sagemaker:us-east-1:278150328949:model/automl-darkcount-25-23-07-39

Ohranjanje popolne vidljivosti in nadzora

Postopek izdelave modela je popolnoma pregleden. Za vsak model, ki ga ustvari Autopilot, se ustvarita dva zvezka:

Beležnica za raziskovanje podatkov – Opisuje vaš nabor podatkov in kaj se je avtopilot naučil o vašem naboru podatkov
Model zvezka kandidata – Navaja uporabljene transformacije podatkov kot tudi cevovode za gradnjo kandidatnih modelov, ki so sestavljeni iz transformatorjev funkcij, povezanih z glavnimi ocenjevalci

zaključek

Avtopilot smo uporabili za hitro ustvarjanje številnih kandidatnih modelov za določitev izvedljivosti ML in izhodiščne zmogljivosti ML na podatkih plovila. Avtomatizacija avtopilota je našim podatkovnim znanstvenikom omogočila, da porabijo 50 % manj časa za razvoj zmogljivosti ML z avtomatizacijo ročnih opravil, kot so analiza podatkov, inženiring funkcij, razvoj modela in uvajanje modela.

Z novo aplikacijo za analizo RF podatkov HawkEye 360, Mission Space, prepoznavanje, katera plovila bi se lahko vključila v sumljivo dejavnost, omogoča uporabnikom, da zlahka vedo, kam usmeriti svojo redko pozornost in nadalje raziskati. Pospešeno razumevanje podatkov in ustvarjanje modela omogoča hitro asimilacijo vrhunskih spoznanj v Mission Space, kar pospeši razvoj zmogljivosti Mission Space, kot je prikazano na naslednjem zemljevidu. Vidimo lahko, da je analitik misije identificiral določeno srečanje (poudarjeno v magenta), Mission Space pa je samodejno identificiral druga povezana srečanja (v vijolični barvi).

Na naslednjem zemljevidu lahko na primer vidimo, da je Mission Space identificiral določeno srečanje

Za več informacij o ponudbi HawkEye 360 Mission Space glejte Misson Space.

Če želite pomoč pri pospeševanju uporabe ML v svojih izdelkih in storitvah, se obrnite na Amazon ML Solutions Lab.

O avtorjih

Tim Pavlik, PhD, je podpredsednik produkta pri HawkEye 360. Odgovoren je za zasnovo, ustvarjanje in proizvodnjo vseh vesoljskih inovacij HawkEye. Mission Space je vodilni izdelek HawkEye 360, ki združuje vse podatke in analitiko iz portfelja HawkEye v eno intuitivno RF izkušnjo. Predhodni prispevki dr. Pavlicka pri izumih vključujejo Myca, IBM-ov AI Career Coach, Grit PTSD monitor za veterane, IBM Defense Operations Platform, Smarter Planet Intelligent Operations Center, AI zaznavanje nevarnega sovražnega govora na internetu in sistem elektronskega naročanja hrane STORES za ameriška vojska. Dr. Pavlick je doktoriral iz kognitivne psihologije na univerzi Maryland College Park.

Ian Avilez je Data Scientist s HawkEye 360. S strankami sodeluje pri poudarjanju vpogledov, ki jih je mogoče pridobiti s kombiniranjem različnih naborov podatkov in gledanjem teh podatkov na različne načine.

Dan Ford je Data Scientist v Amazon ML Solution Lab, kjer strankam AWS National Security pomaga zgraditi najsodobnejše rešitve ML.

Gaurav Rele je Data Scientist v Amazon ML Solution Lab, kjer sodeluje s strankami AWS v različnih vertikalah, da pospeši njihovo uporabo strojnega učenja in storitev AWS Cloud za reševanje njihovih poslovnih izzivov.