Amazon Kendra on erittäin tarkka ja helppokäyttöinen älykäs hakupalvelu, joka perustuu koneoppimiseen (ML). Amazon Kendra tarjoaa joukon tietolähdeliittimiä, jotka yksinkertaistavat sisällön käsittelyä ja indeksointia sen sijainnista riippumatta.
Organisaatioiden arvokasta tietoa tallennetaan sekä jäsenneltyihin että strukturoimattomiin arkistoihin. Yrityshakuratkaisun pitäisi pystyä tarjoamaan sinulle täysin hallittu käyttökokemus ja yksinkertaistamaan sisällön indeksointia yrityksen useista tietolähteistä.
Yksi tällainen jäsentämätön tietovarasto ovat sisäiset ja ulkoiset verkkosivustot. Sivustoja saatetaan joutua indeksoimaan uutissyötteiden luomiseksi, kielenkäytön analysoimiseksi tai bottien luomiseksi, jotta voidaan vastata kysymyksiin verkkosivuston tietojen perusteella.
Meillä on ilo ilmoittaa, että voit nyt käyttää uutta Amazon Kendra Web Crawleria etsiäksesi vastauksia sisäisille ja ulkoisille verkkosivustoille tallennetusta sisällöstä tai luodaksesi chatbotteja. Tässä viestissä näytämme kuinka indeksoida verkkosivustoille tallennettuja tietoja ja käyttää Amazon Kendran älykästä hakua etsiäksesi vastauksia sisäisille ja ulkoisille verkkosivustoille tallennetusta sisällöstä. Lisäksi ML-käyttöinen älykäs haku voi saada täsmällisesti vastaukset kysymyksiisi strukturoimattomista dokumenteista, joissa on luonnollisen kielen kerrontasisältöä, joihin avainsanahaku ei ole kovin tehokasta.
Web-indeksointirobotti tarjoaa seuraavat uudet ominaisuudet:
- Tuki Basic-, NTLM/Kerberos-, Form- ja SAML-todennuksen käyttöön
- Mahdollisuus määrittää 100 siemen-URL-osoitetta ja tallentaa yhteysmääritykset Amazonin yksinkertainen tallennuspalvelu (Amazon S3)
- Tuki verkko- ja Internet-välityspalvelimelle, jossa on mahdollisuus antaa välityspalvelimen tunnistetiedot
- Tuki dynaamisen sisällön, kuten JavaScriptiä sisältävän verkkosivuston, indeksoimiseen
- Kentän kartoitus ja regex-suodatusominaisuudet
Ratkaisun yleiskatsaus
Amazon Kendran avulla voit määrittää useita tietolähteitä tarjoamaan keskeisen paikan hakea asiakirjavarastossasi. Ratkaisuamme varten esittelemme, kuinka indeksoitu verkkosivusto indeksoidaan Amazon Kendra Web Crawler -sovelluksella. Ratkaisu koostuu seuraavista vaiheista:
- Valitse verkkosivustolle todennusmekanismi (tarvittaessa) ja tallenna tiedot sisään AWS -salaisuuksien hallinta.
- Luo Amazon Kendra -indeksi.
- Luo Web Crawler -tietolähde V2 Amazon Kendra -konsolin kautta.
- Suorita esimerkkikysely testataksesi ratkaisua.
Edellytykset
Amazon Kendra Web Crawleria kokeillaksesi tarvitset seuraavat:
Kerää todennustiedot
Suojatuissa ja suojatuissa verkkosivustoissa tuetaan seuraavia todennustyyppejä ja -standardeja:
- Perus
- NTLM/Kerberos
- Lomakkeen todennus
- SAML
Tarvitset todennustiedot, kun määrität tietolähteen.
Perus- tai NTLM-todennusta varten sinun on annettava Secrets Manager -salaisuus, käyttäjänimi ja salasana.
Lomake- ja SAML-todennus vaativat lisätietoja, kuten seuraavassa kuvakaappauksessa näkyy. Jotkut kentät pitävät käyttäjä nimipainike Xpath ovat valinnaisia ja riippuvat siitä, käyttääkö indeksoitava sivusto painiketta käyttäjänimen syöttämisen jälkeen. Huomaa myös, että sinun on tiedettävä, kuinka määrittää käyttäjänimi- ja salasanakentän ja lähetyspainikkeiden Xpath.
Luo Amazon Kendra -indeksi
Luo Amazon Kendra -indeksi suorittamalla seuraavat vaiheet:
- Valitse Amazon Kendra -konsolista Luo hakemisto.
- varten Hakemiston nimi, anna hakemiston nimi (esimerkiksi Web-indeksointirobotti).
- Anna valinnainen kuvaus.
- varten Roolinimi, anna IAM-roolin nimi.
- Määritä valinnaiset salausasetukset ja tunnisteet.
- Valita seuraava.
- In Määritä käyttäjän pääsynhallinta -osiossa, jätä asetukset oletusasetuksiin ja valitse seuraava.
- varten Palvelutoimituksetvalitse Kehittäjäpainos Ja valitse seuraava.
- Valitse arvostelusivulta luoda.
Tämä luo ja levittää IAM-roolin ja luo sitten Amazon Kendra -indeksin, joka voi kestää jopa 30 minuuttia.
Luo Amazon Kendra Web Crawler -tietolähde
Luo tietolähde suorittamalla seuraavat vaiheet:
- Valitse Amazon Kendra -konsolista Tietolähteet navigointipaneelissa.
- Etsi WebCrawler-liitin V2.0 laatta ja valitse Lisää liitin.
- varten Tietolähteen nimi, anna nimi (esimerkiksi crawl-fda).
- Anna valinnainen kuvaus.
- Valita seuraava.
- In lähde , valitse Lähde URL ja anna URL-osoite. Tässä viestissä käytämme https://www.fda.gov/ esimerkkilähteen URL-osoitteena.
- In Authentication -osiossa, valitse sopiva todennus sen sivuston perusteella, jonka haluat indeksoida. Tätä viestiä varten valitsemme Ei todennusta koska se on julkinen sivusto eikä vaadi todennusta.
- In Web-välityspalvelin -osiossa voit määrittää Secrets Manager -salaisuuden (tarvittaessa).
- Valita Luo ja lisää uusi salaisuus.
- Anna aiemmin keräämäsi todennustiedot.
- Valita Säästä.
- In IAM-rooli osiossa, valitse Luo uusi rooli ja anna nimi (esim.
AmazonKendra-Web Crawler-datasource-role
). - Valita seuraava.
- In Synkronoi laajuus -osiossa, määritä synkronointiasetukset indeksoitavan sivuston perusteella. Tätä viestiä varten jätämme kaikki oletusasetukset.
- varten Synkronointitila, valitse, kuinka haluat päivittää hakemistosi. Tätä viestiä varten valitsemme Täysi synkronointi.
- varten Synkronoi ajoaikataulu, valitse Suorita kysyntään.
- Valita seuraava.
- Valinnaisesti voit määrittää kenttäkartoitukset. Tätä viestiä varten pidämme oletusasetukset toistaiseksi.
Kenttien kartoitus on hyödyllinen harjoitus, jossa voit korvata kenttien nimet arvoilla, jotka ovat käyttäjäystävällisiä ja jotka sopivat organisaatiosi sanastoon.
- Valita seuraava.
- Valita Lisää tietolähde.
- Synkronoi tietolähde valitsemalla Synkronoi nyt tietolähteen tietosivulla.
- Odota synkronoinnin valmistumista.
Esimerkki todennetusta verkkosivustosta
Jos haluat indeksoida sivuston, jossa on todennus, valitse Authentication -osiossa edellisissä vaiheissa, sinun on määritettävä todennustiedot. Seuraava on esimerkki, jos valitsit Lomakkeen todennus.
- In lähde , valitse Lähde URL ja anna URL-osoite. Tässä esimerkissä käytämme https://accounts.autodesk.com.
- In Authentication , valitse Lomakkeen todennus.
- In Web-välityspalvelin -osiossa määritä Secrets Managerin salaisuutesi. Tämä vaaditaan kaikille muille vaihtoehdoille kuin Ei todennusta.
- Valita Luo ja lisää uusi salaisuus.
- Anna aiemmin keräämäsi todennustiedot.
- Valita Säästä.
Testaa ratkaisu
Nyt kun olet syöttänyt sivuston sisällön Amazon Kendra -hakemistoosi, voit testata joitain kyselyitä.
- Mene hakemistoosi ja valitse Hae indeksoitua sisältöä.
- Anna esimerkkihakukysely ja testaa hakutuloksiasi (kyselysi vaihtelee indeksaamasi sivuston sisällön ja antamasi kyselyn mukaan).
Onnittelut! Olet onnistuneesti käyttänyt Amazon Kendraa tuodaksesi esiin vastauksia ja oivalluksia, jotka perustuvat indeksoidulta sivustolta indeksoituun sisältöön.
Puhdistaa
Vältä tulevia kustannuksia puhdistamalla resurssit, jotka olet luonut osana tätä ratkaisua. Jos loit uuden Amazon Kendra -indeksin tätä ratkaisua testattaessa, poista se. Jos lisäsit uuden tietolähteen vain Amazon Kendra Web Crawler V2:lla, poista kyseinen tietolähde.
Yhteenveto
Uuden Amazon Kendra Web Crawler V2:n avulla organisaatiot voivat indeksoida minkä tahansa julkisen tai todennuksen takana olevan verkkosivuston ja käyttää sitä Amazon Kendran tarjoamaan älykkääseen hakuun.
Lisätietoja näistä ja muista mahdollisuuksista on osoitteessa Amazon Kendra -kehittäjäopas. Lisätietoja siitä, miten voit luoda, muokata tai poistaa metatietoja ja sisältöä, kun syötät tietojasi, katso Asiakirjojen rikastaminen käsittelyn aikana ja Paranna hakukokemustasi rikastuttamalla sisältöäsi ja metatietojasi mukautetulla asiakirjojen rikastamisella Amazon Kendrassa.
Tietoja Tekijät
Jiten Dedhia on Sr. Solutions Architect, jolla on yli 20 vuoden kokemus ohjelmistoalalta. Hän on työskennellyt globaalien finanssipalveluasiakkaiden kanssa ja neuvonut heitä modernisoinnissa AWS:n palveluiden avulla.
Gunwant Walbe on ohjelmistokehitysinsinööri Amazon Web Services -palvelussa. Hän on innokas oppija ja innokas omaksumaan uusia tekniikoita. Hän kehittää monimutkaisia yrityssovelluksia, ja Java on hänen ensisijainen valintansa.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/index-your-web-crawled-content-using-the-new-web-crawler-for-amazon-kendra/
- :on
- :On
- :ei
- :missä
- $ YLÖS
- 100
- 16
- 20
- 20 vuotta
- 30
- a
- kyky
- pystyy
- Meistä
- pääsy
- tarkka
- tarkasti
- poikki
- lisätä
- lisä-
- Lisäksi
- lisä-
- lisäinformaatio
- hyväksyä
- neuvot
- Jälkeen
- Kaikki
- Myös
- Amazon
- Amazon Kendra
- Amazon Web Services
- an
- analysoida
- ja
- Ilmoittaa
- vastaus
- vastauksia
- Kaikki
- sovellukset
- sopiva
- OVAT
- AS
- At
- auth
- todennettu
- Authentication
- Autodesk
- välttää
- AWS
- perustua
- perustiedot
- BE
- koska
- takana
- sekä
- botit
- liiketoiminta
- Business Applications
- nappia
- by
- CAN
- keskeinen
- keskeinen paikka
- chatbots
- valinta
- Valita
- valitsi
- asiakkaat
- KOM
- täydellinen
- monimutkainen
- Konfigurointi
- liitäntä
- muodostuu
- Console
- pitoisuus
- sisältö
- ohjaus
- kustannukset
- tela
- luoda
- luotu
- luo
- asiakassuhde
- tiedot
- oletusarvo
- oletusarvot
- osoittaa
- kuvaus
- yksityiskohdat
- Määrittää
- Kehittäjä
- Kehitys
- kehittää
- asiakirja
- asiakirjat
- ei
- aikana
- dynaaminen
- painos
- Tehokas
- salaus
- insinööri
- parantaa
- enter
- astui sisään
- kirjoittamalla
- yritys
- Yrityshaku
- Eetteri (ETH)
- esimerkki
- innoissaan
- Käyttää
- experience
- ulkoinen
- FDA
- Ominaisuudet
- ala
- Fields
- suodatus
- taloudellinen
- rahoituspalvelut
- sovittaa
- jälkeen
- varten
- muoto
- alkaen
- täysin
- tulevaisuutta
- kokosi
- saada
- Global
- globaali rahoitus
- Olla
- he
- erittäin
- hänen
- Miten
- Miten
- HTML
- http
- HTTPS
- IAM
- if
- in
- indeksi
- indeksoitu
- teollisuus
- tiedot
- oivalluksia
- Älykäs
- sisäinen
- Internet
- tulee
- IT
- Jaava
- jpg
- Innokas
- Pitää
- avainsana
- Tietää
- Kieli
- OPPIA
- oppilas
- oppiminen
- jättää
- pitää
- kone
- koneoppiminen
- onnistui
- johtaja
- kartoitus
- Saattaa..
- mekanismi
- Metadata
- pöytäkirja
- ML
- nykyaikaistaminen
- muokata
- lisää
- moninkertainen
- nimi
- nimet
- KERTOMUKSEN
- Luonnollinen
- Luonnollinen kieli
- suunnistus
- Tarve
- Uusi
- Uudet ominaisuudet
- Uudet teknologiat
- uutiset
- huomata
- nyt
- of
- Tarjoukset
- on
- vain
- Vaihtoehto
- or
- organisaatioiden
- Muut
- meidän
- ulos
- yli
- sivulla
- lasi
- osa
- Salasana
- Paikka
- Platon
- Platonin tietotieto
- PlatonData
- mahdollisuuksia
- Kirje
- powered
- edellinen
- aiemmin
- ensisijainen
- prosessi
- suojattu
- toimittaa
- mikäli
- tarjoamalla
- valtuutettu
- julkinen
- kyselyt
- kysymykset
- katso
- säilytyspaikka
- edellyttää
- tarvitaan
- Esittelymateriaalit
- tulokset
- arviot
- Rooli
- ajaa
- Haku
- salaisuus
- salaisuuksia
- Osa
- turvallinen
- turvallisuus
- siemenet
- valittu
- palvelu
- Palvelut
- setti
- asetus
- settings
- shouldnt
- näyttää
- esitetty
- Yksinkertainen
- yksinkertaistaa
- paikka
- Sivustot
- Tuotteemme
- ohjelmistokehitys
- ratkaisu
- Ratkaisumme
- jonkin verran
- lähde
- Lähteet
- standardit
- Alkaa
- Askeleet
- Levytila
- verkkokaupasta
- tallennettu
- jäsennelty
- antaa
- Onnistuneesti
- niin
- sviitti
- Tuetut
- pinta
- ottaa
- Technologies
- testi
- Testaus
- kuin
- että
- -
- heidän
- Niitä
- sitten
- Nämä
- tätä
- että
- yrittää
- tyypit
- Päivitykset
- URL
- käyttää
- käytetty
- hyödyllinen
- käyttäjä
- helppokäyttöinen
- käyttötarkoituksiin
- käyttämällä
- arvot
- lajike
- vaihdella
- hyvin
- kautta
- haluta
- we
- verkko
- verkkopalvelut
- Verkkosivu
- sivustot
- kun
- onko
- joka
- vaikka
- tulee
- with
- työskenteli
- vuotta
- te
- Sinun
- zephyrnet