Käytännön lähestymistapa koneoppimisen suunnitteluun - KDnuggets

Käytännön lähestymistapa koneoppimisen suunnitteluun – KDnuggets

Lähdesolmu: 2172202

XXXXX
Kuva Pixabay
 

Ominaisuuksien oppiminen on tärkeä osa koneoppiminen mutta siitä puhutaan usein vähän, ja monet oppaat ja blogiviestit keskittyvät ML-elinkaarin viimeisiin vaiheisiin. Tämä tukivaihe voi tehdä koneoppimismalleista tarkempia ja tehokkaampia ja muuttaa raakatiedon konkreettisemmaksi ja käyttövalmimmaksi. Ilman sitä täysin optimoidun mallin rakentaminen on mahdotonta. 

Tässä artikkelissa puhumme siitä, kuinka ominaisuusoppiminen toimii koneoppimisessa ja kuinka se voidaan toteuttaa yksinkertaisin käytännön vaihein. Lisäksi käsittelemme myös joitain ML:n haittoja ja annamme kattavan yleiskuvan tästä olennaisesta prosessista.

Mitä on ominaisuussuunnittelu?

Ominaisuussuunnittelu on tärkeä koneoppimistekniikka (ML), joka käsittelee tietojoukkoja ja muuntaa niistä käyttökelpoisia lukuja, jotka liittyvät tiettyihin tehtäviin. 

 

XXXXX
lähde
 

Ominaisuudet ovat analysoituja tietoelementtejä, jotka näkyvät tietojoukon sarakkeina. Korjaamalla, lajittelemalla ja normalisoi nämä tietoelementit, malleja voidaan optimoida suorituskyvyn parantamiseksi. Ominaisuusoppiminen muokkaa näitä tietoelementtejä tehdäkseen niistä relevantteja, mikä tekee malleista tarkempia ja nopeammilla vasteajoilla, koska käytettyjä muuttujia on vähemmän.

Ominaisuuden suunnitteluprosessi voidaan jakaa seuraavasti:

  • Analyysi suoritetaan tiedoista löydettyjen ongelmien, kuten epätäydellisten kenttien, epäjohdonmukaisuuksien ja muiden poikkeamien korjaamiseksi.
  • Kaikki muuttujat, joilla ei ole mitään merkitystä mallin käyttäytymisen kannalta, poistetaan.
  • Päällekkäiset tiedot hylätään.
  • Tietueet korreloidaan ja normalisoidaan.

Miksi ominaisuussuunnittelu on niin tärkeää koneoppimisessa?

Ilman ominaisuussuunnittelua ei olisi mahdollista suunnitella ennakoivia malleja, jotka pystyvät suorittamaan tehtävänsä tarkasti. Ominaisuuksien oppiminen vähentää myös tarvittavaa aikaa ja laskentaresursseja, mikä tekee malleista tehokkaampia. 

Tietojen ominaisuudet määräävät, kuinka ennustava malli toimii, mikä auttaa kutakin mallia kouluttamaan saavuttamaan halutut tulokset. Tämä tarkoittaa, että jopa tietoja, jotka eivät täysin sovellu tiettyyn toimintoon, voidaan muokata sopivan tuloksen saavuttamiseksi. Ominaisuuksien oppiminen vähentää myös merkittävästi aikaa, joka kuluu tietojen analysointiin myöhemmin. 

Ominaisuussuunnittelu: edut ja haitat

Vaikka ominaisuuksien oppiminen on välttämätöntä, sillä on joitain rajoituksia sekä ilmeisiä etuja, jotka on lueteltu alla.

Ominaisuussuunnittelu: edut

  • Suunniteltuja ominaisuuksia varustetut mallit hyötyvät nopeammasta tietojenkäsittelystä.
  • Mallit ovat yksinkertaistettuja ja siksi helpompia huoltaa.
  • Ennusteet ja arviot ovat tarkempia.

Ominaisuussuunnittelu: Haittoja

  • Ominaisuussuunnittelu voi olla aikaa vievä prosessi.
  • Tehokkaan ominaisuusluettelon luominen edellyttää syvällistä analyysiä. Tämä sisältää perusteellisen ymmärryksen tietojoukoista, mallin käsittelykäyttäytymisestä ja liiketoimintakontekstista.

Käytännön lähestymistapa koneoppimisen suunnitteluun: kuusi vaihetta

Nyt ymmärrämme paremmin, mitä ominaisuuden oppiminen voi tehdä, sekä sen haittoja. Tarkastellaanpa prosessin käytännöllistä lähestymistapaa 6 avainvaiheessa.

#1 Tietojen valmistelu

Ensimmäinen vaihe ominaisuussuunnitteluprosessissa on muuntaa eri lähteistä kootut raakatiedot käyttökelpoiseen muotoon. Käytettävissä olevia ML-muotoja ovat mm. .csc; .tfrecords; .json; .xml; ja .avro. Tietojen valmistelemiseksi sen on käytävä läpi useita prosesseja, kuten puhdistus, fuusio, nieleminen, ja lataus. 

#2 Data-analyysi

Analyysivaihe, jota joskus kutsutaan tutkivaksi vaiheeksi, on silloin, kun aineistoista otetaan oivalluksia ja kuvaavia tilastoja, jotka sitten esitetään visualisoinneissa tietojen ymmärtämiseksi paremmin. Tätä seuraa sitten korreloitujen muuttujien ja niiden ominaisuuksien tunnistaminen, jotta ne voidaan puhdistaa. 

#3 Parannus

Kun tiedot on analysoitu ja puhdistettu, on aika parantaa sitä lisäämällä puuttuvat arvot, normalisoimalla, muuntamalla ja skaalaamalla. Tietoja voidaan myös muokata lisää lisäämällä valearvoja, jotka ovat kvalitatiivisia/diskreettejä muuttujia, jotka edustavat kategorista dataa.

#4 Rakentaminen

Ominaisuudet voidaan rakentaa sekä manuaalisesti että automaattisesti algoritmeja käyttämällä (tSNE tai pääkomponenttianalyysi (PCA), esimerkiksi). Ominaisuuden rakentamisessa on lähes ehtymätön määrä vaihtoehtoja. Ratkaisu riippuu kuitenkin aina ongelmasta. 

#5 Valinta

Ominaisuuden/muuttujan/attribuutin valinta vähentää syötemuuttujien (ominaisuussarakkeiden) määrää valitsemalla vain ne, jotka ovat oleellisimmat sen muuttujan kannalta, jota malli on rakennettu ennustamaan. Tämä auttaa tarjoamaan parempia käsittelynopeuksia ja vähentämään laskentaresurssien käyttöä. 

Ominaisuuden valintatekniikoita ovat:

  • Suodattimet poistamaan tarpeettomia ominaisuuksia.
  • Kääreet, jotka kouluttavat ML-malleja käyttämään useita ominaisuuksia
  • Hybridimallit, joissa yhdistyvät suodattimet ja kääreet

Suodatinpohjaiset tekniikat esimerkiksi luottavat tilastollisiin testeihin sen määrittämiseksi, korreloiko ominaisuus riittävästi kohdemuuttujan kanssa. 

#6 Arviointi ja todentaminen

Arviointiprosessi määrittää mallin tarkkuuden harjoitustietojen osalta valittujen ominaisuuksien avulla. Jos tarkkuustaso täyttää vaaditun standardin, malli voidaan todentaa. Jos ei, ominaisuuden valintavaihe on toistettava.

Ominaisuustekniikan käyttötapaukset

Tarkastellaan nyt kolmea yleistä käyttötapausta ominaisuussuunnittelulle koneoppimisessa. 

Lisänäkemyksiä samasta tietojoukosta

Monet tietojoukot sisältävät mielivaltaisia ​​arvoja, kuten päivämäärän, iän jne., joita voidaan muokata eri muotoihin, jotka tarjoavat kyselyä koskevia erityisiä tietoja. Esimerkiksi päivämäärän ja keston tiedot voidaan ristiinviittata käyttäjien käyttäytymisen määrittämiseksi, kuten kuinka usein he vierailevat verkkosivustolla ja kuinka paljon aikaa he viettävät siellä. 

Ennustavat mallit

Oikeiden ominaisuuksien valitseminen voi auttaa rakentamaan ennakoivia malleja useille toimialoille. Yksi toimiala, joka voi hyötyä tällaisesta mallista, on julkinen liikenne, mikä auttaa arvioimaan, kuinka moni matkustaja voi käyttää palvelua tiettynä päivänä. 

Haittaohjelmien havaitseminen

Manuaalinen haittaohjelmien havaitseminen on erittäin vaikeaa, ja useimmissa hermoverkoissa on myös ongelmia tässä suhteessa. Ominaisuussuunnittelu voi kuitenkin yhdistää manuaalisia tekniikoita ja hermoverkkoja korostaakseen epätavallisia käyttäytymismalleja. 

 

XXXXX
lähde

Koneoppimisen ominaisuussuunnittelu: johtopäätös

Ominaisuussuunnittelu on tärkeä vaihe koneoppimismalleja rakennettaessa, ja tämän vaiheen korjaaminen voi varmistaa, että ML-mallit ovat tarkempia, käyttävät vähemmän laskennallisia resursseja ja prosessoivat nopeammin. 

Ominaisuuden suunnitteluprosessi voidaan jakaa kuuteen vaiheeseen alustavien tietojen valmistelusta varmentamiseen, jolloin valitaan vain tiettyä tehtävää varten oleellisimmat tietoelementit.
 
 
Nahla Davies on ohjelmistokehittäjä ja tekninen kirjoittaja. Ennen kuin hän omisti työnsä kokopäiväisesti tekniseen kirjoittamiseen, hän onnistui muun kiehtovien asioiden ohella toimimaan pääohjelmoijana Inc. 5,000 XNUMX:n kokemuksellisessa brändiorganisaatiossa, jonka asiakkaita ovat Samsung, Time Warner, Netflix ja Sony.
 

Aikaleima:

Lisää aiheesta KDnuggets