Avoimen lähdekoodin suuret kielimallit: edut, riskit ja tyypit - IBM Blog

Avoimen lähdekoodin suuret kielimallit: edut, riskit ja tyypit – IBM Blog

Lähdesolmu: 2295416

Avoimen lähdekoodin suuret kielimallit: edut, riskit ja tyypit – IBM Blog



Tekoälysuunnittelijat ja -kehittäjät käyttävät avoimen lähdekoodin laajaa kielimallia, nauravat työlleen

Suuret kielimallit (LLM) ovat perusmallit että käyttö tekoäly (AI), syväoppiminen ja massiiviset tietojoukot, mukaan lukien verkkosivustot, artikkelit ja kirjat, tekstin luomiseen, kielten kääntämiseen ja monenlaisen sisällön kirjoittamiseen. Näitä generatiivisia tekoälymalleja on kahta tyyppiä: patentoidut suuret kielimallit ja avoimen lähdekoodin suuret kielimallit.

Tässä videossa Martin Keen selittää lyhyesti suuria kielimalleja, miten ne liittyvät perusmalleihin, miten ne toimivat ja miten niitä voidaan käyttää erilaisiin liiketoimintaongelmiin.

Yrityksen omistamat LLM:t ovat yrityksen omistuksessa, ja niitä voivat käyttää vain asiakkaat, jotka ostavat lisenssin. Lisenssi voi rajoittaa LLM:n käyttöä. Toisaalta avoimen lähdekoodin LLM:t ovat ilmaisia ​​ja kaikkien saatavilla, käyttää mihin tahansa tarkoitukseen, muokata ja jakaa.

Termi "avoin lähdekoodi" viittaa siihen, että LLM-koodi ja sen taustalla oleva arkkitehtuuri ovat yleisön saatavilla, mikä tarkoittaa, että kehittäjät ja tutkijat voivat vapaasti käyttää, parantaa tai muuten muokata mallia.

Mitä hyötyä avoimen lähdekoodin LLM:istä on?

Aikaisemmin näytti siltä, ​​että mitä suurempi LLM oli, sitä parempi, mutta nyt yritykset ymmärtävät, että ne voivat olla kohtuuttoman kalliita tutkimuksen ja innovaatioiden kannalta. Vastauksena an avoimen lähdekoodin malli ekosysteemi alkoi näyttää lupaavasti ja haastaa LLM-liiketoimintamallin.

Avoimuus ja joustavuus

Yritykset, joilla ei ole omaa koneoppimiskykyä, voivat käyttää avoimen lähdekoodin LLM:itä, jotka tarjoavat läpinäkyvyyttä ja joustavuutta omassa infrastruktuurissaan, joko pilvessä tai tiloissa. Tämä antaa heille täyden hallinnan tietoihinsa ja tarkoittaa, että arkaluontoiset tiedot pysyvät heidän verkossaan. Kaikki tämä vähentää tietovuodon tai luvattoman käytön riskiä.

Avoimen lähdekoodin LLM tarjoaa läpinäkyvyyttä sen toiminnasta, arkkitehtuurista ja koulutustiedoista ja -menetelmistä sekä sen käytöstä. Mahdollisuus tarkastaa koodia ja näkyvyys algoritmeihin antaa yritykselle enemmän luottamusta, auttaa auditoinneissa ja auttaa varmistamaan eettisen ja lainmukaisuuden. Lisäksi avoimen lähdekoodin LLM:n tehokas optimointi voi vähentää viivettä ja parantaa suorituskykyä.

Kustannussäästöt

Ne ovat yleensä paljon halvempia pitkällä aikavälillä kuin omat LLM:t, koska niihin ei liity lisenssimaksuja. LLM:n käyttökustannukset sisältävät kuitenkin pilvipalvelun tai paikallisen infrastruktuurin kustannukset, ja niihin liittyy yleensä merkittäviä käyttöönottokustannuksia.

Lisätty ominaisuuksia ja yhteisön lahjoituksia

Valmiiksi koulutetut avoimen lähdekoodin LLM:t mahdollistavat hienosäädön. Yritykset voivat lisätä LLM:ään ominaisuuksia, jotka hyödyttävät niiden erityistä käyttöä, ja LLM:itä voidaan myös kouluttaa tiettyihin tietokokonaisuuksiin. Näiden muutosten tai määritysten tekeminen omassa LLM:ssä edellyttää yhteistyötä toimittajan kanssa ja se maksaa aikaa ja rahaa.

Vaikka patentoidut LLM:t tarkoittavat, että yrityksen on turvauduttava yhteen palveluntarjoajaan, avoimen lähdekoodin avulla yritys voi hyödyntää yhteisön lahjoituksia, useita palveluntarjoajia ja mahdollisesti sisäisiä tiimejä päivitysten, kehityksen, ylläpidon ja tuen hoitamiseksi. Avoimen lähdekoodin avulla yritykset voivat kokeilla ja käyttää eri näkökulmista olevien ihmisten panoksia. Tämä voi johtaa ratkaisuihin, joiden avulla yritykset voivat pysyä teknologian kärjessä. Se antaa myös avoimen lähdekoodin LLM:itä käyttäville yrityksille enemmän hallintaa teknologiaansa ja sen käyttöä koskeviin päätöksiin.

Millaisia ​​projekteja avoimen lähdekoodin LLM-mallit voivat mahdollistaa?

Organisaatiot voivat käyttää avoimen lähdekoodin LLM-malleja luodakseen käytännössä mitä tahansa projekteja, jotka ovat hyödyllisiä työntekijöilleen tai avoimen lähdekoodin lisenssin salliessa, joita voidaan tarjota kaupallisina tuotteina. Nämä sisältävät:

Tekstin luominen

Avoimen lähdekoodin LLM-mallien avulla voit luoda sovelluksen, jolla on kielitaito, kuten sähköpostien, blogitekstien tai luovien tarinoiden kirjoittaminen. Falcon-40B:n kaltainen LLM, jota tarjotaan Apache 2.0 -lisenssillä, voi vastata kehotteisiin korkealaatuisilla tekstiehdotuksilla, joita voit sitten tarkentaa ja kiillottaa.

Koodin luonti

Avoimen lähdekoodin LLM:t, jotka on koulutettu olemassa oleviin koodi- ja ohjelmointikieliin, voivat auttaa kehittäjiä rakentamaan sovelluksia ja löytämään virheitä ja turvallisuuteen liittyviä vikoja.

Virtuaalinen tutorointi

Avoimen lähdekoodin LLM:ien avulla voit luoda sovelluksia, jotka tarjoavat yksilöllisiä oppimiskokemuksia, joita voidaan mukauttaa ja hienosäätää tiettyjen oppimistyylien mukaan.

Sisällön yhteenveto

Avoimen lähdekoodin LLM-työkalu, joka tiivistää pitkiä artikkeleita, uutisia, tutkimusraportteja ja paljon muuta, voi helpottaa avaintietojen poimia.

AI-ohjatut chatbotit

He voivat ymmärtää kysymyksiä ja vastata kysymyksiin, tarjota ehdotuksia ja osallistua luonnollisen kielen keskusteluun.

Kielen käännös

Avoimen lähdekoodin LLM:t, jotka harjoittelevat monikielisiä tietojoukkoja, voivat tarjota tarkkoja ja sujuvia käännöksiä monilla kielillä.

Sentiment-analyysi

LLM:t voivat analysoida tekstiä tunteiden tai tunteiden sävyn määrittämiseksi, mikä on arvokasta brändin maineen hallinnassa ja asiakaspalautteen analysoinnissa.

Sisällön suodatus ja moderointi

LLM:t voivat olla arvokkaita tunnistamaan ja suodattamaan pois sopimatonta tai haitallista verkkosisältöä, mikä on valtava apu turvallisemman verkkoympäristön ylläpitämisessä.

Millaiset organisaatiot käyttävät avoimen lähdekoodin LLM:itä?

Laaja valikoima organisaatiotyyppejä käyttää avoimen lähdekoodin LLM:itä. Esimerkiksi IBM ja NASA kehittivät avoimen lähdekoodin LLM:n, joka on koulutettu geospatiaaliseen tietoon auttaakseen tutkijoita ja heidän organisaatioitaan taistelemaan. ilmastonmuutos.

Kustantajat ja toimittajat käyttää avoimen lähdekoodin LLM:itä sisäisesti analysoimaan, tunnistamaan ja tekemään yhteenvetoja tietojen jakamatta omaa tietoa uutishuoneen ulkopuolelle.

jotkut terveydenhuollon organisaatiot käyttää avoimen lähdekoodin LLM:itä terveydenhuollon ohjelmistoissa, mukaan lukien diagnoosityökalut, hoidon optimoinnit ja potilastietoja käsittelevät työkalut, kansanterveys ja paljon muuta.

Avoimen lähdekoodin LLM FinGPT kehitettiin erityisesti rahoitusalaa varten.

Jotkut parhaista avoimen lähdekoodin, kuratoiduista LLM:istä

- Avaa LLM-tulostaulukko pyrkii seuraamaan, rankaisemaan ja arvioimaan avoimen lähdekoodin LLM:itä ja chatbotteja eri mittareilla.

  • Yksi hyvin toimiva avoimen lähdekoodin LLM, jolla on lisenssi, joka sallii kaupallisen käytön sopimukset, on LlaMa 2 Meta AI, joka kattaa esikoulutetut ja hienosäädetyt generatiiviset tekstimallit 7–70 miljardilla parametrilla ja on saatavilla Watsonx.ai studio. Se on saatavana myös Hugging Face -ekosysteemin ja muuntajakirjaston kautta.
  • Vicuna ja Alpaca luotiin LLaMa-mallin päälle, ja, kuten Googlen Bard ja OpenAI:n ChatGPT, ne on hienosäädetty noudattamaan ohjeita. Vicuna, joka on parempi kuin Alpaca, vastaa GPT-4:n suorituskykyä.
  • Kukinta by BigScience on yli 1,000 XNUMX tekoälytutkijan luoma monikielinen kielimalli. Se on ensimmäinen monikielinen LLM, joka on koulutettu täydelliseen läpinäkyvyyteen.
  • - Haukka Technology Innovation Instituten (TII) LLM:ää voidaan käyttää chatbottien kanssa luovan tekstin luomiseen, monimutkaisten ongelmien ratkaisemiseen sekä toistuvien tehtävien vähentämiseen ja automatisointiin. Sekä Falcon 6B että 40B ovat saatavilla raakamalleina hienosäätöön tai jo ohjeistettuina malleina, joita voidaan käyttää sellaisenaan. Falcon käyttää vain noin 75 % GPT-3:n koulutuslaskentabudjetista ja ylittää sen huomattavasti.
  • MPT-7B ja MPT-30B ovat avoimen lähdekoodin LLM:itä, jotka on lisensoitu kaupalliseen käyttöön MosaicML:ltä (Databricks on äskettäin hankkinut). MPT-7B vastaa LlaMA:n suorituskykyä. MPT-30B on parempi kuin GPT-3. Molemmat ovat koulutettuja 1T-tunnuksilla.
  • Googlen tekoälyn käynnistämä FLAN-T5 pystyy käsittelemään yli 1,800 XNUMX erilaista tehtävää.
  • StarCoder Hugging Face on avoimen lähdekoodin LLM-koodausassistentti, joka on koulutettu GitHubin sallivaan koodiin.
  • PunainenPjama-INCITE, lisensoitu Apache-2:lla, on 6.9 B-parametrin esikoulutettu kielimalli, jonka ovat kehittäneet Together ja eri instituutioiden johtajat, mukaan lukien Montrealin yliopisto ja Stanford Center for Research on Foundation Models.
  • Cerebras-GPT Cerebras on seitsemän GPT-mallin perhe, jotka vaihtelevat 111 miljoonasta 13 miljardiin parametriin.
  • StableLM on avoimen lähdekoodin LLM Stable AI:ltä, joka teki tekoälykuvageneraattorista Stable Diffusion. Se harjoitteli tietojoukkoa, joka sisältää 1.5 biljoonaa tokenia nimeltä "The Pile", ja sitä on hienosäädetty Alpacan avoimen lähdekoodin tietojoukkojen yhdistelmällä, GPT4All (joka tarjoaa useita malleja, jotka perustuvat GPT-J:hen, MPT:hen ja LlaMaan), Dollyn, ShareGPT ja HH.

Suuriin kielimalleihin liittyvät riskit

Vaikka LLM-tulostus kuulostaa sujuvalta ja arvovaltaiselta, niitä voi olla riskit jotka sisältävät "hallusinaatioihin" perustuvan tiedon tarjoamisen sekä ennakkoluuloihin, suostumukseen tai turvallisuuteen liittyviä ongelmia. Näihin riskeihin liittyvä koulutus on yksi vastaus näihin dataa ja tekoälyä koskeviin kysymyksiin.

  • Hallusinaatiot tai valheet voivat johtua siitä, että LLM on koulutettu epätäydellisten, ristiriitaisten tai epätarkkojen tietojen perusteella tai se, että hän ennustaa seuraavan tarkan sanan kontekstin perusteella ymmärtämättä sen merkitystä.
  • Harhaa tapahtuu, kun tiedon lähde ei ole monipuolinen tai edustava.
  • Suostumus viittaa siihen, onko koulutusdata kerätty vastuullisesti, mikä tarkoittaa, että se noudattaa tekoälyn hallintoprosesseja, jotka tekevät siitä lakien ja määräysten mukaisia, ja tarjoaa ihmisille tapoja sisällyttää palautetta.
  • Tietoturvaongelmia voivat olla henkilötietojen vuotaminen, verkkorikolliset, jotka käyttävät LLM:ää haitallisiin tehtäviin, kuten tietojenkalastelu- ja roskapostituksiin, sekä hakkerit, jotka muuttavat alkuperäistä ohjelmointia.

Avoimen lähdekoodin suuret kielimallit ja IBM

Tekoälymallit, erityisesti LLM:t, ovat yksi seuraavan vuosikymmenen muuttavimmista teknologioista. Koska uudet tekoälysäännöt asettavat suuntaviivoja tekoälyn käytölle, on tärkeää paitsi hallita ja hallita tekoälymalleja, mutta yhtä tärkeää on hallita tekoälyyn lisättyä dataa.

IBM tarjoaa mahdollisuuksia auttaa organisaatioita vastaamaan näihin tarpeisiin ja moninkertaistamaan tekoälyn vaikutusta watsonx, yritysvalmis tekoäly- ja data-alustamme. Yhdessä watsonx tarjoaa organisaatioille mahdollisuuden:

  • Kouluta, viritä ja ota tekoäly käyttöön yrityksesi alueella watsonx.ai
  • Skaalaa tekoälyn työkuormia kaikelle datallesi missä tahansa watsonx.data
  • Ota käyttöön vastuulliset, läpinäkyvät ja selitettävät data- ja tekoälytyönkulut watsonx.governance

- IBM watsonx Assistant keskusteluhakutoiminto perustuu sen valmiiksi rakennettuihin integraatioihin, matalan koodin integrointikehysja kokemus ilman koodia. Sekä kehittäjät että yrityskäyttäjät voivat automatisoida kysymyksiin vastaamisen keskusteluhaulla ja vapauttaa itsensä rakentamaan arvokkaampia tapahtumavirtoja ja integroituja digitaalisia kokemuksia virtuaalisten avustajiensa kanssa.

Keskusteluhaun lisäksi watsonx Assistant jatkaa yhteistyötä IBM Researchin ja watsonxin kanssa kehittääkseen räätälöityjä watsonx LLM:itä, jotka ovat erikoistuneet luokitteluun, päättelyyn, tiedon poimimiseen, yhteenvetoon ja muihin keskustelukäyttötapauksiin. Watsonx Assistant on jo saavuttanut merkittäviä edistysaskeleita sen kyvyssä ymmärtää asiakkaita pienemmällä vaivalla käyttämällä suuria kielimalleja.

Lue toimitusjohtajan opas generatiiviseen tekoälyyn Lue lisää IBM watsonxista

Kategoriat

Lisää tekoälystä

Preston voiman vapauttaminen: Uberin tapaustutkimus

7 min lukea - Uberin datavetoisen menestyksen taika Uber, kyytijättiläinen, on tuttu nimi maailmanlaajuisesti. Me kaikki tunnistamme sen alustaksi, joka yhdistää ajajat kuljettajiin vaivattomaan kuljetukseen. Mutta useimmat ihmiset eivät ymmärrä, että kulissien takana Uber ei ole vain kuljetuspalvelu; se on datan ja analytiikan voimanpesä. Joka päivä miljoonat matkustajat käyttävät Uber-sovellusta ja osallistuvat tietämättään monimutkaiseen datalähtöisten päätösten verkkoon. Tämä blogi vie sinut matkalle…

IBM TechXchange korostaa tekoälyosaamisen ja kumppaniinnovaatioiden merkitystä

3 min lukea - Generatiiviset tekoälyt ja suuret kielimallit ovat valmiita vaikuttamaan siihen, miten me kaikki saamme ja käytämme tietoa. Mutta kun organisaatiot kilpailevat omaksuakseen nämä uudet teknologiat liiketoiminnassaan, se vaatii maailmanlaajuista ekosysteemiä kumppaneista, joilla on alan asiantuntemusta, jotta voidaan tunnistaa oikeat yrityskäyttötapaukset tekoälylle ja teknisiä taitoja teknologian käyttöönottamiseksi. TechXchangessa, IBM:n johtavassa teknisessä oppimistapahtumassa Las Vegasissa viime viikolla, IBM Partner Plus -jäsenet, mukaan lukien strategiset kumppanimme, jälleenmyyjät, ohjelmistotoimittajat, jakelijat ja palvelu…

Generatiivinen AI muutoksen katalysaattorina tietoliikenneteollisuudessa

4 min lukea - Generatiivinen tekoäly (AI) puhkesi valtavirtaan vuonna 2023 ja sytytti tulen yrityksissä integroidakseen yritystason versioita prosesseihinsa. Vuoteen 2024 mennessä 60 % C-suite-johtajista suunnittelee pilotoivansa tai käyttävänsä generatiivista tekoälyä jollain tavalla, mikä osoittaa, että generatiivisen tekoälyn julkiset alustat ovat herättäneet maailman uraauurtaviin kykyihinsä viestintäpalveluntarjoajille (CSP) ja verkkolaitteiden toimittajille ( NEP:illä), erityisesti generatiivisella tekoälyllä, on valtava potentiaali auttaa parantamaan kaikenlaisia ​​toimintoja ja asiakkaiden sitoutumista.…

AI-koodin luomisohjelmisto: mikä se on ja miten se toimii

4 min lukea - Generatiivisen tekoälyn (AI) käyttäminen tietokonekoodin tuottamiseen auttaa virtaviivaistamaan ohjelmistokehitysprosessia ja helpottaa kaikentasoisten kehittäjien koodin kirjoittamista. Käyttäjä kirjoittaa tekstikehotteen, joka kertoo, mitä koodin tulee tehdä, ja generatiivinen AI-koodin kehitystyökalu luo koodin automaattisesti. Se voi myös modernisoida vanhaa koodia ja kääntää koodia ohjelmointikielestä toiseen. Lisäämällä tekoälyä kehittäjän työkalupakkiin nämä ratkaisut voivat tuottaa korkealaatuisia…

Aikaleima:

Lisää aiheesta IBM IoT