Il rivale di OpenAI Cohere lancia l'API del modello di linguaggio

Nodo di origine: 1541684

avere coesione, una startup che crea modelli linguistici di grandi dimensioni per rivaleggiare con quelli di OpenAI e AI2Labs, ha annunciato oggi la disponibilità generale della sua piattaforma commerciale per lo sviluppo di app e servizi. Attraverso un'API, i clienti possono accedere a modelli ottimizzati per una gamma di applicazioni del linguaggio naturale, in alcuni casi a una frazione del costo delle offerte concorrenti.

La pandemia ha accelerato la trasformazione digitale del mondo, spingendo le aziende a fare più affidamento sul software per semplificare i propri processi. Di conseguenza, la domanda di tecnologie basate sul linguaggio naturale è oggi più elevata che mai, soprattutto in ambito aziendale. Secondo un 2021 sondaggio da John Snow Labs e Gradient Flow, il 60% dei leader tecnologici ha indicato che i propri budget per l’elaborazione del linguaggio naturale (PNL) sono cresciuti di almeno il 10% rispetto al 2020, mentre un terzo – il 33% – ha affermato che la propria spesa è aumentata di oltre il 30% .

Il mercato globale della PNL lo è previsto il suo valore salirà da 11.6 miliardi di dollari nel 2020 a 35.1 miliardi di dollari entro il 2026.

“Il linguaggio è essenziale per l’umanità e probabilmente la sua più grande invenzione, dopo lo sviluppo dei computer. Ironicamente, i computer non hanno ancora la capacità di comprendere appieno il linguaggio, trovando difficile analizzare la sintassi, la semantica e il contesto che lavorano tutti insieme per dare significato alle parole", ha detto a VentureBeat via e-mail il CEO di Cohere Aidan Gomez. "Tuttavia, le ultime novità in fatto di tecnologia PNL migliorano continuamente la nostra capacità di comunicare ininterrottamente con i computer."

avere coesione

Con sede a Toronto, in Canada, Cohere è stata fondata nel 2019 da un team con pedigree tra cui Gomez, Ivan Zhang e Nick Frosst. Gomez, ex stagista presso Google Brain, è coautore del documento accademico “L'attenzione è tutto ciò che serve", che ha introdotto al mondo un'architettura fondamentale del modello di intelligenza artificiale chiamata Transformer. (Tra gli altri sistemi di alto profilo, OpenAI GPT-3 ed Codice sono basati sull'architettura Transformer.) Zhang, insieme a Gomez, è un collaboratore di FOR.ai, un collettivo di ricerca aperto sull'intelligenza artificiale che coinvolge data scientist e ingegneri. Per quanto riguarda Frosst, anche lui, come Gomez, ha lavorato presso Google Brain, pubblicando ricerche sull'apprendimento automatico insieme al vincitore del Premio Turing Geoffrey Hinton.

In un voto di fiducia, anche prima di lanciare il suo servizio commerciale, Cohere ha raccolto 40 milioni di dollari da venture capitalist istituzionali, nonché da Hinton, dallo scienziato capo dell'intelligenza artificiale di Google Cloud Fei-Fei Li, dal co-direttore del laboratorio di intelligenza artificiale dell'UC Berkeley Pieter Abbeel e dall'ex autonomo di Uber responsabile della guida Raquel Urtasun. “Modelli linguistici molto ampi stanno ora fornendo ai computer una comprensione molto migliore della comunicazione umana. Il team di Cohere sta costruendo una tecnologia che renderà questa rivoluzione nella comprensione del linguaggio naturale molto più ampiamente disponibile", ha affermato Hinton in una conferenza stampa. dichiarazione a Fast Company a settembre.

A differenza di alcuni dei suoi concorrenti, Cohere offre due tipi di modelli di PNL inglese, generazione e rappresentazione, in lingue che includono Grande, Medio, Piccolo. I modelli di generazione possono completare attività che comportano la generazione di testo, ad esempio la scrittura di descrizioni di prodotto o l'estrazione di metadati di documenti. Al contrario, i modelli rappresentazionali riguardano la comprensione del linguaggio, la guida di app come la ricerca semantica, i chatbot e l’analisi del sentiment.

Introduzione ai modelli linguistici di grandi dimensioni con Cohere | Documentazione dell'API Cohere

Cohere fornisce già la funzionalità PNL per Ada, un'azienda nello spazio dei chatbot. Ada sfrutta un modello Cohere per abbinare le richieste di chat dei clienti con le informazioni di supporto disponibili.

“Essendo sia [nello spazio generativo che rappresentativo], Cohere ha la flessibilità di cui molti clienti aziendali hanno bisogno e può offrire una gamma di dimensioni di modello che consentono ai clienti di scegliere il modello che meglio si adatta alle loro esigenze attraverso gli spettri di latenza e prestazioni ", ha detto Gomez. “I casi [d’uso] in tutti i settori includono la capacità di tracciare e classificare in modo più accurato la spesa, accelerare l’immissione dei dati per i fornitori di servizi sanitari o sfruttare la ricerca semantica per casi legali, polizze assicurative e documenti finanziari. Le aziende possono facilmente generare descrizioni di prodotto con un input minimo, redigere e analizzare contratti legali e analizzare tendenze e sentiment per informare le decisioni di investimento.

Per mantenere la sua tecnologia relativamente conveniente, Cohere addebita l’accesso in base al carattere in base alle dimensioni del modello e al numero di caratteri utilizzati dalle app (che vanno da $ 0.0025 a $ 0.12 per 10,000 caratteri per la generazione e $ 0.019 per 10,000 caratteri per la rappresentazione). Solo i modelli generati fanno pagare i caratteri in input e in output, mentre gli altri modelli fanno pagare i caratteri in output. Tutti i modelli ottimizzati, nel frattempo, ovvero i modelli adattati a particolari domini, settori o scenari, vengono addebitati a due volte la tariffa del modello di base.

“Il problema rimane che le uniche aziende in grado di trarre vantaggio dalla tecnologia NLP richiedono risorse apparentemente infinite per accedere alla tecnologia per modelli linguistici di grandi dimensioni, il che è dovuto al costo di questi modelli che va dalle decine alle centinaia di milioni di dollari per costruire ", ha detto Gomez. “Cohere è facile da implementare. Con sole tre righe di codice, le aziende possono applicare il [nostro] motore full-stack per soddisfare tutte le loro esigenze di PNL. I modelli stessi sono… già pre-addestrati.”

Introduzione ai modelli linguistici di grandi dimensioni con Cohere | Documentazione dell'API Cohere

Secondo Gomez, formare e implementare modelli linguistici di grandi dimensioni nella produzione non è un’impresa facile, anche per le imprese con ingenti risorse. Ad esempio, il Megatron 530B recentemente rilasciato da Nvidia modello è stato originariamente addestrato su 560 server Nvidia DGX A100, ciascuno dei quali ospita 8 GPU Nvidia A100 da 80 GB. Microsoft e Nvidia affermano di aver osservato tra 113 e 126 teraflop al secondo per GPU durante l'addestramento del Megatron 530B, il che comporterebbe un costo di addestramento di milioni di dollari. (Una valutazione teraflop misura le prestazioni dell'hardware, comprese le GPU.)

L'inferenza, ovvero l'esecuzione effettiva del modello addestrato, è un'altra sfida. Su due dei suoi costosi Sistemi DGX SuperPod, Nvidia afferma che l'inferenza (ad esempio, il completamento automatico di una frase) con il Megatron 530B richiede solo mezzo secondo. Ma può richiedere più di un minuto su un server locale basato su CPU. Sebbene le alternative al cloud possano essere più economiche, non lo sono in modo drammatico: una stima fissa il costo dell'esecuzione di GPT-3 su una singola istanza di Amazon Web Services a un minimo di $ 87,000 all'anno.

Addestrare i modelli

Per costruire i modelli di Cohere, Gomez afferma che il team analizza il web e fornisce ai modelli miliardi di ebook e pagine web (ad esempio WordPress, Tumblr, Stack Exchange, Genius, BBC, Yahoo e New York Times) in modo che possano imparare a comprendere il significato e l'intento del linguaggio. (Il set di dati di addestramento per i modelli di generazione ammonta a 200 GB dopo alcuni filtri, mentre il set di dati per i modelli di rappresentazione, che non è stato filtrato, ammonta a 3 TB.) Come tutti i modelli di intelligenza artificiale, Cohere si allena inserendo una serie di esempi per apprendere modelli tra punti dati, come regole grammaticali e sintattiche.

È risaputo che i modelli possono amplificare le distorsioni nei dati su cui sono stati addestrati. In un documento, il Centro sul terrorismo, l'estremismo e l'antiterrorismo del Middlebury Institute of International Studies sostiene che GPT-3 e modelli simili possono generare testi che potrebbero radicalizzare le persone in ideologie estremiste di estrema destra. Un gruppo della Georgetown University ha utilizzato GPT-3 per generare disinformazione, comprese storie su una falsa narrativa, articoli modificati per promuovere una prospettiva fasulla e tweet che si rifanno a particolari punti di disinformazione. Altri studi, come quello pubblicato da Intel, MIT e dai ricercatori canadesi dell'iniziativa AI CIFAR in aprile, hanno rilevato alti livelli di pregiudizi stereotipati in alcuni dei modelli open source più popolari, tra cui BERT di Google ed   Rete XL ed RoBERTa di Facebook.

Generazione | Documentazione dell'API Cohere

Cohere, da parte sua, afferma di impegnarsi per la sicurezza e addestra i suoi modelli “per ridurre al minimo pregiudizi e tossicità”. I clienti devono rispettare le linee guida di utilizzo dell’azienda o rischiano che venga revocato l’accesso all’API. E Cohere – che dispone di un comitato consultivo esterno oltre a un team di sicurezza interno – afferma che prevede di monitorare i “rischi in evoluzione” con strumenti progettati per identificare risultati dannosi.

Ma i modelli PNL di Cohere non sono perfetti. Nella sua documentazione, la società ammette che i modelli potrebbero generare “oscenità, contenuti sessualmente espliciti e messaggi che descrivono in modo errato o stereotipano gruppi di persone sulla base di pregiudizi storici problematici perpetuati dalle comunità di Internet”. Ad esempio, quando vengono alimentati suggerimenti su persone, occupazioni e ideologie politiche/religiose, i risultati dell’API potrebbero essere tossici da 5 a 6 volte ogni 1,000 generazioni e discutere di uomini due volte più che di donne, afferma Cohere. Nel frattempo, il modello Lontra in particolare tende ad associare uomini e donne a occupazioni stereotipicamente “maschili” e “femminili” (ad esempio, scienziato maschio contro governante donna).

In risposta, Gomez afferma che il team di Cohere “fa sforzi sostanziali per filtrare contenuti tossici e testi inappropriati”, compresa l’esecuzione di attacchi avversari e la misurazione dei modelli rispetto ai parametri di riferimento della ricerca sulla sicurezza. "[Il] filtraggio viene effettuato a livello di parole chiave e dominio al fine di ridurre al minimo bias e tossicità", ha aggiunto. "[Il team ha compiuto] progressi significativi che distinguono Cohere dalle altre [aziende che sviluppano] grandi modelli linguistici... [S]iamo fiduciosi nell'impatto che avrà sul futuro del lavoro nel corso di questa era di trasformazione."

VentureBeat

La missione di VentureBeat è quella di essere una piazza cittadina digitale per i responsabili delle decisioni tecniche per acquisire conoscenze sulla tecnologia trasformativa e sulle transazioni. Il nostro sito fornisce informazioni essenziali sulle tecnologie e strategie dei dati per guidarti mentre guidi le tue organizzazioni. Ti invitiamo a diventare un membro della nostra community, per accedere a:

  • informazioni aggiornate sugli argomenti di tuo interesse
  • le nostre newsletter
  • contenuti gated leader di pensiero e accesso scontato ai nostri eventi pregiati, come Trasforma NO: Per saperne di più
  • funzionalità di rete e altro ancora

Diventa member

Fonte: https://venturebeat.com/2021/11/15/openai-rival-cohere-launches-lingual-model-api/

Timestamp:

Di più da AI - VentureBeat