Il CEO di Pinecone parla dell'introduzione della ricerca per somiglianza vettoriale nei team di sviluppo

Ripubblicato da Platone

Seguaci: 0

Tutte le sessioni di Transform 2021 sono ora disponibili on-demand. Guarda ora.

Il modo tradizionale in cui un database risponde a una query è con un elenco di righe che soddisfano i criteri. Se è presente un ordinamento, viene eseguito un campo alla volta. La ricerca per somiglianza vettoriale cerca corrispondenze confrontando la somiglianza degli oggetti, come catturato dai modelli di machine learning. Pigna.io porta la "somiglianza vettoriale" allo sviluppatore medio offrendo un servizio chiavi in mano.

La ricerca per somiglianza vettoriale è particolarmente utile con i dati del mondo reale perché tali dati sono spesso non strutturati e contengono elementi simili ma non identici. Non richiede una corrispondenza esatta perché il cosiddetto valore più vicino è spesso sufficiente. Le aziende lo utilizzano per cose come la ricerca semantica, la ricerca di immagini e i sistemi di raccomandazione.

Il successo spesso dipende dalla qualità dell'algoritmo utilizzato per trasformare il file dati grezzi in un conciso incorporamento vettoriale che cattura efficacemente la somiglianza degli oggetti in un set di dati. Questo processo deve essere adattato al problema in questione e alla natura dei dati. Un'applicazione di ricerca di immagini, ad esempio, potrebbe utilizzare un modello semplice che trasforma ciascuna immagine in un vettore pieno di numeri che rappresentano il colore medio in ciascuna parte dell'immagine. Al giorno d'oggi è molto facile ottenere modelli di deep learning che fanno qualcosa di molto più elaborato di quello, anche dagli stessi framework di deep learning.

Ci siamo incontrati con Edo Liberty, CEO e uno dei fondatori di Pinecone, e Greg Kogan, vicepresidente del marketing, per parlare di come stanno trasformando questo approccio matematico in un Database vettoriale pigne che un team di sviluppo può implementare con pochi clic.

VentureBeat: Pinecone è specializzato nella ricerca di somiglianze vettoriali. Sono sempre esistiti modi per concatenare molte clausole WHERE in SQL per eseguire ricerche in più colonne. Perché non è abbastanza buono? Cosa ha motivato Pinecone a sviluppare le funzioni di distanza vettoriale e a trovare la migliore?

Edo Libertà: I vettori non sono affatto una novità. Sono stati un punto fermo del machine learning su larga scala e una parte dei servizi basati sul machine learning ormai da almeno un decennio nelle aziende più grandi. È stata una sorta di “posta in gioco” per le aziende più grandi ormai da almeno un decennio. La mia prima startup era basata su tecnologie come questa. Quindi l'abbiamo utilizzato su Yahoo. Quindi, abbiamo creato un altro database che lo ha distribuito.

È una parte importante degli algoritmi di riconoscimento delle immagini e dei motori di raccomandazione, ma non ha raggiunto il mainstream fino all'apprendimento automatico. In modelli pre-addestrati, gli scienziati dell’intelligenza artificiale hanno iniziato a generare questi incorporamenti in rappresentazioni vettoriali di oggetti complessi praticamente per tutto. Quindi è diventato molto più basso ed è diventato molto più comune. Le persone hanno improvvisamente iniziato ad avere questi vettori e all'improvviso è come se chiedessero "OK, e adesso?"

Greg Kogan: Il motivo per cui le clausole non sono sufficienti è che sono utili tanto quanto il numero di sfaccettature che hai. Puoi mettere insieme le clausole WHERE, ma non produrrà una risposta classificata. Anche per qualcosa di comune come la ricerca semantica, una volta ottenuto un incorporamento vettoriale del documento di testo, è possibile misurare la somiglianza tra i documenti molto meglio che se si mettono insieme parole e si cercano solo parole chiave all'interno del documento. Un'altra cosa che sentiamo è la ricerca di altri tipi di dati non strutturati come immagini o file audio. Cose del genere per le quali prima non esisteva la ricerca semantica. Ma ora possono convertire dati non strutturati in incorporamenti vettoriali. Ora puoi eseguire la ricerca per somiglianza vettoriale su tali articoli e fare cose come trovare immagini simili o trovare prodotti simili. Se lo fai sui dati sul comportamento degli utenti o sui registri degli eventi, puoi trovare eventi simili, acquirenti simili e così via.

"Una volta che è un vettore, per noi è lo stesso"

VentureBeat: Che tipo di preelaborazione devi fare per arrivare al punto in cui hai il vettore? Posso immaginare cosa potrebbe essere per il testo, ma per quanto riguarda altri domini come immagini o audio?

Kogan: Una volta che è un vettore, per noi è lo stesso. Possiamo eseguire le stesse operazioni matematiche su di esso. Dal punto di vista dell'utente, dovrebbe trovare un modello di incorporamento che funzioni con il suo tipo di dati. Quindi, per le immagini, ci sono molti modelli di visione artificiale disponibili in commercio. E se sei un'azienda più grande con il tuo team di data science, molto probabilmente stai sviluppando i tuoi modelli che trasformeranno le immagini in incorporamenti vettoriali. Per l'audio è la stessa cosa. C'è wav2vec per l'audio, ad esempio.

Per testo e immagini, puoi trovare tantissimi modelli standard. Per i dati audio e in streaming, sono difficili da trovare, quindi è necessario un po' di lavoro di scienza dei dati. Quindi le aziende che ne hanno più urgente bisogno sono quelle più avanzate che dispongono di propri team di data science. Hanno svolto tutto il lavoro di scienza dei dati e hanno visto che c'è molto di più che possono fare con quei vettori.

VentureBeat: Ci sono modelli più attraenti o implicano davvero molto lavoro specifico per dominio?

Kogan: I modelli standard sono abbastanza buoni per molti casi d'uso. Se utilizzi la ricerca semantica di base sui documenti, puoi trovare alcuni modelli standard, come l'incorporamento di frasi e cose del genere. Stanno bene. Se tutta la tua attività dipende da un modello proprietario, potresti doverlo fare da solo. Ad esempio, se sei una startup immobiliare o una startup di servizi finanziari e il tuo segreto è riuscire a modellare qualcosa come il rischio finanziario o il prezzo di una casa, investirai nello sviluppo dei tuoi modelli. Potresti prendere un modello standard e riqualificarlo sui tuoi dati per trarne prestazioni migliori.

Grandi banche di domande generano risultati migliori

VentureBeat: Ci sono esempi di aziende che hanno fatto qualcosa che ti ha davvero sorpreso, che hanno costruito un modello che si è rivelato molto migliore di quanto pensavi sarebbe stato?

Libertà: Se hai una banca molto ampia di domande e buone risposte a tali domande, un approccio comune e ragionevole è cercare qual è la domanda più simile e restituire semplicemente la migliore risposta che hai per quest'altra domanda, giusto? Sembra molto semplicistico, ma in realtà fa davvero un ottimo lavoro, soprattutto se hai una grande banca di domande e risposte. Più grande è la raccolta, migliori saranno i risultati

Kogan: Non avevamo nemmeno realizzato che potesse essere applicabile al rilevamento dei bot e alla duplicazione delle immagini. Pertanto, se sei un'azienda di consumo che consente il caricamento di immagini, potresti avere un problema con il bot in cui un utente carica alcune immagini scadenti. Ma una volta che l'immagine viene vietata, provano a caricarne una versione leggermente modificata. La semplice ricerca di un hash di quell'immagine non ti troverà una corrispondenza. Ma se cerchi somiglianze, ad esempio immagini molto simili, sospendi immediatamente l'account o almeno lo contrassegni per la revisione.

Lo abbiamo sentito anche nel caso delle organizzazioni di servizi finanziari, dove ricevono molte più richieste di quelle che possono esaminare manualmente. Quindi vogliono contrassegnare le applicazioni che assomigliano ad applicazioni fraudolente precedentemente contrassegnate.

VentureBeat: La vostra tecnologia è proprietaria? Lo hai costruito su una sorta di codice open source? O è una miscela?

Kogan: Al centro di Pinecone c'è una libreria di ricerca vettoriale che è un indice proprietario. Un indice vettoriale. Abbiamo scoperto che alle persone non interessa tanto quale indice sia esattamente o se sia proprietario o open source. Vogliono solo aggiungere questa funzionalità alla loro applicazione. Come posso farlo velocemente e come posso ampliarlo? Ha tutte le funzionalità di cui abbiamo bisogno? Mantiene la sua velocità e precisione su larga scala? E chi gestisce le infrastrutture?

Libertà: Vogliamo contribuire alla comunità open source. E stiamo pensando alla nostra strategia open core. Non è improbabile che presto supporteremo pubblicamente gli indici open source. Ciò che ha detto Greg è accurato. Sto solo dicendo che siamo grandi fan della comunità open source e ci piacerebbe anche poter contribuire ad essa.

VentureBeat: Ora sembra che se sei uno sviluppatore non lo integri necessariamente con nessuno dei database di per sé. Devi semplicemente caricare lateralmente i dati in Pinecone. Quando esegui una query, restituisce una sorta di chiave e torni al database tradizionale per capire cosa significa quella chiave.

Kogan: Completamente giusto. Sì, lo esegui insieme al tuo magazzino o data Lake. Oppure potresti archiviare i dati principali ovunque. Presto saremo in grado di conservare qualcosa di più della semplice chiave in Pinecone. Non stiamo cercando di essere la tua fonte di verità per il tuo database utenti o il tuo magazzino. Vogliamo solo eliminare i viaggi di andata e ritorno. Una volta trovati i risultati classificati o elementi simili, ne avremo un po' di più. Se tutto ciò che desideri è la posizione S3 di quell'elemento o l'ID utente, lo avrai nei risultati.

Maggiore flessibilità sui prezzi

VentureBeat: Per quanto riguarda i prezzi, sembra che tu carichi tutto nella RAM. I tuoi prezzi sono determinati dal numero di vettori presenti nel set di dati.

Kogan: Prima era così. Recentemente abbiamo iniziato a consentire ad alcuni utenti di avere un controllo maggiore su aspetti come il numero di shard e repliche. Soprattutto se vogliono aumentare la loro produttività. Alcune aziende si rivolgono a noi con richieste di throughput e latenza incredibilmente elevate. Quando si iscrivono e creano un indice, possono scegliere di avere più shard e più repliche per una maggiore disponibilità e velocità effettiva. In tal caso, hai ancora la stessa quantità di dati, ma poiché vengono replicati, pagherai di più perché stai cercando dati su più macchine.

VentureBeat: Come gestisci i lavori in cui le aziende sono disposte ad aspettare un po' e non si preoccupano di una partenza a freddo?

Kogan: Per alcune aziende, i prezzi basati sulla memoria non hanno senso. Quindi siamo felici di lavorare con le aziende per trovare un altro modello.

Libertà: Quello che stai chiedendo è un controllo molto più capillare su costi e prestazioni. Lavoriamo con clienti più grandi e team più grandi. Oggi abbiamo appena incontrato un'azienda molto grande. Il carico di lavoro è di 50 miliardi di vettori. Di solito, abbiamo tempi di risposta molto stretti. Diciamo che 20, 30, 40, 50 millisecondi sono tipici il 99% delle volte. Ma dicono che si tratta di un carico di lavoro analitico e siamo felici di avere una latenza di un secondo intero o anche due secondi. Ciò significa che possono pagare di meno. Siamo molto felici di lavorare con i clienti e trovare compromessi, ma oggi non è qualcosa che è aperto nell'API. Se accedi al sito Web e utilizzi il prodotto, queste opzioni non saranno ancora disponibili.

Kogan: Abbiamo semplificato i prezzi self-service sul sito Web per rendere più semplice per le persone entrare e giocarci. Ma una volta che avrai 50 miliardi di vettori e requisiti di prestazioni o scala pazzeschi, vieni a parlare con noi. Possiamo farlo funzionare.

La nostra scommessa iniziale era che sempre più aziende avrebbero utilizzato i dati vettoriali man mano che i modelli di apprendimento automatico diventavano più diffusi e i data scientist diventavano più produttivi. Si rendono conto che puoi fare molto di più con i tuoi dati, una volta che vengono trasformati in un formato vettoriale. Puoi raccoglierne meno e avere comunque successo. Ci sono anche implicazioni sulla privacy e sulla tutela dei consumatori.

Sta diventando una scommessa sempre meno estrema. Stiamo vedendo gli early adopter, le aziende più avanzate lo hanno già fatto. Stanno utilizzando la ricerca per somiglianza vettoriale e sistemi di consigli per i risultati della ricerca. Facebook li usa per il posizionamento dei feed. La visione è che sempre più aziende sfrutteranno i dati vettoriali per raccomandazioni e molti casi d’uso ancora da scoprire.

Libertà: I leader ce l’hanno già. Sta già accadendo. È più di una semplice tendenza.

VentureBeat

La missione di VentureBeat è quella di essere una piazza cittadina digitale per i responsabili delle decisioni tecniche per acquisire conoscenze sulla tecnologia trasformativa e sulle transazioni. Il nostro sito fornisce informazioni essenziali sulle tecnologie e strategie dei dati per guidarti mentre guidi le tue organizzazioni. Ti invitiamo a diventare un membro della nostra community, per accedere a:

informazioni aggiornate sugli argomenti di tuo interesse
le nostre newsletter
contenuti gated leader di pensiero e accesso scontato ai nostri eventi pregiati, come Trasforma NO: Per saperne di più
funzionalità di rete e altro ancora

Diventa member

Fonte: https://venturebeat.com/2021/08/02/pinecone-ceo-on-bringing-vector-similarity-search-to-dev-teams/

Timestamp: 2 Agosto 2021

Di più da AI - VentureBeat

OpenAI afferma di aver attenuato bias e tossicità in GPT-3

Cluster di origine:

Ripubblicato da Platone

"Una volta che è un vettore, per noi è lo stesso"

Grandi banche di domande generano risultati migliori

Maggiore flessibilità sui prezzi

VentureBeat

Di più da AI - VentureBeat

Getty Images lancia la prima versione del modello che supporta la privacy dei dati biometrici nell'IA

Il motore di automazione del flusso di dati Prefect raccoglie 32 milioni di dollari

Il potenziale non sfruttato dell'HPC + calcolo grafico

Vanti Analytics assicura 16 milioni di dollari per assistere i produttori nell'implementazione di modelli di intelligenza artificiale

Google offre una raccolta di dispositivi "essenziali" per i dispositivi intelligenti per le aziende

La tecnologia AI guida la trasformazione delle corse di F1

Strumento Intel open source basato sull'intelligenza artificiale per individuare i bug nel codice

Density, che fornisce sensori di rilevamento dell'occupazione alle aziende, raccoglie 125 milioni di dollari

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account