Pinecone desenvolve uma plataforma de busca vetorial

A busca vetorial é o futuro da busca online? Os fundadores e desenvolvedores da Pinecone certamente acham que sim. Por isso, eles construíram um banco de dados de vetores. O objetivo é facilitar uma nova geração de aplicativos de busca vetorial de alto desempenho, que são baseados em inteligência artificial (IA) na nuvem. 

Busca tradicional versus Busca vetorial. Fonte

Como funciona o banco de dados de vetores de Pinecone?

“Lançamos a Pinecone para facilitar aos desenvolvedores a criação de aplicativos de busca vetorial de alto desempenho, em qualquer escala e sem problemas de infraestrutura”, explica Edo Liberty, fundador e CEO da Pinecone. “Isso significava desenvolver um tipo completamente novo de infraestrutura, assim como um novo algoritmo de indexação, colocá-lo como um serviço gerenciado e expô-lo por meio de uma API simples. Precisávamos chamá-lo de algo, então usamos o termo “banco de dados vetorial”, acrescenta. 

As três premissas da Pinecone são o desenvolvimento de uma busca vetorial rápida, atualizada e filtrada. Com essa busca, você pode consultar bancos de dados enormes com baixa latência, atualizar suas pesquisas quando você adicionar/excluir dados e combinar filtros de metadados com busca vetorial para obter resultados melhores e mais rápidos. Dessa forma, a Pinecone ajuda os aplicativos de negócios a produzir recomendações, detecção de bots, busca de imagens, detecção de ameaças, resposta a perguntas e outras tarefas. Tudo isso usando o poder do Machine Learning (ML, ou aprendizado de máquina) através de incorporações vetoriais (vector embeddings, em inglês).

O que são incorporações vetoriais ou vector embeddings?

Os algoritmos de “busca tradicional” verificam uma lista de linhas no banco de dados até encontrar uma que se encaixe nos critérios. Esse método apresenta sérias limitações, considerando que pode deixar de fora dados similares ou relacionados, bem como resultados para a mesma consulta em diferentes contextos. 

Em vez disso, algoritmos de ML analisam números. Para analisar grandes seções de texto, por exemplo, incorporações vetoriais são criadas para que os dados possam ser lidos como dados numéricos. Texto, áudio, imagens ou até mesmo dados que já são numéricos podem ser transformados em vetores para facilitar as operações e seu uso.

Um objeto, como um texto, áudio, imagens ou dados, pode ser transformado em um vetor. Fonte

Nesta matéria, o conceito de “similaridade vetorial” (vector similarity) é fundamental. Ele compara “a semelhança de objetos, conforme capturados por modelos de ML. A busca por similaridade vetorial é particularmente útil com dados do mundo real porque esses dados geralmente não são estruturados e contêm itens semelhantes, mas não idênticos. Não é requerida uma correspondência exata porque o chamado “valor mais próximo” geralmente é bom o suficiente. As empresas o usam para tarefas como busca semântica, busca de imagens e sistemas de recomendação ”, resume o post de Venture Beat.

Ao fazer esse tipo de quantificação de gravações de áudio, artigos de notícias, imagens ou talvez perfis de redes sociais e padrões comportamentais do usuário, alguns dados podem ser “semelhantes” a outros conjuntos de dados, tornando mais fácil para os algoritmos construir recomendações ou classificações.

Precisamente, o que a Pinecone faz é treinar modelos para fazer a tradução de objetos em vetores. Os vetores geralmente têm muitas dimensões, até dois mil em alguns casos. Redes neurais profundas ou redes neurais convolucionais são comumente usadas para treinar esses tipos de modelos de Machine Learning. As incorporações de vetores podem ser usadas internamente por modelos e métodos de ML, mesmo que o produto final não os use diretamente. 

Representando uma imagem como pixels em escala de cinza. Fonte

Por que usar a Pinecone?

Empresas gigantes de tecnologia já estão usando a busca vetorial. No entanto, outras empresas, de diferentes portes, podem realmente ter dificuldades para implementar essa tecnologia. Quando você combina lógica de negócios, filtros e algoritmos de busca vetorial, o desempenho geral pode ser reduzido se não for feito corretamente. Alcançar resultados de busca precisos é difícil o suficiente, mas se isso acontecer de forma demorada, a experiência do usuário será afetada negativamente.

É por isso que a Pinecone desenvolveu recursos de filtragem de baixa latência que acompanham buscas e recomendações mais precisas. Isso permite que as empresas armazenem metadados junto com seus itens e filtrem buscas vetoriais por esses metadados. Isso ajuda a produzir resultados mais precisos, em velocidades muito rápidas. 

A Pinecone tem a capacidade de usar armazenamento híbrido. Essa abordagem reduz os custos de infraestrutura porque as buscas vetoriais normalmente são executadas completamente na memória, o que é mais caro do que usar um híbrido de disco e RAM. Velocidade e precisão não são afetadas, ajudando na redução de custos para os clientes.

A plataforma da Pinecone já está pronta para produção, é escalável, tem alta disponibilidade e impacto mínimo de latência ao consultar bilhões de itens. Sendo um produto baseado em nuvem, não requer manutenção de infraestrutura nem monitoramento de serviços, é segura (certificada) e compatível com leis de proteção de dados. As empresas só precisam se conectar via API e podem começar a usar o banco de dados de vetores gerenciados. 

Desde seu lançamento em 2021, a empresa introduziu múltiplas atualizações e novos recursos, como: API REST, SOAC2 e uma nova arquitetura, projetada para usar Kafka e Kubernetes, a fim de fornecer tolerância a falhas, persistência de dados, mais segurança e alta disponibilidade para os clientes.

O futuro da busca vetorial, de acordo com a Pinecone

A Pinecone visa acompanhar um mercado em rápido crescimento e um cenário de tecnologias em constante mudança. De acordo com a empresa, a missão é continuar construindo tecnologia de busca e bancos de dados para a era da Inteligência Artificial. Isso significa, tornando mais fácil para os desenvolvedores, e suas equipes, usar aplicativos de busca vetorial, sem importar se eles já trabalharam com Machine Learning ou estão apenas começando a usar.  

Além disso, a Pinecone quer continuar ampliando os limites da busca vetorial para ajudar a fornecer resultados mais precisos sem comprometer a velocidade ou o desempenho quando há bilhões ou trilhões de itens. Consequentemente, a Pinecone está investindo mais em sua plataforma de busca vetorial, no sucesso do cliente e em suas equipes de engenharia e desenvolvedores. Adicionalmente, a empresa continua investindo em pesquisas focadas em ML, processamento de linguagem natural e recuperação de informações para que esses campos continuem crescendo.

Scroll to Top