Векторные эмбединги

Введение

Они также известны в контексте языковых моделей, как «долговременная память».

Одна из главных причин, почему их начинают использовать — это ограничения размера контекста языковых моделей. В стандартные GPT-3.5/4 помещается только 4k токенов. Со временем появятся модели с большим контекстным окном, но вопросы стоимости и эффективности останутся все равно.

Решение в данной ситуации — использовать эмбединги + хранилище для них. Текст переводится в формат векторов (эмбедингов) и складывается в специальное хранилище. Это позволяет найти самые похожие элементы текста на запрос пользователя. Такой поиск работает именно за счет схожести смысла, а не дословно.

Как это работает

В результате использования модели для эмебиднгов и векторного хранилища получается вот такой процесс:

Пользователь как обычно пишет свой запрос в языковую модель
Этот запрос превращается в вектор и происходит поиск самых близких к этому векторов в хранилище.
Эти векторы передаются в языковую модель вместе с изначальным вопросом пользователя.
Модель при ответе на вопрос пользователя опирается на текст из хранилища.
При помощи параметра температуры модели можно регулировать насколько модель будет отступать от переданного текста и дополнять его дополнительной информацией.

Как их использовать

Самые популярное решение для текстовых эмбединги предоставляет OpenAI. Для этого у них есть специальная модель text-embedding-ada-002 . Взаимодействие происходит через API, как и обычной модели GPT. Мы берем кусок текста → отправляем запрос и получаем эмбединг.

Документация эмбедингов от OpenAI

После создания эмбединги нужно сложить в хранилище. Обычно для первых тестов используется облачное хранилище Pinecone.

Гайд, как построить свою QA систему с хранилищем от Pinecone