Введение

Они также известны в контексте языковых моделей, как «долговременная память».

Одна из главных причин, почему их начинают использовать — это ограничения размера контекста языковых моделей. В стандартные GPT-3.5/4 помещается только 4k токенов. Со временем появятся модели с большим контекстным окном, но вопросы стоимости и эффективности останутся все равно.

Решение в данной ситуации — использовать эмбединги + хранилище для них. Текст переводится в формат векторов (эмбедингов) и складывается в специальное хранилище. Это позволяет найти самые похожие элементы текста на запрос пользователя. Такой поиск работает именно за счет схожести смысла, а не дословно.

Как это работает

В результате использования модели для эмебиднгов и векторного хранилища получается вот такой процесс:

Как их использовать

Самые популярное решение для текстовых эмбединги предоставляет OpenAI. Для этого у них есть специальная модель text-embedding-ada-002 . Взаимодействие происходит через API, как и обычной модели GPT. Мы берем кусок текста → отправляем запрос и получаем эмбединг.

После создания эмбединги нужно сложить в хранилище. Обычно для первых тестов используется облачное хранилище Pinecone.