Они также известны в контексте языковых моделей, как «долговременная память».
Одна из главных причин, почему их начинают использовать — это ограничения размера контекста языковых моделей. В стандартные GPT-3.5/4 помещается только 4k токенов. Со временем появятся модели с большим контекстным окном, но вопросы стоимости и эффективности останутся все равно.
Решение в данной ситуации — использовать эмбединги + хранилище для них. Текст переводится в формат векторов (эмбедингов) и складывается в специальное хранилище. Это позволяет найти самые похожие элементы текста на запрос пользователя. Такой поиск работает именно за счет схожести смысла, а не дословно.
В результате использования модели для эмебиднгов и векторного хранилища получается вот такой процесс:
температуры
модели можно регулировать насколько модель будет отступать от переданного текста и дополнять его дополнительной информацией.Самые популярное решение для текстовых эмбединги предоставляет OpenAI. Для этого у них есть специальная модель text-embedding-ada-002
. Взаимодействие происходит через API, как и обычной модели GPT. Мы берем кусок текста → отправляем запрос и получаем эмбединг.
После создания эмбединги нужно сложить в хранилище. Обычно для первых тестов используется облачное хранилище Pinecone.