Что такое семантический поиск
Семантический поиск означает поиск контента на основе «смысла» вопроса. Например, если я спрошу, кто посещал Францию, я хочу найти также всех людей, которые писали о посещении Эйфелевой башни. В этой статье я подробнее опишу, как это работает. Большие языковые модели (GPT-4, Llama и др.) обучены на миллионах документов для поиска связей между словами в разных контекстах. Чтобы найти связи между словами, каждый текст представляется в виде последовательности чисел или вектора, который показывает, как конкретный текст связан со «всем остальным». О каждом числе можно думать как о точке в пространстве. Если мы представим каждый текст в виде трех чисел, у нас будет трехмерное пространство (см. рисунок ниже). Если же мы представим текст в виде тысячи чисел (примерная длина вектора, используемая в моделях GPT), у нас будет тысячемерное пространство. Конечно, я не могу нарисовать тысячемерное изображение, но принцип остается тем же.
На первый взгляд может показаться, что криптические числа для каждого текста не намного лучше неструктурированного текста. Но искусственный интеллект и машины любят цифры. В неструктурированном виде все наши тексты имеют разную длину. Однако после векторизации все последовательности чисел становятся одинаковой длины, и мы можем приступать к вычислениям.
Семантический поиск в рабочем процессе корпоративного ChatGPT
Давайте посмотрим шаг за шагом, как работает семантический поиск:
- Пользователь задает чат-боту вопрос;
- С помощью семантического поиска находятся документы, которые с наибольшей вероятностью связаны с этим вопросом;
- Вопрос пользователя отправляется предварительно обученной языковой модели, которая преобразует его в последовательность чисел (вектор);
- Вектор вопроса математически сравнивается с векторами всех исходных документов (они сохранены заранее), и находятся математически наиболее похожие документы.
- Релевантные документы вместе с вопросом и инструкцией по ответу отправляются модели GPT;
- Ответ, предоставленный моделью GPT, отправляется пользователю.
Описанный на рисунке рабочий процесс помогает эффективно находить ответы среди тысяч документов. Результатом является ИИ-ассистент, который отвечает на вопросы сотрудников или клиентов и делает информацию доступной и легко читаемой.