Что такое семантический поиск и как он помогает в разработке индивидуальных chatGPT-решений для бизнеса

Что такое семантический поиск

Семантический поиск означает поиск контента на основе «смысла» вопроса. Например, если я спрошу, кто посещал Францию, я хочу найти также всех людей, которые писали о посещении Эйфелевой башни. В этой статье я подробнее опишу, как это работает. Большие языковые модели (GPT-4, Llama и др.) обучены на миллионах документов для поиска связей между словами в разных контекстах. Чтобы найти связи между словами, каждый текст представляется в виде последовательности чисел или вектора, который показывает, как конкретный текст связан со «всем остальным». О каждом числе можно думать как о точке в пространстве. Если мы представим каждый текст в виде трех чисел, у нас будет трехмерное пространство (см. рисунок ниже). Если же мы представим текст в виде тысячи чисел (примерная длина вектора, используемая в моделях GPT), у нас будет тысячемерное пространство. Конечно, я не могу нарисовать тысячемерное изображение, но принцип остается тем же.

На первый взгляд может показаться, что криптические числа для каждого текста не намного лучше неструктурированного текста. Но искусственный интеллект и машины любят цифры. В неструктурированном виде все наши тексты имеют разную длину. Однако после векторизации все последовательности чисел становятся одинаковой длины, и мы можем приступать к вычислениям.

Семантический поиск в рабочем процессе корпоративного ChatGPT

Давайте посмотрим шаг за шагом, как работает семантический поиск:

  1. Пользователь задает чат-боту вопрос;
  2. С помощью семантического поиска находятся документы, которые с наибольшей вероятностью связаны с этим вопросом;
    • Вопрос пользователя отправляется предварительно обученной языковой модели, которая преобразует его в последовательность чисел (вектор);
    • Вектор вопроса математически сравнивается с векторами всех исходных документов (они сохранены заранее), и находятся математически наиболее похожие документы.
  3. Релевантные документы вместе с вопросом и инструкцией по ответу отправляются модели GPT;
  4. Ответ, предоставленный моделью GPT, отправляется пользователю.

Описанный на рисунке рабочий процесс помогает эффективно находить ответы среди тысяч документов. Результатом является ИИ-ассистент, который отвечает на вопросы сотрудников или клиентов и делает информацию доступной и легко читаемой.

Последние статьи