Mis on semantiline otsing ning millist rolli mängib see ettevõttele kohandatud chatGPT loomises

Mis on semantiline otsing

Semantiline otsing tähendab sisu otsimist küsimuse “tähenduse” põhjal. Näiteks, kui küsida, et kes on külastanud Prantsusmaad, soovin ma leida ka kõik inimesed, kes on kirjutanud, kuidas nad külastasid Eiffeli torni. Selles artiklis kirjeldan lähemalt, kuidas see toimib.

Suured keelemudelit (GPT-4, Llama jt) on treenitud miljonite dokumentide peal leidmaks sõnade vahelisi seoseid erinevates kontekstides. Sõnade omavaheliste seoste leidmiseks esitatakse iga tekst numbrijada ehk vektorina, mis näitab, kuidas see konkreetne tekst on seotud “kõige muuga”. Igast numbrist võib mõelda kui ruumipunktist. Kui me esitakse iga teksti kolme numbrina, oleks meil kolmemõõtmeline ruum (vt alljärgnev joonis). Kui esitame teksti aga tuhande numbrina (ligikaudu GPT mudelites kasutatav vektorite pikkus) on meil tuhandemõõtmeline ruum. Tõsi, tuhandemõõtmelist pilti ma joonistada ei saa, kuid põhimõte jääb samaks.

Esmapilgul võib tunduda, et krüptilised numbrid iga teksti kohta ei ole palju paremad struktureerimata tekstist. Aga tehisintellektile ja masinatele meeldivad numbrid. Struktureerimata kujul on kõik meie tekstid erineva pikkusega. Pärast vektoriseerimist on kõik numbrijadad aga ühepikkused ja me saame hakata tegema arvutusi.

Semantiline otsing ettevõttele kohandatud chatGPT töövoos

Vaatame samm-sammult, kuidas semantiline otsing toimib:

  1. Kasutaja esitab vestlusrobotile küsimuse;
  2. Kasutaja küsimusele leitakse semantilise otsingu abil dokumendid, mis kõige suurema tõenäosusega seonduvad antud küsimusega;
    • Kasutaja küsimus saadetakse eeltreenitud keelemudelile, mis teisendab selle numbrijadaks (vektoriks);
    • Küsimuse vektorit võrreldakse matemaatiliselt kõigi alusdokumentide vektoritega (need on eelnevalt salvestatud) ning leitakse matemaatiliselt kõige sarnasemad dokumendid.
  3. Relevantsed dokumendid koos küsimuse ja vastamisjuhendiga saadetakse GPT mudelile;
  4. GPT mudeli poolt antav vastus saadetakse kasutajale.

Joonisel kirjeldatud töövoog aitab efektiivselt leida vastused tuhandete dokumentide hulgast. Tulemuseks on AI-assistent, mis vastab töötajate või klientide küsimustele ning muudab info kättesaadavaks ja lihtsasti loetavaks.

Broneeri demo
Kirjuta meile, millised ajad sulle sobivad.

    *