16.03.2025

Kuidas keelemudelid keskpärasusest välja aidata

Kristjan Eljand

Suurte keelemudelite (GPT, Claude, Gemini) esimene “ahhaa” moment on möödumas ning üha selgemalt on näha, et nad on keskpärasuse lõksus. Mis on selle põhjused ja kuidas sellest üle saada?

Keskpärasuse põhjused

Masinõppe teoorias on tuntud “tasuta lõunate puudumise teoreem” (No free lunch theorem), mis ütleb, et pole olemas “üht parimat mudelit” kõigi võimalike probleemide jaoks.

Olgugi, et moodsate keelemudelite treenimisel kasutati spetsialistide poolt koostatud “heade vastuste näiteid”, siis need näited katsid väga paljusid eri valdkondi ning ühtki valdkonda ei eelisatud teisele. Seetõttu on keelemudel treenitud andma keskmiselt parimat vastust üle kõigi valdkondade, mitte parimat vastust spetsiifilise valdkonna osas.

Selliselt treenitud tehisintellekt on iseenda ohver – kui sa proovid “kõigile ja alati meeldida” oled sa peaaegu et definitsiooni järgi määratud keskpäraseks.

Igaks kasutuslooks mõeldud mudel peab oleme väga “keskpärane” ka oma sõnakasutuses – alati moraalne, kõiki kaasav ja mitte joonelt kõrvale kalduv. Kuna uued huvitavad asjad juhtuvad aga enamasti äärealadel, on keelemudelil nende üle raske argumenteerida.

Kuidas keelemudelid keskpärasusest välja aidata

Selleks, et saavutada keelemudeliga kõrge kvaliteediga tulemust on kaks peamist teed: A. näidetega õpetamine ja B. erilahenduse loomine.

Keelemudeli õpetamine näidete abil

Kui keelemudeleid treenitakse, antakse neile ette näiteid küsimustest koos õigete vastustega ning matemaatika abil pannakse tehisintellekt jäljendama vastamise mustrit.

Kui sa tahad saavutada tehisintellektiga kõrget taset, pead tegema sama – andma ette näiteid ideaalsetest vastustest ja seejärel paluma keelemudelil neid jäljendada. Kuidas seda teha?

Esimeseks sammuks on küsimuste ja ideaalvastuste koondamine. Siin kehtib põhimõte, et mida rohkem näiteid suudad koondada, seda parem, kuid pea meeles, et 10 väga head näidet on parem kui 20 keskpärast.

Kõige lihtsam on anda näidisküsimused ja ideaalvastused ette vastamisjuhendina, mida keelemudel kasutab. Tehniliselt kutsutakse seda “kasutusaegseks õppeks” (inference time learning), millega suuname keelemudelit aktiveerima teatud spetsiifilist osa enda loogikavõimekusest.

Selle meetodi kvaliteetne teostamine vajab natukene õppimist ja tööriistade tundmist, kuid see pole miski, mida põhjaliku koolitusega ei saaks ületada.

Kui suudad aga koondad 50 või enam näidet, tasub luua oma peenhäälestatud keelemudel. Peenhäälestamise korral treenitakse tehisintellekti eriversioon, mis proovib automaatselt vastuseid koostada viisil, mis on sarnane sinu etteantud näidetega. Peenhäälestuse teostamiseks uuri vastavaid võimalusi enda valitud keelemudeli platvormil või palu abi arenduspartneri käest.

Erilahenduste loomine

Kui soovid mõnda tööülesannet täielikult automatiseerida või on ülesanne liiga keeruline/mahukas, et seda saaks olemasolevate tööriistadega lahendada, siis tuleb ette võtta erilahenduse loomine.

Oma klientide puhul oleme kohanud erilahenduste vajadust näiteks olukordades, kus keelemudel peaks suutma lugeda ettevõtte kogu dokumendibaasi ja andma selle põhjal vastuseid või kui soovitakse täielikult automatiseerida mõni töölõik (nt e-kirjadest info eraldamine).

Erilahendustel on valmistööriistade ees kolm peamist eelist:
1. kvaliteet on võimalik viia väga kõrgeks,
2. nende juurde saab luua automaattestid ning
3. need on võimalik ühendada erinevate IT-süsteemidega (AI-lahendus loeb andmeid näiteks ühest süsteemist ja kirjutab tulemuse automaatselt teise).

Kokkuvõte

Kokkuvõttes on moodsad keelemudelid oma treeningmetoodikast tulenevalt keskpärasuse masinad ja võivad seetõttu tekitada professionaalses kasutajas pettumust. Seda muret on võimalik aga ületada, õpetades näidete baasil tehisintellekti vastama meile soovitud viisil või arendades erilahenduse, mis on disainitud konkreetsest kasutusloost lähtuvalt.