Kas tas didysis lietuvių kalbos modelis ir kaip jis atsirado?
Didysis lietuvių kalbos modelis – tai lietuvių kalba veikiantis DI kalbos modelis, sukurtas tam, kad suprastų, generuotų ir analizuotų tekstą lietuviškai. Daugiau nei tris dešimtmečius Vilniuje veikianti dirbtinio intelekto ir biometrikos algoritmų bei programinės įrangos kūrėja „Neurotechnology“, sukūrusi šį modelį, ženkliai prisidėjo prie to, kad net ir pasauliniu mastu sąlyginai nepopuliarios kalbos, kaip lietuvių, atrastų savo vietą DI vystymosi pasaulyje.
„Pirminis mūsų noras buvo įgyti praktinius įgūdžius treniruojant didžiuosius kalbos modelius, tačiau greitai supratome, kad galime padaryti daugiau – sukurti įrankį, kuris leistų lietuvių kalbai žengti koja kojon su pasaulinėmis technologijomis“, – pasakoja V. Mulevičius.
Sukurtas modelis yra apmokytas naudojant daugiau nei 14 milijardų lietuviškų žodžių ir daugybę skirtingo turinio, todėl geba generuoti tikslų ir sklandų tekstą. V. Mulevičius pabrėžia, jog pagrindinis šio modelio išskirtinumas – atviras kodas, todėl juo naudotis ir tobulinti gali visa DI bendruomenė. Įmonė „Neurotechnology“ didįjį lietuvių kalbos modelį paskelbė „HuggingFace“ platformoje.
Visgi DI sprendimų vystytojas teigia, jog kuriant modelį iššūkių netrūko. „Yra du didžiausi iššūkiai, treniruojant didžiuosius kalbos modelius (LLM), ypač lietuvių kalba: duomenys ir infrastruktūra. Duomenų lietuvių kalba, kurie yra pritaikyti treniruoti LLM’us, nebuvo ir juos turėjome surinkti patys. Tokių duomenų dažniausiai yra tik anglų, ispanų, kinų ir kitomis kalbomis, turinčiomis daug kalbančiųjų. Antrajam iššūkiui įveikti panaudojome galingą infrastruktūrą – specialiai neuroninių tinklų mokymams skirtus „NVIDIA H100 80GB SXM5“ grafinius procesorius“, – pasakoja pašnekovas.
Jis pabrėžia, jog didieji kalbos modeliai, vadinamieji LLM’ai, užima labai daug vietos, todėl net ir su turimais išskirtiniais resursais treniravimo procesas truko savaites.
Nuo virtualaus asistento iki Kalėdų Senelio
„Neurotechnology“ atstovas pasakoja, jog modeliai buvo mokomi iš viešai prieinamų duomenų bei duomenų, kuriuos sugeneravo pati komanda. Tarp jų buvo daugybės portalų, forumų turinys, todėl modelis susidūrė ne vien su normine kalba, bet ir žargonu, naujadarais – kalba, kurią vartojame kasdienybėje, o tai leidžia jam prisitaikyti prie mūsų kalbos vingrybių ir sudėtingumo.
Didysis lietuvių kalbos modelis atveria daugybę galimybių, turinčių potencialo palengvinti ir patobulinti kasdienybę. „Atsiranda galimybė turėti asmeninius asistentus, paieškos sistemas, vertėjus. Tiek rašytinės, tiek sakytinės kalbos apdorojimo užduotys šiems modeliams nekelia rūpesčių, jie gali būti individualiai pritaikyti konkrečiam atvejui ir apmokyti naudojant kliento pateiktą duomenų bazę“, – pasakoja V. Mulevičius.
Šventiniu Kalėdų laikotarpiu „Neurotechnology“ įmonė pristatė 24/7 veikiančią pokalbių sistemą, kuri leido telefonu paskambinti virtualiam Kalėdų Seneliui ir pabendrauti su juo lietuvių kalba. Ir tai tik vienas iš daugelio modelio panaudojimo pavyzdžių.
„Mes siekiame prisidėti prie atvirojo kodo bendruomenės Lietuvoje bei užsienyje, taip pat norime, kad dirbtinio intelekto projektai lietuvių kalba įgautų pagreitį ir įsitvirtintų rinkoje kaip patikimi ir tikslūs sprendimai“, – sako V. Mulevičius.
Kas skiria bendravimą su gyvu žmogumi ir DI?
Šiandieninėje visuomenėje DI neretai būna įvardijamas ne vien kaip sąjungininkas, bet ir kaip galingas įrankis žalingai veiklai, tačiau „Neurotechnology“ atstovas skuba nuraminti susirūpinusius.
„Nors dirbtinis intelektas sparčiai tobulėja, atskirti, ar bendraujate su žmogumi, ar su DI, galima pagal kelis pagrindinius požymius: DI kartais sunkiai susidoroja su subtiliomis žmogaus emocijomis, humoru ar sarkazmu, o ilguose pokalbiuose gali pasirodyti nenuoseklumų“, – sako jis.
V. Mulevičius sutinka, jog DI gali pagelbėti net ir išsaugant lietuvių kalbos tapatybę. „Kuriant patikimus DI įrankius lietuvių kalba, ji tampa funkcionalesnė ir aktualesnė skaitmeniniame amžiuje. Tai padeda užtikrinti, kad ji neliks nuošalyje dėl dominuojančių pasaulinių kalbų“, – teigia V. Mulevičius.
Jis pasakoja, jog modeliai yra apmokyti milijardais teksto vienetų, apimančių tiek sudėtingą akademinę literatūrą, tiek realius kasdienius pokalbius, tad suprasti jis gali tiek sofistikuotą, tiek ir buitinį vartotojo kreipimąsi.
Visgi, anot V. Mulevičiaus, paprašius sugeneruoti anekdotą, DI sukurtas juokelis dažniausiai nebus labai juokingas. Tačiau modelis geba suprasti ir poetišką, stilistiškai sudėtingą kalbą, tad kaip kalbėsime su DI yra tik mūsų pačių pasirinkimas.
„Per penkerius metus lietuvių kalba bus dažnesnė išmaniuosiuose įrenginiuose. Virtualūs asistentai taps išmanesni, geriau supras kontekstą, emocijas, kalbos niuansus. Ir svarbiausia – jie kalbės lietuviškai“, – įsitikinęs Mulevičius.
Patiko straipsnis? Užsiprenumeruokite mūsų naujienlaiškį ir gaukite svarbiausias dienos naujienas bei įdomiausius straipsnius kiekvieną darbo dieną 11 val. Tiesiai į Jūsų el. paštą!