Lilja Øvrelid er professor i informatikk ved Universitetet i Oslo

Professoren forklarer: Slik fungerer ChatGPT og andre språkmodeller

Etter at ChatGPT ble lansert i 2022 har det blitt vanlig å spørre kunstig intelligens om alt fra middagsoppskrifter til forretningsstrategier. Men hvordan fungerer språkmodellene egentlig, og hvor godt forstår de det de svarer på?

Publisert Sist oppdatert

Det som for bare noen år siden ville hørt hjemme i en science fiction-roman, er nå blitt en del av hverdagen vår. Vi kan be kunstig intelligens om å lage sammendrag av den siste rapporten, lage et utkast til en e-post, eller gi forslag til kreative idéer. Det er jo nærmest som magi! Men hvordan fungerer teknologien bak språkmodeller som ChatGPT? Forstår de egentlig det de svarer på? Og hvilke utfordringer må løses for at teknologien skal bli mer presis og pålitelig?

For å bli litt klokere rundt dette med språkmodeller og hvordan de fungerer, tok vi kontakt med Lilja Øvrelid. Hun er professor i informatikk ved Universitetet i Oslo, og forsker på språkteknologi.  

Hvordan lærer språkmodeller som ChatGPT å forstå og generere tekst, og hva  skjer egentlig «bak kulissene» når man skriver en forespørsel?

 Kort fortalt så er en språkmodell en maskinlæringsmodell som er lært opp til å forutsi (eller «predikere») neste ord i en setning. Moderne språkmodeller (som den som ligger til grunn for ChatGPT) er trent opp på enorme mengder tekst (nyheter, bøker, internettsider osv). For eksempel, gitt setningen «Det var en gang en ...» vil en språkmodell forutsi den mest sannsynlige fortsettelsen på denne setningen, som i dette tilfellet kanskje vil være «jente» eller «gutt». Avhengig av hva modellen er trent opp på vil fortsettelsene som foreslås av modellen variere. For å få modellen til å kunne svare på instruksjoner fra brukeren (et såkalt «prompt») snarere enn å bare foreslå de neste ordene i en setning, må språkmodellen trenes videre på eksempler på spørsmål og svar, produsert av mennesker.

Hvilke utfordringer møter språkmodeller når det gjelder å forstå kontekst og nyanser i menneskelig språk, og hvordan prøver forskere å løse dette?

Et viktig poeng her er at språkmodeller er et produkt av de dataene de er trent opp på. De har ingen kobling til verden og ikke noe begrep om hva som er sant eller usant i virkeligheten. Det er viktig å huske på at språkmodellene er trent opp til å gi de mest sannsynlige og mest overbevisende svarene, uavhengig av om disse faktisk er sanne. Forskere har derfor jobbet i lengre tid med å forbedre kvaliteten på svarene som gis og metoder for å koble disse til sikre kilder for kunnskap.

Siden de store språkmodellenes treningsdata i hovedsak består av engelsk tekst, vil ytelsen for mindre språk, som norsk, også være betydelig dårligere. Det pågår derfor en stor forskningsinnsats i Norge for å trene norske språkmodeller på høykvalitetsdata, men her mangler det fortsatt en del for å få en ytelse som er på nivå med de store, internasjonale modellene.

Hvordan håndterer språkmodeller etikk og feiltolkning av informasjon, spesielt med tanke på å unngå bias og feil i de svarene de gir?

Som nevnt over så er språkmodellene i stor grad et produkt av de dataene de er trent på. Det har vist seg at de største modellene trenger enorme mengder tekstdata for å få en god ytelse og derfor trenes de på tekst fra hele internett. En utfordring er selvfølgelig at det er mye «grums» på internett: rasistisk, sexistisk innhold, konspirasjonsteorier, og så videre. Siste steg i treningen av chatbot’er basert på språkmodeller er derfor et steg der modellene tilpasses viktige menneskelige verdier og vurderinger (såkalt «alignment»). I dette svært viktige treningssteget vil modellene styres vekk fra å generere støtende innhold, reprodusere fordommer og så videre. For å få gode, norske språkmodeller vil dette være et viktig forskningsfokus i tiden framover: å få på plass språkmodeller som er bedre tilpasset norsk språk og verdier.