![Hvordan ved man, om en tekst er skrevet af AI? - podcast episode cover](https://videnskab.dk/wp-content/uploads/2024/11/fake-news-collage.webp)
Episode description
Føler du, at de fleste informationskilder, som du plejede at stole på, er blevet værre? Du er ikke alene.Internettet er allerede oversvømmet med syntetiske tekster. Det vil sige tekster, som er genereret af store sprogmodeller (teknologien bag ChatGPT, Gemini og andre chatbotter).
Forskellige former for falsk indhold har eksisteret i lang tid, men med den nye AI-teknologi er problemet vokset i omfang, da det nu er muligt at generere indhold uden hverken teknisk viden eller en menneskelig 'troldefarm'.
For eksempel har Amazons boghandel nu en masse misvisende resuméer af rigtige bøger såvel som skodbøger, der er helt maskingenererede - endda om risikobehæftede emner som for eksempel svampejagt, hvor man kan komme galt afsted med forkerte oplysninger.
Som du måske har fornemmet, er der også falske forbrugeranmeldelser og opslag på sociale medier. På nogle brugermodererede hjemmesider som Quora og StackOverflow, der oprindeligt tog deres moderation alvorligt, er syntetisk indhold nu velkomment. Men det er ikke alt.
Sprogmodeller bruges også i såkaldte 'SEO-røverier'. Det betyder, at nogen bevidst opretter hjemmesider, der efterligner populære hjemmesider, men blot består af maskinskreven tekst.
Endnu mere foruroligende er de falske historier om en persons død (uanset om de er sande eller ej), der tjener som clickbait for de mennesker, der forsøger at finde ud af, hvad der er sket med vedkommende.
Men hvordan gennemskuer man, om en tekst er skrevet af en sprogmodel? I øjeblikket er der ingen pålidelige metoder, der kan bruges i den virkelige verden. Men i denne artikel vil jeg forklare, hvordan mine kolleger og jeg arbejder på at opdage syntetiske tekster.
'Syntetiske nyheder' er tekster, der præsenteres på hjemmesider, der ligner legitime nyhedsmedier, men er fuldstændig maskingenererede, uden at nogen sikrer kvalitet og faktualiteten af teksterne. Her er et eksempel på sådan en hjemmeside:
Hensigten med denne hjemmeside ser ud til at være at vise annoncer til folk, der besøger den i troen på, at det er et troværdigt nyhedsmedie. De besøgende spilder tid og ressourcer og ender muligvis med at blive misinformeret.
En anden type syntetiske nyheder findes på hjemmesider, der omskriver og genudgiver indhold fra rigtige nyhedssider. Sådanne tekster kan være faktuelt korrekte, men de er produceret for at drive trafikken og indtægterne væk fra de oprindelige kilder.
Endelig kan der produceres syntetiske nyheder for at formidle propaganda, hvilket potentielt kan skade samfundet generelt.
Hvis man er interesseret i at se opgørelser over syntetiske nyhedssider, så er mit bedste bud NewsGuard, som er en organisation med uddannede journalister, der tilbyder deres vurdering af forskellige nyhedsmedier (manuelt udarbejdet af deres team).
I april 2023 rapporterede de 49 syntetiske nyhedssider. I november 2024 er deres seneste optælling 1.121 nyhedssider.
Det reelle tal er dog muligvis højere, fordi NewsGuard kun inkluderer de 'forretninger', hvor der er stærke beviser for, at teksterne er lavet uden 'betydeligt menneskeligt tilsyn'.
For engelsk er svaret på det spørgsmål klart: Meget nemt.
Tilbage i 2019 sagde forskere fra firmaet OpenAI, at deres GPT-2-model var for farlig til at udgive, især på grund af dens potentiale til at gøre det let at sprede misinformation. GPT-2 blev dog udgivet alligevel.
Efterfølgende kom OpenAI's rapport om GPT-3 med eksperimenter, der viste, at menneskers evne til at vurdere, om nyhedslignende tekster var genereret af GPT-3, ikke var bedre end tilfældige gæt.
Her fem år senere indbringer sprogmodellerne mange penge for generative AI-virksomheder - men der er ingen pålidelige metoder til at identificere deres output.
Der er dog ikke mange undersøgelser af, om det også er tilfældet med andre sprog end engelsk. Og det er vigtigt, fordi andre sprogsamfund kan have det indtryk, at sprogmodeller endnu ikke er gode nok til at forurene informationskilder på deres modersmål.
For at udfylde det hul i forskningen samarbe...