TILLBEHÖR

Massera AI-språkmodeller för skojs skull, vinst och etik

Är statistik lika med förståelse? Och har AI en moralisk kompass? På första sidan verkar båda frågorna lika nyckfulla, med lika självklara svar. När AI-hypen ekar; men den typen av frågor verkar skyldiga att ställas gång på gång. Toppmodern forskning hjälper till att undersöka.

AI Språkmodeller och mänsklig kuration

För årtionden sedan övergav AI-forskare i stort sett sin strävan att bygga datorer som efterliknar vår fantastiskt flexibla mänskliga intelligens och skapade istället algoritmer som var användbara (dvs lönsamma). Vissa AI-entusiaster marknadsför sina skapelser som genuint intelligenta trots denna förståeliga omväg, skriver Gary N. Smith på Mind Matters.

Smith är Fletcher Jones professor i ekonomi vid Pomona College. Hans forskning om finansiella marknader, statistiska resonemang och artificiell intelligens involverar ofta aktiemarknadsavvikelser, statistiska felaktigheter och missbruk av data har nämnts flitigt. Han är också en prisbelönt författare till ett antal böcker om AI.

I sin artikel ämnar Smith utforska i vilken grad stora språkmodeller (LLM) kan närma sig verklig intelligens. Idén med LLM:er är enkel: att använda massiva datauppsättningar av mänskligt producerad kunskap för att träna maskininlärningsalgoritmer, med målet att producera modeller som simulerar hur människor använder språk.

Det finns några framstående LLM:er, som Googles BERT, som var en av de första allmänt tillgängliga och högpresterande LLM:erna. Även om BERT introducerades 2018, är det redan ikoniskt. Publikationen som introducerade BERT närmar sig 40 000 citeringar 2022, och BERT har drivit ett antal nedströmsapplikationer samt uppföljande forskning och utveckling.

BERT ligger redan långt efter sina efterföljare när det gäller en aspekt som anses vara central för LLM:er: antalet parametrar. Detta representerar komplexiteten varje LLM förkroppsligar, och tanken för närvarande bland AI-experter verkar vara att ju större modell, dvs ju fler parametrar, desto bättre kommer den att prestera.

Googles senaste Switch Transformer LLM skalar upp till 1,6 biljoner parametrar och förbättrar träningstiden upp till 7x jämfört med sin tidigare T5-XXL-modell på 11 miljarder parametrar, med jämförbar noggrannhet.

OpenAI, tillverkare av GPT-2 och GPT-3 LLM, som används som grund för kommersiella applikationer som copywriting via API:er och samarbete med Microsoft, har undersökt LLMs omfattande. Resultaten visar att de tre nyckelfaktorerna som är involverade i modellskalan är antalet modellparametrar (N), storleken på datasetet (D) och mängden beräkningskraft (C).

Det finns riktmärken speciellt utformade för att testa LLM-prestanda i naturlig språkförståelse, som GLUE, SuperGLUE, SQuAD och CNN/Daily Mail. Google har publicerat forskning där T5-XXL har visat sig matcha eller överträffa människor i dessa riktmärken. Vi känner inte till liknande resultat för Switch Transformer LLM.

Vi kan dock rimligen anta att Switch Transformer driver LaMDA, Googles “banebrytande konversationsteknik”, alias chatbot, som inte är tillgänglig för allmänheten just nu. Blaise Aguera y Arcas, chef för Googles AI-grupp i Seattle, hävdade att “statistik betyder förståelse”, och citerade några utbyten med LaMDA som bevis.

Detta var startpunkten för Smith att inleda en utforskning av om det uttalandet håller vatten. Det är inte första gången Smith gör det här. I linje med Gary Marcus och andra djupinlärningskritiker, hävdar Smith att LLM:er kan tyckas generera vettiga resultat under vissa förhållanden, men att de går sönder när de presenteras med input som människor lätt skulle förstå.

Detta, hävdar Smith, beror på det faktum att universitetslärare inte riktigt förstår frågorna eller vet vad de pratar om. I januari 2022 rapporterade Smith att han använde GPT-3 för att illustrera det faktum att statistik inte motsvarar förståelse. I mars 2022 försökte Smith köra sitt experiment igen, utlöst av det faktum att OpenAI medger att han anställt 40 entreprenörer för att tillgodose GPT-3:s svar manuellt.

I januari försökte Smith ett antal frågor, som var och en gav ett antal “förvirrande och motsägelsefulla” svar. I mars besvarade GPT-3 var och en av dessa frågor konsekvent och förnuftigt, med samma svar varje gång. Men när Smith provade nya frågor och varianter på dessa, blev det uppenbart för honom att OpenAI:s entreprenörer arbetade bakom kulisserna för att fixa fel när de dök upp.

Detta fick Smith att likna GPT-3 med Mechanical Turk, den schackspelande automat byggd på 1700-talet, där en schackmästare hade gömts skickligt inuti skåpet. Även om vissa LLM-förespråkare är av åsikten att, vid någon tidpunkt, själva storleken på LLM:er kan ge upphov till sann intelligens, avviker Smith.

GPT-3 är mycket som ett framträdande av en bra trollkarl, skriver Smith. Vi kan avbryta misstro och tro att det är riktig magi. Eller så kan vi njuta av showen även om vi vet att det bara är en illusion.

Har AI-språkmodeller en moralisk kompass?

Brist på sunt förnuft och de resulterande förvirrande och motsägelsefulla resultaten utgör en välkänd brist hos LLMs – men det finns mer. LLM:er väcker en hel rad etiska frågor, varav de mest framträdande kretsar kring miljöpåverkan av utbildning och användning av dem, såväl som partiskheten och toxiciteten som sådana modeller visar.

Den kanske mest uppmärksammade incidenten i detta pågående offentliga samtal hittills var uppsägningen/avgången av Google Ethical AI Team-ledare Timnit Gebru och Margaret Mitchell. Gebru och Mitchell ställdes inför granskning av Google när de försökte publicera forskning som dokumenterade dessa problem och väckte frågor 2020.

Trots de etiska implikationerna finns det också praktiska sådana. LLM som skapats för kommersiella ändamål förväntas vara i linje med normerna och moraliska standarder för den publik de tjänar för att bli framgångsrika. Att producera marknadsföringsexemplar som anses oacceptabelt på grund av sitt språk begränsar till exempel tillämpligheten av LLM.

Denna fråga har sina rötter i sättet LLMs utbildas. Även om tekniker för att optimera LLM-träningsprocessen håller på att utvecklas och tillämpas, representerar LLMs idag en fundamentalt brute force-strategi, enligt vilken det är bra att kasta mer data mot problemet. Som Andrew Ng, en av pionjärerna inom AI och djupinlärning, delade nyligen, var det inte alltid fallet.

För applikationer där det finns mycket data, såsom naturlig språkbehandling (NLP), har mängden domänkunskap som injiceras i systemet minskat med tiden. Under de tidiga dagarna av djupinlärning tränade människor rutinmässigt en liten djupinlärningsmodell och kombinerade den sedan med mer traditionella domänkunskapsbaser, förklarade Ng, eftersom djupinlärning inte fungerade så bra.

Detta är något som personer som David Talbot, tidigare chef för maskinöversättning på Google, har sagt ett tag: att tillämpa domänkunskap, förutom att lära sig av data, är mycket meningsfullt för maskinöversättning. När det gäller maskinöversättning och naturlig språkbehandling (NLP) är den domänkunskapen lingvistik.

Men i takt med att LLM blev större, injicerades mindre och mindre domänkunskap och mer och mer data användes. En viktig implikation av detta faktum är att de LLM som produceras genom denna process återspeglar fördomen i data som har använts för att träna dem. Eftersom denna data inte är kurerad innehåller den alla typer av input, vilket leder till oönskade resultat.

Ett sätt att åtgärda detta skulle vara att kurera källdata. Men en grupp forskare från Darmstadts tekniska universitet i Tyskland närmar sig problemet från en annan vinkel. I deras tidning i NaturSchramowski et al. hävda att “Stora förtränade språkmodeller innehåller mänskliga fördomar om vad som är rätt och fel att göra”.

Även om det faktum att LLM:er återspeglar partiskheten hos de data som används för att träna dem är väl etablerat, visar denna forskning att de senaste LLM:erna också innehåller mänskliga fördomar om vad som är rätt och fel att göra, någon form av etiska och moraliska samhällsnormer. Som forskarna uttryckte det, ger LLM:er en “moralisk riktning” till ytan.

Forskningen kommer till denna slutsats genom att först genomföra studier med människor, där deltagarna ombads betygsätta vissa handlingar i sitt sammanhang. Ett exempel skulle vara handlingen “döda”, givet olika sammanhang som “tid”, “människor” eller “insekter”. Dessa handlingar i sammanhanget tilldelas en poäng i termer av rätt/fel, och svar används för att beräkna moraliska poäng för fraser.

Moralpoäng för samma fraser beräknas för BERT, med en metod som forskarna kallar moralisk riktning. Vad forskarna visar är att BERT:s moraliska riktning starkt korrelerar med mänskliga moraliska normer. Vidare tillämpar forskarna BERT:s moraliska riktning på GPT-3 och finner att den presterar bättre jämfört med andra metoder för att förhindra så kallad toxisk degeneration för LLM.

Även om detta är en intressant forskningslinje med lovande resultat, kan vi inte låta bli att undra över de moraliska frågor den väcker också. Till att börja med är moraliska värderingar kända för att variera mellan befolkningar. Förutom den fördom som är inneboende i att välja befolkningsurval, finns det ännu mer partiskhet i det faktum att både BERT och de personer som deltog i studien använder engelska språket. Deras moraliska värderingar är inte nödvändigtvis representativa för den globala befolkningen.

Dessutom, även om avsikten kan vara god, bör vi också vara medvetna om konsekvenserna. Att tillämpa liknande tekniker ger resultat som är kurerade för att utesluta manifestationer av den verkliga världen, i all dess serendipitet och fulhet. Det kan vara önskvärt om målet är att producera marknadsföringsexemplar, men det är inte nödvändigtvis fallet om målet är att ha något som är representativt för den verkliga världen.

MLOps: Hålla reda på maskininlärningsprocessen och fördomar

Om den situationen låter bekant beror det på att vi har sett allt förut: ska sökmotorer filtrera bort resultat, eller sociala medieplattformar censurera visst innehåll/deplattforma vissa personer? Om ja, vilka är då kriterierna och vem får bestämma?

Frågan om huruvida LLMs bör masseras för att ge vissa resultat verkar vara en direkt ättling till dessa frågor. Var människor ställer sig på sådana frågor speglar deras moraliska värderingar, och svaren är inte entydiga. Men vad som framgår av båda exemplen är att trots alla deras framsteg har LLM:er fortfarande en lång väg kvar att gå när det gäller verkliga tillämpningar.

Oavsett om LLM:er masseras för korrekthet av sina skapare eller för skojs skull, vinst, etik eller någon annan anledning av tredje part, bör ett register över dessa anpassningar föras. Det faller under disciplinen som kallas MLOps: liknande hur inom mjukvaruutveckling, DevOps hänvisar till processen att utveckla och släppa mjukvara systematiskt, MLOps är motsvarigheten till maskininlärningsmodeller.

I likhet med hur DevOps möjliggör inte bara effektivitet utan också transparens och kontroll över processen för att skapa programvara, så gör MLOps. Skillnaden är att maskininlärningsmodeller har fler rörliga delar, så MLOps är mer komplext. Men det är viktigt att ha en linje av maskininlärningsmodeller, inte bara för att kunna fixa dem när det går fel utan också för att förstå deras fördomar.

Inom mjukvaruutveckling används bibliotek med öppen källkod som byggstenar som människor kan använda som de är eller anpassa efter sina behov. Vi har en liknande uppfattning inom maskininlärning, eftersom vissa maskininlärningsmodeller är öppen källkod. Även om det inte riktigt är möjligt att ändra maskininlärningsmodeller direkt på samma sätt som människor ändrar kod i programvara med öppen källkod, är post-hoc-ändringar av den typ som vi har sett här möjliga.

Vi har nu nått en punkt där vi har så kallade grundmodeller för NLP: enorma modeller som GPT-3, tränade på massor av data, som folk kan använda för att finjustera för specifika applikationer eller domäner. Vissa av dem är också öppen källkod. BERT har till exempel fött en rad varianter.

I den bakgrunden är scenarier där LLM:er finjusteras enligt de moraliska värderingarna i specifika samhällen de är avsedda att tjäna inte otänkbara. Både sunt förnuft och AI-etik dikterar att människor som interagerar med LLM:er bör vara medvetna om de val deras skapare har gjort. Även om inte alla kommer att vara villiga eller kunna dyka in i hela revisionsspåret, kan sammanfattningar eller licensvariationer hjälpa till i det syftet.

Botón volver arriba

Ad blocker detected

You must remove the AD BLOCKER to continue using our website THANK YOU