[ad_1]
Een nieuwe methode om neurale netwerken systematisch te laten denken kan ervoor zorgen dat kunstmatige intelligentie (AI) met minder data getraind kan worden. De afgelopen jaren hebben modellen als ChatGPT grote vooruitgang laten zien. Maar om modellen te trainen zijn veel data nodig, terwijl mensen met veel minder voorbeelden kunnen leren. Van de methode dat Brenden Lake en Marco Baroni vorige week in het wetenschappelijke tijdschrift publiceerden Natuur gepubliceerd, kan kunstmatige intelligentie beter generaliseren en, indien mogelijk, sneller leren.
Mensen kunnen van nature op algemene manieren denken, wat bijvoorbeeld te zien is aan de manier waarop we wiskunde leren. Kinderen leren de cijfers en het + teken, en als een leerkracht uitlegt dat bijvoorbeeld 1+2=3, kunnen kinderen begrijpen dat 2+1=3. Dit wordt ook wel ‘compositioneel denken’ genoemd.
Compositionaliteit is een eigenschap van taal, en ook van wiskunde. Het betekent dat de betekenis van een zin of berekening afhangt van de betekenis van de onderdelen en structuur ervan. Compositorisch denken is niets anders dan gebruik maken van deze compositorische taal. Op deze manier kunt u begrijpen wat nieuwe combinaties van woorden die u al kent, betekenen.
Weinig training
Iedereen die begrijpt hoe het + teken werkt en de cijfers kent, kan in principe alle cijfers bij elkaar optellen. Neurale netwerken zijn van nature niet zo slim. Als een neuraal netwerk bijvoorbeeld nog niet bekend is met het + teken en heeft geleerd dat 1+2=3, kan het nog steeds denken dat 2+1=2, omdat het niet meteen kan begrijpen dat het + teken altijd werkt in een bepaalde omgeving. manier.
Met de nieuwe methode waar de onderzoekers in Natuur Tegenwoordig kunnen programmeurs de compositoriteit van neurale netwerken aanleren, zodat ze dit soort fouten met weinig training kunnen voorkomen. Een van de onderzoekers, computerlinguïst Marco Baroni, legt telefonisch uit waarom ze deze methode hebben ontwikkeld: “Het kost veel energie om grote modellen als ChatGPT te trainen en we willen ook dat het ontwikkelen van AI niet alleen door grote bedrijven kan worden gedaan. zoals Google of Meta. Als er minder data nodig zijn voor training, wordt het makkelijker.”
Neurale netwerken zijn algoritmen die op basis van bepaalde sets van ingangen En uitgangen, kan een manier ontwikkelen om te schatten welke output moet worden geleverd met behulp van nieuwe inputs. De methode die Lake en Baroni hebben ontwikkeld, kan het type neurale netwerken trainen dat wordt gebruikt voor taalverwerking, de familie waartoe ChatGPT behoort.
De onderzoekers gebruiken een techniek die meta-leren wordt genoemd, waarbij AI wordt getraind op verschillende taken, in dit geval compositietaken, de een na de ander. Het idee van meta-learning bestaat al sinds de jaren negentig, maar volgens Baroni zijn neurale netwerken pas de laatste jaren ver genoeg ontwikkeld dat ze op deze manier compositoriteit kunnen leren.
In een dergelijke compositoriteitstaak krijgt het netwerk een aantal voorbeeldzinnen te zien in een kunstmatige taal met de juiste vertaling. ‘Fax’ betekent bijvoorbeeld een rode cirkel, ‘dup’ betekent een blauwe cirkel en ‘fax kiki dup’ betekent een rode cirkel en vervolgens een blauwe cirkel. Vervolgens krijgt het neurale netwerk een nieuwe zin in de kunstmatige taal te zien, bijvoorbeeld ‘dup kiki fax’, en die moet correct vertaald worden: eerst een blauwe cirkel en dan een rode cirkel.
Het netwerk is zo getraind dat het de best mogelijke vertaling biedt voor de nieuwe zin die het ziet voor verschillende kunstmatige talen met verschillende grammatica’s. Eenmaal getraind kan het model de compositorische taken net zo goed uitvoeren als mensen. De onderzoekers laten ook zien dat het getrainde netwerk een standaardtest voor systematische generalisatie kan uitvoeren die ze zelf beter hebben ontwikkeld dan het ongetrainde netwerk.
Jelle Zuidema, universitair hoofddocent kunstmatige intelligentie aan de Universiteit van Amsterdam, legt uit dat het ongetrainde netwerk waarmee Lake en Baroni de generalisatietest uitvoeren erg klein is vergeleken met grote moderne modellen. “Hun model heeft ongeveer een miljoen parameters, terwijl ChatGPT er bijvoorbeeld miljarden heeft. Dat is dus duizend keer kleiner.” Misschien zou een groter model meer kunnen doen dan het ongetrainde netwerk dat Lake en Baroni gebruiken.
Interessante vraag
ChatGPT kan zoveel dat het soms lijkt alsof het probleem van de compositoriteit al is opgelost. Zuidema: “Het is werkelijk overweldigend hoe creatief ChatGPT met nieuwe woordcombinaties om kan gaan. Maar we weten ook dat ChatGPT op veel data is getraind en het is onduidelijk hoe het model precies weet wat het moet antwoorden. Het kan zijn dat hij zojuist zoveel heeft gezien dat veel ervan eigenlijk helemaal niet zo nieuw is.”
Daarom is het volgens Zuidema een interessante vraag om te zien hoe onderzoekers kleinere modellen met minder trainingsdata bepaalde compositorische taken kunnen laten oplossen: ‘Mensen negeren deze vraag soms een beetje, maar die ChatGPT-modellen zijn zo duur om te draaien, daar Er is echt een grote behoefte om kleinere modellen slimmer te trainen.”
[ad_2]