Een algoritme leert niet vanzelf: zo trainen onderzoekers bij NHL Stenden AI om de ene appel van de andere te onderscheiden

[ad_1]

Hoe leer je een algoritme een zieke appel te herkennen? Of smokkelwaar op een scan bij de ingang van een gevangenis? Minder eenvoudig dan een foto uploaden in een stukje software, weten ze bij het lectoraat Computer Vision en Data Science van NHL Stenden in Leeuwarden.

Hoe ziet een zieke appel eruit? Hij heeft een bruine vlek, zou je als leek zeggen. En als je een expert bent op het gebied van appelziekten, zou je het veel beter kunnen definiëren en gemakkelijk een rotte van een zieke kunnen onderscheiden. Maar hoe zorg je ervoor dat kunstmatige intelligentie dat doet?

Door een foto van een zieke appel in het systeem te uploaden en deze vervolgens te laten berekenen misschien? “Dat idee is bij sommige mensen ontstaan met de snelle ontwikkelingen van de afgelopen tijd”, zegt Klaas Dijkstra, lector Computer Vision en Data Science aan NHL Stenden Hogeschool in Leeuwarden. “Maar zo werkt het niet.”

Want: de algoritmen achter kunstmatige intelligentie weten niet wat ziek is, wat bruin is, wat een vlek is. Ze weten niet eens wat een appel is, hoe deze verschilt van een peer, dat ze vaak rood zijn maar niet altijd en dat ze in een boom hangen. Iemand moet het ze leren, of beter gezegd: ze moeten het algoritme trainen. Hij moet keer op keer beschrijven hoe hij een appel kan herkennen en hoe hij kan vertellen dat de appel ziek is. En hij moet het algoritme voeden met data. Veel gegevens. Niet slechts één foto van een zieke appel, maar minstens honderden.

‘Uiteindelijk zijn het slechts statistieken’

Dat is wat Dijkstra en zijn collega’s en studenten dagelijks doen. Als lectoraat werkt het lectoraat vaak samen met bedrijven. Voor ondernemers proberen ze erachter te komen hoe ze kunstmatige intelligentie kunnen toepassen in hun bedrijfsvoering. Zo ontwikkelden ze het bovengenoemde algoritme voor fruittelers die kunnen detecteren of een appel ziek is, voor aardappelboeren een die een plant kan aanwijzen met een bladluisplaag en voor een recyclingbedrijf eentje die verschillende soorten textiel kan herkennen.

Het zijn verschillende toepassingen, maar de basis is altijd hetzelfde. “Uiteindelijk zijn het slechts statistieken”, zegt Dijkstra over dat proces. “Maar je moet wel weten hoe je met een algoritme moet omgaan en hoe het leert. Dat is ook waar wij onze studenten in begeleiden. Zodat ze intuïtie krijgen hoe zo’n model werkt.”

“Je moet heel goed naar je dataset kijken”, legt Dijkstra uit. “Je kunt ook een patroon tegenkomen dat je niet had verwacht. Bijvoorbeeld de kleur op de achtergrond. Maar elke appel met bijvoorbeeld een gele achtergrond is natuurlijk niet automatisch ziek. De grote beperking van deze techniek is dat kent alleen verbanden, maar niets over oorzaak en gevolg.”

‘AI kan niet logisch redeneren’

Dijkstra tempert daarom ook de verwachtingen rondom kunstmatige intelligentie. “Er wordt van uitgegaan dat er logica in zit en dat het dus voor alles een oplossing kan bedenken. Maar dat is niet waar. Hij ziet alleen semantische (over de betekenis van woorden en symbolen, red.) en visuele concepten. algoritme impliceert associatief denken en hallucineert daarom soms, waarbij hij dingen beweert die niet waar zijn. Hij kan niet logisch redeneren omdat er niets in de formules achter het algoritme zit om dat af te dwingen.’

Als onderzoeker zul je de logica zelf moeten introduceren. Het betekent dat je het steeds opnieuw moet beschrijven. Patronen koppelen aan conclusies. Ook het maken van afwegingen.

En dan is er nog iets: data zijn vaak eerder schaars dan overvloedig. De kans is groter dat je te weinig hebt om mee te trainen dan te veel. “Je moet een dataset hebben met voldoende variatie”, zegt Dijkstra. “Zodat alles waar het algoritme geen aandacht aan moet besteden willekeurig is. Zoals de achtergronden die ik noemde. Als er te weinig variatie is, kan het zijn dat hij zich daar onbedoeld op gaat richten.”

Trainen met gegenereerde data

Het vinden van die variatie is behoorlijk ingewikkeld. Als onderzoeker kun je maar een beperkt aantal foto’s maken van appels in een boomgaard. Nieuwe ontwikkelingen in generatieve AI, kunstmatige intelligentie die op basis van tekstinvoer iets kan produceren, bieden onderzoekers een helpende hand. Met behulp van software die afbeeldingen kan genereren, beschikken ze direct over duizenden verschillende afbeeldingen van appels. “Je zet er tien foto’s in en dan vraag je om variaties. Dat werkt heel goed.”

Wat is generatieve AI?

Als we het over AI hebben, bedoelen veel mensen tegenwoordig generatieve AI. Dit zijn kunstmatige intelligentiesystemen die nieuwe dingen kunnen creëren op basis van bestaande data. Het bekendste voorbeeld is ChatGPT van OpenAI, een chatbot die vragen in natuurlijke taal kan beantwoorden. De chatbot kan dit dankzij GPT, een zogenaamd ‘groot taalmodel’. Deze modellen zijn zeer grote hoeveelheden tekst waarmee het algoritme wordt getraind. Het algoritme haalt verbanden uit deze grote hoeveelheid data en kan daardoor vrij nauwkeurig berekenen welke woorden na elkaar moeten volgen.

“Die technologie heeft echt een sprong gemaakt”, zegt Dijkstra. ‘Het was lange tijd niet zo interessant en er zaten nog aardig wat fouten in. Maar die tijd is voorbij, de zes vingers zie je niet zo vaak meer.’’ Dijkstra verwijst naar een klassiek probleem met generatieve AI dat had lange tijd moeite met handen en gaf iemand vaak te veel vingers bij het tonen van een afbeelding van een persoon. “Dit soort synthetische data is nu heel nuttig voor ons.”

Er zijn echter kanttekeningen te plaatsen, want het werkt niet altijd. “Het gaat om wat er in de dataset zit waarop een model is getraind”, legt Dijkstra uit. “Er zijn genoeg foto’s van appels, maar niet van andere dingen.” Ook probeerden de onderzoekers beelden van de groene perzikluis, een dier dat grote schade kan aanrichten aan aardappelplanten, uit AI te halen. “We kregen prachtige foto’s, maar die klopten nooit. Of het werd een gigantische mierenkolonie of een hele mooie close-up, maar dan ontbraken de vleugels.”

Dit soort zaken vragen om een andere aanpak. “Slimme ideeën zijn een vervanging voor het gebrek aan data”, zegt Dijkstra. “Soms is creatief nadenken al genoeg.”

Van een half uur tot een fractie van een seconde

Dit was in de beginperiode ook zeer noodzakelijk. Dijkstra werkt sinds 2005 met kunstmatige intelligentie. Hij heeft de technologie de afgelopen jaren een vlucht zien nemen. “Toen ik begon, waren algoritmen nog verschrikkelijk traag. Het duurde een half uur voordat er een foto verscheen. En dat was niet eens zo goed.” Door de toegenomen kracht van processors duren berekeningen die bijna twintig jaar geleden een half uur duurden nu nog maar een fractie van een seconde. ‘En dan krijg je er één perfecte storm . Alles komt mooi samen.”

AI is veel sneller geworden, maar we moeten het niet op elk probleem loslaten, zegt Dijkstra. “Soms is iets eigenlijk heel simpel. Je hoeft alleen maar te detecteren of er iets is of niets. Dat kan met een heel eenvoudig algoritme en dat scheelt veel tijd en energie.”

En soms is een vrij eenvoudig probleem te moeilijk voor AI. Als voorbeeld noemt hij een algoritme dat hij samen met zijn studenten ontwikkelde voor OD Security, een Leeuwarden fabrikant van bodyscanners. Ze bevinden zich bij de ingang van de gevangenis om smokkelwaar op te sporen. Dit is uiterst moeilijk voor AI als je geen voorbeelden hebt van alle specifieke objecten. “Eigenlijk heb je altijd een tekort aan data”, zegt Dijkstra. “Je hebt alleen de normale situatie en nauwelijks afwijkingen.” Hoe los je dat op? Door niet naar het object te kijken maar of er een afwijking is. “Daar hoef je echt niet elk type mes of wat dan ook voor te leren. Dat iets anders is dan normaal is al voldoende. De beveiliger komt er wel achter wat het is.”

Denken, programmeren, verbeteren. Als je het eenmaal onder de knie hebt, kun je veel met kunstmatige intelligentie. “Het is eigenlijk een Zwitsers zakmes”, zegt Dijkstra. “De technologie wel ‘in staat stellen “Je kunt er echt veel mee doen door onderdelen slim met elkaar te verbinden.” En die ontwikkeling zet zich voort. “Dit is eigenlijk nog maar het begin.”

Groeiende studie

De interesse in de studie Computer Vision en Data Science bij NHL Stenden Hogeschool in Leeuwarden neemt de laatste tijd toe, ziet docent Klaas Dijkstra. Momenteel zijn er tussen de dertig en vijfendertig studenten en er komen er voortdurend meer bij. “We zijn een beetje uit de hand”, zegt Dijkstra als hij de onderzoeksruimte op het college laat zien waar computerschermen gegroepeerd op bureaus staan. De groei komt door de toenemende belangstelling voor het onderwerp, erkent hij. “En ook omdat AI en data science steeds belangrijker worden.” Maar wat ook helpt is zichtbaarheid. “We laten veel meer zien wat we doen”, zegt de docent. Onderdeel hiervan is IMAI, een platform dat samenwerking zoekt met andere opleidingen, onderzoekers en bedrijven uit de onderzoeksgroep van de universiteit. Binnenkort krijgt het ook een fysieke uitstraling: de IMAI Store. “Ik kijk ernaar uit.”

[ad_2]