Stap 3: Hoe de robot leren als het niet bedriegen?! (Deel 2)
De belangrijkste variabele heet EPSILON. Deze variabele is ook bekend als het tarief leren. Epsilon begint uit belachelijk hoog, waardoor de robot om willekeurige in het begin van het spel beweegt. Aangezien de robot meer speelt (en bijgevolg de beste bewegingen leert te maken tegen de speler), vermindert Epsilon. Aangezien Epsilon kleiner, na verloop van tijd, zal de robot langzaam beginnen te gebruiken van de waarschijnlijkheid van succes in de database tegen de speler.
De drie andere variabelen zijn: Alfa, GAMMA en KAPPA.
Alpha houdt spoor van hoeveel elke beweging van de robot leren beïnvloedt. Dat klinkt verwarrend! Eigenlijk, Alpha opzettelijk ligt zo dicht mogelijk bij nul mogelijk. Als een speler ligt (* zucht *) naar de robot (zeggen als de speler koos rots, en de robot koos papier, maar de speler beweert dat de robot verloren), een lage waarde van Alpha zal leiden tot de robot te negeren de leugen! Echter, als Alpha te laag is, dan de robot zal niet leren zo snel.
Gamma is een beloning tarief. Gamma hoog is ingesteld (0.80) omdat als Gamma 1 nadert, de robot meer kans om te beginnen is te gebruiken vroeg succes waarschijnlijkheden.
Kappa is een waarde van de grondigheid waarmee de robot verfijnen haar waarschijnlijkheden.