Fyrstikkeske-maskinlæring
Et spill som lærer! Maskinen består av fyrstikkesker (hver representerer en posisjon i spillet) fylt med perler. Når den taper, bli den straffet ved å fjerne perlen for det dårlige trekket. Til slutt lære maskinen å vinne hver gang.
Sjakkbrettet
Maskinens hjerne (Aktiv eske)
Ingen eske vist ennå. Maskinen henter en eske når det er dennes tur.
Statistikk
Hvordan forklarer dette maskinlæring?
1. Kjennskap (Tilfeldighet)
I starten vet ikke maskinen hvilke trekk som er gode. For hvert brett har den en boks med perler som tilsvarer alle lovlige trekk, og velger helt tilfeldig.
2. Evaluering (Å tape er å lære)
Alt bygger på straff og belønning. Når spillet er tapt har maskinen fått en negativ tilbakemelding; systemet vurderer trekket til å være en tabbe.
3. Konsekvens (Justering)
Maskinen "straffes" ved at vi fjerner perlen for det tapende trekket fra minnet. Dette betyr at sjansen for at maskinen gjør akkurat denne feilen igjen nå er fjernet.
4. Optimalisering (Ekspertise)
Gjennom systematisk eliminering sitter maskinen til slutt igjen med kun perler som fører til seier. Mønstrene er lært, og maskinen har blitt en "trent modell".
Dette er det fundamentale konseptet innen Forsterkningslæring (Reinforcement Learning). På nøyaktig samme måte - bare med kalkulasjoner i avanserte nevrale nettverk i stedet for fysiske perler - lærer autonome systemer som selvkjørende biler eller sjakk-AI-en AlphaZero hvordan de skal oppnå sine mål i et komplekst miljø. Dataprogrammet prøver, feiler, oppdaterer sannsynligheten for sine valg, og blir via store datamengder nærmest ustoppelig intelligent!