Ragionare come le macchine "AI": non sono battibili, non hanno rimpianti

La frase "Minimizzazione controfattuale dei rimpianti" può sembrare eccessivamente sofisticata per poterla inserire in una discussione sulla strategia del poker. (Anzi, probabilmente lo è.)

Ma per fortuna il concetto a cui si riferisce può essere spiegato più semplicemente, e infatti può rivelarsi abbastanza utile a chi fatica a giocare a poker in modo proficuo.

In questo Articolo:

1 Minimizzazione controfattuale dei rimpianti
2 Due modi di apprendimento
3 Imparare da zero
4 La minimizzazione dei rimpianti e il rammarico positivo
5 L'applicazione a noi umani
6 Ma questo non è vero nel caso di una mente AI.
7 La lezione dei rimpianti

Minimizzazione controfattuale dei rimpianti

Controfactual Regret Minimization, o "CRM”, si riferisce a un algoritmo utilizzato dalle reti neurali per allenarsi a giocare un poker perfetto.

Ha una sorprendente somiglianza con le strategie euristiche (cioè quelle basate sull'esperienza) che i giocatori impiegano quando cercano di imparare la disciplina, semplicemente giocando.

Quando viene chiesto ai professionisti di poker vincenti, come sono riusciti ad avere un successo costante, le loro risposte di solito arrivano in due modi diversi che fanno riferimento a due diversi sistemi di apprendimento: euristico e analitico.

Coloro che saltano subito al tavolo da poker e imparano il gioco per tentativi ed errori, stanno adottando l'approccio euristico.

Dall’altra parte, coloro che preferiscono analizzare prima le meccaniche del gioco e applicare rigorosamente i suoi principi matematici ai tavoli, indipendentemente da quello che la loro "intuizione" potrebbe sussurrargli all'orecchio, stanno adottando l'approccio analitico.

Ovviamente, i giocatori più esperti utilizzeranno entrambi i metodi di apprendimento.

Due modi di apprendimento

Detto questo, la maggior parte dei professionisti di poker - specialmente i meno giovani e i regular dal vivo - preferiscono imparare in modo euristico giocando alti volumi e sviluppando così una strategia intuitivamente corretta, che molti di loro non riescono nemmeno a spiegare con le loro stesse parole.

Quando si tratta di apprendimento basato sull'esperienza, i sistemi IT hanno un enorme vantaggio sugli esseri umani.

Possono acquisire in pochi minuti l'esperienza che un giocatore umano non riuscirà ad accumulare in una vita.

Questo tipo esatto di forza bruta è stato impiegato dai ricercatori dell'Università di Alberta in Canada nel 2007 mentre perseguivano l'obiettivo di insegnare a una macchina di intelligenza artificiale (AI) a giocare a poker attraverso un supercomputer in grado di risolvere quadrilioni di calcoli al secondo.

La macchina aveva un compito teoricamente basilare da svolgere: giocare a poker contro se stessa fino a quando non avrebbe padroneggiato il gioco alla perfezione.

L'inizio è stato particolarmente noioso, poiché l'IA ha iniziato con "clic sui pulsanti abbastanza casuali”, per checkare, passare, chiamare, puntare o rilanciare e lavorare attraverso l'intero range di mani possibile e le dimensioni delle puntate.

In altre parole, eseguire tutte le azioni possibili in un dato momento in una mano.

Il compito era vagliare le opzioni con l'unico obiettivo di ottenere il massimo profitto contro l'avversario, in ogni mano singola, senza particolari dati.

Dopo ogni giocata, l'IA memorizzava il risultato, lo confrontava con i risultati passati di una decisione diversa nella stessa situazione e valutava la mossa migliore in quel dato contesto.

Le situazioni specifiche sono state raggruppate in cluster (chiamati "epoche") per consentire all'algoritmo di propagazione posteriore, di convergere su una combinazione di pesi con un discreto livello di accuratezza.

Imparare da zero

Questa tecnica è simile alla (francamente rara) situazione di vita reale di un giocatore umano che impara a giocare a poker senza un insegnante o materiale didattico o informazione sul gioco.

Un tale giocatore si sarebbe semplicemente seduto al tavolo e avrebbe cercato ciecamente di scegliere tra le opzioni basate esclusivamente sul risultato finanziario, imparando il gioco per tentativi ed errori (e con enormi investimenti in denaro e tempo).

Ma a differenza di un giocatore umano, un computer può giocare seriamente a poker senza nulla in gioco, e anche miliardi di mani.

I ricercatori hanno lasciato che il supercomputer funzionasse a velocità enormi in innumerevoli situazioni, finché i due avversari virtuali non hanno imparato a difendersi perfettamente e sono riusciti a trovare la perenne break even anche su un campione enorme.

Hanno raggiunto l'"equilibrio di Nash" o quel punto debole teorizzato dal matematico John Nash in cui entrambi i giocatori si stanno comportando in modo inutilizzabile - cioè "perfetto" - impiegando la "Teoria dei giochi ottimale". (Esatto - il famoso "GTO" che molti giocatori di poker amano menzionare come un vanto occasionale mentre bevono una birra con i loro coetanei.)

Senza ulteriori indugi, esaminiamo un po 'più da vicino la frase "Counterfactual Regret Minimization" che è il nome dell'algoritmo utilizzato nella programmazione della rete neurale per giocare a poker.

"Controfattuale" è un condizionale che esprime il potenziale risultato di qualcosa che non è accaduto.

Ad esempio: "Se non avessi abbandonato il corso di Computer Science sarei diventato un ricco sviluppatore". Oppure, per estrarre un esempio deal poker: "Se non avessi chiamato il rilancio al river di quella signora anziana alla mia sinistra con la mia top two pair, sarei ancora in quel dannato torneo."

La minimizzazione dei rimpianti e il rammarico positivo

"Minimizzazione dei rimpianti" si riferisce alla strategia utilizzata dal computer quando segue la direttiva solo per prendere in considerazione le decisioni che in passato hanno causato la dose più bassa di rimpianto.

In termini finanziari, una simile direttiva potrebbe essere affermata così: “nella mia prossima decisione, dovrei soprattutto soppesare le decisioni passate che avevano ottenuto in media i profitti più alti". Questa direttiva viene anche definita "rammarico positivo" in termini scientifici.

Come avvertimento, vale la pena notare che una decisione sbagliata potrebbe accidentalmente produrre un risultato positivo, mentre una mossa corretta potrebbe analogamente creare un risultato negativo.

Come giocatori di poker, sapete tutto di questo: la mossa giusta non sempre vince e la mossa sbagliata non sempre perde.

Ma questa verità sulle singole mani, non si applica quando si tratta di big data. Nemmeno durante un'intera carriera di poker né durante quei miliardi di simulazioni eseguite dal supercomputer.

Dopo un tempo sufficiente, l'approccio sbagliato perderà denaro e quello corretto perlomeno andrà in pareggio contro un avversario uguale.

Ora, come si applica tutto questo a ciò che noi umani sperimentiamo ai tavoli?

E come al modo in cui i giocatori di poker imparano a prendere decisioni migliori e diventare giocatori migliori?

Bonus poker online

365€

5€ free, 360€ di bonus progressivo

VERIFICA

500€

100% fino a 500€

VERIFICA

100€

50% fino a 100€ sul primo deposito

VERIFICA

Scopri tutti i bonus di benvenuto

Questo comparatore confronta i bonus di benvenuto attualmente verificabili sui siti degli operatori italiani. Questa tabella ha una funzione informativa e gli operatori sono mostrati in ordine casuale.

L'applicazione a noi umani

La sensazione di rimpianto è probabilmente uno degli stati mentali più frequenti che un giocatore di poker sperimenterà.

Se adeguatamente puniti, gli errori nel nostro gioco causano danni finanziari immediati sotto forma di piatti persi e / o eliminazioni dai tornei.

"Non riuscivo a togliermi quella mano dalla mente per giorni", sentiamo spesso.

Un errore punito è immediatamente seguito dal rimpianto, sia che si tratti di un errore di ragionamento (ignorando una parte del range del nostro rivale o aggiungendo combo non realistiche in quello stesso range), un problema psicologico (tilt) o semplicemente esaurendo il tempo (soprattutto dopo l’introduzione dell'orologio anche nei live).

Immaginiamo istintivamente di cancellare tutto, ma non si può più fare nulla. I rimpianti sono, come si suol dire, futili.

Ma questo non è vero nel caso di una mente AI.

Lì, i rimpianti non solo non sono futili, ma sono la base stessa del processo di apprendimento.

E questa può essere una bella lezione per noi giocatori umani.

Dopo che una cattiva decisione è finita in un'eliminazione o con un enorme piatto perso, è meglio non lasciar passare il rimpianto senza un motivo.

Bisogna prendere nota dell'errore e assicurarsi che non lo si commetterà più in una simile situazione.

Probabilmente l'esempio più comune è il tilt causato dall'essere riportati al "punto di partenza" (o peggio) nei tornei.

Rimanere con 20 bui o giù di lì dopo aver perso un piatto enorme durante la fase iniziale di un evento, sembra la fine del nostro viaggio.

Ricordiamo quanto fosse solido il nostro stack di 133 BB, quanto fosse stato difficile per noi costruirlo e quanto scioccamente lo abbiamo perso.

Il passo successivo (spesso, e sfortunatamente) è quello di allentare il nostro gioco, desiderando un coinflip - anche da sfavorito - o qualsiasi altra cosa per riavere le nostre chips.

Ovviamente, questo tipo di approccio si conclude con un'eliminazione frustrante il più delle volte.

E il rimpianto colpisce proprio mentre ci alziamo per lasciare il tavolo.

La lezione dei rimpianti

Questo è il momento in cui dobbiamo mettere a frutto il nostro rimpianto, il momento migliore per imparare.

È il momento in cui dovremmo imprimere nella nostra mente che freneremo la nostra frustrazione e giocheremo saggiamente con "solo" 20 big blind in una situazione futura simile.

Ma il miglior uso del rimpianto è prevederlo prima che si verifichi la situazione.

L'algoritmo CRM dell'IA potrebbe aiutarci soprattutto prima di una decisione importante, quando sentiamo di essere sul punto di fare qualcosa di stupido.

È il momento in cui dovremmo chiederci: "Fold, call o raise all in - quale di queste opzioni molto probabilmente mi farà rimpiangere la mia decisione?".

Dopo aver posto questa domanda a noi stessi, eliminiamo le opzioni che intuitivamente sentiamo stimoleranno questa fastidiosa sensazione di rimpianto.

Per riassumere questi consigli in una sola frase, ascolta la tua intuizione. Specialmente quando dà segnali disperati che stai per fare qualcosa di sciocco di cui in seguito ti pentirai.