GTO vs Exploitative Play กลยุทธ์ไหนดีกว่ากัน? (ตอนที่1)

ผมคิดว่ามันถึงเวลาที่เราจะต้องพูดเกี่ยวกับ Game Theory Optimal (GTO) กับการเล่นแบบ Exploitative แล้วล่ะ

เพราะมันเป็นหัวข้อที่ดูเหมือนจะทำให้หลายคนสับสน จากหลายๆครั้งที่ผมได้ยินคนถามถึงมันหรือใช้มันอย่างไม่ถูกต้อง แต่ผมก็เข้าใจนะว่ามันเป็นหัวข้อที่ซับซ้อน

การถกเถียงในสังคมโป๊กเกอร์เกี่ยวกับ GTO และ Exploitative เกิดขึ้นมานานแล้ว และก็ดูเหมือนจะเพิ่มมากขึ้นเพราะ GTO เป็นคำที่ใช้กันอย่างแพร่หลายมากขึ้น ซึ่งจริงๆแล้วพื้นฐานความหมายของมันก็คือ “ดีที่สุด” หรือเพียงแค่ “ดี”

ในบทความนี้ผมจะลงรายละเอียดว่าเราจะใช้แต่ละกลยุทธ์แบบไหนและเมื่อไหร่ แต่สิ่งสำคัญในการเริ่มต้นคือจะต้องมั่นใจก่อนว่าเรามีความเข้าใจที่ตรงกัน

Game Theory Optimal หรือ GTO คืออะไร?

คำว่า GTO ถูกพูดถึงอย่างมากในสังคมโป๊กเกอร์ ถึงแม้อาจจะไม่ใช่แนวทางที่ถูกต้องก็ตาม

ถ้าคุณได้เล่นในรูปแบบ Game Theory Optimal อย่างสมบูรณ์แล้วล่ะก็ คู่ต่อสู้จะไม่สามารถ exploit คุณได้เลย สิ่งที่คู่ต่อสู้จะทำได้ดีที่สุดคือ breakeven

…. แต่มันก็ไม่ได้เป็นสิ่งวิเศษอย่างที่มันดูเหมือนจะเป็นหรอกนะ เพราะยังมีปัญหาบางอย่างในทางปฏิบัติของการพยายามเล่นในรูปแบบ GTO

ปัญหาของการเล่น GTO

NLH ไม่ใช่เกมที่ถูก solve ได้แล้ว เพราะฉะนั้นจึงไม่มีกลยุทธ์ GTO อย่างแท้จริง

ไม่ว่าคุณจะคิดว่ากลยุทธ์การเล่นของคุณ balance ได้ดีแค่ไหน แต่มันก็จะมีจุดอ่อนในการ exploit เสมอ

ถึงแม้เราจะรู้จักกลยุทธ์ GTO แล้ว แต่มันก็เป็นไปไม่ได้ที่มนุษย์อย่างเราจะใช้ประโยชน์ได้อย่างสมบูรณ์โดยปราศจากคอมพิวเตอร์ NLH เป็นเกมที่ซับซ้อนมากเกินไป

ณ ตอนนี้ สิ่งที่เราทำได้ดีที่สุดคือการเลียนแบบ GTO โดยการพยายามเล่นอย่างไม่ถูก exploit ตามหลักการทฤษฎีที่ได้เรียนรู้มา…

….แต่การทำเช่นนั้น เราก็มีความเสี่ยงที่จะละเลยในการสังเกตคู่ต่อสู้ และทำให้ไม่สามารถรู้ได้ถ้าคู่ต่อสู้กำลัง exploit การเล่นของเรา

และนั่นคือจุดที่การเล่น exploitative เข้ามามีบทบาท

Exploitative แตกต่างจาก GTO อย่างไร?

กลยุทธ์ exploitative คือการเล่นที่เราค้นหาและใช้ประโยชน์จากความไม่สมดุลในกลยุทธ์ของคู่ต่อสู้

หรือพูดอีกอย่างก็คือ เราจะค้นหาและโจมตีจุดอ่อนในเกมของคู่ต่อสู้ ถึงแม้ว่าบางครั้งอาจเป็นการสร้างจุดอ่อนในการเล่นของตัวเราเอง

ปัญหาของการเล่น Exploitative

จุดอ่อนสำคัญที่สุดของการเล่น exploitative คือการเปิดโอกาสให้คู่ต่อสู้ exploit เรากลับมาได้

การใช้กลยุทธ์ exploitative เราจำเป็นต้องปรับตัวอย่างรวดเร็วและมีสติอย่างมากในการสังเกตคู่ต่อสู้ เมื่อไหร่ที่คู่ต่อสู้เริ่มรู้สึกตัว พวกเขาจะเริ่มปรับตัวกลับมาจู่โจมกลยุทธ์ของเรา ดังนั้นเราจะต้องปรับอีกครั้งเพื่อไม่ให้เสี่ยงที่จะเป็นฝ่ายถูก exploit

การเล่น exploitative มี variance สูง

การตัดสินใจในการเล่น exploitative นั้นมาจากข้อมูลหรือสมมติฐานในเกมของคู่ต่อสู้ ดังนั้นถ้าเราปรับการเล่นไปตามข้อมูลที่(กลับกลายเป็น)ผิดพลาดหรือสมมติฐานที่ไม่ถูกต้อง ก็อาจทำให้เสียเงินได้มาก

วิธีเล่นแบบ GTO

จากที่ได้กล่าวไปด้านบนว่าการใช้กลยุทธ์การเล่น GTO ในเกม NLH นั้นยังไม่เกิดขึ้น เพราะมันเป็นไปไม่ได้เลยสำหรับมนุษย์ หรือแม้แต่กับคอมพิวเตอร์เอง ที่จะเล่น GTO ได้อย่างสมบูรณ์ (แต่มันอาจเปลี่ยนแปลงได้ในเร็วๆนี้)

นั่นหมายความว่า การเข้าใจในทฤษฎีเกมโป๊กเกอร์และรู้ว่าจะใช้ประโยชน์สูงสุดได้อย่างไรในการเล่นบนโต๊ะคือสิ่งที่ล้ำค่าอย่างมาก

การที่จะเล่นสไตล์ GTO ได้อย่างมีประสิทธิภาพนั้น เราจะต้องมี range ที่ balance อย่างดีสำหรับทุกสถานการณ์

เวลาที่เรา bet เป้าหมายของเราคือการทำให้คู่ต่อสู้ indifferent ระหว่างการ call และ fold ซึ่งสามารถทำได้ด้วย 2 ขั้นตอนนี้:

ขั้นตอนที่ 1: คำนวณ pot odds ที่คู่ต่อสู้ได้รับต่อ bet ของเรา และทำให้เป็นสัดส่วน
ขั้นตอนที่ 2: สร้าง betting range ด้วยสัดส่วนเดียวกันสำหรับการ value bet ต่อ bluff

ลองมาลงรายละเอียดด้วยการดูจากตัวอย่าง:

เกม $5/$10 Heads Up บน PokerStars, $1,000 Effective Stacks
River (Pot: $200)

Villain check, Hero bet $200

Villain กำลังเจอกับ $200 pot size bet ที่ river ซึ่งหมายความว่าเขาได้รับ 2-ต่อ-1 odds ในการ call และจะต้องชนะอย่างน้อย 33% ของทุกครั้งที่ call

ที่จุดนี้ สัดสวนที่ถูกต้องสำหรับ value bet ต่อ bluff คือ 2-ต่อ-1 หมายความว่า betting range ของ Hero ควรจะมี 66% value bet และ 33% bluff ซึ่งจะทำให้ Villain indifferent ระหว่างการ call และ fold เพราะ EV ของทั้งสองแอคชั่นเท่ากับ 0

หมายความว่า Hero จะได้ freeroll จากการเล่นผิดพลาดของ Villain แน่นอนว่า Villain อาจเล่นได้อย่างสมบูรณ์แบบ ซึ่งจะส่งผลให้ผู้เล่นทั้งสองฝ่ายเสียให้กับเรคเท่าๆกัน แต่สิ่งที่น่าจะเป็นไปได้มากกว่าคือ Villain จะเล่นผิดพลาดกับบาง hand และเป็นการส่ง EV ให้กับ Hero

คุณอาจจะเห็นแล้วว่า กลยุทธ์การเล่น GTO อย่างสมบูรณ์นั้นจะต้องใช้ความคิดและเวลาอย่างมาก

โชคดีที่เราไม่จำเป็นต้องเล่น GTO อย่างสมบูรณ์แบบ การสร้าง range ที่ดีที่สุดในระหว่างการเล่นนั้นยากมากๆ (บางครั้งก็เป็นไปไม่ได้เลย) และมันก็ไม่จำเป็นด้วย

สิ่งที่จำเป็นคือใช้กลยุทธ์การเล่นบนหลักการ GTO

ข้อดีและข้อเสียของ GTO

ประโยชน์ของการใช้ GTO strategy นั้นมีอยู่หลายอย่าง

การเล่นในรูปแบบ GTO ทำให้ยากที่จะถูก exploit

จากที่ได้กล่าวไปหลายครั้งแล้วในด้านบนว่าเป้าหมายของ GTO คือการไม่ถูก exploit ซึ่งเป็นกลยุทธ์ที่เชื่อถือได้ถ้าเล่นอย่างเหมาะสม และการันตีความสำเร็จในระยะยาวได้

GTO strategy ทำกำไรได้กับคู่ต่อสู้เกือบทั้งหมด

หลักการ GTO จะประสบความสำเร็จกว่าเล็กน้อย (หรือมากกว่านั้น) กับคู่ต่อสู้เกือบทั้งหมด โดยเฉพาะกับพวกที่เก่งๆ

มีข้อยกเว้นสำหรับผู้เล่นที่มีการเล่นผิดปกติที่เราต้องปรับกลยุทธ์อย่างมาก แต่ leak เหล่านั้นก็มักจะชัดเจนมากจนเราสามารถสังเกตและปรับตัวได้ทันที

หลักการ GTO เป็นกลยุทธ์เริ่มต้นที่สมบูรณ์แบบ

“การปรับตัว” เป็นคำที่ใช้กันมากเมื่อพูดถึง poker strategy แต่ก่อนที่จะเริ่มปรับอะไรได้นั้น เราจำเป็นต้องมีแผนสำหรับเกมเริ่มต้น

หลักการ GTO เป็นทางเลือกกลยุทธ์ที่เหมาะสมด้วยเหตุผลที่ได้กล่าวไว้ด้านบน: ยากที่จะถูก exploit และใช้ได้กับคู่ต่อสู้เกือบทั้งหมด

อย่างไรก็ดี GTO ก็มีข้อเสียอยู่มากเช่นกัน

GTO ไม่ได้ทำกำไรได้สูงสุดเสมอไป

ตามคำจำกัดความ หลักการ GTO ไม่ได้คำนึงถึงแนวโน้มของคู่ต่อสู้

หรือพูดอีกอย่างก็คือ GTO strategy ที่แท้จริงจะคำนึงถึงการตัดสินใจที่มี +EV สูงสุดในระยะยาวด้วยเหตุผลเพื่อให้ balance

นั่นทำให้ EV ของบาง hand แย่ แต่ range โดยรวมของเราทำกำไรได้มากกว่า ซึ่งส่วนใหญ่แล้ว โดยเฉพาะในเกมเล็กๆ มันไม่มีความจำเป็นที่ต้องเสีย EV เหล่านี้เมื่อเกมของผู้ต่อสู้มีช่องว่างให้ exploit ได้มาก

ลองนึกถึงการเล่นบนโต๊ะที่มีผู้เล่น loose มากๆที่ raise 50% preflop จากทุกตำแหน่ง ถ้าใช้หลัก GTO กับคู่ต่อสู้นี้ก็จะเป็นการทิ้งเงินจำนวนมากไว้บนโต๊ะ แต่การปรับด้วย exploitative เช่น 3-bet ด้วย range ที่กว้างขึ้นเพื่อ isolate ผู้เล่นที่ loose จะเป็นทางเลือกที่ดีกว่าในจุดนี้

ในตอนที่2 เราจะไปดูรายละเอียดการเล่นแบบ Exploitative กันบ้าง

source: https://upswingpoker.com/gto-vs-exploitative-play-game-theory-optimal-strategy/