Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков
Рассмотрено две постановки задач, являющимися моделями двух-этапных игр с полной информацией и вмешательством случая. Одна задача рассматривает поведение игроков в телешоу «цена удачи», другая – в двухэтапной азартной игре с повышением ставок. В обоих случах найдено равновесие по Нэшу в зависимости...
Збережено в:
Дата: | 2017 |
---|---|
Автор: | |
Формат: | Стаття |
Мова: | Russian |
Опубліковано: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2017
|
Назва видання: | Теорія оптимальних рішень |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/131439 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков / С.И. Доценко // Теорія оптимальних рішень: Зб. наук. пр. — 2017. — № 2017. — С. 64-71. — Бібліогр.: 2 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-131439 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-1314392018-03-25T04:03:04Z Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков Доценко, С.И. Рассмотрено две постановки задач, являющимися моделями двух-этапных игр с полной информацией и вмешательством случая. Одна задача рассматривает поведение игроков в телешоу «цена удачи», другая – в двухэтапной азартной игре с повышением ставок. В обоих случах найдено равновесие по Нэшу в зависимости от значений параметров игры и ему дается геометрическая интерпретация. Розглянуто дві постановки задач, які є моделями двохетапних ігор з повною інформацією та втручанням випадку. Одна задача розглядає поведінку гравців у телешоу «ціна удачі», друга – в двохетапній грі з підвищенням ставок. В обох випадках знайдено рівновагу за Нешем у залежності від значень параметрів гри та йому надається геометрична інтерпретація. We consider two formulations of problems for two-stage full information games of chance. The first formulation is about the thrategy in TV show game «the price is right», the second one is about two-stage gamling with bet raises. The Nash equilibrium, depending on game parameters and it's geometrical interpretation is found in both cases. 2017 Article Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков / С.И. Доценко // Теорія оптимальних рішень: Зб. наук. пр. — 2017. — № 2017. — С. 64-71. — Бібліогр.: 2 назв. — рос. 2616-5619 http://dspace.nbuv.gov.ua/handle/123456789/131439 519.8 ru Теорія оптимальних рішень Інститут кібернетики ім. В.М. Глушкова НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
description |
Рассмотрено две постановки задач, являющимися моделями двух-этапных игр с полной информацией и вмешательством случая. Одна задача рассматривает поведение игроков в телешоу «цена удачи», другая – в двухэтапной азартной игре с повышением ставок. В обоих случах найдено равновесие по Нэшу в зависимости от значений параметров игры и ему дается геометрическая интерпретация. |
format |
Article |
author |
Доценко, С.И. |
spellingShingle |
Доценко, С.И. Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков Теорія оптимальних рішень |
author_facet |
Доценко, С.И. |
author_sort |
Доценко, С.И. |
title |
Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков |
title_short |
Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков |
title_full |
Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков |
title_fullStr |
Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков |
title_full_unstemmed |
Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков |
title_sort |
об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков |
publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
publishDate |
2017 |
url |
http://dspace.nbuv.gov.ua/handle/123456789/131439 |
citation_txt |
Об оптимальном поведении в двухэтапных играх с вмешательством случая в условиях полной информированности игроков / С.И. Доценко // Теорія оптимальних рішень: Зб. наук. пр. — 2017. — № 2017. — С. 64-71. — Бібліогр.: 2 назв. — рос. |
series |
Теорія оптимальних рішень |
work_keys_str_mv |
AT docenkosi oboptimalʹnompovedeniivdvuhétapnyhigrahsvmešatelʹstvomslučaâvusloviâhpolnojinformirovannostiigrokov |
first_indexed |
2025-07-09T15:26:45Z |
last_indexed |
2025-07-09T15:26:45Z |
_version_ |
1837183593659498496 |
fulltext |
64 Теорія оптимальних рішень. 2017
ТЕОРІЯ
ОПТИМАЛЬНИХ
РІШЕНЬ
Рассмотрено две постановки за-
дач, являющимися моделями двух-
этапных игр с полной информа-
цией и вмешательством случая.
Одна задача рассматривает пове-
дение игроков в телешоу «цена
удачи», другая – в двухэтапной
азартной игре с повышением
ставок. В обоих случах найдено
равновесие по Нэшу в зависимо-
сти от значений параметров иг-
ры и ему дается геометрическая
интерпретация.
С.И. Доценко, 2017
УДК 519.8
С.И. ДОЦЕНКО
ОБ ОПТИМАЛЬНОМ ПОВЕДЕНИИ
В ДВУХЭТАПНЫХ ИГРАХ
С ВМЕШАТЕЛЬСТВОМ СЛУЧАЯ
В УСЛОВИЯХ ПОЛНОЙ
ИНФОРМИРОВАННОСТИ ИГРОКОВ
Введение. Задачи выбора оптимального мо-
мента остановки являются неотъемлемой
составной частью теории проблем последо-
вательных решений с многозначным выбо-
ром, включающей в себя такие аспекты, как
динамическое программирование и после-
довательные испытания. В подклассе игро-
вых задач выбора оптимального момента
остановки предполагается, что каждый из
игроков выбирает момент остановки соб-
ственной траектории, а вектор функции
выигрыша игроков зависит только от зна-
чений траекторий в моменты остановок,
выбранных каждым из игроков и не зависит
от промежуточных значений траекторий.
В данной статье рассмотрены две задачи,
принадлежащих к данному подклассу и для
них найдено равновесие по Нэшу.
Двухэтапная игра «цена удачи» с пол-
ной информацией.
Рассмотрим математическую модель игры,
реализуемой на шоу «цена удачи» (в аме-
риканском варианте «the price is right») с пол-
ной информацией.
В данном телешоу каждый из участников
крутит барабан и случайным образом полу-
чает некоторое количество очков, выпавших
на барабане. После первого тура, каждый из
участников знает собственное количество
очков и не знает результаты соперников.
Задача каждого игрока – набрать количество
очков, большее, чем у соперников, но не
больше, чем заданная пороговая величина.
ОБ ОПТИМАЛЬНОМ ПОВЕДЕНИИ В ДВУХЭТАПНЫХ ИГРАХ С ВМЕШАТЕЛЬСТВОМ ...
Теорія оптимальних рішень. 2017 65
После этого каждый из игроков принимает решение переходить во второй тур
и крутить барабан еще раз (тогда количество очков по итогам двух туров
суммируется), либо отказаться от участия во втором туре и таким образом
остановиться на сумме, набранной в первом туре. После окончания второго тура
количество очков, набранное каждым из участников сравнивается и побеждает
игрок, набравший максимальную сумму, не превышающую пороговой вели-
чины. Если же суммы всех участников превысили пороговую величину,
то побеждает участник, набравший наименьшую сумму.
В работе [1] проведен анализ игры «цена удачи» в предположении, что
слагаемые, составляющие суммы (результаты участников) являются незави-
симыми одинаково распределенными на интервале [0; 1] величинами, а значение
пороговой величины равно 1.
Для данной ситуации найдено симметричное равновесие по Нэшу,
состоящее в том, что все игроки придерживаются пороговой стратегии со
значением порога *u (зависящего от n-общего количества игроков), состоящей
в том, чтобы добавлять второе слагаемое, если первое слагаемое меньше
порогового значения
*u и не добавлять в противном случае.
Как было установлено, искомое значение порога является корнем уравнения
2 2 1
2( 1)
1
1
.
( 1) 2 (2 1)
n n
n
n
u u
u
n u n
Значения
*u при различных значениях n приведены в таблице.
ТАБЛИЦА
n 2 3 4 5 6 7 8 9 10 100 500
*u 0.563 0.661 0.718 0.757 0.785 0.806 0.823 0.837 0.849 0.97 0.99
Рассмотрим вариант игры двух игроков с полной информацией, что
в данном случае означает, что после первого тура каждый из игроков знает
значение своего слагаемого и значение слагаемого противника, и на основании
этой информации принимает решение, добавлять второе слагаемое или нет.
Данная игра является игрой с фиксированной суммой, поскольку один
из игроков выигрывает 1, следовательно, она стратегически эквивалентна
матричной игре.
Предположим, что первый игрок получил первое слагаемое u, а второй v,
причем u > v, после чего игроки независимо друг от друга принимают решение
о добавке второго слагаемого. Будем придерживаться терминологии игры
«блэкджек», т. е. решение остановиться на набранной сумме обозначать
S (stand), добавлять слагаемое – H (hit), значения вторых слагаемых (если
игроки их берут) – 21, xx а набранные игроками суммы – Σ1 , Σ2 соответственно.
С.И. ДОЦЕНКО
66 Теорія оптимальних рішень. 2017
Составим матрицу выигрышей первого игрока, в которой первая
строка/столбец соответствуют стратегии S, а вторая – H.
При профиле (S, S): vu 21
, таким образом 1-й игрок
выигрывает 1.
При профиле (S, H) второй игрок выигрывает с вероятностью
2( 1) 1 ,P u v x u значит, выигрыш первого игрока составляет u.
При профиле (H, S) первый игрок выигрывает, если 1)( 11 xu , тогда
1 11 1 1 .P u x P x u u
При профиле (H, H) первый игрок выигрывает при реализации одного
из трех непересекающихся событий: 112 uxvx , vxux 21 1 ,
либо vxux 211 , отсюда вероятность его выигрыша равна
vxuxPvxuxPuxvxP 212112 1)1(1
2
1
)1(
221
1
1
0
1
0
uv
dxvxdxvdxvxu
v
uu
.
Таким образом, матрица выигрышей первого игрока имеет вид:
2
1
1
1
22 uv
u
u
A .
Заметим, что в данной матричной игре при любых значениях ,u v всегда
будет иметь место доминирование либо строк, либо столбцов, поскольку
11 12 11 21, ,a a a a 2/122 a , 12 21max( , ) 1/ 2a a и таким образом 2212 aa , либо
2221 aa . Таким образом, игра всегда разрешима в чистых стратегиях по доми-
нированию. При этом 2212 aa при 2)1( 22 vu , а 2221 aa при 1 vu .
Тогда в зависимости от значений u и v достигается равновесный исход (H, H)
либо (S, H). Исходу (H, H) соответствует множество точек, лежащих внутри
криволинейного треугольника со сторонами uvv ,0 и 2)1( 22 vu ,
а исходу (S, H) – внутри четырехугольника со сторонами 0, 1,v u v u
и 2)1( 22 vu (см. рис. 1).
Двухэтапная игра с удвоением ставок в условиях полной информи-
рованности игроков.
Рассмотрим двухэтапную игру с удвоением ставок для случая двух и трех
игроков.
В начале игры игроки делают единичные ставки и получают независимые
реализации случайной величины, равномерно распределенной на [0;1].
ОБ ОПТИМАЛЬНОМ ПОВЕДЕНИИ В ДВУХЭТАПНЫХ ИГРАХ С ВМЕШАТЕЛЬСТВОМ ...
Теорія оптимальних рішень. 2017 67
РИС. 1
После этого каждый из игроков независимо от других должен принять
решение – удвоить ставку (т. е. добавить к единичной ставке еще одну)
и перейти во второй тур, либо же спасовать и потерять единичную ставку,
сделанную в первом туре. Во втором туре игроки получают еще раз незави-
симые реализации случайной величины, равномерно распределенной на [0; 1].
Игрок, набравший максимальную сумму в двух турах выигрывает все ставки.
Рассмотрим случай двух лиц. Вначале найдем минимальную вероятность
выигрыша, при которой следует переходить во второй тур.
Пусть p – вероятность выигрыша. Если после первого тура игрок пасует,
то он теряет 1, т. е. матожидание выигрыша равно – 1. Если игрок добавляет
ставку и переходит во второй тур, то он выигрывает две ставки с вероятностью
p или проигрывает их с дополнительной вероятностью, тогда матожидание
выигрыша равно 24)1(22 ppp .
Условие 124 p равносильно 4/1p .
Предположим теперь, что по итогам первого тура один из игроков отстает
от другого на величину u. Обозначим вероятность выигрыша игрока при
отставании u через g(u). Обозначим слагаемые, получаемые игроками во втором
туре через x и y соответственно. Пусть, например, первый игрок отстает
от второго на u. Тогда вероятность выигрыша первого игрока равна
2
)1(
)(
211
0
u
dxdyuyxPug
yu
u
.
Заметим, что величину g(u) можно также трактовать и как хвост распреде-
ления величины отставания, которая образуется в первом туре.
0
2 – 1 U
V
(S, H)
(H, H)
(½; ½)
1
С.И. ДОЦЕНКО
68 Теорія оптимальних рішень. 2017
Максимальную величину отставания, при которой отстающему еще выгод-
но переходить во второй тур, найдем из условия
4
1
)( ug , что равносильно
293.0
2
2
1 u . Это значит, что игрок должен пасовать, если его отставание
превышает пороговое значение 293.0
2
2
1* u и удваивать ставку и играть
во втором туре в противном случае.
Пусть игрок, отставая на u по итогам первого тура, соглашается играть во
втором туре. Тогда величина его выигрыша равна 2
1( ) 4 ( ) 2 2 4 ,E u g u u u
а если игрок не переходит во второй тур (пасует), то величина его выигрыша
равна 1)(0 uE .
Тогда средний выигрыш отстающего игрока, придерживающегося опти-
мальной пороговой стратегии при его отставании u равен
1,1
0,42
)(
*
*2
uu
uuuu
uE
и аналогично средний выигрыш при какой-либо другой пороговой стратегии v
равен
1,1
0,42
)(
2
uv
vuuu
uEV
.
Рассмотрим ситуацию полной информированности, когда реализации
случайных величин стают известными каждому из игроков.
Заметим, что плотность вероятности величины отставания одного из игро-
ков, которая образуется в первом туре, равна ( ) ( ) 1 ,u g u u тогда
величина проигрыша, усредненная по всем возможным ситуациям отставания
от 0 до 1 равна
1
4 3 2
0
1 5 1
( ) ( ) ( ) 2 ,
2 2 2
Vm v E u u du v v v v в частности,
8
3
)( * um .
Средний выигрыш игрока, придерживающегося оптимальной пороговой
стратегии
*u против игрока, придерживающегося какой-либо другой стратегии,
равна
8
1
2
5
2
2
1
)()()( 234* vvvvumvmvM .
График )(vM показан на рис. 2.
Как и следовало ожидать,
*( ) 0.M u Следует отметить, что рациональный
игрок, не знающий точного порогового значения, будет выбирать его интуи-
тивно между
4
1
и
3
1
.
В этом случае его средний проигрыш будет незначительным, поскольку
3 3(0.25) 1.9 10 , (0.33) 1.3 10 .M M
ОБ ОПТИМАЛЬНОМ ПОВЕДЕНИИ В ДВУХЭТАПНЫХ ИГРАХ С ВМЕШАТЕЛЬСТВОМ ...
Теорія оптимальних рішень. 2017 69
РИС. 2
Рассмотрим случай трех лиц. Вначале найдем минимальную вероятность
выигрыша, при которой следует переходить во второй тур, при условии, что
остальные игроки также будут играть во втором туре.
Если после первого тура игрок пасует, то он теряет 1, т. е. матожидание
выигрыша равно – 1. Если игрок добавляет ставку и переходит во второй тур,
то он выигрывает четыре ставки с вероятностью p или проигрывает две ставки
с дополнительной вероятностью, тогда матожидание выигрыша равно
26)1(24 ppp .
Условие 126 p равносильно 6/1p .
Рассмотрим теперь игру трех лиц с точки зрения аутсайдера первого тура.
Пусть игрок оказался в ситуации, когда по итогам первого тура опережают его
на u и v соответственно. Не нарушая общности рассуждений предположим, что
vu . Пусть во втором туре игрок получил слагаемое x, а его конкуренты y и z
соответственно. Тогда он выиграет, если ux и при этом , .y x u z x v
При фиксированных значениях x, u, v события, состоящие в том, что каждый
из соперников не сможет опередить игрока по итогам двух туров являются
независимыми, и поскольку y и z распределены равномерно на [0;1] , то вероят-
ности этих событий равны соответственно ux и .x v
Тогда вероятность того, что аутсайдер выиграет, согласно формуле полной
вероятности равна
1
3 21 1 1 1 1
( )( ) .
6 2 2 2 3
out
u
p x u x v dx u uv uv u v
Условие
6
1
outp равносильно условию
3
2
1 3 1
.
3 (1 )
u u
v
u
Рассмотрим игру с точки зрения «среднего» игрока, т. е. занимающего
второе место по итогам первого тура. Пусть игрок оказался в ситуации, когда
лидер опережает его на u, а аутсайдер отстает на w. Тогда он выиграет,
С.И. ДОЦЕНКО
70 Теорія оптимальних рішень. 2017
если ux и при этом , .y x u z x v Пусть во втором туре игрок получил
слагаемое x, а его конкуренты y и z соответственно. Тогда он выиграет, если
ux и при этом , .y x u z x w Аналогично предыдущему случаю, при
фиксированных значениях x, u, v события, состоящие в том, что каждый
из соперников не сможет опередить игрока по итогам двух туров являются
независимыми, однако вероятность того, что аутсайдер не сможет опередить
игрока имеет вид max( ,1).x w
Тогда вероятность того, что средний игрок выиграет, согласно формуле
полной вероятности, равна
1 1
1
1
)())(()1,max()(
u w
w
u
mid dxuxdxwxuxdxwxuxp
3 2 2 3 21 1 1 1 1 1 1 1
3 2 2 6 2 2 6 2
w u w uw u w u w uw
231 1
( 1) 1 .
6 2
u w u
Заметим, что пределы интегрирования расставлены корректно (u внизу,
1 – w вверху), поскольку всегда wu 1 , что равносильно 1wu .
Последнее неравенство, очевидно, выполняется всегда, поскольку величина
wu равна разности значений лидера и аутсайдера, а эта величина не
превышает 1.
Условие
6
1
midP равносильно
231 3(1 ) 1.w u u (1)
Правая часть (1) отрицательна на интервале ]347.0;0[ и положительна на
[0.347; 1]. Это значит, что при опережении лидера, не большем 0.347 среднему
игроку следует переходить во второй тур при любом отставании аутсайдера,
вплоть до нулевого.
Представим (1) в виде
3 2 1)1(31 uuw (2).
Правая часть (2) является монотонно возрастающей функцией и принимает
значение 1 при 423.0
3
1
1 u .
Поскольку в то же самое время 1wu , то при
3
1
1u выполнение (2)
требует, чтобы при данных u величина w принимала недопустимые значения.
ОБ ОПТИМАЛЬНОМ ПОВЕДЕНИИ В ДВУХЭТАПНЫХ ИГРАХ С ВМЕШАТЕЛЬСТВОМ ...
Теорія оптимальних рішень. 2017 71
Это означает, что при отставании от лидера на величину, большую, чем
3
1
1
следует пасовать даже при максимально возможном отставании аутсайдера.
Таким образом, оптимальньная стратегия среднего игрока такая: всегда
переходить во второй тур при 347.0u и пасовать при 423.0u
вне зависимости от значения w, а при 423.0;347.0u переходить во второй
тур, если точка ),( wu лежит над графиком )(uw , где ( )w u
231 3(1 ) 1u u и пасовать в противном случае (рис. 3).
РИС. 3
С.І. Доценко
ПРО ОПТИМАЛЬНУ ПОВЕДІНКУ В ДВОХЕТАПНИХ ІГРАХ
З ВТРУЧАННЯМ ВИПАДКУ ЗА УМОВ ПОВНОЇ ІНФОРМОВАНОСТІ ГРАВЦІВ
Розглянуто дві постановки задач, які є моделями двохетапних ігор з повною інформацією
та втручанням випадку. Одна задача розглядає поведінку гравців у телешоу «ціна удачі»,
друга – в двохетапній грі з підвищенням ставок. В обох випадках знайдено рівновагу за
Нешем у залежності від значень параметрів гри та йому надається геометрична
інтерпретація.
S.I. Dotsenko
O OPTIMAL BEHAVIOR IN TWO STAGE GAMES WITH THE INTERVENTION
OF CHANCE IN THE CASE OF PLAYERS FULL INFORMATION
We consider two formulations of problems for two-stage full information games of chance. The first
formulation is about the thrategy in TV show game «the price is right», the second one is about two-
stage gamling with bet raises. The Nash equilibrium, depending on game parameters and it's
geometrical interpretation is found in both cases.
1. Mazalov V., Ivashko A. Equilibrium in n-person game of showcase showdown. Probability in
engineering and informational sciences, 2010. N 24. Р. 307 – 403.
2. Доценко С.И., Кожевников Д.В. Оптимальная стратегия удвоения в нардах. Кибернетика
и вычислительная техника. 2010. № 162. С. 53 – 64.
Получено 06.03.2017
|