Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі

Запропоновано метод гілок і границь для розв’язання задачі дискретної оптимізації з метою вибору оптимальної регресійної моделі з використанням принципу дихотомії для розбиття поточної множини розв’язків задачі на підмножини розгалуження. Вибір підмножини розв’язків для процесу розгалуження здійснює...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2012
Автори: Мельник, І.М., Піднебесна, Г.А.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2012
Назва видання:Індуктивне моделювання складних систем
Онлайн доступ:http://dspace.nbuv.gov.ua/handle/123456789/45965
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі / І.М. Мельник, Г.А. Піднебесна // Індуктивне моделювання складних систем: Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2012. — Вип. 4. — С. 128-135. — Бібліогр.: 3 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-45965
record_format dspace
spelling irk-123456789-459652013-06-22T03:20:01Z Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі Мельник, І.М. Піднебесна, Г.А. Запропоновано метод гілок і границь для розв’язання задачі дискретної оптимізації з метою вибору оптимальної регресійної моделі з використанням принципу дихотомії для розбиття поточної множини розв’язків задачі на підмножини розгалуження. Вибір підмножини розв’язків для процесу розгалуження здійснюється за стохастичною процедурою. Предложен метод ветвей и границ для решения задачи дискретной оптимизации с целью выбора оптимальной регрессионной модели. Для ветвления используется принцип дихотомии. Выбор подмножества решений для процесса ветвления осуществляется с помощью стохастической процедуры. It is proposed the method of branch and bound for solving discrete optimization problem for selecting the optimal regressive model with using the principle of dichotomy for branching the current set to subsets and selecting a subset of solutions for branching process by random procedure. 2012 Article Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі / І.М. Мельник, Г.А. Піднебесна // Індуктивне моделювання складних систем: Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2012. — Вип. 4. — С. 128-135. — Бібліогр.: 3 назв. — укр. XXXX-0044 http://dspace.nbuv.gov.ua/handle/123456789/45965 519.1 uk Індуктивне моделювання складних систем Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
description Запропоновано метод гілок і границь для розв’язання задачі дискретної оптимізації з метою вибору оптимальної регресійної моделі з використанням принципу дихотомії для розбиття поточної множини розв’язків задачі на підмножини розгалуження. Вибір підмножини розв’язків для процесу розгалуження здійснюється за стохастичною процедурою.
format Article
author Мельник, І.М.
Піднебесна, Г.А.
spellingShingle Мельник, І.М.
Піднебесна, Г.А.
Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі
Індуктивне моделювання складних систем
author_facet Мельник, І.М.
Піднебесна, Г.А.
author_sort Мельник, І.М.
title Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі
title_short Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі
title_full Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі
title_fullStr Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі
title_full_unstemmed Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі
title_sort особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
publishDate 2012
url http://dspace.nbuv.gov.ua/handle/123456789/45965
citation_txt Особливості застосування методу гілок і границь в задачі вибору оптимальної регресійної моделі / І.М. Мельник, Г.А. Піднебесна // Індуктивне моделювання складних систем: Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2012. — Вип. 4. — С. 128-135. — Бібліогр.: 3 назв. — укр.
series Індуктивне моделювання складних систем
work_keys_str_mv AT melʹnikím osoblivostízastosuvannâmetodugílokígranicʹvzadačíviboruoptimalʹnoíregresíjnoímodelí
AT pídnebesnaga osoblivostízastosuvannâmetodugílokígranicʹvzadačíviboruoptimalʹnoíregresíjnoímodelí
first_indexed 2025-07-04T05:01:05Z
last_indexed 2025-07-04T05:01:05Z
_version_ 1836691246399094784
fulltext Особливості застосування методу гілок і границь 128 Індуктивне моделювання складних систем, випуск 4, 2012 УДК 519.1 ОСОБЛИВОСТІ ЗАСТОСУВАННЯ МЕТОДУ ГІЛОК І ГРАНИЦЬ ДЛЯ РОЗ’ВЯЗАННЯ ЗАДАЧІ ВИБОРУ ОПТИМАЛЬНОЇ РЕГРЕСІЙНОЇ МОДЕЛІ І.М. Мельник, Г.А. Піднебесна Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОНМС України, Київ, пр-т Академіка Глушкова, 40 ivanmelnyk@ukr.net, pidnebesna@mail.ru Запропоновано метод гілок і границь для розв’язання задачі дискретної оптимізації з метою вибору оптимальної регресійної моделі з використанням принципу дихотомії для розбиття поточної множини розв’язків задачі на підмножини розгалуження. Вибір підмножини розв’язків для процесу розгалуження здійснюється за стохастичною процедурою Ключові слова: метод гілок і границь, вибір оптимальної регресійної моделі It is proposed the method of branch and bound for solving discrete optimization problem for selecting the optimal regressive model with using the principle of dichotomy for branching the current set to subsets and selecting a subset of solutions for branching process by random procedure. Keywords: branches and borders method, the problem of choosing optimal regressive model Предложен метод ветвей и границ для решения задачи дискретной оптимизации с целью выбора оптимальной регрессионной модели. Для ветвления используется принцип дихотомии. Выбор подмножества решений для процесса ветвления осуществляется с помощью стохастической процедуры. Ключевые слова: метод ветвей и границ, выбор оптимальной регрессионной модели Вступ. Для багатьох задач оцінки, аналізу та прогнозування в різних сферах діяльності людини певні величини, які характеризують конкретні об’єкти досліджень, мають дискретну природу. З математичної точки зору постановки таких задач виявляються задачами дискретної та комбінаторної оптимізації. До такого класу задач відноситься вибір оптимальної регресійної моделі. Цей клас задач оптимізації має свою специфіку і потребує математичного апарату, спрямованого на те, щоб зменшити трудомісткість алгоритмічного процесу розв’язання таких задач. В основі комбінаторних методів лежить перебір можливих варіантів розв’язків поставленої задачі. Вони характеризуються певною послідовністю перебору можливих варіантів та правилами виключення, що дають змогу ще в процесі розв’язування задачі виявити неоптимальні варіанти без попередньої їх перевірки. Одним з ефективних методів розв’язання задач дискретної та комбінаторної оптимізації є алгоритмічна схема методу гілок і границь, яка була вперше запропонована Лендом і Дойгом [1] в 1960 році для загальної задачі цілочисельного лінійного програмування. mailto:ivanmelnyk@ukr.net Мельник І.М., Піднебесна Г.А. Індуктивне моделювання складних систем, випуск 4, 2012 129 Загальна ідея методу гілок і границь полягає в послідовному конструюванні та переборі тих варіантів рішень задачі, які, згідно з відповідними критеріями, є «перспективними» для подальшого розвитку, і відсіву тих варіантів, які завідомо є «неперспективними». Цей обчислювальний процес продовжується доти, доки не буде знайдено оптимальний варіант розв’язку задачі. Можна виділити три основних алгоритмічних складових методу гілок і границь: • отримання оцінки множини, яка розглядається на певному кроці алгоритму, • визначення за певним критерієм вибору «перспективного» напрямку обчислень при розгалуженні, • процедура розгалуження – поділ поточної «перспективної» множини на підмножини для подальшого обчислення. Від конкретного вибору кожної з цих складових залежить ефективність застосування методу для конкретних класів задач. Опис запропонованого алгоритму В основі алгоритмічної схеми лежить ідея послідовного розбиття поточної множини допустимих розв’язків на підмножини (підмножини розгалуження). На кожному кроці елементи розбиття (тобто підмножини розв’язків) піддаються перевірці для з’ясування, чи може дана підмножина містити оптимальний розв’язок. Перевірка здійснюється за допомогою обчислення значення нижньої оцінки цільової функції (оцінки знизу для задач мінімізації) на цій підмножині розв’язків і співставлення значення оцінки зі значенням рекорду на цей момент. Нижня оцінка цільової функції на даній підмножині розв’язків – це таке дійсне число, яке явно не більше (менше) будь-якого значення цільової функції на цій підмножині. Рекордом називаємо значення цільової функції задачі для найкращого на даний момент зі знайдених розв’язків. Якщо нижня оцінка цільової функції на даній підмножині розв’язків не менше (більше) рекорду, то вважаємо, що ця підмножина може бути відкинута з подальшого розгляду, оскільки явно не містить оптимального розв’язка. Підмножина розв’язків, яка перевіряється, може бути відкинута ще й у тому випадку, коли на певному кроці знайдено розв’язок, для якого значення нижньої оцінки цільової функції на цій підмножині краще. Якщо значення цільової функції для знайденого розв’язку менше раніше обчисленого рекорду, то значення рекорду змінюється на це значення. Якщо на якомусь кроці вдається відкинути всі елементи розбиття (підмножини розв’язків) , то значення рекорду — це оптимальне значення розв’язку початкової задачі. В іншому випадку з невідкинутих підмножин розв’язків обирається одне з перспективних (наприклад, з найменшою нижньою оцінкою Особливості застосування методу гілок і границь 130 Індуктивне моделювання складних систем, випуск 4, 2012 цільової функції), і воно розбивається на підмножини розгалуження. Ці нові підмножини розв’язків знову перевіряються і т.д. доти, поки на певному кроці не буде знайдено таке значення рекорду, яке буде меншим (не більшим) значень нижніх оцінок цільової функції на всіх підмножинах розгалуження. По закінченні цього обчислювального процесу поточне значення рекорду і є оптимальним значенням цільової функції, а відповідний розв’язок є оптимальним розв’язком початкової задачі. Розглянемо докладніше. Нехай розглядається складна система, яка характеризується m вхідними (незалежними) змінними 1{ , ..., , ..., }i mx x x та однією вихідною (залежною) змінною y , що мають стохастичний характер і задані вибіркою з n статистичних спостережень цих змінних { }1, ...,S n= . Нехай {1,..., }I MX m⊆ = – довільна підмножина індексів незалежних змінних (регресорів). Регресійна модель на цій підмножині вхідних (незалежних) змінних для вихідної (залежної) змінної y будується в лінійному вигляді [2]: i i i I y a x ∈ =∑ . Значення функціоналу оцінки регресійної моделі ( )F I обчислюється так: 2( ) max( ( ) )s s i is S i I F I y a I x ∈ ∈ = −∑ , (1) де { }1| iI i x X= ∈ – підмножина з множини номерів незалежних змінних MX, 1X – вибрана підмножина вхідних змінних, на яких будується регресійна модель, ( ), ,ia I i I∈ - коефіцієнти регресійної моделі, знайдені за МНК для набору регресорів 1X . Необхідно знайти таку підмножину *I , *I MX⊆ , яка би мінімізувала значення функціоналу (1): 2( *) min max( ( ) )l l i il S i I F I y a I x ∈ ∈ = −∑ , (2) де мінімум беретеся за всіма підмножинами I з множини MX. Будемо розв’язувати загальну задачу як послідовність m часткових задач, тобто виконувати відповідну декомпозицію. Кожна k -та ( 1,...,k m= ) часткова задача полягає в пошуку методом гілок і границь найкращого (субоптимального) розв’язку на відповідній підмножині з усієї множини розв’язків задачі вибору оптимальної регресійної моделі як задачі дискретної оптимізації. Підмножина номерів змінних k -ї часткової задачі задається так: { , 1,..., }kI k k m= + , {1,..., }kI MX m⊆ = . Мельник І.М., Піднебесна Г.А. Індуктивне моделювання складних систем, випуск 4, 2012 131 Відповідно для k -ї часткової задачі розглядаються всі набори змінних з номерами з цієї підмножини 1{ , } { , ,..., }k i k k k mX x i I x x x+= ∈ = . Нижньою оцінкою ( )kR I цільової функції (1) для підмножини розв’язків k - ї часткової задачі в [2] позначається таке дійсне число, яке обчислюється за формулою: 2 1 ( ) ( ( ) ) / k n s s k i k i s i I R I y a I x n = ∈ = −∑ ∑ . (3) Щоб довести, що значення функції ( )kR I є нижньою оцінкою для значень функціоналу оцінки моделі )( 1 kk XXF ⊆ необхідно показати, що для будь-якої підмножини 1 kX з множини kX виконується нерівність: )()( 1 kk XRXF ≥ . По перше. Зважаючи на означення (1) та (3) 2 1 ( ) ( ( ) ) / k n s s k i k i s i I R I y a I x n = ∈ = −∑ ∑ ≤ 2 ,...,1 ))((max i s Ii ki s ns xIay k ∑ ∈= − = ( )kF I . (4) По друге. Необхідно показати, що нерівність (4) виконується також для довільної підмножини 1 kX з множини kX , тобто для будь-якого kk XX ⊆1 . Якщо позначати через }/{1 i kik XxiI ∈= , то виконується нерівність: 2 1 ))(( i s Ii ki n s s xIay k ∑∑ ∈= − ≤ 21 1 ))(( 1 i s Ii ki n s s xIay k ∑∑ ∈= − . З цієї нерівності і випливає остаточна достовірність теореми. Оскільки маємо: )( kIR = 2 1 ))(( i s Ii ki n s s xIay k ∑∑ ∈= − ≤ 21 1 ))(( 1 i s Ii ki n s s xIay k ∑∑ ∈= − ≤ 21 ,...,1 ))(( 1 max i s Ii ki s ns xIay k ∑ ∈= − = )( 1 kXF Аналогічно доводиться, що функція ( )R I монотонно зростає при проведенні процедури розгалуження. Ця умова є необхідною методологічною вимогою для процедурі визначення нижньої оцінки цільової функції в методі гілок та границь. Розглянемо використання методу гілок і границь для пошуку найкращого розв’язку на множині розв’язків k -го типу kI ( 1,...,k m= ). Здійснюємо розбиття (розгалуження) множини на дві підмножини за принципом дихотомії (навпіл). Перша підмножина номерів 1 kI = { , 1, 2,..., [( ) / 2]k k k k m k+ + + − } генерує підмножину розв’язків задачі, які містять розв’язки зі змінними типу ( , 1,...k k + ), ( , 2,...k k + ),..., ( , [( ) / 2]k k m k+ − ). Особливості застосування методу гілок і границь 132 Індуктивне моделювання складних систем, випуск 4, 2012 Друга підмножина номерів 2 kI = { , [( ) / 2] 1,...,k k m k m+ − + } генерує підмножину розв’язків задачі, які містять розв’язки зі змінними типу ( , [( ) / 2] 1,...k k m k+ − + ), ( , [( ) / 2] 2,...k k m k+ − + ), ( , [( ) / 2] 3,...k k m k+ − + ),..., ( ,k m ). Позначимо [( ) / 2]p m k= − . Значення нижньої оцінки цільової функції обчислюємо аналогічно (3), для першої підмножини 1 kI : ( ) 1 1 2 1 1 ( ) ( ( ( ) ) / k pn k s s k i k i l i k R R I y a I x n + = = = = −∑ ∑ , (5) де коефіцієнти ),( 1 ki Ia pkkki ++= ,...,1, , знайдені за МНК для набору регресорів },...,,{ 1 pkkk xxx ++ . Аналогічно для другої підмножини розв’язків 2 kI : ( ) 2 2 2 2 1 1 ( ) ( ( ) ) / n m k s s k i k i l i k p R R I y a I x n = = + + = = −∑ ∑ , (6) де коефіцієнти )( 1 ki Ia , 1,..., .i k p m= + + , знайдені за МНК для набору регресорів 1{ ,..., }k p mx x+ + . У випадку, коли обидві нижні оцінки менші за рекорд, вибір напрямку розгалуження проводиться наступним чином. Обчислюються значення ймовірностей того, що підмножина містить оптимальний розв’язок. Для цих підмножин 1 kI та 2 kI відповідно. Для першої підмножини 1 kI це буде ( ) ( ) ( ) ( ) 1 2 1 2/ ( )k k k kP R R R= + , а для другої підмножини 2 kI , відповідно, ( ) ( ) ( ) ( ) 2 1 1 2/ ( )k k k kP R R R= + . Далі відповідно до отриманого розподілу вибирається підмножина для подальшого розгалуження. Обчислюється значення цільової функції (1) для цього розв’язку, і це значення приймається за рекорд. На кожному кроці алгоритмічного процесу проводиться порівняння цього значення рекорду зі значеннями нижніх оцінок цільової функції для всіх визначених у процесі розгалуження підмножин розв’язків. Ті підмножини розв’язків, які ще не піддавалися процедурі подальшого розгалуження і для яких значення оцінок знизу не менше (більше) значення рекорду, є неперспективними для подальшого розгалуження і надалі не розглядаються. Обчислювальний процес продовжується доти, поки врешті-решт на якомусь кроці не виникне ситуація, коли всі підмножини, побудовані при розгалуженні, мають значення нижніх оцінок цільової функції більше (не Мельник І.М., Піднебесна Г.А. Індуктивне моделювання складних систем, випуск 4, 2012 133 менше) значення рекорду, або матимемо підмножину, яка має лиш один розв’язок. В першому випадку процедура закінчується, розв’язок уже знайдено. В другому випадку порівнюємо значення цільової функції знайденого розв’язку зі значенням рекорду, і якщо це значення менше рекорду, то беремо його за рекорд. В цій алгоритмічній схемі методу гілок і границь переслідувалася мета, щоб на кожному кроці повної ітерації процесу розгалуження стохастичною процедурою вийти на підмножину з одним розв’язком для уточнення значення рекорду. Чисельний експеримент Тестовий приклад. Було згенеровано випадковим чином набір з 5 значень (Табл. 1) для кожного з вхідних незалежних первинних показників (регресорів) 1{ , ..., , ..., }i mx x x (m=6). Значення вихідного показника у були розраховані за такою формулою: 2 32y x x= − . Таблиця 1 Згенеровані вхідні дані 1x 2x 3x 4x 5x 6x y 1 5 -3 115 -0,54402 0 13 2 2 0 206 0,912945 -12,6965 4 3 1 5 333 -0,98803 0 -3 4 5 12 502 0,745113 47,20909 -2 5 3 21 719 0,26237 0 -15 В таблиці 2 представлені покроково результати обчислень пропонованого алгоритму. Для наглядності використано структурні вектори, відповідні до поточних підмножин індексів kI : 1, { } 0, kk i k i I D d i I ∈ = =  ∉ , 1,i m= Тобто, якщо регресор входить до моделі, то відповідний йому елемент структурного вектора дорівнює одиниці, якщо не входить – нулю. На першому кроці (k=1) обчислюється значення цільової функції для моделі, в яку входять всі регресори (структурний вектор складається тільки з одиниць). Це значення 1( )F I береться за рекорд. Особливості застосування методу гілок і границь 134 Індуктивне моделювання складних систем, випуск 4, 2012 Таблиця 2 1x 2x 3x 4x 5x 6x ( )kF I ( )kR I № k=1 1 1d 1 1 1 1 1 1 7,34E-28 1,6E-28 2 1 1d 1 1 1 0 0 0 2,84E-29 7,26E-30 3 2 1d 1 0 0 1 1 1 160,16 37,98 4 2d 1 1 1 0 0 0 2,84E-29 7,26E-30 5 1 2d 1 1 0 0 0 0 34,07 18,22 6 2 2d 1 0 1 0 0 0 31,15 14,01 k=2 7 2d 0 1 1 1 1 1 7,58E-27 2,50E-27 8 1 2d 0 1 1 1 0 0 5,30E-27 1,58E-27 9 2 2d 0 1 0 0 1 1 272,80 78,11 10 1 2d 0 1 1 1 0 0 5,30E-27 1,58E-27 11 11 2d 0 1 1 0 0 0 4,93E-30 2,45E-30 12 12 2d 0 1 0 1 0 0 18,81 8,81 k=3 13 3d 0 0 1 1 1 1 16,21 7,05 k=4 14 4d 0 0 0 1 1 1 211,58 60,27 k=5 15 5d 0 0 0 0 1 1 214,34 81,90 k=6 16 6d 0 0 0 0 0 1 225 82,83 Проводиться розбиття множини 1I на підмножини, яким відповідають структурні вектори 1 1d та 2 1d . Для них розраховуються оцінки знизу і порівнюються з рекордом. Значення 2 1( )R I більше за рекорд, тому цей напрямок вважаємо неперспективним. Подальшому розгалуженню підлягає множина, якій відповідає структурний вектор 1 1d . Відповідне значення цільової функції береться за рекорд. Проводиться поділ і обчислення та порівняння відповідних оцінок знизу (рядки таблиці №=5, 6). Значення оцінок знизу більші за рекорд, тобто подальше розгалуження цих напрямків неперспективне. Перехід до наступного k, (k=2). Мельник І.М., Піднебесна Г.А. Індуктивне моделювання складних систем, випуск 4, 2012 135 Повторюються процедури обчислень та порівнянь відповідних 2( )F I , 1 1( )R I та 1 2( )R I . Перспективним напрямком вважається той, якому відповідає структурний вектор 1 2d , проте подальше розгалуженню неможливе. За рекорд береться 2 1( )F I (рядок таблиці №=11). Перехід до наступного k (k=3). При подальших обчисленнях значення нижніх оцінок поточних множин виявились більшими за рекорд. Тобто, не знайшлось перспективного напрямку для подальшого розгалуження. Це означає, що знайдено структуру оптимального рішення для конкретної задачі. Структурний вектор знайденого рішення відповідає істинній моделі. Зауваження. Наведений приклад є окремим випадком, коли структурний вектор не має нулів між одиницями. Подальша робота має бути направлена на відшукання умов (критеріїв), за яких задача вирішувалась би в повному обсязі. Висновки Запропоновано застосування методу гілок і границь для розв’язання задачі дискретної оптимізації з метою вибору оптимальної регресійної моделі. Для розбиття поточної множини розв’язків задачі на підмножини розгалуження використовується принцип дихотомії. Для підмножин розгалуження обчислюються нижні оцінки значень цільової функції вибору оптимальної моделі. Вибір підмножини розв’язків з двох перспективних для процесу розгалуження може здійснюватися за стохастичною процедурою. Наведено чисельний приклад роботи алгоритму, який є окремим випадком загальної задачі. Література 1. Land A.H., and Doig A.G. An automatic method of solving discrete programming problems // Econometrics. V. 28 (1960). – P. 497-520. 2. Мельник І.М. Метод гілок і границь для розв’язання задачі вибору оптимальної регресійної моделі як задачі дискретної оптимізації // Індуктивне моделювання складних систем. Зб. наук. праць. – Київ: МННЦ ІТС НАН України, 2009. – С. 131-139 3. Ivan Melnyk, Galyna Pidnebesna. Features of the Implementation of Branch and Bound Method for Solving the Problem of Selecting Optimal Regression Model // Proceedings of the IV International Workshop on Inductive Modelling IWIM-2012, 8 -15 July 2012, Zhukyn-Kyiv, Ukraine. – Kyiv: IRTC ITS NANU, 2012. – P. 19-22.