Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя

Запропонований метод стиснення моделей на основі імітації навчання від декількох вчителів надає можливість зменшити кількість помилок у порівнянні зі звичайним підходом студента-вчителя....

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2019
Автори: Стеценко, І.В., Талько, Ю.С.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2019
Назва видання:Управляющие системы и машины
Теми:
Онлайн доступ:http://dspace.nbuv.gov.ua/handle/123456789/161584
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя / І.В. Стеценко, Ю.С. Талько // Управляющие системы и машины. — 2019. — № 2. — С. 25-31. — Бібліогр.: 8 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-161584
record_format dspace
spelling irk-123456789-1615842019-12-15T01:26:00Z Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя Стеценко, І.В. Талько, Ю.С. Интеллектуальные информационные технологии и системы Запропонований метод стиснення моделей на основі імітації навчання від декількох вчителів надає можливість зменшити кількість помилок у порівнянні зі звичайним підходом студента-вчителя. Цель статьи — предложить эффективный способ сжатия и обучения модели путем видоизменения способа дистилляции знаний. Методи. Для обеспечения большей точности и меньшего количества ошибок в модели предложен метод сжатия на основе введения регуляризатора, который добавляет гауссовский шум к знаниям учителя в методе студента-учителя (student-teacher training). Результат. Результаты экспериментов свидетельствуют, что при правильном подборе набора данных и уровня шума можно получить уменьшение количества ошибок до 11 процентов. Таким образом, использование предложенного метода привело к ускорению обучения модели студента (за счет того, что обучение, как таковое, уже было проведено ранее). А с помощью регуляризатора уменьшено количество ошибок, которые допускает сеть студента. Purpose. The purpose of the article is to offer an effective way of compressing and learning the model through the modification of the distillation of knowledge method. Methods. To provide greater accuracy and fewer errors in the model, a compression method is proposed based on the addition of a regularizer that implements the Gaussian noise to the teacher's knowledge in the teacher-student methods. Result. The results of the experiments show that if the data and noise level is selected correctly, it is possible to reduce the number of errors to 11%. Consequently, the use of the proposed method leads to accelerated learning of the student model (due to the fact that the training as such has already been carried out earlier), and using the regularizer, the number of mistakes are done by the student network is reduced. 2019 Article Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя / І.В. Стеценко, Ю.С. Талько // Управляющие системы и машины. — 2019. — № 2. — С. 25-31. — Бібліогр.: 8 назв. — укр. 0130-5395 DOI: https://doi.org/10.15407/usim.2019.02.025 http://dspace.nbuv.gov.ua/handle/123456789/161584 004.023 uk Управляющие системы и машины Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
topic Интеллектуальные информационные технологии и системы
Интеллектуальные информационные технологии и системы
spellingShingle Интеллектуальные информационные технологии и системы
Интеллектуальные информационные технологии и системы
Стеценко, І.В.
Талько, Ю.С.
Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя
Управляющие системы и машины
description Запропонований метод стиснення моделей на основі імітації навчання від декількох вчителів надає можливість зменшити кількість помилок у порівнянні зі звичайним підходом студента-вчителя.
format Article
author Стеценко, І.В.
Талько, Ю.С.
author_facet Стеценко, І.В.
Талько, Ю.С.
author_sort Стеценко, І.В.
title Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя
title_short Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя
title_full Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя
title_fullStr Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя
title_full_unstemmed Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя
title_sort методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
publishDate 2019
topic_facet Интеллектуальные информационные технологии и системы
url http://dspace.nbuv.gov.ua/handle/123456789/161584
citation_txt Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя / І.В. Стеценко, Ю.С. Талько // Управляющие системы и машины. — 2019. — № 2. — С. 25-31. — Бібліогр.: 8 назв. — укр.
series Управляющие системы и машины
work_keys_str_mv AT stecenkoív metodistisnennâmodelejvglibinnomunavčannínaosnovímetodustudentavčitelâ
AT talʹkoûs metodistisnennâmodelejvglibinnomunavčannínaosnovímetodustudentavčitelâ
first_indexed 2025-07-14T14:11:48Z
last_indexed 2025-07-14T14:11:48Z
_version_ 1837631860972191744
fulltext ISSN 0130-5395, УСиМ, 2019, № 2 25 DOI https://doi.org/10.15407/usim.2019.02.025 УДК 004.023 І.В. СТЕЦЕНКО, доктор. техн. наук, професор. кафедра автомат. систем обробки інформації та управління, Національний техн. ун-т України “Київський політехнічний інститут імені Ігоря Сікорського”, (НТУУ «КПІ ім. І. Сікорського»), просп. Перемоги, 37, Київ, 03056, Україна, stiv.inna@gmail.com Ю.С. ТАЛЬКО, студент кафедри автомат. систем обробки інформації та управління, Національний техн. ун-т України “Київський політехнічний інститут імені Ігоря Сікорського”, (НТУУ «КПІ ім. І. Сікорського»), просп. Перемоги, 37, Київ, 03056, Україна, talko.yura@gmail.com МЕТОДИ СТИСНЕННЯ МОДЕЛЕЙ В ГЛИБИННОМУ НАВЧАННІ НА ОСНОВІ МЕТОДУ СТУДЕНТА-ВЧИТЕЛЯ Запропонований метод стиснення моделей на основі імітації навчання від декількох вчителів надає можливість зменшити кількість помилок у порівнянні зі звичайним підходом студента-вчителя. Ключові слова: нейромережі, модель, глибинне навчання, дистиляція знань, гаусів шум. Вступ Застосування глибоких нейромереж пов’язано з обробкою великих обсягів даних (data set) зов- нішнього світу (зображення, відео, текстова та чисельна інформація), що при недостатній кількості обчислювального ресурсу призво- дить до неприйнятних витрат часу. Особливо критичною є нестача ресурсів у разі викорис- тання нейромереж в мобільних застосуваннях. Наприклад, в [1] наведено експериментальні дані для медичного мобільного застосування, що використовує глибоку нейромережу для прогнозування стану здоров’я, та підкреслю- ється необхідність оптимізації використання ресурсів. З появою методів стиснення інфор- мації з’явилась можливість значно зменшувати витрати часу на обчислення глибоких мереж і, що надзвичайно важливо в сучасних умовах, застосувати нейромережі на мобільних та ін- ших пристроях з обмеженими обчислюваль- ними ресурсами. Методи стиснення, що набули розвитку останнім часом, можна класифікувати так: методи обміну параметрами (parameters ha- ring methods (PHM)); методи обрізання мережі (network pruning methods (NPM); «темні знання»(‘dark knowledge’) (DK); методи навчання студента-вчителя (student- teacher methods (STM)); методи декомпозиції матриць (matrix de- composition methods (MDM)). В основному, всі методи стиснення зосеред- жені на зменшенні складності глибоких моде- лей. Проте після стиснення моделі потрібно виконувати обернену операцію, що потребує витрат часу та обчислювальних ресурсів. Од- ним з недостатньо досліджених методів, який може вирішити цю проблему, є метод навчання студента-вчителя (student-teacher training) для стиснення глибоких моделей [2]. Застосування цього методу передбачає, що неглибока мере- 26 ISSN 0130-5395, Control systems and computers, 2019, № 2 І.В. Стеценко, Ю.С. Талько жа (студент) навчається у глибокої мережі (вчителя). Глибока мережа досить швидко, проте з використанням значно більшої кіль- кості реcурсів, досягає високої точності. Про- блема неглибокої моделі полягає у низькій точності за рахунок економії ресурсів та змен- шення складності обробки. Для досягнен- ня точності, як у глибокої моделі-вчителя, їй потрібно набагато більше обчислень і, від- повідно, часу, що є небажаним для більшості практичних задач. Методи стиснення вико- ристовують для підвищення точності мережі студента без збільшення її глибини, і, відповід- но, кількості обчислювальних ресурсів. У да- ному дослідженні запропоновано метод, який надає можливість збільшити точність нав- чання мережі-студента. Методи стиснення моделі Опишемо відомі методи стиснення моделей. Метод обміну параметрами PHM передбачає використання простої хеш-функції для гру- пування ваг (параметрів) у хеш-групи (hash buckets) [3]. При цьому кожна хеш-група відпо- відає одному параметру. У методі використо- вується k-вимірна кластеризація для повного квантування параметрів (розбивка діапазону їх значень на скінчену кількість інтервалів), пов’язаних між собою шарів моделі [4]. Метод дозволяє підвищити ступінь стиснення моделі в десятки разів (в одному з дослідів модель була стиснута в 24 рази) при втраті лише 1% точнос- ті, про що свідчать результати проведених екс- периментів. У даному методі використовуєть- ся регуляризація замість прямого квантування параметрів зв’язаних шарів. Обрізання мережі NPM полягає у відкиданні параметрів, вага яких нижче заданого поро- гового значення. Цей метод можна розшири- ти використанням кодування Гаффмана для ще більшого скорочення кількості параметрів. Метод спрямований на скорочення кількості обчислень та ігнорування фільтрів, які мають найменший вплив на точність. Надлишкові нейрони можуть бути виявлені та відкинуті з використанням цього методу. «Темні знання» DK. Ключовою ідеєю цієї гру- пи методів, до якої належить метод навчання студента-вчителя (student-teacher training), є використання прихованих («темних») знань у складній, вже навченній нейромережі, для нав- чання більш простої нейромережі. Модифіка- ція методу навчання студента-вчителя перед- бачає надання міток тренувальним даним без указування на мережу-вчителя, від якого вони були отримані. Ці мітки використовуються для тренування меншої моделі (студента). Однією з реалізацій такого способу є імітація логіт- змінних (logit-values) моделі вчителя. Проміж- ні результати прихованих шарів в цій моделі можуть використовуватись як цільові значен- ня для моделі студента. Узагальнення методу шляхом введення температурної змінної T в softmax-функцію призводить до пом’якшення значень цієї функції за умови збільшення значення змінної температури. Пом’якшені значення ймовірностей виявляють додатко- ву (приховану в звичайних значеннях) інфор- мацію про ймовірності вихідних класів, ніж звичайні. Приховану інформацію називають «темні знання». Узагальнена softmax-функція визначає ймовірність q(i) за формулою [5]: ( ) ( ) ( ) / / z i i z j j e Tq e T = ∑ , де T — температура, z(i) — відповідний вивід логіт-функції (logits) попередньо навченого вчителя. Зазвичай значення T приймають рівним одиниці. Якщо використовується значення, більше за одиницю, то найбільше і найменше значення ймовірностей, отримані за форму- лою, менше відрізняються одне від одного, що називають пом’якшенням значень. Метод декомпозиції матриць MDM [4] по- лягає у використанні декомпозиції для стис- нення ваг в різних шарах мережі. Метод пере- творює щільні матриці ваг до вигляду тензорної декомпозиції (tensor decomposition), що значно зменшує кількість вхідних параметрів. Стиснення глибоких моделей (сompression of deep models) має переваги у вирішенні трьох проблем: використання пам’яті, зменшення ISSN 0130-5395, УСиМ, 2019, № 2 27 Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя витрат часу на тренування моделі, зменшення складності обчислень. Як методи обміну пара- метрами PSM, так і метод декомпозиції мат- риць MDM, зосереджені лише на зменшенні використання пам’яті глибокими моделями, але ці методи не зменшують витрати часу на тренування. Метод студента-вчителя STM, нав- паки, зосереджений на зменшенні складності обчислень та часу на тренування. Навчання методом студента-вчителя В рамках методу студента-вчителя STM в гли- бинному навчанні (deep learning), вчитель — це попередньо підготовлена та навчена глибинна модель, яка використовується для навчання іншої, зазвичай неглибокої, моделі, яку нази- вають студентом. У використанні методу студента-вчителя є такі переваги: «темні знання», які присутні в результатах роботи моделі-вчителя, працюють як певні регуляризатори для моделі студента, оскільки вони забезпечують більш «м’який» набір знань, за яким легше відсіяти корисну інформацію; збіжність зазвичай швидша, ніж при вико- ристанні булевих міток, завдяки м’яким цілям що пришвидшують тренування; відносно невелика кількість даних для тре- нування моделі-студента. Наведені переваги дозволяють використати метод шумового (noise-based) регуляризатора для моделі вчителя. Далі буде описано систему з одного вчителя та студента, яка є базою для наступних експериментів. Навчання моделі студента з використанням логістичної регресії У [6] запропоновано метод навчання моде- лі студента з логарифмічною ймовірністю за змінною z, яка називається логіт-функцією (logits) і є результатом шару перед викликом функції м’якого максимуму (softmax). Мере- жа виконує навчання за допомогою регресії з використанням логіт-функції з навчальни- ми даними, поданими у вигляді пар значень ( ) ( ) ( ){ }(1) (1) ( ) ( ) ( ) ( ), , , , , , ,i i n nx z x z x z… … , де ( )ix — і-й навчальний рядок в піднаборі (mini-batch), n – кількість пар значень в піднаборі даних. Вважаємо, що тут це слідує з контексту і змі- нювати не потрібно. ( )iz — відповідний вивід логіт-функції попередньо навченого вчителя для ( )ix . Функція втрат (loss function) L має ви- гляд: , (1) де T — значення, назване температурою; воно взято рівним розміру піднабору даних для од- нієї ітерації (mini-batch), θ — набір параметрів моделі студента, g(x(i),θ) — вивід учнівської моделі логіт-функції для . Далі дана ідея використовується для додан- ня шумів (noise-based) у знання вчителя. Навчання моделі студента з використанням логіт-функції Продуктивність неглибоких моделей в рам- ках методу студента-вчителя (student-teacher training) значно покращено за допомогою ме- тодів, запропонованих в [5]. Як себе поведе модель, якщо її навчає декілька вчителів? Ана- логічно реальному світові, де студент може по- кращити швидкість і якість навчання з одного предмету, отримуючи знання про нього від де- кількох викладачів (з альтернативними думка- ми, повторенням вже пройденого і т. ін.), мож- на припустити, що схожим чином поведе себе і модель студента в рамках методу студент- вчитель (student-teacher method). Але викорис- тання декількох вчителів має як переваги, так і недоліки, а саме збільшення точності та, вод- ночас, збільшення часу навчання. Для того, щоб зменшити вплив недоліків у підході навчання від декількох вчителів у да- ному дослідженні запропоновано замість ви- користання кількох вчителів (що збільшує кількість вхідних даних і, відповідно, час нав- чання), використовувати симуляцію ефекту навчання у кількох вчителів шляхом введення «шумів» та «заплутувань» в початкові знання моделі вчителя. Заплутування не лише імі- ( ) ( ) 2( ) ( ) 2 1, , θ , θ 2 i i i L x z g x z T = + −∑ ( )ix 28 ISSN 0130-5395, Control systems and computers, 2019, № 2 І.В. Стеценко, Ю.С. Талько тують навчання від кількох вчителів, а також породжують шум в шарі втрат (loss layer), що створює ефект регуляризатора. Під регуляри- затором розуміють певну зміну параметрів мо- делі, що має на меті не допустити стану пере- навчання (over fitting), тобто такого стану, коли мережа зосереджується на наданих від вчителя прикладах і втрачає (або зменшує) можливість обробляти більш загальні «знання». Таким чи- ном, новий зашумлений вчитель допомагає студентам краще навчатися та отримувати ре- зультати, більш близькі до того, якими вони є у вчителя, не втрачаючи при цьому можли- вості обробляти вхідні дані, відмінні від нього. Якщо припущення про використання шумів у знаннях мережі вчителя виявиться вірним, то запропонований метод імітації навчання від декількох вчителів зможе підвищити точність мережі-студента без значних затрат часу та ма- шинних ресурсів. Нехай число логітів у мережі вчителя задає значення вектору гаусівського шуму (Gaussian noise) з нульовим середнім значенням і се- реднім квадратичним відхиленням σ. Якщо ( )iz результат вихідного шару моделі вчителя для x(i), тоді ( )iz змінюється так: (1) (1 )z ε= + , (2) де 1 — одиничний вектор, ni R∈ , n — кількість класів в навчальному наборі даних. Більше значення квадратичного відхилення σ означає більше збурення оригінальних зна- чень логіт-функції вчителя ( )iz . Застосовувати збурення до всіх наданих наборів немає потре- би. Замість цього потрібно вибрати лише деякі набори з заданою ймовірністю α. Тоді значен- ня логіту обраних наборів збурюються за до- помогою рівняння (2). Функція втрат розрахо- вується за формулою (1). Отримавши модель студента з початковими вагами θ 0 , знайдемо кінцеві параметри θ, використовуючи метод стохастичного градієнта, де в (t + 1) ітерації θ змінюється так: (3) де D t — міні-вибірка, взята випадково з нав- чальної вибірки D; tγ — швидкість навчання, ( , , )L x z θ — рівняння (3); [ ( , , )]t L x z θ∇ обчислю- ється з використанням методу зворотного по- ширення помилки (gradient back propagation). Таким чином, набори відбираються з ймовір- ністю з міні-вибірки. Цільові значення логіт- функції збурюються за рівнянням (2). Функція втрат студентської мережі визначається рів- нянням (1). Відомо, що зашумлені дані допомагають ре- гуляризувати модель [7]. Додавання регуляри- зації у функцію втрат L еквівалентно додаван- ню гаусівського шуму у вхідні дані. Регуляри- зована функція втрат визначається так: , де x є гаусівським шумом, L еквівалентна за- шумленим вхідним даним ( , , )L x zθ , а ( )R θ — регуляризатор L. У вибраному методі збурюються цільові ви- хідні дані z (зашумлені дані) замість вхідних даних x. Покажемо, що збурення цільових ви- хідних даних z логіт-функції вчителя еквіва- лентно додаванню зашумленого (noise-based) регуляризатора до функції втрат. З рівняння (2) слідує: . Тоді рівняння (1) функції втрат L0 приймає вигляд: , де — новий регуляризатор, визначений на основі шуму ε. Таким чином, збурення логітів у мережі вчи- теля еквівалентно додаванню зашумленого ре- гуляризатора до функції втрат. Результати експериментів Програмний продукт, якій реалізує запропо- нований метод навчання нейромережі, розро- блено з використанням мови програмування PHP, фрей морку Phalcon On PHP, бази даних MySql та Redis. Оцінка методу проведена на декількох на- борах даних MNIST [8]. MNIST — популярний набір даних для тренування моделей розпізна- вання рукописного вводу з 10 класами. Нав- ε ( )( 1) ( , ) θ θ γ , ,θ , t t t t t x y D L x z+ ∈ = − ∇ ⎡ ⎤⎣ ⎦∑ ( , , ) ( , , ) ( )L x z L x z Rθ θ θ= + (1) (1) (1) (1)(1 )z z z zε ε= + ⋅ = + ⋅� ( ) ( ) ( ) 2( ) ( ) ( ) 2 1,θ, , θ ε 2 ,θ, i i i R L x z g x z z T L x z E = − − ⋅ = = + � ( )2( ) ( ) ( ) ( ) 2 22 1 1ε , θ ε 2 i i i i RE z z g x z T T = ⋅ + − ⋅ ⋅ ISSN 0130-5395, УСиМ, 2019, № 2 29 Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя чальний набір містить 50000 зображень, з них підтверджених — 10000. Всі зображення мають розмір 28 28 та кольори, які є градаціями сі- рого кольору. Тренувальні дані попередньо не оброблені, що надає можливість виконувати власну попередню їх обробку. Метод стохастичного градієнта використо- вується для навчання всіх мереж з розміром піднабору даних для однієї ітерації (mini-batch), рівному 64. Конвергенція (збіжність) була до- сягнута шляхом тестування на наборі підтвер- джених даних. Результати експериментів по- рівнюються з результатами і продуктивністю звичайного методу студент-вчитель, описано- го в [6]. Отримані результати за всіма набора- ми даних показують ефективність вибраних методів. Найкращий результат було досягнуто на наборі даних CIFAR-10. Модель вчителя. Як мережу вчителя викори- стано модифіковану мережу LeNet, котра має два згорткові шари і повнозв’язаний шар з де- сятьма класифікаторами (конфігурація вигля- датиме так [C5 (S1P0) @ 20-MP2 (S2)]) . Мережа студент. Як мережу студента ви- користано невелику мережу з двома повно- зв’язними шарами по 800 нейронів в кожному шарі. Архітектура може бути закодована як FC800-FC800-FC10. Результати. Модель вчитель отримала 68 помилок в тестових наборах (з 10000 тесто- вих зразків, частота помилки = 0,0068). Сту- дентська мережа допустила 97 помилок (час- тота помилки = 0,0097) при базовому методі студент-вчитель (метод логіт-регресії). Так як різниця в продуктивності між мережею учи- теля та студента невисока, то ймовірність від- бору вибірки α = 0,15, тобто приблизно 15 відсотків піднаборів кожного набору параме- трів відбираються для збурення. Збурення від- бувалося при різних рівнях гаусівського шуму (μ = 0, різними σ), як показано в таблиці. Цей шум доданий безпосередньо до ненормалізо- ваних логітів у всіх експериментах досліджен- ня. З наведених результатів слідує, що відбува- ється послідовне покращення роботи студента при застосуванні збурення до логіт. Як видно з таблиці, використання гаусівського шуму для збурення ненормалізованих логітів зменшує кількість помилок, а значить покращує роботу мережі студента. Висновки Запропоновано метод шумового регуляриза- тора при навчанні моделі методами дистиляції знань та навчанні моделі студента від моделі вчителя, який імітує навчання від декількох вчителів, зменшуючи кількість помилок ме- режі студента. Результати експериментів свід- чать, що при правильному підборі рівня шуму спостерігається зменшення кількості помилок до 11 відсотків. Наведені результати експери- ментів доводять, що застосування шумового регуляризатора збільшує точність мережі сту- дента порівняно зі звичайним навчанням від вчителя. Таблиця. Результати експериментів на MNIST Рівень шуму (σ) Коефіцієнт помилок Відсоток покра- щення, % 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,0 0,0096 0,0093 0,0094 0,0087 0,0087 0,0090 0,0090 0,0086 0,0086 0,0087 1,0 4,1 3,1 10,3 10,3 7,2 7,2 11,3 11,3 10,3 І.В. Стеценко, Ю.С. Талько 30 ISSN 0130-5395, Control systems and computers, 2019, № 2 REFERENCES 1. Benedetto J.I., Sanabria P., Neyem A., Navon J., Poellabauer C., Xia B., 2018. “Deep Neural Networks on Mobile Health- care Applications: Practical Recommendations”. Proceedings The 12th Int. Conf. on Ubiquitous Computing and Am- bient Intelligence (UCAmI 2018), 2(19), pp. 1–12, https://doi.org/10.3390/proceedings2190550 2. Wong J.H.M., Gales M.J.F., 2016. Sequence Student-Teacher Training of Deep Neural Networks. INTERSPEECH 2016, Sept. 8–12, San Francisco, USA, http://mi.eng.cam.ac.uk/~jhmw2/interspeech2016.paper.pdf 3. Chen W., Wilson J.T., Tyree S., Weinberger K.Q., Chen Y., 2015. Compressing neural networks with the hashing trick, CoRR, https://arxiv.org/abs/1504.04788. 4. Denil M., Shakibi B., Dinh L., N. de Freitas, et al., 2013. “Predicting parameters in deep learning”. Proc. of the 26th Int. Conf. on Neural Information Processing Systems, NIPS'13, 2, pp. 2148–2156. 5. Hinton G., Vinyals O., Dean J. Distilling the knowledge in a neural network. arXiv:1503.02531, 2015. 6. Ba J., Caruana R., 2014. Do deep nets really need to be deep? In Advances in neural information processing systems. Part of: Advances in Neural Information Processing Systems 27 (NIPS 2014), https://papers.nips.cc/paper/5484-do-deep- nets-really-need-to-be-deep. 7. Bishop C.M., 1995. “Training with noise is equivalent to tikhonov regularization”. Neural computation, 7(1), pp. 108–116. 8. Cun Y.L., Cortes, C, Burges, C.J.C. The MNIST Database of handwritten digits, http://yann.lecun.com/exdb/mnist/ I.V. Stetsenko, Doctor of Technical Sciences, professor, of the Department of Computer-Aided Management and Data Processing Systems, National Technical University of Ukraine “Igor Sikorsky Kyiv Politechnic Institute”, 03056, Kyiv, Peremohy Ave 37, Ukraine, stiv.inna@gmail.com Yu.S. Talko, Master of Information Systems and Technology, Student of the Department of Computer-Aided Management and Data Processing Systems, National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, 03056, Kyiv, Peremohy ave., 37, Ukraine, talko.yura@gmail.com COMPRESSION METHODS OF DEEP LEARNING MODELS BASED ON STUDENT-TEACHER METHOD Introduction. The use of deep neural networks is associated with the processing of large volumes of data (datasets) from the outside world (images, videos, huge data arrays like statistics), which, in case of limited computing resources leads to unac- ceptable time consuming. After the invent of compression methods, it has become possible to reduce significantly the time spent on calculating deep networks and, accordingly, it is possible to apply them on mobile or other devices with limited computing resources. The article presents a method of compression using a noise regulator and distillation of knowledge. Purpose. The purpose of the article is to offer an effective way of compressing and learning the model through the modi- fication of the distillation of knowledge method. Methods. To provide greater accuracy and fewer errors in the model, a compression method is proposed based on the ad- dition of a regularizer that implements the Gaussian noise to the teacher's knowledge in the teacher-student methods. Result. The results of the experiments show that if the data and noise level is selected correctly, it is possible to reduce the number of errors to 11%. Consequently, the use of the proposed method leads to accelerated learning of the student model (due to the fact that the training as such has already been carried out earlier), and using the regularizer, the number of mis- takes are done by the student network is reduced. Conclusion. The compression method proposed is based on the simulation of training from several teachers, which allows reducing the number of errors compared to the usual approach of teacher-student (teacher-student methods). Keywords: neural network, model, in-depth learning, distillation of knowledge, Gaussian noise. ISSN 0130-5395, УСиМ, 2019, № 2 31 Методи стиснення моделей в глибинному навчанні на основі методу студента-вчителя И.В. Стеценко, доктор. техн. наук, профессор. кафедра автомат. систем обработки информации и управления, Нац. техн. ун-т Украины «Киевский политехнический институт имени Игоря Сикорского» (НТУУ «КПИ им. И. Сикорского»), просп. Победы, 37, Киев, 03056, Украина, stiv.inna@gmail.com Ю.С. Талько, студент, кафедра автомат. систем обработки информации и управления, Нац. техн. ун-т Украины «Киевский политехнический институт имени Игоря Сикорского» (НТУУ «КПИ им. И. Сикорского»), просп. Победы, 37, Киев, 03056, Украина, talko.yura@gmail.com МЕТОДЫ СЖАТИЯ МОДЕЛЕЙ В ГЛУБИННОМ ОБУЧЕНИИ НА ОСНОВЕ МЕТОДА СТУДЕНТА-УЧИТЕЛЯ Введение. Применение глубоких нейросетей связано с обработкой больших объемов данных внешнего мира (data set) (изображения, видео, огромные массивы статистических данных), что при недостаточном количестве вычислительных ресурсов приводит к неприемлемым затратам времени. С появлением методов сжатия появи- лась возможность значительно сократить затраты времени, используя для вычислений глубокие сети, и, соответственно, появилась возможность применять их на мобильных или других устройствах с ограниченными вычислительными ресурсами. В статье приведен метод сжатия с использованием шумового регуляризатора и дистилляции знаний. Цель статьи — предложить эффективный способ сжатия и обучения модели путем видоизменения способа дистилляции знаний. Методи. Для обеспечения большей точности и меньшего количества ошибок в модели предложен метод сжа- тия на основе введения регуляризатора, который добавляет гауссовский шум к знаниям учителя в методе студента- учителя (student-teacher training). Результат. Результаты экспериментов свидетельствуют, что при правильном подборе набора данных и уровня шума можно получить уменьшение количества ошибок до 11 процентов. Таким образом, использование предложенного метода привело к ускорению обучения модели студента (за счет того, что обучение, как таковое, уже было проведено ранее). А с помощью регуляризатора уменьшено количество ошибок, которые допускает сеть студента. Вывод. Предложенный метод сжатия моделей на основе имитации обучения от нескольких учителей предоставляет возможность уменьшить количество ошибок в сравнении с обычным подходом студента-учителя (student-teacher methods). Ключевые слова: нейросети, модель, глубинное обучение, дистилляция знаний, гауссовский шум.