Сприйняття і обробка зображень в системах реального часу
У статті розглянуті вимоги до систем сприйняття і обробки зображень у реальному часі. Показано, що традиційні основи і принципи побудови відеосистем реального часу не враховують особливостей роботи в реальному часі та особливостей розв’язуваних задач як в технічному, так і в інформаційному та мет...
Збережено в:
Дата: | 2013 |
---|---|
Автор: | |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут проблем штучного інтелекту МОН України та НАН України
2013
|
Назва видання: | Искусственный интеллект |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/85205 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Сприйняття і обробка зображень в системах реального часу / В.П. Боюн // Искусственный интеллект. — 2013. — № 3. — С. 114–125. — Бібліогр.: 11 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-85205 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-852052015-07-22T03:02:30Z Сприйняття і обробка зображень в системах реального часу Боюн, В.П. Анализ и синтез коммуникационной информации У статті розглянуті вимоги до систем сприйняття і обробки зображень у реальному часі. Показано, що традиційні основи і принципи побудови відеосистем реального часу не враховують особливостей роботи в реальному часі та особливостей розв’язуваних задач як в технічному, так і в інформаційному та методичному планах. Як прототип видеосистем реального часу пропонується розглядати зоровий аналізатор людини. Розглядаються найбільш важливі для забезпечення високих вимог реального часу фізичні особливості зорового аналізатора, зокрема, висока вибірковість та широке розпаралелювання нейронної мережі при обробці інформації. В статье рассмотрены требования к системам восприятия и обработки изображений в реальном времени. Показано, что традиционные основы и принципы построения видеосистем реального времени не учитывают особенностей работы в реальном времени и особенностей решаемых задач как в техническом, так и информационном и методическом планах. В качестве прототипа видеосистем реального времени предлагается рассматривать зрительный анализатор человека. Рассматриваются наиболее важные для обеспечения требований реального времени физические особенности зритель- ного анализатора, в частности, высокая избирательность и широкое распараллеливание нейронной сети при обработке информации. It was concerned requirements for systems of both perception and image processing in real time. The article demonstrates that traditional fundamentals and principles of real time videosystem design don’t take into consideration peculiarities of operation in real time and characteristic properties of tasks in technical as well as in information and methodological aspects. As a prototype of a real time vision system it was suggested to use a human vision analyzer. The most important for providing real time requirements physical peculiarities of the vision analyzer in particular high selectivity and high level of paralleling in neural networks during an image processing were concerned in the article. 2013 Article Сприйняття і обробка зображень в системах реального часу / В.П. Боюн // Искусственный интеллект. — 2013. — № 3. — С. 114–125. — Бібліогр.: 11 назв. — укр. 1561-5359 http://dspace.nbuv.gov.ua/handle/123456789/85205 004.932 uk Искусственный интеллект Інститут проблем штучного інтелекту МОН України та НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Анализ и синтез коммуникационной информации Анализ и синтез коммуникационной информации |
spellingShingle |
Анализ и синтез коммуникационной информации Анализ и синтез коммуникационной информации Боюн, В.П. Сприйняття і обробка зображень в системах реального часу Искусственный интеллект |
description |
У статті розглянуті вимоги до систем сприйняття і обробки зображень у реальному часі. Показано, що
традиційні основи і принципи побудови відеосистем реального часу не враховують особливостей
роботи в реальному часі та особливостей розв’язуваних задач як в технічному, так і в інформаційному
та методичному планах. Як прототип видеосистем реального часу пропонується розглядати зоровий
аналізатор людини. Розглядаються найбільш важливі для забезпечення високих вимог реального часу
фізичні особливості зорового аналізатора, зокрема, висока вибірковість та широке розпаралелювання
нейронної мережі при обробці інформації. |
format |
Article |
author |
Боюн, В.П. |
author_facet |
Боюн, В.П. |
author_sort |
Боюн, В.П. |
title |
Сприйняття і обробка зображень в системах реального часу |
title_short |
Сприйняття і обробка зображень в системах реального часу |
title_full |
Сприйняття і обробка зображень в системах реального часу |
title_fullStr |
Сприйняття і обробка зображень в системах реального часу |
title_full_unstemmed |
Сприйняття і обробка зображень в системах реального часу |
title_sort |
сприйняття і обробка зображень в системах реального часу |
publisher |
Інститут проблем штучного інтелекту МОН України та НАН України |
publishDate |
2013 |
topic_facet |
Анализ и синтез коммуникационной информации |
url |
http://dspace.nbuv.gov.ua/handle/123456789/85205 |
citation_txt |
Сприйняття і обробка зображень в системах реального часу / В.П. Боюн // Искусственный интеллект. — 2013. — № 3. — С. 114–125. — Бібліогр.: 11 назв. — укр. |
series |
Искусственный интеллект |
work_keys_str_mv |
AT boûnvp sprijnâttâíobrobkazobraženʹvsistemahrealʹnogočasu |
first_indexed |
2025-07-06T12:22:10Z |
last_indexed |
2025-07-06T12:22:10Z |
_version_ |
1836900187556020224 |
fulltext |
ISSN 1561-5359 «Искусственный интеллект» 2013 № 3 114
3Б
УДК 004.932
В.П. Боюн
Інститут кібернетики імені В.М. Глушкова НАН України, м. Київ
Україна, 03680 МСП, м. Київ-187, просп. Академіка Глушкова, 40, vboyun@gmail.com
Сприйняття і обробка зображень
в системах реального часу
V. Boyun
Institute of Cybernetics by V. Glushkov, National Academy of Sciences of Ukraine
Academician Glushkov avenue, 40; Kyiv, 03680, Ukraine; vboyun@gmail.com
Perception and Image Processing in Real Time Systems
В.П. Боюн
Институт кибернетики имени В.М. Глушкова НАН Украины, г. Киев
Украина, 03680 ГСП, г. Киев-187, просп. Академика Глушкова, 40, vboyun@gmail.com
Восприятие и обработка изображений
в системах реального времени
У статті розглянуті вимоги до систем сприйняття і обробки зображень у реальному часі. Показано, що
традиційні основи і принципи побудови відеосистем реального часу не враховують особливостей
роботи в реальному часі та особливостей розв’язуваних задач як в технічному, так і в інформаційному
та методичному планах. Як прототип видеосистем реального часу пропонується розглядати зоровий
аналізатор людини. Розглядаються найбільш важливі для забезпечення високих вимог реального часу
фізичні особливості зорового аналізатора, зокрема, висока вибірковість та широке розпаралелювання
нейронної мережі при обробці інформації.
Ключові слова: сприйняття і обробка зображень, реальний час, зоровий аналізатор людини,
інтелектуальне сприйняття, розпаралелювання.
It was concerned requirements for systems of both perception and image processing in real time. The article
demonstrates that traditional fundamentals and principles of real time videosystem design don’t take into
consideration peculiarities of operation in real time and characteristic properties of tasks in technical as well
as in information and methodological aspects. As a prototype of a real time vision system it was suggested to
use a human vision analyzer. The most important for providing real time requirements physical peculiarities
of the vision analyzer in particular high selectivity and high level of paralleling in neural networks during an
image processing were concerned in the article.
Key words: perception and image processing, real time, human vision analyzer, intelligent
perception, paralleling.
В статье рассмотрены требования к системам восприятия и обработки изображений в реальном
времени. Показано, что традиционные основы и принципы построения видеосистем реального
времени не учитывают особенностей работы в реальном времени и особенностей решаемых задач как
в техническом, так и информационном и методическом планах. В качестве прототипа видеосистем
реального времени предлагается рассматривать зрительный анализатор человека. Рассматриваются
наиболее важные для обеспечения требований реального времени физические особенности зритель-
ного анализатора, в частности, высокая избирательность и широкое распараллеливание нейронной
сети при обработке информации.
Ключевые слова: восприятие и обработка изображений, реальное время,
зрительный анализатор человека, интеллектуальное восприятие, распараллеливание.
Сприйняття і обробка зображень в системах реального часу
«Штучний інтелект» 2013 № 3 115
3Б
Вступ
Системи технічного зору, робототехнічні комплекси, системи віртуальної реаль-
ності, системи охорони та оборонного призначення, ряд систем в медицині та біології
тощо є системами реального часу.
В залежності від функцій, які виконуються відеосистемами в реальному часі, можна
виділити:
– системи реєстрації відеоінформації (передача, запам’ятовування);
– системи генерації зображень (генерація/синтез зображень, ігри тощо);
– системи із зворотним зв’язком (слідкування за об’єктом, наведення, вимірювання
геометричних розмірів, колірності, автоматизація виробничих процесів, контроль друко-
ваних плат, контроль якості продукції, робототехнічні комплекси, управління транс-
портними засобами тощо), в яких результати обробки інформації в реальному часі викори-
стовуються для управління процесом, або інших дій. Ці системи висувають підвищені
вимоги не тільки до продуктивності обчислювальних засобів, але і до запізнювання
інформації в контурі зворотного зв’язку.
У цих умовах, крім виконання основних функцій по уведенню та обробленню відео-
інформації, такі системи повинні мати можливості адаптації до: типу освітлення (сонячне,
від ламп розжарювання, люмінесцентне, світлодіодне тощо), змін яскравості, змін
відстані до об’єкта спостереження (тобто автоматичне фокусування) тощо. Але ці про-
цеси адаптації, звичайно, значно повільніші порівняно з досліджуваними сценами або ру-
хомими об’єктами, тому вони здійснюються з меншою дискретністю у часі.
Найбільшої продуктивності вимагає попередня обробка відеоінформації, зокрема:
фільтрація від завад, покращення зображення, обчислення гістограм, законів розподілу
значень яскравості чи колірності, Фур’є-перетворення, сегментація, виділення динамі-
чних змін, контурів і об’єктів із заданими властивостями, визначення параметрів афін-
них перетворень та нормалізація зображень тощо.
Попередня обробка зображень здебільшого виконується багаторазово над кожним
пікселом, тому й вимагає значно більше часу.
Стан проблеми. Для побудови відеосистем реального часу використовують
традиційні (звичайні) відеокамери з фіксованими параметрами зчитування відеоін-
формації з сенсора, (що зумовлює велику надлишковість подання зображень і відео-
послідовностей), покадровим уведенням і обробкою інформації, пристосувавши їх
конструктивно до виробничих умов.
Для обробки відеоінформації використовують, в більшій частині, процесори, з
якими звикли працювати в офісах, а при недостачі продуктивності процесора беруть
процесор з більшою продуктивністю. Відеокамера і процесор не інтегруються в
одному пристрої, що приводить до передачі значних масивів інформації між ними.
Для визначення об’єму інформації у відеопослідовності звичайно використо-
вується потенційна оцінка на основі амплітудно-просторової та часової роздільності
,
1
1
log 2..
tzyx
C
пв
∆
+
Ζ
⋅
∆
Υ
⋅
∆
Χ
=
δ
де X і Y – розміри поля зображення; Z – координата яскравості зображення; ∆x,
∆y, δz, ∆t – дискретність представлення відповідних координат зображення.
Значення X, Y і Z у формулі прийняті фіксованими і рівними максимальному зна-
ченню, фіксованими є і значення ∆x, ∆y, δz, ∆t , тому такий підхід дає оцінку зверху кіль-
кості інформації, що є дуже завищеною, і не вказує шляхів скорочення надлишковості
цифрового представлення зображень.
Боюн В.П.
«Искусственный интеллект» 2013 № 3 116
3Б
Потенційна оцінка відбиває методи і засоби знімання зображень за допомогою
традиційних відеокамер і використовується при розрахунку необхідної пропускної
здатності каналів зв’язку для передачі зображення, об’єму пам’яті для збереження
зображення і продуктивності обчислювальних засобів для його обробки.
Якщо проводиться стиснення інформації, то використовується або
Хафманівське кодування відліків у відповідності з ймовірностями їх появи згідно з
Шенонівською мірою інформації, при якому втрачається величина параметрів і для
обробки їх потрібно декодувати, або традиційні методи стиснення JPEG (для
статичних зображень) та MPEG (для відеопослідовностей), при яких відліки сигналу
перетворюються в коефіцієнти Фур’є, які також не можна обробляти.
І взагалі, методи компресії статичних і динамічних зображень розроблялись
для систем передачі та запам’ятовування інформації, вони зовсім не придатні для
систем реального часу із зворотним зв’язком та не забезпечують мінімізації
запізнення інформації.
Послідовний процес уведення кадру зображення, а потім його оброблення,
приводять до затримки інформації в контурі зворотного зв’язку як сума часу виконання
цих двох процесів, навіть при виконанні їх у конвеєрі (уведення поточного кадру
зображення та обробка попереднього).
При розв’язанні практичних задач традиційно використовуються статичні мо-
делі, які не враховують знання, отримані на попередньому кадрі, що приводить до
втрати ефективності.
Для швидкого пошуку об’єкта в зображенні використовуються механізми уваги [1],
які базуються на принципах ієрархічної або пірамідальної організації зорового аналізато-
ра людини, для чого найбільш часто використовують піраміди Лапласа або Гауса [2], [3].
При цьому спочатку зчитується з відеосенсора повне зображення сцени, яке потім
згладжується та проріджується, в 4 рази зменшуючи об’єм інформації.
Процедура повторюється декілька разів, приводячи до грубого представлення
зображення, на якому значно простіше проводити пошук об’єкта за заданими пара-
метрами.
Така процедура спочатку була розроблена для стиснення інформації при необ-
хідності передачі зображення і дійсно забезпечувала значне стиснення зображення та
можливість відновлення повного зображення.
Потім ця процедура, без достатнього аналізу, була використана для швидкого по-
шуку об’єктів, але в системах реального часу вона, вимагаючи значної обробки інфор-
мації, приводить до додаткових затримок інформації в контурі зворотного зв’язку.
Крім того ця процедура не відповідає процесам сприйняття зображень у зоровому
аналізаторі людини.
Таким чином, традиційні основи і принципи побудови відеосистем реального часу
не враховують особливостей роботи в реальному часі та особливостей розв’язуваних
задач як в технічному плані, так і в інформаційному та методичному.
Постановка задачі
Проблема сприйняття і обробки зображень у системах реального часу вимагає
розробки нових інформаційних основ з мінімальною надлишковістю інформації, нових
принципів побудови відеокамер з можливістю зміни параметрів для адаптації їх під ви-
моги конкретної задачі, нових динамічних моделей і механізмів для швидкого пошуку
об’єктів та слідкування за ними, нових архітектур паралельних процесорів для обробки
зображень.
Сприйняття і обробка зображень в системах реального часу
«Штучний інтелект» 2013 № 3 117
3Б
Тому метою даної роботи є вдосконалення інформаційних основ підвищення ви-
бірковості, розробка динамічних моделей та принципів управління параметрами зчиту-
вання відеоінформації, вдосконалення принципів ієрархічного інтелектуального сприй-
няття та швидких методів пошуку, принципів суміщення уводу з обробкою інформації
та паралельної обробки інформації безпосередньо на сенсорі.
Зоровий аналізатор людини
як прототип систем технічного зору
Для оптимізації процесів уведення, сприйняття та обробки зображень як прототи-
пу розглядається зоровий аналізатор людини, який вдосконалювався протягом тисячо-
літь існування людства. Аналіз зорового аналізатора людини дозволив виділити близь-
ко 300 його функцій, конструктивних (структурних) та фізичних особливостей будови,
механізмів та процесів, які відбуваються в зоровій системі [4], [5].
Найбільш важливими з них для забезпечення високих вимог реального часу є
наступні:
– висока вибірковість зорового аналізатора,
– механізми уваги та адаптації,
– суміщення процесів уведення і обробки зображень,
– спеціалізація нейронів на кожному рівні на виконання специфічних функцій,
– широке розпаралелювання нейронної мережі для багаторівневого сприйняття
відеоінформації.
Висока вибірковість зорового аналізатора базується на широкому полі огляду пери-
ферійного зору з невисокою роздільною здатністю, яке реалізує функції збудження та
спрямування погляду (механізм уваги) і концентрації роздільної здатності в зоні ямки
сітківки ока, яка служить як деякий зонд для дослідження зовнішнього світу. Високорі-
вневе управління рухами очей визначається поставленою задачею (пошук, розглядання,
стеження, розпізнавання тощо) та забезпечує розв’язання цих задач.
В роботах [6], [7] запропонований метод інтелектуального селективного сприй-
няття, який за аналогією з зоровим аналізатором людини базується на широкому полі
огляду з невисокою роздільною здатністю для швидкого пошуку об’єктів та наступному
зчитуванні частини зображення для подальшого його розглядання, вимірювання, роз-
пізнавання. Спочатку зчитується проріджене зображення або послідовно окремі рядки
зображення з деяким кроком, який враховує геометричні розміри шуканого об’єкта,
шукається об’єкт за заданими ознаками (наприклад, за кольором), визначаються його
габаритні розміри і в цих габаритах зчитується уточнене зображення об’єкта для роз-
пізнавання. На відміну від відомих методів фовеального та пірамідального (за Лапласом
та Гаусом) [2], [3] сприйняття відеоінформації, він орієнтований на системи реального
часу, не вимагає зчитування всього зображення з високою роздільністю та додаткової
обробки інформації для формування піраміди зображень.
Тобто має місце перевернута піраміда. Це дозволило значно зменшити кількість
оброблюваної інформації, підвищити продуктивність і ефективність систем технічного
зору. При цьому розроблені оригінальні методи швидкого пошуку за ознаками кольору,
руху, текстури та форми.
Крім того, технічні можливості сучасних відеосенсорів, створених по КМОН-
технології, які легко перепрограмовуються в процесі сприйняття відеоінформації на
зчитування розрідженого, фізично повного або більш детального (з інтерполяцією між
сусідніми пікселами) зображення, дозволяють це забезпечити.
Боюн В.П.
«Искусственный интеллект» 2013 № 3 118
3Б
У той же час, відеосистеми реального часу при роботі в автоматичному режимі
крім адаптації до умов відеозйомки для ефективної роботи системи вимагають ще й
адаптації до розв’язуваної задачі, що може бути забезпечено шляхом врахування деяких
особливостей задачі та за рахунок зміни зазначених параметрів зчитування зображень і
відеопослідовностей. Тому така спеціалізація в поданні зображень і відеопослідовностей
дозволяє одержати нові шляхи підвищення вибірковості та зменшення надлишковості.
Крім грубо-точного сприйняття візуальної інформації по простору (тобто в корди-
натах X,Y) око людини реагує не на величину яскравості або колірності в зображенні, а
на зміни цих величин між значеннями яскравості сусідніх рецепторів, або значеннями
яскравості даного рецептора у часі, тобто на динаміку цього параметра.
У залежності від динаміки процесів, які спостерігає зорова система людини, від
рівня освітлення, необхідності розглядання великих або мілких деталей в зображенні,
діють адаптаційні механізми, що управляють типами рухів очей, їх швидкістю, чутли-
вістю рецепторів тощо. Тому і в системах технічного зору також доцільно управляти ча-
стотою зчитування відеоінформації, коефіцієнтом підсилення та розрядністю її подання.
Таким чином, для реалізації інтелектуального вибіркового сприйняття зображень
необхідно забезпечити наступні можливості [6]:
– управління роздільною здатністю по простору;
– зчитування довільної прямокутної ділянки зображення;
– виділення динамічної інформації;
– управління розрядністю яскравості або колірності;
– управління частотою відеозйомки.
В залежності від поставленої перед системою технічного зору задачею можна ви-
ділити ряд типових режимів або етапів, які по аналогії пов’язані з рухами очей та осо-
бливостями сприйняття відеоінформації зоровим аналізатором людини:
– пошук об’єкта за ознаками;
– розглядання (розпізнавання, порівняння, вимірювання) об’єкта;
– слідкування за об’єктом;
– панорамування сцени.
Можливість управління параметрами зчитування інформації з відеосенсора може
бути ефективно використана при реалізації стратегії «механізмів уваги» [1], [6], [7], яка
базується на швидкому, грубому аналізі статичного або динамічного зображення, з послі-
дуючим детальним аналізом знайденого об’єкта з метою виділення яких-небудь ха-
рактерних інформаційних ознак: яскравісних, колірних, динамічних, геометричних
(меж областей, горизонтальних та вертикальних ліній, кутів тощо). Стратегія є адаптив-
ною, тобто пристосовується до статистики ознак зображення та дозволяє значно змен-
шити загальний обсяг обчислень.
Важливим моментом для забезпечення оперативної роботи в реальному часі є сумі-
щення процесів уведення та оброблення інформації. Для цього необхідно замінити по-
кадрове уведення зображення, уведенням його меншими порціями, наприклад, поряд-
ково. Тут можна використати декілька каналів прямого доступу до пам’яті, один з яких
забезпечить надходження нових порцій інформації з відеосенсора, а другий – зчи-
тування попередніх порцій для оброблення на процесорі. При цьому процесор в значній
мірі звільняється від процесів уведення і ефективно використовується для оброблення
інформації. Суміщення процесів дозволяє після закінчення уводу зображення з міні-
мальною затримкою у часі визначити параметри управління відеосенсором на наступний
кадр зображення, тобто значно зменшити затримку інформації в контурі зворотного
Сприйняття і обробка зображень в системах реального часу
«Штучний інтелект» 2013 № 3 119
3Б
зв’язку. Процес експонування поточного кадру також доцільно сумістити з уведенням і
обробленням попереднього кадру, що також зменшує запізнення в контурі зворотного
зв’язку та підвищує динамічні можливості відеоприладу.
Таким чином, забезпечення можливості управління параметрами зчитування ін-
формації з відеосенсора, суміщення уводу інформації з її обробкою та використання
різних мір інформації для різних задач і режимів створює умови інтелектуального
сприйняття відеоінформації за рахунок значного підвищення вибірковості та адап-
тації пристрою під особливості задач, спрощує обробку та підвищує оперативність і
ефективність систем технічного зору.
З іншої сторони, паралельний характер отримання зображення сенсорною матри-
цею погано узгоджується з послідуючими послідовними процесами аналого-цифрового
перетворення та обробки інформації, що обмежує продуктивність цих процесів.
І хоча в швидкісних відеокамерах зчитування відеоінформації з сенсора здій-
снюється паралельно по рядкам, використовуючи для цього сотні аналого-цифрових
перетворювачів та послідуючих процесорів для обробки таких масивів інформації,
ефективність використання обладнання залишається невисокою.
Особливістю попередньої обробки інформації є багаторазове повторювання алгори-
тму над різними масивами пікселів зображення, що, з однієї сторони, приводить до
обробки великих масивів інформації, а з другої сторони, створює умови для проблемної
орієнтації і спеціалізації засобів обробки інформації. Тому основна увага буде приділена
цьому класу обробки зображень.
Сенсорна матриця забезпечує паралельне сприйняття зображення, але послідуюче
аналого-цифрове перетворення та обробка зображення звичайно виконуються послі-
довно або з невисоким степенем паралелізму. Це приводить до необхідності програму-
вання цих процесів, що значно обмежує продуктивність уводу та обробки зображень.
Сучасний стан розвитку мікроелектроніки, зокрема КМОН-технологія, дозволяє реалі-
зувати на кристалі як сенсорну матрицю, так і один або декілька шарів обробки інфор-
мації. Тому значні резерви підвищення ефективності обробки зображень мають місце
при проведенні аналого-цифрового перетворення зображення та його обробки безпосе-
редньо на сенсорній матриці. Хоча при реалізації паралельної обробки має місце значна
надлишковість у представленні інформації, однак за рахунок однорідної обробки інфор-
мації, зменшення пересилок та запам’ятовування, відсутності програмування послі-
довних процесів, також можливе підвищення ефективності обробки шляхом оптимізації
обчислювального процесу. Розглянемо деякі особливості такої реалізації. Зокрема, пара-
лельно можуть виконуватись: значні резерви підвищення продуктивності та ефекти-
вності обробки зображень мають місце при проведенні бінаризації, аналого-цифрового
перетворення зображення та його обробки безпосередньо на сенсорній матриці.
Розглянемо деякі варіанти такої реалізації.
1. Бінаризація зображення на сенсорній матриці може проводитись без аналого-
цифрового перетворення (рис. 1) шляхом уведення в кожний елемент матриці компа-
ратора і тригера (рис. 2); компаратор буде порівнювати зростаючу напругу на фото-
детекторі з аналоговим порогом, заданим, наприклад, з мікроконтролера, через цифро-
аналоговий перетворювач на всі елементи матриці [8]. Якщо напруга на фотодетекторі
за обмежений час експозиції зросла до порогового рівня, спрацьовує компаратор і
фіксує цю подію на тригері, встановлюючи його в одиницю.
Тригери елементів сенсорної матриці з’єднані по рядкам та колонкам кільце-
вими зв’язками для зсуву інформації по рядку або колонці та виводу її для послі-
Боюн В.П.
«Искусственный интеллект» 2013 № 3 120
3Б
дуючої обробки. Оцінюючи з допомогою мікроконтролера стан бінаризованого зо-
браження, можна швидко підібрати порогове обмеження.
Рисунок 1 – Бінаризація зображення на сенсорній матриці
Рисунок 2 – Елемент матриці бінаризації
2. Для визначення місцеположення об’єкта, його габаритних розмірів і центра
ваги прямокутника, описаного навколо об’єкта, на виходи рядків і колонок матриці
підключаються блоки лічильників рядків та колонок відповідно [8].
Тоді, шляхом зсуву інформації вздовж рядків і колонок матриці, з допомогою
лічильників здійснюється паралельний підрахунок кількості ненульових елементів в
рядках і колонках та оцінка стану лічильників з допомогою мікроконтролера.
Нульове (або невелике) значення коду в лічильнику свідчить про відсутність
об’єкта в цьому рядку або колонці. Наявність коду в лічильниках характеризує пере-
Сприйняття і обробка зображень в системах реального часу
«Штучний інтелект» 2013 № 3 121
3Б
різи об’єкта по рядках або колонках. Сума кодів у лічильниках рядків або колонок
характеризує площу об’єкта, просто обчислюється і центр прямокутника, описаного
навколо об’єкта, та швидкість його руху.
Наприклад, верхня координата об’єкта у1 визначається по першому ненульовому
стану лічильника в блоці лічильників рядків, а нижня координата у2 – по останньому
ненульовому стану лічильника в блоці рядків. Ліва координата об’єкта х1 визначається
по першому ненульовому лічильнику в блоці лічильників колонок, права х2 – по
останньому.
Габаритні розміри об’єкта визначаються так: ∆х=х2-х1, ∆у=у2-у1. Площа об’єкта
визначається як сума накопичених чисел у лічильниках рядків або колонок: S=ΣNі = ΣMј.
Центр прямокутника, описаного навколо об’єкта, визначиться так: х0=(х1+ х2)/2,
у0=(у1+у2)/2. Швидкість об’єкта може бути визначена як зміна місцеположення його
центра між двома послідовними кадрами.
Для підвищення точності визначення місцеположення об’єкта може бути використа-
ний метод кількаразового зчитування відеоінформації з різними порогами до отримання
стабільних результатів оцінки параметрів об’єкта або для уточнення порогу.
Пристрій дозволяє також зменшити вплив імпульсних завад шляхом неврахування
показників лічильників з малими значеннями кількості активних пікселів, що також доз-
воляє підвищити точність оцінки місцеположення та параметрів об’єкта.
Таким чином, бінаризація зображення здійснюється одночасно над всіма елементами
матриці за час експозиції, лічильники паралельно підраховують кількість одиничних еле-
ментів у рядках або колонках і тільки аналіз значно стиснутої інформації виконується
послідовно за допомогою мікроконтролера. Тобто має місце значне прискорення усіх
паралельних процесів без додаткової адресації даних.
3. Обчислення моментів інерції бінаризованого зображення можна реалізувати на
тій же матриці з додатковими суматорами-накопичувачами на рядки та колонки матриці
(рис. 3), а також з формуванням за допомогою мікроконтролера послідовності кодів
відстаней та їх квадратів від країв матриці [9].
Рисунок 3 – Блок обчислення моментів
Боюн В.П.
«Искусственный интеллект» 2013 № 3 122
3Б
При цьому суматори-накопичувачі Σ1-ΣN підсумовують відстані або їх квадрати
для одиничних пікселів, які зсуваються вздовж рядків або колонок матриці і управляють
цим підсумовуванням через елементи І1. Таким чином у суматорах-накопичувачах
формуються відповідні (перші або другі в залежності від того, відстані або їх квадрати
подавались на входи блоку) моменти рядків або колонок, які послідовно зчитуються
через елементи І2 на загальну шину і підсумовуються мікроконтролером. Узагальнені
суми дають значення відповідних моментів всього зображення.
4. Ще більш ефективною є морфологічна обробка бінаризованого зображення, яке
отримується на сенсорній матриці. Фільтрація і покращення зображення здійснюєть-
ся методами морфологічної обробки бінаризованого зображення. Логікові операції
морфологічної обробки здійснюють між структурним елементом (маскою) S і областю
цифрового зображення, на яку накладається ця маска. Результат операції розміщують
в ту ж бітову матрицю на місце, де знаходився фокус (центр) маски. При цьому вико-
ристовують структурні елементи різної форми і розмірності. Найбільш розповсюдженими
операціями морфологічної фільтрації для обробки бінаризованих зображень [10] є:
– Ерозія (erosion), яка позначається символами L○S та здійснюється шляхом вико-
нання логікової операції «І» між маскою S розміром n×n, що складається з одиниць, або
нулів та одиниць, та фрагментом бінаризованого зображення L, який накривається цією
маскою. Результати логікової операції множення формують новий масив зображення.
Якщо фрагмент зображення, що покривається маскою, має хоча б один нуль, в елементі
нового зображення, що відповідає положенню фокуса маски, встановлюється нуль. В ре-
зультаті цієї операції усі фрагменти вихідного зображення, що по площі менші, ніж маска,
зникають, а більші – стискаються на розмір маски.
– Нарощування (dilation) позначається символами L•S і виконується шляхом
логікової операції «АБО» над елементами маски (крім центрального елемента –
фокуса) та елементами фрагмента зображення, який покривається цією маскою. Якщо
в цьому фрагменті знаходиться хоча б один одиничний елемент, в новому зображенні
на місці фокуса маски встановлюється одиниця. В результаті цієї операції зображен-
ня розширюється на розмір маски.
– Відкриття (opening) представляє собою комбінацію ерозії та нарощування, які
виконуються послідовно: LS = (L○S) • S. В результаті «відкриття» елементи з площею,
меншою площі маски, зникають з зображення, а з більшою площею – відновлюються
до своїх попередніх розмірів.
– Закриття (closing) представляє комбінацію операцій ерозії та нарощування в
зворотному порядку: LS = (L•S) ○ S.
При цьому елементи матриці (рис. 4) з’єднуються входами та виходами з 8-а
сусідніми елементами матриці, а в кожному елементі (рис. 5) матриці додатково
розміщуються блок логікової обробки та схеми комутації, які забезпечують відповід-
ні зсуви інформації вздовж рядків та колонок матриці.
Блок логікової обробки (рис. 6) містить логікові схеми «І» та «АБО», з допомогою
яких виконуються операції «ерозія», «нарощування», «відкриття» та «закриття».
Таким чином, буквально за декілька тактів проводяться операції морфологічної
фільтрації всього зображення, після чого можуть бути більш точно виконані операції
пошуку об’єкта, обчислення його параметрів та моментів інерції.
5. Аналого-цифрове перетворення яскравості всіх елементів матриці може бути
виконане методом розгортки по параметру, тобто шляхом подачі лінійно зростаючого
сигналу на всі порогові елементи сенсорної матриці. При цьому в кожний елемент
сенсорної матриці додатково уводиться лічильник, який починає лічення тактових
імпульсів з початком розгортки лінійно зростаючого сигналу до моменту порівняння
його з напругою на фотодетекторі, тобто спрацьовування порогового елемента. В лі-
Сприйняття і обробка зображень в системах реального часу
«Штучний інтелект» 2013 № 3 123
3Б
чильниках матриці за час розгортки будуть зафіксовані цифрові еквіваленти потен-
ціалів, які були накопичені на фотодетекторах за час експозиції.
Рисунок 4 – Морфологічна оброботка на сенсорі
Рисунок 5 – Елемент матриці морфологічної обробки
Рисунок 6 – Блок логікової обробки
Боюн В.П.
«Искусственный интеллект» 2013 № 3 124
3Б
Ця інформація може бути виведена з сенсора по рядкам, колонкам або розрядними
зрізами, а при подальшому ускладнені елементів сенсорної матриці або при передачі
цієї інформації на інший шар елементів на ньому можуть бути проведені операції фільт-
рації зображення від завад, підкреслення країв об’єкта, виділення контурів тощо.
6. Логарифмічне або інше нелінійне сприйняття яскравості, що має місце в зоро-
вому аналізаторі людини, може бути виконане паралельно і одночасно шляхом вико-
ристання нелінійної розгортки сигналу та порівняння його з напругою на фотодетекторі.
7. Виділення інформативних ознак з бінаризованого зображення (лінії, кути,
межі об’єктів тощо) здійснюється шляхом згортки зображення з відповідними масками
розміром 3х3, 5х5 або іншими.
8. Фільтрація зображень від завад здійснюється шляхом згортки зображення з
відповідними масками.
9. Виділення інформативних ознак з оцифрованого зображення також вимагає
операцій згортки.
10. Одно або багатошарова нейромережна обробка є найбільш складною і ви-
магає значно більших витрат апаратури.
Для п.п. 6 – 10 можуть бути використані ідеї, алгоритми та технічні рішення з
монографії [11].
Звичайно при реалізації цих пристроїв можливі проміжні (паралельно-послідовні)
варіанти:
– апаратна реалізація обробки одного або декількох рядків (колонок);
– апаратна реалізація одного або декількох нейронів тощо.
Свої особливості мають такі види обробки інформації, як визначення місцеполо-
ження об’єкта, його габаритних розмірів, площі і центра ваги прямокутника, описаного
навколо нього, обчислення моментів інерції об’єкта або зображення, статистична об-
робка ознак зображення тощо. Вони також широко розпаралелюються, але, в основ-
ному, на рівні рядків або колонок.
Таким чином, системний підхід до процесів уведення, сприйняття та обробки
зображень дозволяє значно ефективніше організувати обчислення, виключити розробку
програмного забезпечення та зайві пересилки інформації, на багато порядків підвищити
продуктивність цих процесів.
Висновок
Прототипом для відеосистем реального часу вибраний зоровий аналізатор людини,
зокрема ті його особливості, які в найбільшій мірі впливають на відповідність умовам
реального часу. Це висока вибірковість, адаптація до умов спостереження та розв’я-
зуваних задач, а також широке розпаралелювання обробки інформації на нейромережі.
Показано, що зменшення надлишковості при інтелектуальному сприйнятті відео-
інформації або суміщення процесів уведення і паралельної обробки інформації без-
посередньо на сенсорній матриці задовільняють високі вимоги реального часу та
сприяють значному розширенню динамічного діапазону досліджуваних процесів.
Література
1. Tagare H.D. A Maximum-Likelihood Strategy for Directing Attention during Visual Search / H.D.Tagare,
K.Toyama, J.G. Wang // IEEE Transactions on pattern analysis and machine intelligence. – 2001, May. – Vol.
23, № 5. – P. 490-500.
2. Шелепин Ю.Е. Конструкция фовеолы и модель пирамидальной организации зрительной системы / Ю.Е
Шелепин., В.М. Бондарко , М.В. Данилова // Сенсорные системы. – 1995. – № 1. – С. 87-97.
3. Burt P.J. Smart Sensing within a Pyramid Vision Machine / P.J. Burt // IEEE. – 1988. – Vol. 76, № 8. – P. 175-185.
Сприйняття і обробка зображень в системах реального часу
«Штучний інтелект» 2013 № 3 125
3Б
4. Боюн В.П. Зоровий аналізатор людини як прототип для побудови сімейства проблемно-орієнтованих систем
технічного зору / В.П. Боюн // Искусственный интеллект. Интеллектуальные системы ИИ-2010 : материалы
Международной научно-технической конференции. – Донецк : ИПИИ «Наука і освіта». – 2010. – Т. 1. – С. 21-26.
5. Боюн В.П. Функції, особливості побудови, механізми та процеси зорового аналізатора людини / В.П.
Боюн // Обчислювальні методи і системи перетворення інформації : зб.праць н/т конференції. – Львів :
ФМІ НАН України. – 2010. – С. 155-159.
6. Боюн В.П. Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти /
В.П. Боюн // Искусственный интеллект. – 2011. – № 3. – С.16-24.
7. Vitaliy Boyun. Intelligent Selective Perception of Visual Information in Vision Systems / Vitaliy Boyun //
Proceedings of the 6-th IEEE International Conference on Intelligent Data Acquisition and Advanced
Computing Systems: Technology and Application. (IDAACS”2011). (Czech Republic, Prague. 15 –
17 September 2011). – 2011. – Vol. 1. – P. 412-416.
8. Боюн В.П. Пристрій для визначення місцеположення та параметрів об’єкта в зображенні / В.П. Боюн //
Патент України № 76597. – Опубл. БВ № 6, 10.01.13.
9. Боюн В.П. Пристрій для визначення центра ваги об’єкта / Боюн В.П. // Рішення про видачу патенту
України від 24.04.13 по заявці № 201214353.
10. Тимофеев Б.С. Системы видеообнаружения и сопровождения подвижных объектов / Б.С. Тимофеев,
Н.А. Обухова // Санкт-Петербург : Телекоммуникации. – 2003. – № 12. – С. 36-44.
11. Боюн В.П. Динамическая теория информации. Основы и приложения / Боюн В.П. – К. : Издание ИК
НАНУ, 2001. – 326 с.
Literatura
1. Tagare H.D. A Maximum-Likelihood Strategy for Directing Attention during Visual Search / H.D.Tagare,
K.Toyama, J.G. Wang // IEEE Transactions on pattern analysis and machine intelligence. – 2001, May. – Vol.
23, № 5. – P. 490-500.
2. Shelepin Ju.E. Konstrukcija foveoly i model' piramidal'noj organizacii zritel'noj sistemy / Ju.E Shelepin., V.M.
Bondarko , M.V. Danilova // Sensornye sistemy. – 1995. – № 1. – S. 87-97.
3. Burt P.J. Smart Sensing within a Pyramid Vision Machine / P.J. Burt // IEEE. – 1988. – Vol. 76, № 8. – P. 175-185.
4. Bojun V.P. Zorovij analіzator ljudini jak prototip dlja pobudovi sіmejstva problemno-orієntovanih sistem tehnіchnogo
zoru / V.P. Bojun // Iskusstvennyj intellekt. Intellektual'nye sistemy II-2010 : materialy Mezhdunarodnoj nauchno-
tehnicheskoj konferencii. –Doneck : IPII «Nauka і osvіta». – 2010. – T. 1. – S. 21-26.
5. Bojun V.P. Funkcії, osoblivostі pobudovi, mehanіzmi ta procesi zorovogo analіzatora ljudini / V.P. Bojun // Obchisljuval'nі
metodi і sistemi peretvorennja іnformacії : zb.prac' n/t konfe¬rencії. – L'vіv : FMІ NAN Ukraїni. – 2010. – S. 155-159.
6. Bojun V.P. Іntelektual'ne vibіrkove sprijnjattja vіzual'noї іnformacії. Іnformacіjnі aspekti / V.P. Bojun //
Iskusstvennyj intellekt. – 2011. – № 3. – S.16-24.
7. Vitaliy Boyun. Intelligent Selective Perception of Visual Information in Vision Systems / Vitaliy Boyun //
Proceedings of the 6-th IEEE International Conference on Intelligent Data Acquisition and Advanced
Computing Systems: Technology and Application. (IDAACS”2011). (Czech Republic, Prague. 15 – 17
September 2011). – 2011. – Vol. 1. – P. 412-416.
8. Bojun V.P. Pristrіj dlja viznachennja mіscepolozhennja ta parametrіv ob’єkta v zobrazhennі / V.P. Bojun // Patent
Ukraїni № 76597. – Opubl. BV № 6, 10.01.13.
9. Bojun V.P. Pristrіj dlja viznachennja centra vagi ob’єkta / Bojun V.P. // Rіshennja pro vidachu patentu Ukraїni
vіd 24.04.13 po zajavcі № 201214353.
10. Timofeev B.S. Sistemy videoobnaruzhenija i soprovozhdenija podvizhnyh ob'ektov / B.S. Timofeev, N.A.
Obuhova // Sankt-Peterburg : Telekommunikacii. – 2003. – № 12. – S. 36-44.
11. Bojun V.P. Dinamicheskaja teorija informacii. Osnovy i prilozhenija / Bojun V.P. – K. : Izdanie IK NANU,
2001. – 326 s.
RESUME
V. Boyun
Perception and Image Processing in Real Time Systems
As a prototype for real time vision systems it has been chosen a human vision analyzer
particularly those features which most of all influence on satisfying real time requirements. They
are selectivity and an adaptation to observation conditions and task solving as well as a high level
of paralleling of information processing on neural network.
It was demonstrated that decreasing of information redundancy during an intelligent
perception of video information or overlapping of input and parallel image processing directly on a
sensor matrix meet high requirements of real time and provide considerable extension of dynamic
range of investigating processes.
Стаття надійшла до редакції 25.04.2013.
|