Большие Данные. Аналитические базы данных и хранилища: Netezza

Статья представляет собой продолжение исследований Больших Данных и инструментария, трансформируемого в новое поколение технологий и архитектур платформ баз данных и хранилищ для интеллектуального вывода. Рассмотрен ряд прогрессивных разработок известных в мире ИТ-компаний, в частности БД Netezza....

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2019
Автор:	Урсатьев, А.А.
Формат:	Стаття
Мова:	Russian
Опубліковано:	Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2019
Назва видання:	Управляющие системы и машины
Теми:	Методы и средства обработки данных и знаний
Онлайн доступ:	http://dspace.nbuv.gov.ua/handle/123456789/161576
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:	Большие Данные. Аналитические базы данных и хранилища: Netezza / А.А. Урсатьев // Управляющие системы и машины. — 2019. — № 1. — С. 52-67. — Бібліогр.: 20 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	irk-123456789-161576
record_format	dspace
spelling	irk-123456789-1615762019-12-15T01:25:47Z Большие Данные. Аналитические базы данных и хранилища: Netezza Урсатьев, А.А. Методы и средства обработки данных и знаний Статья представляет собой продолжение исследований Больших Данных и инструментария, трансформируемого в новое поколение технологий и архитектур платформ баз данных и хранилищ для интеллектуального вывода. Рассмотрен ряд прогрессивных разработок известных в мире ИТ-компаний, в частности БД Netezza. Мета. Розглянути та оцінити ефективність застосування інфраструктурних рішень нових розробок в дослідженнях Великих Даних для виявлення нових знань, неявних зв'язків і поглибленого розуміння, проникнення в суть явищ і процесів. Методи. Інформаційно-аналітичні методи і технології обробки даних, методи оцінки та прогнозування даних, з урахуванням розвитку найважливіших галузей інформатики та інформаційних технологій. Результати. Netezza, як і Teradata, являє собою конфігурований, підготовлений до швидкого використання, програмно-апаратний комплекс (Appliances), який об'єднує зберігання і обробку даних в одній системі, спроектованої і оптимізованої під аналітику. The purpose is to consider and evaluate the application effectiveness of the infrastructure solutions for new developments in the Big Data study, to identify new knowledge, the implicit connections and in-depth understanding,insight into phenomena and processes. Methods. The informational and analytical methods and technologies for data processing, the methods for data assessment and forecasting, taking into account the development of the most important areas of the informatics and informationtechnology. Results. Netezza, like Teradata, is configured and prepared for the quick use. Hardware and software (Appliances), combining data storage and processing in a single system, is originally designed and optimized for analytics. 2019 Article Большие Данные. Аналитические базы данных и хранилища: Netezza / А.А. Урсатьев // Управляющие системы и машины. — 2019. — № 1. — С. 52-67. — Бібліогр.: 20 назв. — рос. 0130-5395 DOI: https://doi.org/10.15407/usim.2019.01.052 http://dspace.nbuv.gov.ua/handle/123456789/161576 004.65:004.7:004.75:004.738.5 ru Управляющие системы и машины Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
language	Russian
topic	Методы и средства обработки данных и знаний Методы и средства обработки данных и знаний
spellingShingle	Методы и средства обработки данных и знаний Методы и средства обработки данных и знаний Урсатьев, А.А. Большие Данные. Аналитические базы данных и хранилища: Netezza Управляющие системы и машины
description	Статья представляет собой продолжение исследований Больших Данных и инструментария, трансформируемого в новое поколение технологий и архитектур платформ баз данных и хранилищ для интеллектуального вывода. Рассмотрен ряд прогрессивных разработок известных в мире ИТ-компаний, в частности БД Netezza.
format	Article
author	Урсатьев, А.А.
author_facet	Урсатьев, А.А.
author_sort	Урсатьев, А.А.
title	Большие Данные. Аналитические базы данных и хранилища: Netezza
title_short	Большие Данные. Аналитические базы данных и хранилища: Netezza
title_full	Большие Данные. Аналитические базы данных и хранилища: Netezza
title_fullStr	Большие Данные. Аналитические базы данных и хранилища: Netezza
title_full_unstemmed	Большие Данные. Аналитические базы данных и хранилища: Netezza
title_sort	большие данные. аналитические базы данных и хранилища: netezza
publisher	Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
publishDate	2019
topic_facet	Методы и средства обработки данных и знаний
url	http://dspace.nbuv.gov.ua/handle/123456789/161576
citation_txt	Большие Данные. Аналитические базы данных и хранилища: Netezza / А.А. Урсатьев // Управляющие системы и машины. — 2019. — № 1. — С. 52-67. — Бібліогр.: 20 назв. — рос.
series	Управляющие системы и машины
work_keys_str_mv	AT ursatʹevaa bolʹšiedannyeanalitičeskiebazydannyhihraniliŝanetezza
first_indexed	2025-07-14T14:11:17Z
last_indexed	2025-07-14T14:11:17Z
_version_	1837631830620110848
fulltext	52 iSSN 0130-5395, control systems and computers, 2019, № 1 doi https://doi.org/10.15407/usim.2019.01.052 удк 004.65:004.7:004.75:004.738.5 а.а. УрсатЬев, канд. техн. наук, старш. науч. сотруд., вед. науч. сотруд., международный научно-учебный центр информационных технологий и систем НаН и моН украины, просп. академика глушкова, 40, киев 03187, украина, aleksei@irtc.org.ua БолЬшие данные. аналитиЧесКие БаЗы данныХ и Хранилища: neteZZA Статья представляет собой продолжение исследований Больших Данных и инструментария, трансформируемого в новое поколение технологий и архитектур платформ баз данных и хранилищ для интеллектуального вывода. Рассмотрен ряд прогрессивных разработок известных в мире ИТ-компаний, в частности БД Netezza. Ключевые слова: платформа Data Warehouse Appliance, AMPP — ассиметричная архитектура с массовым паралле- лизмом, SN (Shared Nothing) среда MPP, SPU (Snippet Processing Unit), FPGA (ПЛМ) программируемые логические матрицы, SQL-аналитика на Hadoop, аналитика на Apache Spark в платформах Db2 IBM. методы и средства обработки данных и знаний общая характеристика Данная статья является продолжением цикла статей, опубликованных в № 4, 2017 г . и № 1, № 2, 2018 г . Netezza (NYSE: NZ) [70, 71] вслед за Teradata c Database Appliance — «приборе» или комби- нированном продукте, содержащем аппарат- ное и программное обеспечение, в 2003 г . объ- явила о своем первом специализированном хранилище данных (Data Warehouse Appliance) . В этом же году вышли другие стартапы, в том числе Greenplum . Data Warehouse Appliance или Netezza Appliances — это оптимизированные приложения хранилищ данных, объединяю- щие хранение, обработку и аналитику в одной системе, предварительно сконфигурирован- ной и подготовленной к быстрому разверты- ванию для повышения эффективности и про- изводительности . Информационная поддержка принятия ре- шений в конце 1990-х годов получает все боль- шее значение не только на стратегическом, но и на операционном уровне . Задачами традици- онных баз данных были оперативная обработка транзакций и хранение информации, где необ- ходим быстрый доступ и обновление одиноч- ных записей, но они оказались не очень эффек- тивными при решении аналитических задач на больших наборах данных . Универсальные СУБД не всегда справляются с задачами, при- сущими технологиям хранилищ данных, – полным просмотром таблицы, объединением таблиц, сортировкой и агрегированием дан- ных . Платой за неадекватность архитектурных решений стали недостаточная производитель- ность, слабая масштабируемость и непомерно высокие затраты на эксплуатацию и админи- стрирование систем [72, 73] . Несмотря на то, что потенциальная цен- ность аналитических хранилищ данных была четко установлена к началу 2000-х годов [74], все более скептическое отношение к доро- гостоящим в проектировании, настройке и iSSN 0130-5395, усим, 2019, № 1 53 Большие данные. Аналитические базы данных и хранилища: NETEZZA эксплуатации корпоративных хранилищ дан- ных — EDW (Enterprise Data Warehouse) с кон- цепцией единой архитектуры для поддержки всех видов анализа, присущих предприятию, существенно затрудняло получение быстрых аналитических выводов . Поэтому фокус разработчиков БД сместил- ся на приложения и решения для аналитиче- ских хранилищ данных, и возможности со- временных технологий обусловили появле- ние нового класса аппаратно-программных комплексов – специализированных храни- лищ данных, способных на быстрое развер- тывание, простоту и производительность . Проектируемое для определенной цели храни- лище данных Data Warehouse Appliance должно иметь инструменты, оптимизированные для производительности при аналитических на- грузках (чтение больших блоков, сканирование таблиц, выполнение сложных запросов и др .), а они должны быть масштабируемыми, отка- зоустойчивыми и простыми в установке, с не- большой настройкой или без нее . Только тогда они смогут приносить прибыль сразу же после доставки на предприятие . В течение 1990-х годов, когда предприятия вкладывали значи- тельные средства в EDW, многие архитекторы БД перепрофилировали ПО, предназначенное для использования в OLTP-системах, для спе- циализированных хранилищ данных . В боль- шинстве случаев они полагались на модели- рование пользовательских данных и сложную настройку для поддержки рабочих нагрузок в OLAP-стиле . Исключением была Teradata: эта платформа была специально разработана для OLAP, но основное программное обеспечение для хранилищ данных занимало самую боль- шую долю рынка Oracle и IBM [74] . Фактически используемые в Netezza техно- логии не были уникальными: Teradata в те- чение многих лет реализует MPP-архитектуру без совместного использования ресурсов, а Tandem1 — первопроходческие отказоустой- чивые базы данных [75, 76] . Ключевым нов- шеством Netezza было объединение этих тех- 1 Tandem Computers — https://en .wikipedia .org/wiki/Tandem_ Computers . нологий в единый пакет, конвергентный и предварительно установленный на оборудова- нии . Ориентация на аналитическую рабочую нагрузку стала ключом к ценности хранилища данных и радикально сократила время готов- ности к эксплуатации Netezza Appliances . Во- первых, за счет устранения необходимости комплексного обеспечения и настройки путем комплектации программного обеспечения и оборудования . Клиенты Netezza приобретали оборудование с уже развернутым программ- ным обеспечением . Во-вторых, Netezza устра- нила необходимость предварять число пользо- вателей . В ней заложены технические решения, имеющие возможность поддерживать произ- водительность в условиях увеличивающегося количества пользователей и объема данных . Благодаря высокопроизводительному дизай- ну Netezza легко превосходит хранилища дан- ных с предустановленными размерами и мо- жет сделать это достаточно быстро, без анали- за сложных требований и моделирования дан- ных . В то же время, традиционные заказные хранилища данных требовали сложного про- ектирования, конфигурирования и настройки именно потому, что они были адаптированы из БД общего назначения [74] . Netezza, образца 2003 г ., представила свой собственный Performance Server (NPS TM) се- рии 8000 [77], в котором объеденины массовое параллельное интеллектуальное хранилище данных (Massively Parallel Intelligent Storage), программное обеспечение СУБД, и вычисли- тельные мощности в компактной системе, оптимизированной для аналитики (рис . 12) . Программное обеспечение базируется на от- крытой СУБД PostgreSQL . Ее функции разделе- ны между главным и периферийными узлами: операции высокого уровня реализуются сер- верным компонентом DBO S 2, а низкоуровне- вые встроены на аппаратном уровне в перифе- 2 Модуль Database Operations (часть X2 Framework для Node.js) позволяет приложениям выполнять сложные операции с БД SQL без обращения к SQL-запросам, анализируя строки набора результатов в иерархические объекты JSON и имея дело со спец- ификой базы данных и драйвера БД . Это позволяет приложе- ниям сосредоточиться на структурах данных высокого уровня и бизнес-логике, https://github .com/boylesoftware/x2node-dbos/ blob/master/README .md . 54 iSSN 0130-5395, control systems and computers, 2019, № 1 А.А. Урсатьев рийные узлы . Дополнительные программные средства NPS включают в себя Windows- или web-консоль администратора и утилиту массо- вой загрузки хранилища данных [77, 78] . Ключевая особенность Netezza NPS Appliances: тера-масштабируемое высокоско- ростное хранилище и архитектура, сочетаю- щая в себе Symmetric Multiprocessing (SMP 3) и Massively Parallel Processing (MPP) для создания 3 В системах обработки данных могут работать два типа бизнес-приложений, одни хорошо масштабируюся вверх (например, в рамках одной SMP-системы (Symmetric Multiprocessing — многопроцессорная обработка)), другие вширь (горизонтально) . Масштабирование вверх – вер- тикальное масштабирование (scale up) требует изменения количества процессоров, каналов ввода/вывода, объема памяти, а горизонтальное (scale out) масштабирование реализуют подключением дополнительных серверов или созданием кластеров . SMP-системы чаще всего применя- ют для транзакционных БД, небольших хранилищ и ви- трин данных . Однако такие решения дороги, монолитны, а потому плохо масштабируются . Поэтому крупномас- штабные хранилища данных строятся преимущественно на системах с массовым параллелизмом, которые обеспе- чивают сегментирование данных и распараллеливание обработки запросов . Инфраструктура поддержки выпол- нения тех или других приложений требует эффективного управления [NGDC: новая реальностьИТ-мира . Adaptive World 1/2007, C.2-5].ylesoftware/x2node-dbos/blob/master/ README.md. комплекса, нацеленного на быструю обработ- ку петабайт информации . Названа она асси- метричная архитектура с массовым паралле- лизмом (Asymmetric Massively Parallel Processing, AMPP™) . Благодаря AMPP-архитектуре систе- ма сочетает в себе вычислительную мощность SMP-сервера с масштабируемостью MPP для достижения конкурентоспособной цены/про- изводительности [77] . Двухуровневая архитектура AMPP Netezza представляет собой систему, предназначенную для быстрой обработки больших и сложных запросов от ряда пользователей . На первом уровне host NPS — высокопроизводительный SMP-сервер Linux (ОС Red Hat Linux) поддер- живает каталоги баз данных, оптимизирует для максимальной производительности специаль- ные и сложные запросы, компилируя их в па- раллельные планы выполнения, и предостав- ляет необходимое количество вычислительной мощности для сортировки и агрегации боль- ших наборов результатов запроса . Хост делит запрос на последовательность меньших запро- сов, называемых фрагментами, которые мо- гут выполняться параллельно, и распределяет исполняемый код фрагментов (в программи- Рис. 12 iSSN 0130-5395, усим, 2019, № 1 55 Большие данные. Аналитические базы данных и хранилища: NETEZZA ровании фрагменты исходного кода, пригод- ные для повторного использования, называют сниппетами) во второй уровень для испол- нения . Помимо координации компонентов второго уровня, хост также доступен для об- работки запросов самостоятельно . Он обычно призван выполнять агрегированные операции, такие как сортировка, объединение и группи- рование промежуточных результатов . Хост хо- рошо использует модель общей памяти SMP и собственную балансировку нагрузки [77, 78] . Второй уровень архитектуры AMPP пред- ставляет не делящую ресурсы (SN, Shared Nothing) среду MPP, состоящую из параллель- но работающих периферийных узлов или, иначе, модулей обработки фрагментов (Snippet Processing Unit, SPU) . Каждый SPU несет от- ветственность за управление срезом общей базы данных . С этой целью он содержит вы- деленную память, диск(и) с программируемы- ми контроллерами и специальный компью- тер блейд-сервер S-Blades с многоядерными CPU на базе процессоров PowerPC и жесткой логикой ускорения управления и анализа за- писей (Accelerator для БД Netezza) на програм- мируемых логических интегральных схемах (ПЛИС), позволяющих обрабатывать данные ближе к месту их нахождения, избегая ненуж- ной транспортировки . Каждый периферийный узел выполняет по- точную аналитическую обработку даже при большой рабочей нагрузке . Он способен об- рабатывать множество параллельных фрагмен- тов запроса из нескольких запросов, одно- временно принимать потоки данных с диска, проводить вычисления в CPU и/или памяти и перемещать результаты через внутреннюю ма- гистральную сеть системы NPS . Хотя SPU от- вечают на запросы от хоста NPS, они автоном- ны – выполняют собственное планирование, управление хранением, управление транзакци- ями, контроль параллелизма и репликацию . SPUs напрямую не доступны для конечно- го пользователя или приложения . Последние получают доступ к данным, хранящимся на дисках периферийных узлов, косвенно, об- мениваясь данными с NPS . Связь между хо- стом NPS и SPUs обеспечивается внутренней магистральной сетью системы NPS с высо- кой пропускной способностью в стандарт- ном исполнении с коммутаторами Gigabit Ethernet . Высокопроизводительный SQL Engine [77] оптимизирует SQL-запросы для широкомас- штабной параллельной потоковой архитекту- ры системы NPS . Применяя к специальным и сложным запросам сегментацию и распре- деляя эти фрагменты SNIP для выполнения на MPP-архитектуре, Netezza с архитектурой AMPP обрабатывает запрос наиболее опти- мизированным способом — Intelligent Query Streaming (интеллектуальная потоковая пере- дача запросов) . Архитектура AMPP позволя- ет собрать (удалить) все узкие места в поток данных, так что единственным оставшимся ограничением является скорость диска — ар- хитектура «потока данных 4», где данные пере- мещаются со скоростью потоковой передачи . Данные, поступающие с диска в поток, долж- ны быть ограничены только необходимыми для анализа данными, а не всей информаци- ей в БД . Это означает, что большая часть ис- ходной работы с БД должна быть сделана в источнике, поэтому разработчики начали с нтеллектуальных устройств хранения данных, которые извлекали бы только нужные данные и отправляли их на процессор компьютера в постоянном потоке информации [78] . Благодаря стандартным интерфейсам (SQL, ODBC, JDBC) Netezza Appliances полностью со- вместима с существующими приложениями, инструментами и инфраструктурой BI . В основу интеллектуальной технологии Intelligent Query Streaming® Netezza® положен подход выполнения интеллектуальной обра- ботки запросов на каждом SPU и приведения запроса к данным (это позволило значительно уменьшить трафик данных как между узлами SPU, так и хостом SMP). Функции запросов 4 Соображения об архитектуре потока и его свойствах, из- Соображения об архитектуре потока и его свойствах, из- ложенные Foster D. Hinshaw, соучредителем и тех ниче- ским директором Netezza Corp . (2000–2005гг .), приведены в Wayne Rash . 2003 InfoWorld Innovator: Foster D. Hinshaw, https://www.infoworld.com/article/2681904/database/2003- infoworld-innovator--foster-d--hinshaw.html . 56 iSSN 0130-5395, control systems and computers, 2019, № 1 А.А. Урсатьев и обеспечение интеллектуальной потоковой передачи данных на уровне скорости счи- тывания информации с диска реализуется в ПЛИС на основе статических ЗУ — FPGA (Field Programmable Gate Array) . FPGA — программи- руемые логические матрицы (ПЛМ) выступают в роли мультипликатора производительности системы — Accelerated Streaming Technolog — и являются ключевым элементом перефирийных модулей обработки, обеспечивающих сжатие/ декомпрессию 5 данных, увеличивая тем самым пропускную способность, и выполняющим критически важную функцию сложной филь- трации данных, так что только соответствую- щие части большого набора данных переда- ются в высокопроизводительный процессор обработки данных SQL-запроса (рис . 13) . Так, сортировка, объединение, агрегирование дан- ных выполняются в основном на переферий- ных узлах (они могут выполняться и на хосте, в зависимости от стоимости обработки этой операции) . ПЛМ выполняют функцию отсева информации с дисков со скоростью ее поступ- ления . Такой процесс вычислений разгружает процессор, память и сеть от обработки чрезмер- ного объема данных, обеспечивая повышение производительности системы в несколько раз . В результате система выполняет аналитические запросы со скоростью потока данных [78] . Таким образом, FPGA — основа запатенто- ванной потоковой архитектуры Netezza обеспе- чивает существенный прирост производитель- 5 Netezza закладывает основу для постоянных инно- ваций,новых возможностей и дальнейшего повышения производительности своих потоковых аналитических приборов в устройстве FAST Engines [79] . ности системы наряду с основной ее состав- ляющей, опирающейся на MPP-архитектуру, которая объединяет значительное число ин- теллектуальных узлов хранения, чтобы разде- лить рабочую нагрузку и предоставить ответы на широкий спектр запросов, от простых так- тических до выполняемых в почти реальном времени оперативных запросов, вплоть до глу- бокой аналитики . основные преимущества netezza Итеративная аналитика в режиме реально- го времени, а также специальные запросы и сложная аналитика с терабайтами данных . Производительность — 10-50X производитель- ности существующих решений для хранилищ данных . Линейная масштабируемость — от 300 Гб до сотен Тб пользовательских данных . Гибкость — простое дополнение модулей обра- ботки для масштабируемости и реконфигурации . Структурная надежность: улучшенные методы зеркалирования обеспечивают надежность с по- мощью RAID и зеркалирования оборудования . новые технологи обработки Поскольку системы Netezza все чаще внед- ряются в средах со смешанными рабочими нагрузками, которые объединяют глубокую специальную аналитику с более короткими, тактическими запросами, то усилия разра- ботчиков направлены на то, чтобы оптими- зировать существующие аналитические ал- горитмы тактических аналитических запро- сов . Улучшения производительности обу- Рис. 13 iSSN 0130-5395, усим, 2019, № 1 57 Большие данные. Аналитические базы данных и хранилища: NETEZZA словлены алгоритмической оптимизаци- ей, которая обрабатывает этапы предва- рительной обработки запросов, такие как оптимизация, компиляция и планирование . Обработка запросов выполняется быстрее, избегая ненужных шагов, агрегируя ответы на уровне связи, уменьшая количество со- общений, обмениваемых в системе, ускоряя связь в системе, увеличивая параллельность операций и фильтрацию данных [80] . Совершенствование технологии изготовле- ния дисков и интерфесов к ним, поддержание потоковой архитектуры, появление более бы- стрых и производительных процессоров, а так- же необходимость снизить цену автономного устройства для аналитики из-за конкурентно- способности на рынке заставило Netezza обра- титься к стадартному, серийно выпускаемому оборудованию . Так, в 2009 г . компания пере- шла от процессоров PowerPC к Intel и товар- ным блейд-серверам IBM . Тогда же Netezza представила свое последнее хранилище дан- ных, получившее название TwinFin для высо- копроизводительного анализа данных до пета- байта по более низкой цене ($20 K/terabyte) в сравнении с NPS ($60 K/terabyte), чтобы лучше конкурировать с альтернативными решения- ми от IBM, Oracle и Teradata . Первая, младшая модель (январь 2010 г .) в семействе из четырех устройств TwinFin под маркой Skimmer ориен- тирована на небольшие предприятия и целе- вые отделы в качестве хранилищ и небольших витрин данных . Модели устройств разнятся количеством блейд-серверов (S-Blades) и объ- емами хранимой информации [81, 84] . Netezza запустила устройства TwinFin, ис- пользуя блейд-сервер IBM BladeCenter и двух- сокетные S-Blade HS22 Xeon на базе процессо- ров X64 и разместив ПЛМ (по одной на ядро Xeon) на блейд-сервер . Эта пара известна как Snippet (SPU) или S-Blade . Устройства TwinFin имели от трех до 12 S-Blades в корпусе центра обработки данных BladeCenter-H и занимали от 8 до 320 Тб емкости хранилища данных . Устройство Skimmer помещает S-Blade в кор- пус BladeCenter-S в офисном стиле и дает поль- зователю 10 Tб дискового пространства [84] . Семейство продуктов TwinFin основано на одном и том же программном обеспечении — PostgreSQL, используемая в TwinFin, охарак- теризована как сильно модифицированная СУБД общей аппаратной архитектуры, но с новой физической реализацией . Как всег- да, архитектура Netezza сильно опирается на ПЛМ . Тем не менее, Netezza пришла к выводу, что обычные платы процессоров на базе Intel лучше согласуются с ПЛМ, чем используемые ранее чипы PowerPC . Очевидные последствия перехода Netezza на процессоры Intel: суще- ственно снижена стоимость одного терабай- та пользовательских данных для хранилища; практически любое программное обеспече- ние, работающее на устройстве хранилища данных, может быть создано, если его еще нет, или перенесено на Netezza; аналитическая производительность в некоторых случаях бу- дет значительно повышена (до 100 X, хотя это далеко не всегда) . Дальнейшие модификации продукта будут включать усовершенствования программ- ного обеспечения . Представится возмож- ным создавать приложения на Java, C ++, Fortran или Python, которые, используя на- бор API-интерфейсов в стеке Netezza, могут привлекать ПЛМ для извлечения данных из хранилища и выполнения сложной анали- тики, используя инструменты SAS или ста- тистический язык программирования с от- крытым исходным кодом R, также позволят подключаться к хранилищу данных через API-интерфейсы . При желании использовать MapReduce или Hadoop, чтобы исследовать большие наборы данных, такие как у Google, Yahoo и других компаний с Web 2 .0, есть на- бор API, которые позволяют этим инстру- ментам подключаться к хранилищу данных PostgreSQL и многое др . [81, 84] . В связи с выходом на рынок линейки про- дуктов TwinFin компания Netezza добавила 28 новых клиентов, приуспевает в цифровых ме- диа, финансовых услугах, телекоммуникациях и розничной торговле . Она надеется, что ради- кальное снижение цен и повышение произво- дительности откроют рынок оборудования для 58 iSSN 0130-5395, control systems and computers, 2019, № 1 А.А. Урсатьев хранения данных для отраслей, которые ранее не рассматривали бы использование такого специализированного и дорогостоящего обо- рудования как Netezza [82, 83] . В 2010 г . Netezza объявила, что открыла свои системы для поддержки основных моделей программирования, включая модели Hadoop, MapReduce, Java, C ++ и Python . В этом же году было объявлено о поглоще- нии компании корпорацией IBM 6 . Корпо- рация IBM решила, что аналитика и бизнес- аналитика в частности — это рынок, на ко- тором они хотят пребывать, играя отнюдь не последнюю роль . Поняли, что существу- ют определенные причины, по которым их базы данных Db2 и Informix были менее подходящими для типов проблем, кото- рые решаются автономными устройствами . Netezza была, по сути, пионером в создании специализированных хранилищ данных (Data Warehouse Appliance) . IBM, приобре- тая Netezza, получает следующие преимуще- ства: оптимизацию решений по хранению данных и аналитики, достигаемых архитек- турой системы, и стандартные интерфейсы сторонних поставщиков . В эпоху больших данных технологии по- зволяют потреблять больше разнообраз- ных данных и генерировать новые идеи для конкурентного преимущества . Необходимо иметь возможность быстро реагировать на быстро меняющиеся аналитические требо- вания . В IBM признают, что нужны реше- ния для удовлетворения этих потребностей и перевода архитектуры хранилищ данных на следующий уровень . Решения, ранее присущие устройствам Netezza, превратились в IBM Db2 Warehouse Systems (прежде Netezza Appliances) и входят в состав IBM PureSystems, IBM PureSystems for Analytics и IBM Integrated Analytics System . Эти предложения поддерживают те же ключевые решения, что и Netezza, обеспечивая произ- водительность, масштабируемость и встро- енную аналитику, при свойственной про- 6 Why did IBM acquire Netezza? — https://www .quora .com/ Why-did-IBM-acquire-Netezza . стоте использования специализированных средств [71] . IBM Netezza — программно-аппаратный аналитический комплекс, объединяющий СУБД, систему хранения данных и вычис- лительные мощности в компактной систе- ме, предназначенной для быстрого и глу- бокого анализа больших объемов данных . Выпускается с 2012 г . под маркой PureData for Analytics в рамках линейки PureSystems . Благодаря технологии Netezza, IBM PureData for Analytics помогает упростить и оптимизи- ровать производительность служб передачи данных для аналитических приложений и за- пускает сложные алгоритмы в считанные ми- нуты вместо часов [85, 85] . программное обеспечение Продукты линейки IBM PureData™ System [86] различаются тем, что каждая модель обеспе- чивает оптимизацию для конкретной рабочей нагрузки . Соответственно этому продукты PureData конфигурируют в целях эффективно- го решения одной из следующих задач . 1 . Analytics — аналитическая система опти- мизирована для рабочих нагрузок углубленной аналитики, где требуется высокая производи- тельность в сложных исследованиях с привле- чением больших массивов данных . Использует встроенные возможности аналитических функций в распределенной вычислительной архитектуре Shared Nothing . Аналитические вы- числения выполняются непосредственно в БД (in-database analytics) с минимальными задерж- ками и максимальным быстродействием без перемещения данных . Таких аналитических функций более 200, включая:  Transformations — профилирование данных, описательные статистики, общая диагностика, статистика, выборка и подготовка данных;  Mathematical — матричная алгебра, гамма- и бета-функции, обширная библиотека статисти- ческих и математических функций, поддержива- ющих широкую направленность аналитических инструментов и языков программирования;  Statistics (статистика) — описательная ста- iSSN 0130-5395, усим, 2019, № 1 59 Большие данные. Аналитические базы данных и хранилища: NETEZZA тистика, одномерные и многомерные распре- деления;  Data Mining (добыча данных) — ассоциа- тивные правила, кластеризация, выделения признаков;  Time series (анализ временных рядов) — ав- торегрессии, прогнозирование;  Predictive (прогнозирование или упреждаю- щий анализ) — линейная регрессия, логисти- ческая регрессия, классификация, Байесов- ский анализ, отбор проб, испытания модели;  Geospatial (геопространственный) — гео- пространственный тип данных, функции, гео- метрический анализ, поддержка стандартных промышленных геопространственных прило- жений ESRI . 2 . Operational Analytics — система опера- тивной аналитики для принятия решений на основе анализа текущих данных и предостав- ления информации о работе бизнеса на дан- ных в хранилище . Оптимизирована для ана- литики по оперативным данным, для которой характерен высокий процент интерактивных запросов в окне просмотра (look-ups), тысячи одновременных оперативных запросов в се- кунду, смешанные нагрузки интерактивных и аналитических запросов, обработка хранилищ данных в реальном режиме времени . Это не снижает высокой производительности и про- пускной способности системы для анализа в БД больших наборов исторических и опера- тивных данных . Поступление данных в систему из внешних источников производится в реальном време- ни без остановки бизнес-анализа и не пре- пятствует принятию решений во время про- цесса загрузки, что позволяет практически без задержек реагировать на динамическую бизнес-среду . Использование в системе PureData услуги многомерных кубов, обеспечивает быстрый анализ значительных объемов высокодина- мичных данных . Пользователи могут создавать, редактировать, импортировать, экспортиро- вать и развертывать модели куба над реляци- онной схемой хранилища данных для анализа ряда бизнес-переменных . Пространственный анализ 7, использующий ROLAP на терабайтах данных, может дать исключительную произ- водительность без ограничений физических структур MOLAP, известных также как кубы . «Cubing-услуги»8 существенно повышают про- изводительность OLAP запросов, обеспечивая большие возможности пользователям анали- зировать данные и повысить рентабельность бизнеса . Они позволяют также выполнять интегрированную аналитику структурирован- ных и неструктурированных данных в систе- ме . Поддерживаются стандартные модели ин- теллектуального анализа данных (в том числе кластеризации, ассоциации, классификации и прогнозирования), выполняемые в производ- ственной среде . 3 . Transactions — надежная и масштабируе- мая платформа БД, спроектированная с це- лью снизить сложность, текущие затраты на управление и ускорить окупаемость; позволяет ИТ-службам оптимизировать задачи транзак- ционных БД и оперативно обрабатывать тран- закции; оптимизирована для транзакционных рабочих нагрузок, которые характеризуются очень низкой латентностью, и ориентирован- ных запросов и обновлений, требующих опти- мизацию кэш-памяти . Система интегрируется с существующими продуктами IBM, с них можно автоматиче- ски перенаправлять аналитические запросы в Netezza, что позволяет строить эффективные гибридные системы, способные как обрабаты- вать множество транзакций, так и одновремен- но сканировать большие объемы информации в поисках ответа на аналитические запросы . Для расширения круга задач и организации параллельной обработки данных можно с по- мощью языков программирования, таких как 7 Five reasons to consider ROLAP with the IBM PureDataSystem for Analytics. — http://expertintegratedsystemsblog.com/2014/08/ five-reasons-to-concider-rolap-with-the-ibm-puredata-system- for-analytics/ . 8 OLAP-инструменты, как правило, работают с многомерны- ми БД (МБД) . Несмотря на то, что МБД являются наибо- лее подходящими для оперативной аналитической обра- ботки, эту возможность встраивают в реляционные СУБД или расширяют их OLAP для реляционных БД (ROLAP) . Последние имеют преимущество по масштабируемости и гибкости, но проигрывает по производительности много- мерному OLAP (MOLAP) . 60 iSSN 0130-5395, control systems and computers, 2019, № 1 А.А. Урсатьев Lua, Python, Java, Cи/C++, Fortran и R, писать соответствующие программы . 4 . Hadoop — предоставляет услуги передачи данных в программную инфраструктуру с от- крытым исходным кодом, реализующая одну из основополагающих технологий BigData, расширяя имеющееся хранилище для анали- тики, и тем самым обеспечивает исследова- ния подключаемых источников данных . Это ускоряет получение ценной информации . Аналитическая платформа предоставляет: вы- сопроизводительный SQL-доступ в Hadoop; охват многих источников данных, объеди- няющих информацию Hadoop и PureData для Analytics; BigSheets-инструмент визуализации . Система так же содержит встроенные ускори- тели аналитики для данных из социальных се- тей, анализа данных и текста, а также включает средства архивирования [86, 87] . аппаратные средства Несмотря на то, что Netezza сменила свою фирменную марку на PureData for Analytics, по-прежнему ее эмблема фигурирует при ис- пользовании технологии информационных хранилищ, обсуждении ее аналитических воз- можностей, архитектуры и других основных особенностей Netezza при сохранении ее аппа- ратной конфигурации (рис . 14) . Изменилось только содержание нескольких компонентов: в качестве серверов (Hosts) под управлением Red Hat Linux использованы IBM xSeries, настроен- ные в конфигурации активный–пассивный на повышенную доступность; увеличилось бы- стродействие внутренней сети 9 и расширилась функциональность ПЛМ (FPGA) . Netezza представила новую ускоренную по- токовую технологию FAST Engine TM Frame- work, обеспечивающую увеличение произ- водительности аналитики . Основные функ- ции, которые встроены в ПЛМ, называются «engines — движок, механизм, процессор» и составляют структуру Framework . Она осно- вана на трех основных концепциях: FAST Engines являются основными аналитически- ми функциями, электронно запрограммиро- ванными в ПЛМ для ускорения выполнения 9 Netezza работает на основе собственного IP-протокола, соз- данного специально для больших объемов данных и интен- сивного трафика . Он обеспечивает наилучшее использова- ние ресурсов сети, не создавая ее перегрузки, что позволяет линейно повышать производительность . Рис. 14 iSSN 0130-5395, усим, 2019, № 1 61 Большие данные. Аналитические базы данных и хранилища: NETEZZA запросов; они динамически реконфигуриру- ются; настраиваются под каждый фрагмент, выполнямый в сниппете SPU, посредством параметров, передаваемых при обработке за- проса . Динамическая реконфигурация позво- ляет каждый из Engines модифицировать, от- ключать или расширять за счет программного обеспечения Host . Настройка времени выпол- нения позволяет ПЛМ включать параметры, передаваемые каждому движку, для оптими- зации поведения ПЛМ для конкретного фраг- мента запроса . Действующие механизмы включают Cont- rol, Compress, Parse, Project, Restrict и Visibility [79, 81, 85] . Они работают комбинированным последовательным и параллельным образом, и их общий эффект мультипликатора произ- водительности управляет системой [79] . «Control» Engine (Механизм управления): управляет жестким диском в режимах записи и считывания данных, каналом прямого доступа к памяти (DMA) при передаче потоков данных во встроенную память SPU. Функции управле- ния повышением производительности храни- лища за счет уменьшения количества блоков данных, считанных с диска, выполняются че- рез Control Engine [79] . «Compress” Engine (Механизм распаковки данных): использует запатентованную тех- нологию поколоночной компрессии во всех таблицах БД, что позволяет более эффектив- но сжимать данные для использования дис- ка и значительно увеличивать скорость по- токовой аналитической обработки . Compress Engine разработан в первую очередь для по- вышения производительности потокового запроса в два–три раза (100-200) процентов в дополнение к преимуществам более эф- фективного использования дисков (рис . 15) . Фактически, используемые другими разра- ботчиками интенсивные вычисления, на- правленные на достижение эффектов сжа- тия, как правило, приводят к снижению про- изводительности . В системе производится адаптивная ком- прессия данных . В зависимости от типов данных используются разные стратегии сжа- тия (в системе есть 11 алгоритмов сжатия) . Поддерживаются все типы данных . Средний эффект сжатия — от 2–2,5X до 4X [81, 87, 88] . Рис. 15 62 iSSN 0130-5395, control systems and computers, 2019, № 1 А.А. Урсатьев Compress Engine, как и все другие FAST Engines, динамически настраивается и оптимизируется во время выполнения своей задачи . При записи на диск (например, во время за- грузки данных, операций вставки или обнов- ления), исходные данные сжимаются в ском- пилированный формат, столбец за столбцом первоначальных данных заменяется набором инструкций Compress Engine для декомпиляции . При чтении данных с диска, Compress Engine считывает набор инструкций и, со скорстью потока с диска, распаковывает сжа- тые и собирает исходные данные, преобразуя каждый блок на диске в 4–8 блоков в памя- ти (рис . 16) . При этом эффективно повыша- ется скорость передачи данных и снижается действующая скорость сканирования на узел SPU . Эффект такого решения — повышение постоянных скоростей сканирования данных без привнесения каких-либо изменений в аппаратном обеспечении . Еще одно преиму- щество Compress Engine заключается в том, что он расширяем . Используя тот же базовый алгоритм компиляции, он может быть ис- пользован для обеспечения дополнительных функций, таких как поддержка шифрования данных [79, 85] . «Parse» Engine (Механизм синтаксиса): игра- ет ключевые роли в структуре FAST Engines . Во-первых, он обеспечивает проверку и кор- рекцию ошибок (ECC) потоков распакованных данных с диска, обеспечивая более надежный интерфейс диска и уменьшая необходимость их повторного чтения . Во-вторых, он анализи- рует этот поток и передает необходимые дан- ные каждому из оставшихся процессоров . «Project» и «Restrict» Engines (Механизмы фильтрации данных): обеспечивают филь- трацию полей и строк таблицы, опираясь на параметры в условиях SELECT и WHERE в SQL-запросе . Только те столбцы и записи, которые удовлетворяют предложениям, бу- дут разрешены для дальнейшей обработки; в противом случае они будут отфильтрованы и удалены до того, как содержащиеся в них данные будут отправлены на встроенный Рис. 16 iSSN 0130-5395, усим, 2019, № 1 63 Большие данные. Аналитические базы данных и хранилища: NETEZZA процессор и память . Это значительно сокра- щает последующую обработку фрагментов, возлогаемую для процессора и памяти на каждом SPU . «Visibility» Engine: (Механизм видимости транзакций): отфильтровывает информацию, которая не должна быть в поле видимости конкретного фрагмента запроса, например, механизм Visibility исключает записи (строки) данных, которые не должны быть видимыми для запроса, потому, что они были добавле- ны в БД после начала текущего запроса . Этот механизм играет важную роль в поддержании ACID и настраивается по принципу снимок на скорости передачи данных и без исполь- зования каких-либо дополнительных циклов процессора или памяти . Расширяющийся набор потоковых ме- ханизмов FAST Engines позволяет создавать Netezza новые функции применительно к размерам и типам данных, аналитическим задачам, которые могут быть введены в FAST EngineTM Framework . Другие особенности платформы Netezza, направленные на сокращение времени ана- литического анализа: зонные (ZoneMap)10 карты [79, 85, 87] и значительное снижение сканирования дисков про помощи техно- логии зонных карт; многомерный механизм кластеризации с предоставлением данных по четырем измерениям, сокращение сканиро- вания дисков для кластеризованных таблиц и ускоряющие запросы по нескольким измере- ниям к большим таблицам . Управление нагрузкой предоставляет до- полнительный функционал для регулирования ресурсов и приоритизации выполнения запро- сов в многопользовательской среде, а также в условиях смешанной нагрузки как то: гаранти- рованное распределение ресурсов, механизм для распределения ресурсов группе пользова- телей, приоритизированное выполнение за- просов и др . [87] . 10 ZoneMap работает с естественным порядком записей в хра- нилищах данных . При использовании данной методики не сканируются записи со значением поля, выходящим за границы запроса . Применяются диски с самошифрованием для обеспечения дополнительной безопасно- сти и защиты секретных данных в приложе- ниях . Дисковое пространство представлено высокопроизводительными дисками большой емкости, объединенными в RAID-массив . Жесткие диски соединены с высокоскорост- ной сетью S-Blades, что позволяет передавать на них данные с максимально возможной ско- ростью . Пользовательская информация зерка- лирована, что обеспечивает ее доступность на 99,99 процентов . Заключение Netezza, как и Teradata, представляет со- бой сконфигурированный, подготовленный к быстрому использованию, аппаратно- программный комплекс (Appliances), объ- единяющий хранение и обработку данных в одной системе, изначально спроектиро- ванной и оптимизированной под аналити- ку . Использована не делящая ресурсы среда MPP массовой параллельной обработки и го- ловной сервер SMP верхнего уровня системы AMPP-архитектуры . Помимо координирования работ SMP- сервер обеспечивает прирост производи- тельности при увеличении числа клиент- ских сессий . Архитектурным решением предусмотрено соблюдение принципа непо- средственной близости cистемы обработки и хранения данных, и минимизации пере- мещения данных при обработке больших объемов информации . Значительная часть обработки данных выполняется практически на уровне диско- вых контроллеров узлов SPU — интеллекту- альных обработчиков сниппетов . Запросы к системе формулируются на языке SQL, а для доступа к системе используются стан- дартные протоколы JDBC, OLE DB и ODBC . Загрузка данных проводится как штатными утилитами, так и средствами инструментов ETL . Netezza хочет изменить существующее положение и перейти к реальной парал- лельной загрузке . 64 iSSN 0130-5395, control systems and computers, 2019, № 1 А.А. Урсатьев Ключевой особеностью Netezza есть муль- типликатор производительности аналитиче- ского комплекса, дающий существенное ап- паратное ускорение выполнению запросов SQL. Программируемые логические матри- цы ПЛМ на узлах SPU выполняют потоковую обработку данных при обращении к дискам . Вследствие этого память и процессоры SPU работают с уже отфильтрованными данны- ми, что значительно ускоряет и упрощает дальнейшую обработку . Ускоренная потоко- вая технология FAST Engine TM Framework до- стигается программированием функций де- компрессии и фильтрации данных, провер- ки синтаксиса, видимости транзакций и др . Набор потоковых механизмов FAST Engines позволяет создавать новые функции приме- нительно к возникающим задачам . Особое внимание уделено простоте ис- пользования и минимальным требованиям в настройках . В Netezza практически нечего администрировать . Например, компрессия данных выполняется автоматически и адап- тируется к типам данных, не требуя от поль- зователя указаний на нужные алгоритмы . Нет настройки и проектирования БД, тре- бований к модели данных . Нет индексов и тюнинга, в том числе для выполнения ad-hoc запросов — производительность такая, как она есть (из коробки) . Управление нагрузкой предоставляет функ- ционал для регулирования ресурсов и приори- тизации выполнения запросов в многопользо- вательской среде и в условиях смешанной на- грузки . Для расширения круга задач и возмож- ности разработки собственных аналитических процессов есть возможность использовать C/ C++, Java, Python, Fortran, R и поддержку рас- ширяемой, open-source интегрированной сре- ды разработки (плагин для Eclipse) . Netezza в первую очередь аналитический комплекс, у которого весьма развитые сред- ства аналитики, такие как Data Mining, OLAP, Hadoop и др ., однако он имеет, по данным Monash Research, одну из самых низких в инду- стрии стоимость владения за терабайт пользо- вательских данных . Основными конкурентами в этой области Netezza являются Teradata, Vertica, IBM, Green- plum и др . Система Netezza интегрируется с существу- ющими продуктами IBM [24, 67, 71], которые добавляют возможности облачного хранения данных dbPaaS IBM, включают в себя исполь- зование различных платформ в среде локаль- ных и гибридных облаков, также поддержку аналитики в БД на Apache Spark автономных СУБД 11 на платформах Db2 и многое другое . Вместе с тем, складывается впечатление, что Netezza остается последовательным привер- женцем встраиваемых в SPU перепрограмми- руемых средств (ПЛМ) обработки информа- ции и успешного совершенствования ПО, так как именно только за счет него она получила значительный прирост производительности . В этой связи напрашивается вопрос, не пой- дет ли Netezza по пути встраивания в SPU про- изводительной, работающей в оперативной памяти, программной конструкции Apache Spark со стандартными библиотеками для ана- литики больших данных в поддержку уже су- ществующим framework s на ПЛМ? По крайней мере, это представляется в рамках Appliances более интересным, чем строить эффективные гибридные системы, способные как обрабаты- вать множество транзакций, так и одновремен- но сканировать большие объемы информации в поисках ответа на аналитические запросы . 11 Db2® Warehouse — это хранилище данных аналитики, ко- торое обеспечивает контроль над данными и приложения- ми, простое развертывание и управление . Продукт пред- лагает технологию обработки BLU в памяти и аналитику (in-database analytics) в БД, масштабируемость и произво- дительность благодаря архитектуре MPP. Db2 Warehouse обеспечивает совместимость с Oracle и Netezza[89]. iSSN 0130-5395, усим, 2019, № 1 65 Большие данные. Аналитические базы данных и хранилища: NETEZZA REFERENCES 70. Netezza, https://en .wikipedia .org/wiki/Netezza . 71 . IBM Analytics . IBM Data Warehouse Systems (formerly Netezza Appliances), https://www .ibm .com/analytics/netezza . 72 . Alexandrov, A ., 2006 . Data Warehouse Machines . Open Systems, 2, https://www .osp .ru/os/2006/02/1156529 . 73 . Aleksandrov, A ., 2007 . Hardware-software storages, OS, 5, https://www .osp .ru/os/2007/05/4260303 . 74 . Dinsmore Thomas W . Disruptive Analytics: Charting Your Strategy for Next-Generation Business Analytics . Apress, 27 aug . 2016, p . 262 ., https://www .apress .com/us/book/9781484213124 . 75 . NonStop SQL. Bauman National Libraru, https://ru .bmstu .wiki/NonStop_SQL . 76 . Fault-tolerant servers of Tandem Computer Inc., http://doc .sumy .ua/db/skbd/glava_17 .htm . 77 . Netezza Performance Server (NPSTM) 8000 . Wayback Machine, https://web .archive .org/web/20040407102937/ http://www . netezza .com:80/products/prod_downloads/Product%20Brochure .pdf . 78 . Foster, D. Hinshaw . A . MPP: combining SMP and MPP to speed database queries, https://www .acronymfinder . com/ Asymmetric-Massively-Parallel-Processing-(Netezza-Performance-Server)-(AMPP) .html . 79 . The Netezza FAST Engines™ Framework . A Powerful Framework for High-Performance Analytics, 2008, http://www . monash .com/uploads/netezza-fpga .pdf . 80 . Swoyer, S. Netezza Says Netezza Performance Server R4 Doubles Query Performance, https://tdwi .org/articles/ 2007/09/05/netezza-says-nps-r4-doubles-query-performance .aspx . 81 . Monash Curt. Netezza is changing its hardware architecture and slashing prices accordingly . July 30, 2009, http://www . dbms2 .com/2009/07/30/netezza-new-product-family/ . 82 . Netezza launches new data warehouse appliance family, July 31 2009, https://www .zdnet .com/article/netezza-launch- es-new-data-warehouse-appliance-family/ . 83 . Netezza’s TwinFin fuels profit surge, Aug . 27, 2010, https://www .zdnet .com/article/netezzas-twinfin-fuels-profit- surge/ . 84 . Prickett-Morgan Timothy. Netezza to bake analytics into appliances, Feb . 24, 2010, https://www .theregister .co .uk/2010/ 02/24/netezza_data_analytics/ . 85 . IBM. Francisco Phil . Netezza Data Appliance Architecture: High-Performance Data Warehouse and Analytics Platform, http://www .redbooks .ibm .com/redbooks/pdfs/redp4725-00-ru .pdf . 86 . IBM PureData System, http://www .ndm .net/datawarehouse/IBM/ibm-puredata-system . 87 . Timchur, A. Unique IBM Netezza software and hardware for analytical data warehouses . Forum IBM 2012, https:// www .ibm .com/ru/events/presentations/ astana2012/at2 .pdf . 88 . Volkov, D . Netezza Вeep Dive. Dsvolk Oracle News: 01 .07 .11–01 .08 . 11, http://dsvolk .blogspot .com/ 2011/07/ . 89 . IBM Db2 Warehouse overview. IBM® IBM Knowledge Center, https://www .ibm .com/support/knowledgecenter/en/ SS6NHC/com .ibm .swg .im .dashdb .doc/local_overview .html . Received 14 .05 .2018 О.А. Урсатьєв, канд . техн . наук, старш . наук . співроб ., пров . наук . співроб ., Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОН України, просп . Глушкова, 40, Київ 03187, Україна, aleksei@irtc .org .ua ВЕЛИКІ ДАНІ . АНАЛІТИЧНІ БАЗИ ДАНИХ І СХОВИЩА: NETEZZA Вступ. Стаття є продовженням досліджень Великих Даних і інструментарію, що трансформується в нове покоління технологій і архітектури платформ БД та сховищ для інтелектуального виводу . У даній частині огляду подано DB Netezza . Основну увагу приділено питанням зміни інфраструктури, інструментального середовища і платформи для виявлення необхідної інформації та нових знань з Великих Даних, а початкові відомості про продукт наведено в загальній характеристиці виробу . Мета. Розглянути та оцінити ефективність застосування інфраструктурних рішень нових розробок в дослідженнях Великих Даних для виявлення нових знань, неявних зв'язків і поглибленого розуміння, проник- нення в суть явищ і процесів . Методи. Інформаційно-аналітичні методи і технології обробки даних, методи оцінки та прогнозування да- них, з урахуванням розвитку найважливіших галузей інформатики та інформаційних технологій . Результати. Netezza, як і Teradata, являє собою конфігурований, підготовлений до швидкого використан- ня, програмно-апаратний комплекс (Appliances), який об'єднує зберігання і обробку даних в одній системі, 66 iSSN 0130-5395, control systems and computers, 2019, № 1 А.А. Урсатьев спроектованої і оптимізованої під аналітику . Використана SN-середа MPP, що не поділяє ресурсів, і головний сервер SMP верхнього рівня системи асиметричної AMPP-архітектури . Він, крім координування робіт, забезпечує приріст продуктивності при збільшенні числа клієнтських сесій . Значна частина обробки даних виконується практично на рівні дискових контролерів вузлів SPU – інтелектуальних оброблювачів сніпетів . Завантаження даних виконується як штатними утилітами, так і засобами інструментів ETL . Netezza хоче змінити існуючий стан і перейти до реального паралельного завантаження . Ключова особливість Netezza – це мультиплікатор продуктивності аналітичного комплексу, що дає істотне апаратне прискорення виконання запитів SQL . Програмовані логічні матриці ПЛМ на вузлах SPU виконують потокову обробку даних при зверненні до дисків . Внаслідок цього пам’ять і процесори SPU працюють з вже відфільтрованими даними, що значно прискорює подальшу обробку . Ця потокова технологія FAST EngineTM Framework досягається програмуванням функцій декомпресії і фільтрації даних, перевірки синтаксису, видимості транзакцій та ін . Набір потокових механізмів FAST Engines дозволяє створювати нові функції стосовно виникаючих завдань . Особливу увагу приділено простоті використання і мінімальним вимогам в налаштуваннях . У Netezza практично нічого адмініструвати . Наприклад, компресія даних виконується автоматично і адаптується до типів даних, не вимагаючи від користувача вказівок на потрібні алгоритми . Немає настройки і проектування БД, вимог до моделі даних . Немає індексів і тюнінгу, в тому числі для виконання ad-hoc запитів – продуктивність така, як вона є (з коробки) . Управління навантаженням надає функціонал для регулювання ресурсів і приоритизації виконання запитів в середовищі з багатьма користувачами і в умовах змішаного навантаження . Для збільшення кола завдань і розробки власних аналітичних процесів можливо використовувати C / C ++, Java, Python, Fortran, R і підтримку розширяємого open-source інтегрованого середовища розробки (плагін для Eclipse) . Netezza в першу чергу аналітичний комплекс, у якого досить розвинені засоби аналітики, такі як Data Mining, OLAP, Hadoop та ін ., проте він має, на думку Monash Research, одну з найнижчих в індустрії вартість володіння за терабайт даних користувача . Основними конкурентами Netezza в цій області є Teradata, Vertica, IBM, Greenplum та ін . Виcновок. Система Netezza інтегрується з існуючими продуктами IBM, які додають можливості хмарного зберігання даних DBPaaS IBM і включають в себе використання різних платформ в середовищі локальних і гібридних хмар, підтримку аналітики в БД на Apache Spark автономних СУБД на платформах Db2 та ще багато іншого . Разом з тим, складається враження, що Netezza залишається послідовним прихильником вбудованих в SPU перепрограмованих засобів обробки інформації та успішного вдосконалення ПО, так як саме в цьому вона отримала значний приріст продуктивності . У зв’язку з цим напрошується питання, чи не піде Netezza по шляху вбудовування в SPU продуктивної, працюючої в оперативній пам’яті, програмної конструкції Apache Spark зі стандартними бібліотеками для аналітики великих даних на підтримку вже існуючих frameworks на ПЛМ? Принаймні, це представляється в рамках Appliances більш цікавим, ніж будувати ефективні гібридні системи, здатні як обробляти безліч транзакцій, так і одночасно сканувати великі обсяги інформації в пошуках відповіді на аналітичні запити . Ключовi слова: платформа Data Warehouse Appliance, AMPP – асиметрична архітектура з масовим паралелізмом, архiтектура MPP SN (Shared Nothing), SPU (Snippet Processing Unit) – модулі обробки фрагментів коду, FPGA (ПЛМ) програмовані логічні матриці – компонента інтелектуальної потокової архітектури передачі запитів (Intelligent Query Streaming® Netezza®), IBM Netezza, SQL-аналітика на Hadoop, підтримка аналітики на Apache Spark у плат- формах Db2 IBM. A.A. Oursatyev, PhD in Techn . Sciences, Leading Research Associate, International Research and Training Centre of Information Technologies and Systems of the NAS and MES of Ukraine, Glushkov ave ., 40, Kyiv, 03187, Ukraine, aleksei@irtc .org .ua BIG DATA . ANALYTICAL DATABASES AND DATA WAREHOUSE: NETEZZA Introduction . The article is a continuation of the Big Data and tools study, which is transformed into technology of the new generation and architecture of the BD platforms and storage for the intelligent output . In this part the review of DB Netezza is presented . The main attention is paid to the issues of changing the infrastructure, the tool environment and the platform for identifying the necessary information and new knowledge from the Big Data, the initial information about the product is given in the product general description . iSSN 0130-5395, усим, 2019, № 1 67 Большие данные. Аналитические базы данных и хранилища: NETEZZA Purpose . The purpose is to consider and evaluate the application effectiveness of the infrastructure solutions for new de- velopments in the Big Data study, to identify new knowledge, the implicit connections and in-depth understanding,insight into phenomena and processes . Methods . The informational and analytical methods and technologies for data processing, the methods for data assess- ment and forecasting, taking into account the development of the most important areas of the informatics and information- technology . Results. Netezza, like Teradata, is configured and prepared for the quick use . Hardware and software (Appliances), com- bining data storage and processing in a single system, is originally designed and optimized for analytics . The non-sharing resources MPP environment and the top SMP server of the upper level of the asymmetric AMPP-architecture are used . The SMP-server, in addition to the coordinating work, provides an increase in performance while the number of client sessions growth . A significant part of data processing is performed practically at the level of the SPU nodes disk controllers, the intel- lectual snippets . Data is loaded using both the regular utilities and ETL tools . Netezza wants to change the existing position and turn to a real parallel download . A key feature of Netezza is the productivity multiplier of the analytic complex, which pro-vides the significant hardware acceleration for executing SQL queries . Programmable logic ma-trices FPGA on SPU nodes provide the streaming data processing when accessing disks . As a result, the memory and SPU processors work with already-filtered data, significantly speeding up further processing . FAST EngineTM Framework's usable streaming technology is achieved by programming the decompression and filtering functions, syntax checking, transaction visibility, etc . The set of FAST Engines streaming mechanisms allows to create new functions for emerg-ing problems . The particular attention is paid to ease the use and minimize the requirements in the settings . Netezza has almost nothing to administer . For example, data compression is performed auto-matically and adapts to the data types, without requiring the user to specify the necessary algo-rithms . There are no configuration and designing of the database, no data model re- quirements . There are no indexes and tuning, including for performing ad-hoc requests - performance is as it is (out of the box) . Load management provides functionality for managing resources and priori-tizing query execution in a multi-user environment and under mixed load conditions . To expand the range of tasks and develop one’s own analytical processes, it is possible to use C / C ++, Java, Python, Fortran, R and support for an expandable, an open-source integrated development environment (plug-in for Eclipse) . Netezza is primarily an analytical complex with highly developed analytics tools, such as Data Mining, OLAP, Hadoop, and others, but, according to Monash Research, it has one of the lowest cost-per-terabyte user data in the industry . The main competitors of Netezza are Teradata, Vertica, IBM, Greenplum, etc . Conclusion . Netezza integrates with existing IBM products that add IBM DBPaaS cloud storage capabilities, including the use of various platforms in local and hybrid clouds, as well as support for analytics in the Apache Spark database of stand- alone DBMS on Db2 platforms and much more . At the same time, it seems that Netezza remains a consistent supporter of the repro-grammable information processing tools and successful software improvements embedded in the SPU, since this is where it received a significant performance boost . In this regard, the question is asked whether Netezza will not go on the way of integrating into the SPU a production Apache Spark software in RAM with standard libraries for analyzing big data in support of the existing frameworks on the FPGA . At the very least, this seems to be more interesting within the frame-work of Appliances than to build efficient hybrid systems that can both process a lot of transac-tions and simultaneously scan large amounts of information in search queries for analytical requests . Keywords: data warehouse appliance platform, AMPP – asymmetric massively parallel processing, SN (shared nothing) MPP architecture, SPU (snippet processing unit) – modules for processing code fragments, FPGA – programmable logic arrays – Intelligent Query Streaming® Netezza® component, IBM Netezza, SQL analytics on Hadoop, support for analytics on Apache Spark on IBM Db2 platforms

Большие Данные. Аналитические базы данных и хранилища: Netezza

Репозитарії

Схожі ресурси