Аннотация. Предлагается использовать двухэтапный кластерный подход к исследованию динамики выбросов наиболее распространенных загрязняющих веществ в атмосферный воздух Львовской области. Описана математическая модель. Выполнена программная реализация предложенного подхода в среде Matlab 7.10.0 и представлены результаты.
Ключевые слова: кластеризация, алгоритм k-средних, самоорганизующаяся карта Кохонена, атмосферный воздух, выбросы загрязняющих веществ.
Технічні науки
УДК 004.02
Домашовець О. В.
аспірант
кафедра загальної екології та екоінформаційних систем
Національний університет «Львівська політехніка»
Казимира І. Я.
кандидат технічних наук, доцент
кафедра загальної екології та екоінформаційних систем
Національний університет «Львівська політехніка»
Домашовець О. В.
аспирант
кафедра общей экологии и экоинформационных систем
Национальный университет «Львовская политехника»
Казимира И. Я.
кандидат технических наук, доцент
кафедра общей экологии и экоинформационных систем
Национальный университет «Львовская политехника»
Domashovets O.V.
Postgraduate Student
Department of General Ecology and Eco-Information Systems
Lviv Polytechnic National University
Kazymyra I. Y.
Ph.D., Associate Professor
Department of General Ecology and Eco-Information Systems
Lviv Polytechnic National University
КЛАСТЕРНИЙ ПІДХІД У ДОСЛІДЖЕННІ ЗАБРУДНЕННЯ АТМОСФЕРНОГО ПОВІТРЯ (НА ПРИКЛАДІ ЛЬВІВСЬКОЇ ОБЛАСТІ)
КЛАСТЕРНЫЙ ПОДХОД В ИССЛЕДОВАНИИ ЗАГРЯЗНЕНИЯ АТМОСФЕРНОГО ВОЗДУХА (НА ПРИМЕРЕ ЛЬВОВСКОЙ ОБЛАСТИ)
THE CLUSTER APPROACH FOR THE INVESTIGATION OF AIR POLLUTION (BY EXAMPLE OF LVIV REGION)
Анотація. Пропонується застосувати двоетапний кластерний підхід до дослідження динаміки викидів найпоширеніших забруднюючих речовин в атмосферне повітря Львівської області. Описано математичну модель. Виконано програмну реалізацію запропонованого підходу у середовищі Matlab 7.10.0 та представлено результати.
Ключові слова: кластеризація, алгоритм k-середніх, карта Кохонена, що самоорганізується, атмосферне повітря, викиди забруднюючих речовин.
Аннотация. Предлагается использовать двухэтапный кластерный подход к исследованию динамики выбросов наиболее распространенных загрязняющих веществ в атмосферный воздух Львовской области. Описана математическая модель. Выполнена программная реализация предложенного подхода в среде Matlab 7.10.0 и представлены результаты.
Ключевые слова: кластеризация, алгоритм k-средних, самоорганизующаяся карта Кохонена, атмосферный воздух, выбросы загрязняющих веществ.
Summary. We propose to apply the two-stage cluster approach for the investigation of the dynamics in emissions of the most common pollutants into the atmosphere in Lviv region. The mathematical model was described. The implementation of the proposed approach was performed in the Matlab 7.10.0 environment and the results were presented.
Кеу words: clustering, k-means algorithm, Kohonen’s self-organizing maps, the atmosphere air, emissions of pollutants.
Постановка проблеми. Екологічна ситуація на планеті з кожним роком ускладнюється. Це пов’язано з високою концентрацією промислового виробництва, розвиненою транспортною інфраструктурою, появою нових технологічних процесів, тощо. Все це призводить до значного забруднення довкілля. Це підкреслює актуальність проблематики розроблення та застосування алгоритмів, засобів та інформаційних технологій для проведення ефективного, точного і достовірного оцінювання стану якості навколишнього середовища.
Атмосфера – одна з найважливіших складових довкілля. Вона надійно захищає живі організми від космічного й ультрафіолетового випромінювання, визначає загальний тепловий режим поверхні Землі, впливає на кліматичні умови, регулює кількість сонячної енергії, необхідної для життя. Спостереження за змінами стану атмосфери є надзвичайно важливим, оскільки допомагає оцінити можливі наслідки цих змін та вчасно реагувати на них [1].
У роботі представлено один із підходів до аналізу динаміки викидів найпоширеніших забруднюючих речовин в атмосферне повітря, який ґрунтується на застосуванні методу кластеризації до даних, що описують викиди від стаціонарних та пересувних джерел.
Аналіз останніх досліджень та публікацій. Мета кластерного аналізу полягає в пошуку наявних структур, що виражається в утворенні груп схожих між собою об'єктів – кластерів. Водночас його дія полягає й у привнесенні структури в досліджувані об'єкти. Отже, методи кластеризації необхідні для виявлення структури в даних, яку нелегко знайти при візуальному обстеженні або за допомогою експертів [6].
Теоретичним аспектам застосування кластерного аналізу присвячені наукові праці багатьох вітчизняних і закордонних вчених, зокрема Н. Бидголі, Н.А. Мікула, М.І. Мельник, М. Портер, Т.Харріс, С.Л. Шульц, Л. Янг та ін. ( [2], [6], [8], [11]). Ці та інші автори сформували математичну базу для використання кластерного аналізу в різних галузях.
Аналіз літературних джерел показав, що в багатьох країнах світу вже існує позитивний досвід застосування можливостей кластерного аналізу при дослідженні параметрів довкілля, а в Україні він знаходиться на ранній стадії застосування.
Мета дослідження: застосування кластерного підходу для оцінювання тенденції зміни забруднення атмосферного повітря від стаціонарних та пересувних джерел у Львівській області за даними 2013-2015 років. Вхідні дані отримано з офіційного сайту Регіональної статистики Львівщини [4] та Регіональної доповіді про стан навколишнього природного середовища у Львівській області в 2015 році [3]. У таблиці 1 наведено перелік використаних у дослідженні показників найпоширеніших забруднюючих речовин.
Таблиця 1
Показники викидів забруднюючих речовин
|
|
|
|
|
|
|
|
|
|
|
Опис кластерного підходу. Дослідження проводиться двоетапним методом, який передбачає послідовне застосування карт Кохонена, що самоорганізуються (KSOM), та алгоритму k-середніх (Рис.1). KSOM дає можливість зменшити вимірність багатовимірних вхідних даних та відобразити кластери на карті, тому його обрано для попередньої обробки даних – зменшення розмірності, перегрупування та візуалізації. Основними перевагами даного методу є економія часу в обчисленнях великих і складних наборів даних [9] та отримання точніших результатів кластеризації [11], [9].
Рис.1. Застосування двоетапного підходу до кластеризації
(складено авторами на основі [7]).
Таким чином, пропонується застосувати двоетапний підхід для аналізу динаміки зміни забруднення атмосферного повітря.
На основі [8] розроблена така матриця вхідних даних P:
де - об’єкти (райони) в часі t,
- k-й параметр в часі t,
– значення параметра
для і-го об’єкту
,
– j-й клас визначений для i-го об’єкту
,
- i-й вхідний образ,
– вектор параметрів.
Коротко розглянемо принцип роботи даного методу. KSOM [11] базується на конкурентному принципі навчання, складається з вхідного шару (кількість нейронів відповідає кількості ознак об’єкта) та вихідного або конкурентного (кількість нейронів відповідає кількості кластерів). Вектор вхідних даних розподіляється на вхідному шарі карти. Далі обчислюються відстані dj між вхідним вектором
і векторами ваг wi,j для усіх нейронів конкурентного шару:
(2)
де j проходить s нейронів конкурентного шару, j=1,2,…,s, - і-й образ, і=1,2,…, n,
– синаптичні ваги. Вибирається нейрон переможець j* (BMU), для якого відстань
є мінімальною. Коли
визначені, кожному вектору
присвоюється
нейрон переможець.
Після того, як усі BMU знайдені, відбувається адаптація синаптичних ваг. Принцип алгоритму послідовного навчання полягає у тому, що нейрони переможці та їх топологічні сусіди наближаються до фактичного вхідного вектора
відповідно до співвідношення:
(3)
де –– швидкість навчання, функція Гауса, яка визначається як
(4)
де - функція сусідства,
- Евклідова відстань нейронів j* та j на площині,
- розмір околу в момент часу t’.
Навчання проводиться доки карта ознак стабілізується, тобто значення вагових коефіцієнтів перестануть змінюються.
На другому етапі отримані топологічні координати KSOM передаються на вхід алгоритму k-середніх. Вхідна множина розбивається на K кластерів, та випадково обираються k об'єктів, в якості початкових центрів груп. Решту об'єктів присвоюються цим кластерам на основі мінімальної Евклідової відстані до центру:
(5)
де – значення центра кластера,
- значення нейронів переможців.
Далі розраховується середнє значення кожного кластера для знаходження нових центрів. Алгоритм працює доти, поки центри груп не перестануть змінюватися.
Перевагами такого підходу є простота та швидкість використання, зрозумілість і прозорість алгоритму. Недоліками є чутливість до вибору початкових значень центрів кластерів та труднощі, пов’язані з визначенням прогнозованої кількості кластерів.
Виклад основних результатів. Здійснено кластеризацію районів Львівської області за показниками викидів найпоширеніших забруднюючих речовин у атмосферне повітря. Для отримання результатів використано такі програмні засоби: інструментарій SOM Toolbox, середовище Matlab 7.10.0 [5].
На рис.2 представлена KSOM у вигляді U-матриці, яка показує область Евклідових відстаней між
та відображає багатовимірні вхідні дані на двовимірній карті. На отриманій карті проводилась кластеризація районів алгоритмом k-середніх. Виявлено чотири групи з різними показниками стану якості атмосферного повітря (див. рис.3).
За розташуванням районів на карті можна оцінити динаміку зміни кількості викидів забруднюючих речовин в атмосферу. Ті що, знаходяться внизу карти, характеризуються найбільшою кількістю викидів, тобто гіршим станом якості повітря. Верхня частина карти, відповідно, показує райони з найменшою концентрацією шкідливих домішок.
Наприклад, Миколаївський район впродовж трьох років належить до трьох різних кластерів. Причому, в межах досліджуваного періоду, спостерігається тенденція до зниження кількості викидів (значно зменшилися викиди SО2 та NО2).
Найбільший відсоток забруднення атмосферного повітря області спостерігається у Сокальському, Жидачівському, Миколаївському, а також у Кам’янка-Бузькому районах. В одну групу їх об’єднує значне збільшення у 2015 році викидів неметанових летких органічних сполук від стаціонарних джерел забруднення.
Рис.2. U-матриця Евклідових відстаней (1-ий етап).
Рис.3. Результати кластеризації алгоритмом k-середніх (2-ий етап).
Пустомитівський, Яворівський та Жовківський райони (кластер 3) характеризуються збільшенням викидів шкідливих речовин (SО2 та CO) в атмосферу стаціонарними джерелами забруднення та зменшенням викидів від пересувних засобів.
У Перемишлянському, Турківському, Сколівському та інших районах (кластер 2) спостерігається найменша кількість викидів забруднюючих речовин і зміни стану атмосферного повітря є незначними.
Числовими характеристиками якості отриманих результатів є помилка квантування (QE) і топографічна помилка (TE) [9].
(6)
За параметром QE (6) оцінимо якість апроксимації вхідних даних нейронною мережею після навчання. Отримане значення .
За значенням топографічної помилки оцінимо якість впорядкування нейронів у ґратці, тобто невідповідність між розташуванням нейронів нейромережевої ґратки та особливостями вхідних даних. Менше значення цього параметру свідчить про кращу впорядкованість нейронів навченої мережі. TE обчислимо за формулою:
(7)
де - координати нейрона найкращого наближення,
- координати другого нейрона найкращого наближення. Розраховане значення
Одержані значення параметрів QE та TE свідчать про адекватність отриманих результатів.
Висновок. Для оцінювання тенденції зміни забруднення атмосферного повітря від стаціонарних та пересувних джерел у Львівській області застосовано двоетапний підхід до кластеризації, який передбачає послідовне застосування карт Кохонена, що самоорганізуються, та алгоритму k-середніх.
Отримані результати свідчать, що виявлено кластери із найвищими показниками викидів забруднюючих речовин і тенденцією до їх зростання. Тобто такі райони Львівської області як Кам’янка-Бузький, Яворівський, Сокальський та Жидачівський потребують особливої уваги у сфері екологічної політики та розроблення природоохоронних заходів.
Література: