Романенко Л. А. Інтегрування алгоритму розподіленого машинного навчання і механізму диференціації конфіденційності в систему краудсенсінгу // Міжнародний науковий журнал "Інтернаука". — 2019. — №3.
Технічні науки
УДК 004.4
Романенко Лев Анатолійович
бакалавр програмної інженерії
Національного технічного університету України
«Київський політехнічний інститут імені Ігоря Сікорського»
Романенко Лев Анатольевич
бакалавр программной инженерии
Национального технического университета Украины
«Киевский политехнический институт имени Игоря Сикорского»
Romanenko Lev
Bachelor of software engineering
The National Technical University of Ukraine
«Igor Sikorsky Kyiv Polytechnic Institute»
ІНТЕГРУВАННЯ АЛГОРИТМУ РОЗПОДІЛЕНОГО МАШИННОГО НАВЧАННЯ І МЕХАНІЗМУ ДИФЕРЕНЦІАЦІЇ КОНФІДЕНЦІЙНОСТІ В СИСТЕМУ КРАУДСЕНСІНГУ
ИНТЕГРИРОВАНИЯ АЛГОРИТМА РАСПРЕДЕЛЕННОГО МАШИННОГО ОБУЧЕНИЯ И МЕХАНИЗМА ДИФФЕРЕНЦИАЦИИ КОНФИДЕНЦИАЛЬНОСТИ В СИСТЕМУ КРАУДСЕНСИНГА
INTEGRATING DISTRIBUTED MACHINE LEARNING ALGORITHM AND DIFFERENTIAL PRIVACY MECHANISM INTO THE CROWDSENSING SYSTEM
Анотація. Портативні інтелектуальні пристрої такі як мобільні телефони зі вбудованими сенсорами і доступом в інтернет стали основою всіх інтелектуальних особистих гаджетів. Велика кількість пристроїв мають можливість колективно збирати і виконувати обробку даних в безпрецедентних масштабах. В даній роботі представлене програмне забезпечення що зберігає конфіденційність машинного навчання для групи смартфонів що дозволяє вирішити широкий спектр проблем пов’язаних з машинним навчанням групи пристроїв з диференціальними умовами конфіденційності. Система надає можливість навчати класифікатори чи програми прогнозування онлайн, на даних з краудсенсінгу, приватно та з мінімальними обчислювальними затратами на пристроях та серверах.
Ключові слова: краудсенсінг, диференціальна приватність, машинне навчання.
Аннотация. Портативные интеллектуальные устройства такие как мобильные телефоны со встроенными сенсорами и доступом в интернет стали основой всех интеллектуальных личных гаджетов. Большое количество устройств имеют возможность коллективно собирать и выполнять обработку данных в беспрецедентных масштабах. В данной работе представлено программное обеспечение сохраняющая конфиденциальность машинного обучения для группы смартфонов, которое позволяет решить широкий спектр проблем, связанных с машинным обучением группы устройств с дифференциальными условиями конфиденциальности. Система предоставляет возможность обучать классификаторы или программы прогнозирования онлайн, на данных из краудсенсингу, приватно и с минимальными вычислительными затратами на устройствах и серверах.
Ключевые слова: краудсенсинг, дифференциальная приватность, машинное обучение.
Summary. Portable intelligent devices such as mobile phones with built-in sensors and Internet access have become the basis of all intelligent personal gadgets. A large number of devices have the ability to collectively collect and perform data processing on an unprecedented scale. In this paper, a software that preserves the confidentiality of machine learning for a group of smartphones is presented, which allows solving a wide range of problems related to machine learning of a group of devices with differential privacy conditions. The system provides the ability to teach classifiers or forecasting programs online, on cursor data, privately and with minimal computing costs on devices and servers.
Key words: crowdsensing, differential privacy, machine learning.
Краудсенсінг
Розумні пристрої стають все більш поширеними в повсякденному житті. Ці пристрої характеризуються вбудованими датчиками (наприклад, акселерометри, камери, мікрофони), обчислювальною здатністю і підключення до Інтернету за допомогою бездротового зв'язку або стільникових мереж. До них відносяться стаціонарні пристрої, наприклад прилади розумного дому або мобільні пристрої, такі як смартфони. Все більше і більше пристроїв поєднуються між собою, це явище називають «інтернетом речей». Взаємозв'язок надає можливості для груп розумних пристроїв колективно обмінюватися і обробляти дані на безпрецедентних масштабах. Запропоновано різні застосування краудсенсінгу, включаючи моніторинг особистого здоров'я / фітнесу, екологічні зондування та моніторинг дорожніх умов. Список стрімко продовжується розширюватися.
Краудсенсінг використовується в основному для збору та аналізу сукупних даних з групи учасників. Однак, можна виконати більш складні та корисні завдання поза розрахунком сукупної статистики, за допомогою алгоритмів машинного навчання на даних краудсенсінгу. Приклади таких завдань включають:
Алгоритми і типи даних для даних завдань є різні, але всі вони можуть бути навчені стандартно без контролю навчання або під контролем: враховуючи сенсорні дані (час, розташування, рух, заміри датчиків навколишнього середовища тощо), тренується алгоритм або модель, яка може точно передбачити змінну вподобань (установка температури, поточна активність користувача, трафік, аудіо події тощо). Умовно, краудсенсінг і машинне навчання виконується у вигляді двох окремих процесів: збирання і відправлення даних до центрального агрегатора та процеси аналізу або навчання що виконуються на сервері.
Конфіденційність
Конфіденційність є важливою проблемою для додатків, що займаються збором даних. Забезпечуючи конфіденційність учасників, краудсенсінг-система може об'єднати більшу кількість потенційних учасників, що підвищує корисність такої системи. Однак багато систем краудсенсінгу описаних в джерелах не використовують жодного механізму збереження конфіденційності. Протягом останнього десятиліття популярності набула диференційна конфіденційність як формальний показник ризику втрати конфіденційності даних. В загальному, диференціальна конфіденційність вимірює, як в значній мірі результат процедури змінюється ймовірнісно присутністю або відсутністю якого небуть об’єкта в оригіналі даних [1, с. 83]. Ця міра забезпечує верхню границю втрати конфіденційності незалежно від яких небуть попередніх значень що може мати зловмисник [2, с. 23]. В той час як диференціальна конфіденційність була оприлюднена в наукових виданнях і використана в машинному навчанні у неї не було широкого застосування в системах краудсенсінгу. В цій статті інтегрується диференціально-конфіденційні механізми в краудсенсінг системах, які мають змогу забезпечити надійний захист від різних способів атак.
Схема роботи системи
Система складається з сервера і декількох інтелектуальних пристроїв (смартфонів), здатних до збору сенсорних даних, чисельних обчислень та комунікацій з сервером за допомогою глобальної мережі інтернет. Мета роботи - навчання класифікатора або прогнозу вподобань на даних зібраних за допомогою декількох пристроїв. Широкий діапазон класифікаторів або предикторів можна навчати шляхом загального методу статистичного навчання пов'язаного з даним завданням - мінімізації емпіричного ризику. Нехай буде вектором обробки даних з сенсорів, (аудіо, відео, акселерометр і т.д.), а - цільова змінна, ціль якої зробити передбачення з, наприклад діяльність користувача. Для регресії, y може бути дійсним числом, а для класифікації – дискретна мітка з C класами. Дані визначаємо як пар (ознака вектора, цільова змінна), що генеруються i.i.d. від невідомого розподілу усіма пристроями, що беруть участь, до наступного:
(1)
Припустимо, що ми використовуємо класифікатор / предиктор з змінним параметром вектора, і функцією втрат для вимірювання продуктивність класифікатора / предиктора по відношенню до істинної цілі. Широкий спектр алгоритмів навчання може бути представлений, наприклад, регресія, логістична регресія, і машина опорних векторів. Якщо там є розумних пристроїв, ми знаходимо оптимальні параметри класифікатора/предиктора шляхом мінімізації емпіричного ризику усіх пристроїв:
(2)
де - набір вибірок, створених тільки з пристрою, і є виразом регуляризації. Ця функція ризику (2) може бути мінімізована за допомогою багатьох методів оптимізації. У цій роботі використовуємо стохастичний (суб) градієнтний спуск (СГС) [3, c. 34], який є одним з найпростіших методів оптимізації і також підходить для широкомасштабного навчання. СГС мінімізує ризик оновленням w послідовно
(3)
де - швидкість навчання, а – градієнт функція втрати
(4)
оцінюється зразком і поточним параметром. Будемо вважати, що параметр домену є -мірним кулька деякого великого радіуса, а проекція. За замовчуванням ми використовуємо швидкість навчання
(5)
де - постійний гіперпараметр. При обчисленні градієнтів, використовується "мініатюр" з b вибірок для обчислення усереднений градієнт
(6)
який відіграє важливу роль у компромісі продуктивність-конфіденційність і масштабованості. У ПЗ ризик мінімізації за допомогою СГС здійснюється шляхом розподілу основного навантаження (= обчислення усереднених градієнтів) до пристроїв. Важливо те, що кожен пристрій генерує дані та обчислює градієнти використовуючи власні дані. Робочий процес описаний на
Механізм конфіденційності
У системах краудсенсінгу особисті дані користувачів можуть втратити конфіденційність багатьма шляхами. Наприклад системні адміністратори або аналітики можуть навмисно “зливати” інформації або ж витік може статися при публікації аналітики даних. Також існують більш складні шляхи втрати конфіденційності даних, наприклад перехоплення пристроями що маскуються під штатні, за допомогою хакерських даних що в процесі роботи системи зберігаються на сервері або підслуховуванням між пристроями і серверами.
Замість того, щоб розробляти окремий механізм захисту для кожного типу атаки, в статті розробляється єдиний локальний метод який буде реалізований на кожному пристрої для всіх типів атак. Даний алгоритм обробляє певним чином дані перед тим як вони покинуть пристрій.
Локальний механізм враховує, що зловмисник потенційно може отримати доступ до всіх переданих даних між пристроями і сервером, що також включає інші типи атак. Це через те що дані:
Нехай локальна -диференціальна приватність буде кількісною мірою конфіденційності. Формально, «рандомізований» алгоритм, який приймає дані в якості вхідних і вихідних даних називається -диференціальною приватністю, якщо
(7)
для всіх вимірюваних діапазону виходу і для всіх наборів даних і відрізняються одним елементом [1]. Тобто, навіть якщо зловмисник має всі дані, за винятком одного елемента, це не дозволяє аналізувати одиницю даних з виводу алгоритму. Менше робить такий висновок більш складним, і тому робить алгоритм більш зберігаючим приватність. Коли алгоритм виводить реальний вектор, його глобальна чутливість може бути визначена шляхом
(8)
де - норма. Основний результат з визначення диференціальної приватності є те, що вектор-функція з чутливість може бути зроблена -диференційно-приватною шляхом додавання незалежного шумового вектора Лапласа, де
(9)
У даній системі розглядається -диференційна конфіденційність будь-якого одного (особливість, мітка) - прикладу, виявленого за допомогою комунікації між усіма пристроями і сервером, які є градієнтами, числа зразків, число неправильно класифікованих зразків , і мітки, обчислюються як . Кількість необхідного шуму залежить від вибору функцій втрати.
Рис. 1. Мультикласова логістична регресія
Це значення обчислюється для багатокласової логістичної регресії (рис 1), але вона може бути обчислена аналогічно для інших функцій втрат. Додаючи елементарно незалежний шум Лапласа до усереднених градієнтів
(10)
існує така гарантія конфіденційності:
Теорема 1 (усереднене градієнтне збурення). Передача за формулою. (10) -диференційно приватний.
Для захисту даних, додаємо дискретний шум Лапласа наступним чином:
(11)
(12)
Де. Ці механізми мають такі гарантії конфіденційності:
Теорема 2 Передача за формулами. (11) і (12) – диференційно приватні, відповідно.
Практично, системний адміністратор вибирає в залежності від бажаного рівня конфіденційності для зібраних даних. Невеликої можна використовувати для даних, які користувачі вважають дуже приватними, наприклад поточне місце знаходження, а також великий для менш приватних даних, таких як температура навколишнього середовища.
Висновки. Дана система інтегрує алгоритми розподіленого навчання і механізми диференціації конфіденційності в систему краудсенсінгу. Загалом, робота має такі наукові внески:
Література