Аннотация: Проанализированы, систематизированы и дополнены основные правила и рекомендации графического представления данных для улучшения восприятия информации, выявление закономерностей, обоснования ключевых выводов исследований. На примере рисунков из официальных источников информации, ппродемонстрированы преобразования по приведенным правилам, указаны основные недостатки, визуально искажают восприятие приведенной информации.
Ключевые слова: графический метод, статистический график, статистическая диаграмма, правила построения графиков, соотношение данные-чернила, графическое мусора, точечная диаграмма, секторная диаграмма, столбиковая диаграмма.
Економічні науки
УДК 311:338
Марець Оксана Романівна
кандидат економічних наук, доцент кафедри статистики,
Львівський національний університет імені Івана Франка
Вільчинська Оксана Миколаївна
кандидат економічних наук, доцент кафедри статистики
Львівський національний університет імені Івана Франка
Марец Оксана Романовна
кандидат экономических наук, доцент кафедры статистики,
Львовский национальный университет имени Ивана Франко
Вильчинская Оксана Николаевна
кандидат экономических наук, доцент кафедры статистики,
Львовский национальный университет имени Ивана Франко
Marets O.
Candidate of Economic Sciences, Associate Professor,
Ivan Franko National University of Lviv, Lviv, Ukraine
Vilchynska O.
Candidate of Economic Sciences, Associate Professor,
Ivan Franko National University of Lviv, Lviv, Ukraine
ПРЕДСТАВЛЕННЯ СТАТИСТИЧНОЇ ІНФОРМАЦІЇ ЗА ДОПОМОГОЮ ГРАФІЧНОГО МЕТОДУ
ПРЕДСТАВЛЕНИЕ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ ГРАФИЧЕСКОГО МЕТОДА
GRAPHICAL METHOD FOR DATA PRESENTATION
Анотація: Проаналізовано, систематизовано та доповнено основні правила та рекомендації до графічного представлення даних задля покращення сприйняття інформації, виявлення закономірностей, обґрунтування ключових висновків досліджень. На прикладі рисунків з офіційних джерел інформації продемонстровано перетворення за наведеними правилами, вказано основні недоліки, що візуально спотворюють сприйняття наведеної інформації.
Ключові слова: графічний метод, статистичний графік, статистична діаграма, правила побудови графіків, співвідношення дані-чорнило, графічне сміття, точкова діаграма, секторна діаграма, стовпчикова діаграма
Аннотация: Проанализированы, систематизированы и дополнены основные правила и рекомендации графического представления данных для улучшения восприятия информации, выявление закономерностей, обоснования ключевых выводов исследований. На примере рисунков из официальных источников информации, ппродемонстрированы преобразования по приведенным правилам, указаны основные недостатки, визуально искажают восприятие приведенной информации.
Ключевые слова: графический метод, статистический график, статистическая диаграмма, правила построения графиков, соотношение данные-чернила, графическое мусора, точечная диаграмма, секторная диаграмма, столбиковая диаграмма
Annotation: The basic rules and recommendations for data graphical representation to improve the perception of information, identifying patterns, study key findings of research are analyzed, systematized and supplemented. Graphs from official sources are taken and rules were supplemented to its transformation. Main shortcomings that visually distort the perception of given information are shown.
Keywords: graphical method, statistical graphs, statistical chart, сhart making rules, data-ink ratio, chart junk, dot chart, pie chart, column chart
Значення графічного методу у наукових та практичних дослідженнях перебільшити важко. Візуалізація даних і результатів їх аналізу нині є невід’ємною частиною роботи з інформацією. Використання графічного методу покращує сприйняття числової інформації, дозволяє бачити закономірності, обґрунтовувати ключові висновки досліджень тощо.
У англомовній науковій літературі використання графічного методу досліджують досить детально. Це монографії про принципи побудови графіків [1, 2], дослідження, присвячені помилкам при їх побудові [3, 4, 5], праці графічних дизайнерів про шляхи поліпшення привабливості візуалізацій [6], дослідження науковців про графічний метод у розділах статистики під назвою «Описова статистика» та «Аналіз даних» [7, 8].
Проте стандарти побудови статистичних графіків дуже відрізняються між собою, а у вітчизняній науці практично відсутні. Йдеться про принципи відбору типів діаграм для відображення різних даних, правила використання та розташування тексту, геометричних знаків, кольорів та відтінків тощо. Некоректне використання будь-якого з компонентів графічного методу може призвести до спотворення інформації або ж зробити візуалізацію беззмістовною.
Метою цієї статті є окреслити правила для побудови статистичних графіків та показати приклади їх застосування.
Перш за все з’ясуємо термінологію. У науковій літературі зустрічаємо різні терміни для подання даних: візуалізація, інфографіка, графік, діаграма. Отже, найбільш загальним поняттям є візуалізація – це візуальне представлення числових та нечислових даних. Розрізняють математичні, наукові, інформаційні та ін. візуалізації. Терміном інфографіка здебільшого позначають роботи публіцистичного чи розважального характеру. Поряд у цьому умовному поділі є статистичні графіки (наочне представлення інформації за допомогою геометричних форм та кольорів), які поділяють на діаграми та статистичні карти.
Правила побудови графіків у працях вчених та дослідників мають вигляд загальних рекомендацій [4, 5, 9, 10] та чітких практичних вказівок [11, 12].
Американський статистик Едвард Тафті у своїх працях з інформаційного дизайну стверджує, що досконалий статистичний графік представляє собою сукупність думок, донесених ясно, точно і результативно.
Графічне представлення інформації повинне ([13]):
- показувати дані;
- відкрити користувачу основну ідею, подану на графіку, а не акцентувати на його дизайні, способі розташування інформації, технології виробництва тощо;
- не викривляти дані;
- вмістити множину чисел у малому просторі;
- логічно впорядкувати великі обсяги інформації;
- спростити для користувача порівняння різних фрагментів даних;
- представити дані на кількох рівнях деталізації, від загального огляду до деталей та дрібниць;
- слугувати простій меті: описувати, досліджувати, зводити до таблиці чи прикрашати;
- бути єдиним цілим із статистичним та словесним описом даних.
Тафті також є автором терміну співвідношення "дані-чорнило" (data-ink ratio). Це відношення чорнила, яке на графіку показує дані, до всього чорнила, використаного у візуалізації. Таким чином використання всього зайвого створює т.зв. графічне сміття (chartjunk) і зменшує співвідношення "дані-чорнило".
Проте Тафті дав дуже широке означення терміну «графічне сміття». Нещодавні дослідження [14] свідчать про те, що вдало підібрані графічні прикраси можуть підвищити ефективність візуалізації через зацікавлення та залучення уваги користувача, змусити його розглядати та читати візуалізацію. Крім того, вдало підібрана графічна метафора може слугувати потужним мнемонічним інструментом та змусить запам’ятати інформацію значно краще, ніж це зробить проста діаграма. Тут хочемо підкреслити, що йдеться про розумно підібраний та якісний допоміжний графічний матеріал.
При виборі типу графіка для візуалізації необхідно відштовхуватися перш за все від того, що саме має показувати візуалізація – структуру, динаміку, порівняння. Одна із схем, що допомагає визначитись із вибором діаграми залежно від потреб візуалізації поділяє всі функції графіків на: порівняння, розподіл, структуру, взаємозв’язки та ін. [15, 16].
Крім того, варто згадати дослідження Вільяма С. Клівленда та Роберта МакГілла [3], які на основі експериментальних досліджень сформулювали базові рекомендації щодо вибору форми візуалізації, яку найкраще сприймають користувачі.
Вони склали перелік методів візуалізації – від тих, що найкраще представляють дані та дають можливість легко їх порівняти, до тих, які найгірше представляють дані та ускладнюють порівняння:
1. Позиція об'єктів відносно спільної системи координат (наприклад, точкова діаграма).
2. Позиція об'єктів відносно різних систем координат (наприклад, множинні точкові діаграми).
3. Довжина (наприклад, стовпчикова діаграма).
4. Кут та нахил (наприклад, секторна діаграма).
5. Площа (наприклад, бульбашкова діаграма).
6. Об'єм, щільність та насиченість кольором (наприклад, фонова картограма).
7. Відтінок кольору (наприклад, newsmap).
Зауважимо, що цей рейтинг був викладений у статті 1984 року і вже виникають зауваження, що ці висновки досліджень двадцятирічної давності нині потребують доповнення.
Щодо вибору діаграм варто ще згадати працю Джина Желязни “Говори мовою діаграм”, де він виділяє п'ять основних типів порівнянь, якими виражають дані. Залежно від обраного типу порівняння Желязни радить використовувати певні типи діаграм (зазначає при цьому, що вибір типу діаграми – дуже неточна наука). Це:
З огляду на опрацьовані джерела стосовно побудови графіків, статистичні визначення та власний досвід, ми сформулювали наступні правила:
Розглянемо основні види графіків: точкову, секторну та стовпчикову. Їх перевагою є простота та зрозумілість, до них всі звикли, їх легко побудувати в програмі Excel та прочитати. Проте незважаючи на цю простоту помилки при їх представленні допускають досить часто.
Точкова діаграма.
Відповідно до класифікації Клівленда та МакГілла вона є найбільш інформативна. При її побудові дані показують у вигляді набору точок, положення кожної з них визначає значення на горизонтальній та вертикальній осях. Варіаціями цієї діаграми є:
Отже, основними функціями точкової діаграми є відображення взаємозв’язків, закономірностей та динаміки. Останнім часом її використовують для різного роду порівнянь за допомогою графіка-нахилу (slopegraph) та гантельок (dumbbell dot).
У деяких випадках (наприклад при порівняннях) використання ліній для поєднання точок цієї діаграми не має обґрунтування. Наприклад на рис. 1 її використовують щоб порівняти статеву структуру студентів вищих навчальних закладів за різними галузями знань. На графіку маємо: дві криві лінії, синього та рожевого кольорів, які перетинаються у трьох місцях. І це зображення зовсім не має змісту.
Рис.1. Точкова діаграма.
Джерело: [17, С. 45]
Крім того: назва не відображає суті даних – тут подано структуру студентів за галузями знань, а в назві цього не вказано (п. 1.1 запропонованого вище переліку правил); текст розташований вертикально, щоб його прочитати треба докладати зусиль (п. 1.4); числові значення категорій то збільшуються то зменшуються (п. 2.2); для розрізнення категорій тут використовується колір, маркери зайві (п. 2.5); використання кольорів не продумане для позначення жінок використано синій колір, а для позначення чоловіків – рожевий, хоча логічніше було б навпаки (п. 3.1, 3.3); рамки легенди та самої діаграми не мають змісту (п. 4.2).
Ми пропонуємо: дати текст горизонтально; змінити кольори; категорії відсортувати за зростанням чи спаданням одного з числових показників; забрати рамки.
Покажемо декілька варіантів представлення цих даних. Перший з них – гантельки (dumbbell dot) – ми перевернули вихідну діаграму і розташували підписи даних всередині точок. Точки навпроти кожної з галузей знань розташовані відповідно до величини частки відносно горизонтальної осі. Вони з’єднані щоб показати, що цих два числа формують одну структуру (рис. 2). Суцільна лінія вказує на переважання частки жінок в структурі, пунктирна – переважання частки чоловіків (цей висновок користувач має зробити самостійно).
Рис. 2. Порівняння структури з двох елементів за допомогою гантельок.
Складено автором на основі: [17, С. 45]
Другий, зрозуміліший варіант – традиційна кумулятивна нормована стовпчикова діаграма (рис. 3).
Рис. 3. Порівняння структури з двох елементів за допомогою кумулятивної нормованої стовпчикової діаграми.
Складено автором на основі: [17, С. 45]
Зауважмо, що аналітичні властивості такої діаграми обмежені лише порівнянням структури в розрізі одного часового періоду – вона не дає жодної інформації про обсяги явищ. Проте за допомогою практично такого ж графіка можна дати значно більше інформації.
Як відомо, відносні величини володіють більшою аналітичною цінністю в аналізі – вони дозволяють бачити обсяги явищ у прийнятних для сприйняття числах і дозволяють легко зробити порівняння. Проте їх варто використовувати разом з абсолютними, на основі яких вони розраховані. Представити на одному графіку відносні величини структури та абсолютні обсяги явища можна за допомогою кумулятивної стовпчикової діаграми (рис. 4).
Рис. 4. Порівняння структури з двох елементів за допомогою кумулятивної стовпчикової діаграми.
Складено автором на основі: [18, С. 14-16]
Категорії на рис. 4 подано за зменшенням загальної кількості студентів, на неї вказують позначки на горизонтальній осі.
Легко відслідкувати відмінності між категоріями можна лише для частини сукупності, яка починається від осі. Наступні частини починаються в різних місцях і порівняти обсяги важче. Якщо сукупність складається з двох структурних частин можна застосувати стовпчикову діаграму «спина до спини» (back-to-back bar) (рис. 5).
Рис. 5. Порівняння структури з двох елементів за допомогою стовпчикової діаграми «спина до спини».
Складено автором на основі: [18, С. 14-16]
Розглянемо ще один випадок – використання лінійної діаграми для вивчення динаміки (рис. 6).
Рис. 6. Лінійна діаграма з нерівновіддаленими інтервалами.
Джерело: [19, C. 58]
Грубим порушенням при побудові діаграми на рис. 4 є різні часові інтервали на горизонтальній осі. Через це з’єднання перших двох точок дає драматичний нахил. Крім того, хочемо зауважити, що використання різноманітних маркерів (наприклад Ó¢¿) також не має змісту, гострі кути на них відволікають увагу, створюють графічне сміття. Якщо на графіку треба представити дані з різними маркерами рекомендуємо використовувати різні варіації кола (рис. 7).
Рис. 7. Графік-нахил з трьома наборами даних
Джерело: [21, C.302]
Секторна діаграма.
Дуже популярна діаграма, яку використовують для представлення структури явища за допомогою поділу кола на пропорційні сектори. Кожна довжина дуги є частиною кожної категорії, повне коло представляє суму всіх даних або 100%. Секторні діаграми дають можливість користувачу досить швидко оцінити пропорції між даними. Водночас це діаграма, яку критикують найбільше (наприклад у [20]). Основними недоліками їх є:
Дуже часто для представлення секторних діаграм використовують маркування різного кольору і трьохвимірний ефект (рис. 8). Це, на нашу думку даремні витрати чорнила, які не мають ніякого змісту: естетичний ефект від їх використання є досить сумнівний.
Рис. 8. Секторна діаграма з 3D ефектом
Джерело: [22, С. 8]
Тож для покращення вигляду цієї діаграми варто подати її у двовимірному варіанті, забрати візерунки і змінити кольори на чорно-білу палітру (як на рис. 9).
Дуже часто замість секторних діаграм радять використовувати стовпчикові, множинні секторні та стовпчикові, стовпчикові кумулятивні або графік-нахил [4]. Покажемо як будуть виглядати дані з рис. 8 у стовпчиковій кумулятивній діаграмі (рис. 9). Ми не наполягаємо на тому, що це найкращий варіант представлення цих даних. Проте тут ми керувалися тут тим, що підписи категорій досить місткі (і не варто забувати, що їх треба подавати максимально лаконічно). Наприклад, найдовший з них в оригіналі мав вигляд «на І курсах ВНЗ, які здійснюють підготовку фахівців на основі базової загальної середньої освіти» (83 символи), ми сформулювали як «І-ші курси ВНЗ*, які готують фахівців з базовою загальною середньою освітою» (75 символів). Крім того, ми додали зноски, щоб розшифрувати умовні скорочення. Стовпчикова діаграма залишає у полі діаграми достатньо місця щоб розташувати ці величезні позначення.
Рис. 9. Нормована стовпчикова діаграма
Складено автором на основі: [22, С. 8]
Стовпчикова діаграма.
Для побудови класичної стовпчикової діаграми використовують горизонтальні або вертикальні смуги щоб показати відмінності між обсягами номінальних, порядкових та дискретних даних (для представлення інтервальних даних використовують гістограми та лінійні діаграми).
Недоліком стовпчикової діаграми є те, що за великої кількості категорій їх підписи займають на графіку багато місця.
Головною вимогою до побудови стовпчикової діаграми є початок вертикальної осі з 0. Її недотримання є основною причиною викривлення інформації. Візуально спотворюють сприйняття інформації також недотримання масштабу, навмисне подання даних на контрасті тощо. Крім того, є ще інші способи перекручувати інформацію.
Розглянемо рис. 10. Маємо дві стовпчикові діаграми, одна з них показує найбільші від’ємні абсолютні прирости експорту (з лівого боку), друга – найбільші додатні абсолютні прирости експорту (з правого боку). Формально кожен з них побудований правильно. Якщо ці стовпчикові діаграми подавати в аналізі окремо, їх можна залишати без змін. Розташування ж їх поряд є грубим порушенням через невідповідність масштабу. На перший погляд видається, що зменшення обсягу експорту до Російської Федерації є співмірним збільшенню обсягу експорту до Таїланду. Детальніший аналіз числових значень абсолютних приростів показує, що зменшення обсягу експорту до Російської Федерації у 34 рази перевищує збільшення обсягу експорту до Таїланду.
Рис. 10. Стовпчикові діаграми з різними шкалами.
Джерело: [23]
Продемонструємо як буде виглядати графік побудований за наведеними нами правилами (п. 2.1 – дотримання пропорцій). На рис. 11 одразу видно, що обсяг експорту до країн, в які експорт збільшився найбільше (права частина), є значно меншим за обсяги експорту до країн, з найбільшим спаданням експорту (ліва частина), що підтверджено числовими значеннями абсолютних приростів експорту.
Рис. 11. Стовпчикові діаграми
Складено автором на основі [24]
Таким чином ми продемонстрували важливість дотримання пропорцій у представленні даних, особливо, якщо їх використовують для порівняння.
Висновки
Отже, неодмінним і дуже важливим етапом побудови графіка є вибір його типу. І тут слід керуватися не лише особливостями вихідної інформації, яку треба показати, а і те, яким чином сприймаються графічні образи, обрані для візуалізації.
Обов’язковими елементами графіка є його назва, одиниці виміру, назви осей, умовні позначення та джерело даних. Тип графіка слід обрати відповідно до виду даних, мети дослідника та рівня сприйняття користувачами тих чи інших графічних образів. Представлення інформації повинне бути максимально лаконічним – від основної ідеї не повинні відволікати ні надмірний текст, ні зайві лінії, ні зайва кількість знаків після коми, ні 3-D ефект. Крім того, варто дотримуватися низки інших правил, щоб у найпростішій та найбільш об’єктивній формі подати графічне зображення досліджуваного явища.
Основними, найбільш поширеними та перевіреними часом типами графіків є: точкова, секторна та стовпчикова. Найчастіше при їх побудові зустрічаються такі помилки: з’єднання точок відрізками прямої коли це не завжди потрібно (точкова); використання трьохвимірного ефекту (секторна та стовпчикова), порушення пропорцій між вихідними даними через маніпуляції з осями (стовпчикова).
Література: