Аль-Абабнех Х. А. Оценка производительности веб-ориентированных компьютерных систем с использованием статистических гипотез // Международный научный журнал. — 2016. — №6.
УДК 004.77
Хасан Али Аль-Абабнех
кандидат технических наук
Hassan Ali al-Ababneh
Ph.D.
ОЦЕНКА ПРОИЗВОДИТЕЛЬНОСТИ ВЕБ-ОРИЕНТИРОВАННЫХ КОМПЬЮТЕРНЫХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ ГИПОТЕЗ
Аннотация: Описаны результаты оценки производительности при передаче веб-ориентированными системами различного рода контента (текстовая аудио- и видеоинформация, архивированные данные). Выполнен статистический анализ полученных результатов, проведена сравнительная характеристика полученных зависимостей с аналогичными, полученными ранее, на фоне обновления архитектурных характеристик серверных компьютерных систем.
Ключевые слова: статистические гипотезы, веб-ориентированные компьютерные системы, контент, нагрузка.
Summary: The results of the performance evaluation for the transmission of various types of content by web-based systems (text audio and video information, archived data) are described. The statistical analysis of the obtained results is performed, the comparative characteristics of the obtained dependences are compared with those obtained earlier, against the background of updating the architectural characteristics of the server computer systems.
Keywords: statistical hypotheses, web-oriented computer systems, content, load.
Постановка проблемы. На сегодняшний день, благодаря широкому распространению веб-приложений и росту популярности веб-ресурсов, практически все компьютерные системы также являются веб-ориентированными. Такие системы определенно серверные и при работе с веб-ресурсами обладают соответственным «запасом прочности» производительности и отказоустойчивости.
Не смотря на экспоненциальный рост технических характеристик серверов и серверных систем, вопросы производительности продолжают оставаться актуальными. При этом статические параметры компьютерной системы, такие как скорость обработки и передачи информации, объемы памяти для ее хранения, не являются определяющими для подбора оптимальных параметров системы. Для определения производительности компьютерных систем необходимо учитывать целый ряд дополнительных параметров, таких как, например, адаптивность поведения, возможность тонкой настройки (программно-аппаратной) для, например, минимизации затрат памяти, конфигурирование серверов различных типов, и пр. Однако и этого не всегда достаточно, поскольку в данном вопросе важно оценить нагрузочную способность системы в зависимости от плотности контента [1].
Анализ последних исследований и публикаций. В работах [2, 3] рассмотрены различные подходы к решению проблемы обеспечения заданной производительности веб-ориентированных компьютерных систем. При этом было отмечено, что для успешных решений задач производительности, необходимо выделить достаточные условия для реализации численных моделей инфраструктуры с использованием адекватных моделей возможных рабочих нагрузок.
Формулировка целей статьи (постановка задачи) заключается в определении целесообразности применения статистических гипотез при оценке производительности компьютерных систем.
Изложение основного материала. Оценки производительности веб-ориентированных компьютерных систем принято представлять в виде данных (утверждений), характеризующих свойства распределения наблюдаемых в эксперименте случайных величин. Это и есть принцип статистических гипотез, которые делят на следующие виды: однородности, если имеется две или более выборок случайных величин; независимости, если имеется выборка многомерной случайной величины; случайности, если есть предположения о наличии в последовательности наблюдений систематических изменений; о виде распределения, если есть предположения о законе распределения случайной величины (рис. 1).
Проверка статистической гипотезы состоит в том, чтобы сформулировать такое правило, которое позволило бы по результатам проведенных наблюдений принять или отклонить гипотезу. Правило, согласно которому гипотеза принимается или отвергается, называется критерием проверки статистической гипотезы [4, с. 257–264].
Рис.1 Классификация статистических гипотез
При планировании архитектуры серверной системы важную роль играет вид используемого контента.
Для исследования зависимости объема файла и объема страницы сайта от вида контента были выбраны наиболее типичные виды контента:
– текстовые;
– тексто-графические (в том числе на основе формата pdf);
– графические (преимущественно на основе jpg);
– аудио (mp3 и wma);
– видео (преимущественно на основе flv).
В качестве инструмента для проведения экспериментов был выбран Интернет-браузер Opera, позволяющий анализировать состояние кэш-памяти браузера в процессе исследования с целью сбора необходимой статистической информации.
Сбор статистических параметров проводился по двум основным показателям:
1. Объем информационного файла (носитель информации).
2. Общий объем страницы информационного сайта (в совокупности со всеми сопутствующими файлами).
Объектом для исследований текстового формата была выбрана электронная библиотека Lib.ru (Библиотека Машкова). В ходе исследований оценивался объем отдельно текстового файла и совокупный объем страницы с ресурсом. Результаты оценки производительности при передаче веб-ориентированными системами текстовой информации представлены на рис. 2, 3.
Рис. 2 Гистограмма размера текстового файла (на примере сайта Lib.ru)
Рис. 3 Гистограмма размера страницы с текстовым контентом (на примере сайта Lib.ru)
Рис. 4 Гистограмма размера графического файла (на примере сайта bestwallpapers.net.ru)
Объектом для исследований графического формата был выбран типичный сайт содержащий широкоформатные изображения высокого разрешения, предназначенные для использования в качестве заставок рабочего стола ОС Windows XP/Vista – bestwallpapers.net.ru. В ходе исследования оценивался объем графического файла и совокупный объем страницы с ресурсом. Результаты представлены на рис. 4, 5.
Рис. 5 Гистограмма размера графического файла (на примере сайта bestwallpapers.net.ru)
Объектом для исследований аудио-ресурсов был выбран сайт 6rb2d.com как яркий представитель соответствующих ресурсов сети Интернет. В ходе исследования объем ресурса и аудиофайла оценивался отдельно. Результаты представлены на рис. 6, 7.
Объектом для исследований видео формата был выбран сайт YouTube.com. В ходе исследования оценивался объем видеофайла и совокупный объем страницы с ресурсом.
Для текстовых ресурсов дополнительно был исследован вариант, когда текстовые файлы представлены в архивированном виде. В этом случае было получено экспоненциальное распределение.
Рис. 6 Гистограмма размера страницы с графическим контентом (на примере сайта bestwallpapers.net.ru)
Рис. 7 Гистограмма размера аудиофайла (на примере сайта 6rb2d.com)
На рис. 2–10 приведены также результаты аналогичных исследований (графики в меньшем масштабе), проведенных ранее (в 2008 г.) и опубликованных в работе [1]. Повторное исследование с учетом современных компьютерных систем, с существенно отличающимися параметрами 2008 года, теме не менее, позволяет утверждать в справедливости полученной статистической гипотезы.
Рис. 8 Гистограмма размера страницы с аудиоконтентом (на примере сайта 6rb2d.com)
Статистический анализ данных велся с помощью программы STATISTICA 7.0. В работе подбиралось распределение, которое с достаточной степенью точности описывает наблюдаемые данные. Таким образом, проверялась гипотеза, согласно которой распределение Х описывается вероятностным законом F.
Наиболее показательным критерием согласия наблюдаемых данных с гипотезой является критерий хи-квадрат (Пирсона). Для применения этого критерия область значений переменной Х вначале была разбита на некоторое число интервалов N, содержащих не менее семи чисел.
Затем подсчитывалось число наблюдений, попавших в i-й интервал, что обозначалось как. Полученное значение сравнивалось со средней или ожидаемой при гипотезе частотой, обозначенной как.
Рис. 9 Гистограмма размера видеофайла (на примере сайта YouTube.com)
Статистика хи-квадрат вычислялась следующим образом:
В этой формуле суммирование распространяется на все интервалы, на которые разбита область значений переменной. При этом сравнивались наблюдаемые и ожидаемые частоты. Статистика принимает значения от нуля до бесконечности. Чем меньше значение статистики хи-квадрат, тем более вероятно, что гипотеза верна, чем больше значение статистики хи-квадрат, тем меньше вероятность того, что гипотеза соответствует данным.
Исходя из вышеизложенного статистика хи-квадрат – это разумная мера согласия (соответствия) данных с гипотезой. Для девяти распределений, изображенных на рис. 2.9-2.17, степени свободы составили 9, 11, 10, 6, 8, 8, 11, 10, 7 соответственно, уровень значимости 0.09. В соответствии с и из выбирались критические значения распределения хи-квадрат и сравнивались с рассчитанными значениями Для всех девяти распределений выполняется условие и, следовательно, данные согласуются с гипотезой о законе распределения.
Рис. 10 Гистограмма размера страницы с видеоконтентом (на примере сайта YouTube.com)
Выводы из данного исследования и перспективы дальнейших исследований в данном направлении. В ходе анализа, на основе вышеизложенных критериев, сделан вывод о том, что распределение большинства исследованных величин подчиняется нормальному закону. Полученные результаты вполне согласуются с тем, что нормальное распределение является краеугольным камнем математической статистики в силу следующих причин:
Рис. 11 Гистограмма размера текстового файла, представленного в архивированном виде
Таким образом, можно сделать следующие выводы о массивах полученных экспериментальных данных:
В ряде случаев (текстовые ресурсы) было получено экспоненциальное распределение, часто встречающееся в теории надежности и в теории массового обслуживания. Например, наработка на отказ большой многокомпонентной системы может быть описана экспоненциальным распределением при любом распределении наработки на отказ компонентов системы.
Литература:
References: