Оцінювання якості зображення в системах цифрового телебачення зі стисненням у форматі Mpeg-4
формат програма visual part
Введення
Термін здачі студентом закінченої роботи “7”червня 2010р
Вихідні дані до роботи метод стиснення зображень у форматі MPEG-4, методи вимірювання якості зображень - суб'єктивні та об'єктивні, об'єктивні метрики - PSNR, MSAD, SSIМ (визначаються кількісні або (та) якісні показники, яким повинен відповідати об'єкт проектування наукового дослідження).
Перелік питань, які мають бути розроблені (формулюється у повному обсязі керівником ДР із попереднім узгодженням (за необхідності) з консультантами з окремих питань і може бути структурований за розділами (частинами): основний, охорона праці тощо); формулювання питань повинно починатися словами: “Розробити...”, Обґрунтувати...”, “Оптимізувати...”, “Провести аналіз...”, “Розрахувати...” тощо):
а) основна частина Охарактеризувати особливості формату стиснення MPEG-4 Part 2; проаналізувати відмінності між MPEG-4 VIsual і Н.264; проаналізувати об'єктивні та суб'єктивні методи оцінювання якості відео зображень; провести експериментальні вимірювання якості відеозображень, стиснутих у форматі MPEG-4
б) охорона праці розробити заходи з забезпечення безпечних умов праці на робочому місці .
Перелік графічного (ілюстративного) матеріалу (із зазначенням обов'язкових креслень, плакатів)
1-ий плакат- MPEG-4 .
2-ий - методи вимірювання якості зображень (класифікація) .
3-ій - результати дослідження .
Консультант:
з питань охорони праці к.т.н., доцент Козлов С.С.
Дата видачі завдання “9” березня 2010р.
Таблиця. КАЛЕНДАРНИЙ ПЛАН-ГРАФІК виконання дипломної роботи Студенткою Клименко Л.Г.
№ з/п |
Назва етапів роботи та питань, які мають бути розроблені відповідно до завдання |
Термін виконання |
Позначки керівника про виконання завдань |
|
1 |
Аналіз літературних джерел |
17.03.2010 |
||
2 |
Огляд формату стиснення MPEG-4 Visual |
10.04.2010 |
||
3 |
Огляд формату стиснення H.264/MPEG-4 Part10 |
20.04.2010 |
||
4 |
Порівняння MPEG-4 VIsual і Н.264 |
1.05.2010 |
||
5 |
Огляд об'єктивних методів оцінювання якості відеозображень |
7.05.2010 |
||
6 |
Огляд суб'єктивних методів оцінювання якості відеозображень |
14.05.2010 |
||
7 |
Експериментальні вимірювання якості відеозображень, стиснутих у форматі MPEG-4 |
27.05.2010 |
||
8 |
Оформлення пояснювальної записки |
30.05.2010 |
||
9 |
Підготовка та оформлення плакатів для доповіді |
5.06.2010 |
Реферат
Атестаційна бакалаврська робота містить основну частину на аркушах, ілюстрацій, таблиці, додаток.
Метою роботи є ознайомлення з форматами стиснення родини MPEG-4 (MPEG-4 part 2 та MPEG-4 part 10/AVC/ H.264), дослідження існуючих методів оцінки якості відеозображення та практичне застосування обробленої інформації.
Методом дослідження є кодування відеозображень кодеками mpeg-4 і x264 з різними коефіцієнтами стиснення та оцінення якості відеозображень за допомогою програми MSU Video Quality Measurement Tool.
В результаті виконання атестаційної бакалаврської роботи було досліджено ефективність стиснення зображення в форматі MPEG-4.
Галузь застосування: системи цифрового телебачення.
Отримані практичні результати дозволять зробити висновок про якість стиснення зображення форматами MPEG-4, що формат стиснення MPEG-4 part 10/AVC/ H.264 має вищі показники якості .
MPEG-4, ОБ'ЄКТИВНІ МЕТОДИ ОЦІНКИ ЯКОСТІ ЗОБРАЖЕННЯ, КОДУВАННЯ, PSNR, ШВИДКІСТЬ ПЕРЕДАЧІ, H.264, MPEG-4 VISUAL, ЦИФРОВЕ ТЕЛЕБАЧЕННЯ.
Annotation
Structure of the work: pages, illustrations, tables, 1 appendix.
The topic of this work is: Image quality assessment in the digital broadcasting systems with MPEG-4 compression.
The objective is to acquaint the family with compression formats MPEG-4 (MPEG-4 part 2 and MPEG-4 part 10/AVC / H.264), study of existing video quality assessment methods and practical application of the processed information.
Research method is coding video codecs mpeg-4 and x264 with different compression ratio and video quality assessment using MSU Video Quality Measurement Tool .As a result of certification bachelor work was to study the effectiveness of image compression in MPEG-4.
Application: digital television system.
MPEG-4 builds on the proven success of three fields: Digital television, Interactive graphics applications (synthetic content), Interactive multimedia (World Wide Web, distribution of and access to content).
MPEG-4 provides the standardized technological elements enabling the integration of the production, distribution and content access paradigms of the three fields.
MPEG-4 Visual is the global multimedia standard, delivering professional-quality audio and video streams over a wide range of bandwidths, from cell phone to broadband and beyond.
Because of its exceptional performance and quality, Advanced Video Coding (AVC) is at the core of the MPEG-4 specifications and is the video codec of choice for Internet, wireless and television systems. AVC provides video encoding that compresses much more efficiently than older formats yet delivers quality rivaling that of uncompressed DVD video.
Таблиця. Перелік умовних позначень, символів, одиниць, скорочень та термінів
БН |
- |
Будівельні норми |
|
ГДК |
- |
Гранично допустима концентрація |
|
ГНТП |
- |
Галузеві норми технологічного проектування |
|
ДКП |
- |
дискретне косинусне перетворення |
|
ЕВМ |
- |
електромагнітне випромінювання |
|
МДУ |
- |
Московський Державний Університет |
|
НРВ |
- |
Невибухових руйнуючих речовина |
|
ПУЕ |
- |
Правила улаштування електроустановок |
|
AVC |
- |
Advanced Video Coding, просунуте кодування відео |
|
BFM |
- |
Brightness Flicking Metric, метрика мерехтіння між кадрами |
|
CABAC |
- |
Context-adaptive binary arithmetic coding, контекстнозалежне адаптивне бінарне арифметичне кодування |
|
CAVLC |
- |
Context-adaptive variable-length coding, контекстнозалежне адаптивне кодування із змінною довжиною кодового слова |
|
DCT |
- |
Discrete cosine transform, дискретне косинусне перетворення |
|
DFM |
- |
Drop Frame Metric, метрика пропущених кадрів |
|
DivX, XviD |
- |
кодеки стандарту MPEG4 |
|
DPCM |
- |
Differential Pulse Code Modulation, диференційна імпульсно-кодова модуляція |
|
DSCQS |
- |
Double Stimulus Continuous Quality Scale, метод двосторонньої шкали непевної якості |
|
DSIS |
- |
Double Stimulus Impairment Scale, двостороння шкала впливу |
|
DV |
- |
Digital video, цифрове відео |
|
FMO |
- |
Flexible Macroblock Ordering, гнучкий макроблок |
|
H.264 |
- |
стандарт стиснення відео |
|
IEC |
- |
International Electrotechnical Commission, Міжнародна електротехнічна комісія |
|
ISO |
- |
International Organization for Standanlization, міжнародна організаця по стандартизації |
|
ITU |
- |
International Telecoininunication Union, робоча група міжнародного союзу по телекомунікаціях |
|
MAD |
- |
Median absolute deviation,медіана абсолютного відхилення |
|
MBAFF |
- |
MB-level adaptive frame/field, адаптивне до макроблоків кодування полів |
|
MPEG-2, MPEG-4 |
- |
Moving Picture Experts Group, Експертна група з питань рухомого зображення, назва групи стандартів цифрового кодування |
|
MSAD |
- |
Modified sum of absolute difference, середньоквадратична абсолютна різниця |
|
MSUCQE |
- |
MSU Continuous Quality Evaluation Метод непевного оцінювання якості МДУ |
|
NAL |
- |
Network abstraction level, рівень мережної абстракції |
|
NEМ |
- |
Noise Estimation Metric, метрика оцінки рівня шуму |
|
PAFF |
- |
Picture-adaptive frame-field coding, адаптивне кодування полів зображення |
|
PC |
- |
Personal computer, персональний комп'ютер |
|
PCM |
- |
Pulse-code modulation, імпульсно-кодова модуляція |
|
PSNR |
- |
Реak-To-Реak Signal-To-Noise Ratio, міра відношення сигналу до шуму |
|
RGB |
- |
Red, green, blue, червоний, зелений і синій - колірна модель |
|
SAMVIQ |
- |
Subjective Assessment Multimedia Video Quality, метод суб'єктивного оцінювання якості мультимедійного відео |
|
SCACJ |
- |
Stimulus Comparison Adjectival Categorical Judgement, метод двостороннього оцінювання та порівняння за категоріями |
|
SCD |
- |
Scene Change Detector Метрика моментів зміни сцени |
|
SSIM |
- |
Structural similarity, метрика структурної схожості |
|
VCEG |
- |
Video Coding Experts Group,група експертів по відео кодуванню |
|
VO |
- |
Video object, відеооб'єкт |
|
VOP |
- |
video object plane, площина відеооб'єкту |
|
VQM |
- |
Video quality model, модель оцінки якості відео |
|
YUV |
- |
колірна модель, де колір представляється як 3 компоненти - яскравість (Y) і дві колірні компоненти(U і V). |
Вступ
Актуальність теми. Особливістю відеоданих, являється дуже великий об'єм. Спеціалісти в області стиснення даних, вже протягом багатьох років працюють над покращенням ефективності алгоритмів стиснення відеоінформації. В наш час є дуже велика необхідність передавати великі об'єми відеоінформації по супутникових і кабельних мережах - постала задача оптимізації способів кодування відеоданих.
На сьогоднішній день MPEG-2 - це стандарт цифрового кодування аудіо і відео сигналів, який використовується більшістю операторів супутникового телебачення для передачі сигналів абонентам. Черговим витком у розвитку алгоритмів відеокомпрессіі став стандарт MPEG-4. Спочатку він призначався для передачі потокового відео по низькошвидкісних каналах, але так само знайшов застосування і в цифровому телебаченні. MPEG-4 все ще знаходиться на стадії розробки і ділиться на декілька частин, ключовими частинами стандарту MPEG-4 Visual part 2 та MPEG-4 part 10/AVC/ H.264. Дані формати мають певні відмінності, які впливають на якість стиснутих ними відеооданних.
Мета. Ознайомитися та дослідити існуючі методи оцінки якості зображення і, таким чином, провести експеримент, в якому зробити аналіз якості відеозображення стиснутого у форматах MPEG-4 Visual та H.264.
Задачею дослідження є виконання наступного завдання:
– ознайомитись з форматами стиснення MPEG-4 Visual та H.264
– проаналізувати існуючі методи оцінки якості зображення;
– провести експеримент,в якому оцінити якість зображення стиснутих відео зображень;
– на основі отриманих даних, зробити висновки.
Об'єктом дослідження є два формати стиснення зображення (MPEG-4 Visual part 2 та H.264), які дуже широко використовуються у наш час.
Методом дослідження, що використовується для виконання поставлених завдань є кодування відеозображень кодеками mpeg-4 і x264 з різними коефіцієнтами стиснення та оцінення якості відеозображень за допомогою програми MSU Video Quality Measurement Tool.
Практичне значення отриманих результатів. На основі проведених експериментів підтверджено тезу про те, що відео, закодоване за допомогою кодера H.264/MPEG-4 Part 10, має вищу якість, ніж відео, закодоване за допомогою кодера MPEG-4 Visual Part2.
1. Особливості формату стиснення MPEG-4 Visual
1.1 Огляд формату стиснення MPEG-4 Visual
Стандарт ISO/IEC 14496 Part 2 [1] (MPEG-4 Visual) поліпшив популярний стандарт MPEG-2 в двох напрямах. В ньому була підвищена ефективність стиснення (більше стиснення при тих же параметрах якості зображення) і збільшена гнучкість та здатність охоплювати більше застосувань. Цього було досягнуто двома основними шляхами: використанням покращеного алгоритму компресії і забезпеченням широкого набору інструментів для кодування і роботи з оцифрованим відеоматеріалом. Стандарт MPEG-4 Visual складається з деякої базової моделі кодера/декодера і безлічі додаткових інструментів кодування. Базова модель заснована на гібридному кодеку DPCM/DCT. Базові функції цієї моделі були розширені модулями, що підтримують, окрім інших можливостей, вдосконалений механізм стиснення, надійність передачі даних, роздільне кодування форм і об'єктів візуальних сцен, стиснення на основі сіткового подання і модель анімації осіб та фігур людей.
MPEG-4 Visual (Part 2 ISO/IEC 14496, кодування аудіовізуальних об'єктів) описує досить широкий клас функцій, які відносяться до кодування і подавання візуальної інформації. Стандарт використовує такі типи даних:
- зображення, що рухаються (прямокутні кадри):
- відеооб'єкти (області довільної форми з предметами, що рухаються);
- двомірні і тривимірні сіткові об'єкти (об'єкти, що деформуються);
- анімовані особи і фігури людей;
- статичні текстури (нерухомі зображення).
Стандарт описує безліч інструментів кодування, які розроблені для представлення цих типів даних в стислому (кодованому) вигляді. Маючи різноманітні сімейства інструментів, стандарт MPEG-4 Visual може підтримувати різні застосування, включаючи наступні (але не обмежуючись тільки ними):
- основні відеозастосування, такі як цифрове телемовлення, відеоконференції і зберігання відео;
- відеозастосування на основі об'єктів, в яких відеосцена скомпонована різними відеооб'єктами, закодованими незалежно один від одного;
- подавання комп'ютерної графіки з використанням двомірної і тривимірної сіткової геометрії і анімованих осіб та фігур людей, що деформуються;
- гібридні відеозастосування, в яких комбінуються природні відеосцени, нерухомі зображення і графіка, що була згенерована комп'ютером;
- потокове відео, яке передається через Інтернет і канали мобільного зв'язку:
- високоякісна відеопродукція, що виготовляється і поширюється для студійного використання.
Не зважаючи на вражаюче різноманіття інструментів, що задаються стандартом, в основі MPEG-4 Visual лежить досить простий механізм відеокодування - використовується кодек на основі блоків з компенсацією руху і з подальшим ДКП, квантуванням та ентропійним кодуванням. Синтаксис цього базового кодека (при деяких обмеженнях) ідентичний ядру Н.263. Решту функцій і інструментів, що підтримуються стандартом, можна отримати додаванням деяких деталей за винятком інструментів кодування сіток, нерухомих зображень і параметрів анімації осіб та фігур, які розробляються окремо.
1.2 Особливості MPEG-4 Visual
В стандарті MPEG-4 Visual зроблено спробу задовольнити досить широке коло вимог для різних комунікаційних відеозастосувань на основі модульних інструментів кодування візуальної інформації.
Перерахуємо деякі особливості MPEG-4 Visual, що відрізняють цей стандарт від його попередників.
1. Ефективне стиснення прогресивної і черезрядкової розгортки натуральних відеопослідовностей (компресія послідовностей прямокутних кадрів). Ядро механізму стиснення засноване на стандарті ITU-T Н.263 і воно перевершує за цим показником стандарти MPEG-1 і MPEG-2. Додаткові функції ще більше підвищують ступінь компресії.
2. Кодування відеооб'єктів (областей відеосцен, що мають неправильну форму). Це нова концепція для кодування стандартного відео. Вона дозволяє, наприклад, кодувати об'єкти переднього і заднього плану на відеосцені незалежно один від одного.
3. Підтримка ефективної передачі через реальні канали зв'язку і мережі. Механізм, стійкий до помилок, дозволяє декодеру виправляти помилки передачі і зберігати гарний відеозв'язок при передачі через неабсолютно надійні канали, а кодування, що масштабується, дає можливість використовувати гнучку схему передачі на різних бітових швидкостях.
4. Кодування нерухомих зображень (текстур). Це означає, наприклад, що нерухомі зображення можна кодувати і передавати в тих же рамках, що і відеопослідовності, що рухаються.
5. Інструмент текстурного кодування також зручний в поєднанні з анімованим затушовуванням (рендерингом) відеосцен.
6. Кодування об'єктів анімації на основі двомірних і тривимірних полігональних сіток, анімації осіб і фігур людей.
6. Кодування для спеціальних застосувань типу «відео студійної якості». В таких застосуваннях на перший план виходить візуальна якість, а не ступінь стиснення відеоряду [2].
1.3 Профілі MPEG-4 Visual
Конкретна реалізація цього стандарту ґрунтується на використанні одного або декількох стандартних профілів. В доповнення до модулів, що кодують природний відеоматеріал (зйомку навколишнього світу), стандарт MPEG-4 Visual визначає безліч профілів для кодування интетичних (що згенерували комп'ютером, штучних) візуальних об'єктів на основі двомірних і тривимірних сіток та моделей людських фігур і осіб.
Маловірогідно, що більшості конкретних застосувань знадобиться весь арсенал інструментів і модулів MPEG-4 Visual, тому стандарт описаний у вигляді сімейства профілів, тобто груп інструментів, що рекомендуються для конкретних типів застосувань. Прикладами різних профілів служать: простий (мінімальний набір інструментів для не дуже складних застосувань), базовий і основний (з функціями для кодування відеооб'єктів довільної просторової форми) і простий розширений (забезпечуючий поліпшене стиснення, але має велику складність реалізації).
MPEG-4 Visual забезпечує функції кодування за допомогою комбінування інструментів, об'єктів і профілів. Інструмент - це підмножина функцій кодування для підтримки специфічних дій (наприклад, базове відеокодування, черезрядкова відеоформа кодованого об'єкту і т.д.). Об'єкт - це елемент відео (наприклад, послідовність прямокутних кадрів, областей довільної форми або нерухоме зображення), який кодується за допомогою одного або декількох інструментів. Наприклад, простий відеооб'єкт кодується із застосуванням обмеженої підмножини функцій (інструментів), що забезпечує обробку прямокутних кадрів, базовий відеооб'єкт кодується інструментами для роботи з областями неправильної форми і т.д. Профіль це безліч типів об'єктів, які буде обробляти даний кодек.
Таблиця 1.1 Профілі MPEG-4 Visual для кодування звичайного відео
Профілі MPEG-4 |
Характерні риси |
|
Простий |
Нескладне кодування прямокутних відеокадрів |
|
Простий розширений черезрядкового відео |
Кодування прямокутних відеокадрів з поліпшеним стисненням і підтримкою |
|
Простий розширений в реальному часі |
Кодування прямокутних відеопотоків в реальному масштабі часу |
|
Базовий |
Базове кодування для відеооб'єктів довільної форми |
|
Основний |
Всеохоплююче кодування відеооб'єктів |
|
Підвищеного ступеня стиснення |
Високоефективне кодування відеооб'єктів |
|
N-бітовий |
Кодування відеооб'єктів з кількістю розрядів квантування, відмінною від 8 біт |
|
Простий масштабований |
Кодування прямокутних відеокадрів, що масштабуються |
|
Дрібнозернистої масштабованості |
Розширене кодування прямокутного відео, що масштабується |
|
Базовий масштабований |
Маштабоване кодування довільних відеооб'єктів |
|
Масштабованих текстур |
Маштабоване кодування нерухомих текстур |
|
Розширений масштабованих текстур |
Маштабовані нерухомі текстури з поліпшеним стисненням і з використанням об'єктів |
|
Базовий розширений |
Комбінація можливостей простого, базового n-розширеного профілю масштабованих текстур |
|
Простий студійний |
Об'єктно-орієнтоване кодування відеопослідовностей високої якості |
|
Базовий студійний |
Об'єктно-орієнтоване кодування відеопослідовностей з поліпшеним стисненням |
В табл.1.1 перераховані всі профілі для роботи з природними відеосценами, починаючи з простого профілю (кодування прямокутних кадрів), за яким ідуть профілі для обробки відеообластей будь-якої форми і для масштабованого кодування, і закінчуючи профілями для кодування відео студійної якості. В табл. 1.2 даний список профілів для кодування синтетичного відео (анімовані сіткові об'єкти і моделі осіб і фігур людей), а також гібридний профіль (в який вбудовані функціональні модулі для обробки і синтетичних, і натуральних відеосцен). Ці профілі не використовуються (на даний момент) для стиснення природного відео [2].
Таблиця 1.2. Профілі MPEG-4 Visual для кодування синтетичного і гібридного відео
Профіль MPEG-4 Visual |
Характерні риси |
|
Основний для анімації текстур |
Двомірне сіткове кодування нерухомих текстур |
|
Простий для анімації осіб |
Анімовані моделі осіб |
|
Простий для анімації осіб і фігур |
Анімовані моделі осіб і фігур |
|
Гібридний |
Комбінація можливостей простого, базового, основного для анімації текстур і простого профілю для анімації осіб |
Профілі є зручним механізмом для організації взаємодії між кодеками від різних виробників. В стандарті MPEG-4 Visual описано надзвичайно широке сімейство інструментів, і в конкретному комерційному кодеку не доведеться реалізувати всі ці інструменти. Натомість розробники кодека можуть вибрати деякий профіль, необхідний їм набір інструментів, для виконання поставленої задачі. Наприклад, відносно простий кодек для роботи на малопотужному процесорі може використовувати простий профіль, а при розробці кодека для роботи з потоковим відео можна вибрати простий розширений профіль в реальному часі і т.п. При цьому різні профілі використовуватимуться з різною частотою, і застосування на їх основі матимуть різну вагу на ринку відповідного програмного забезпечення. Простий і простий розширений профілі особливо популярні у виробників, тоді як профілі для кодування об'єктів довільної форми мають менший попит.
1.4 Відеооб'єкти
Однією з ключових новацій стандарту MPEG-4 Visual став відхід від традиційного уявлення про відеодані як про послідовність прямокутних відеокадрів. Натомість MPEG-4 Visual трактує відеопослідовність як сімейство, що складається з одного або декількох відеооб'єктів. В MPEG-4 Visual відеооб'єкт як пластичне єство, доступне користувачу, до якого він може звертатися, спостерігати і маніпулювати (вирізати і вставляти)[1]. Відеооб'єкт (VO, video object) це деяка область відеосцени, яка може заповнювати простір довільної форми і яка може існувати цілком визначений час. Реалізація або значення VO в деякий момент часу називається площиною відеооб'єкту (VOP, video object plane).
Стандарт MPEG-4 Visual підтримує кодування і представлення візуальних об'єктів з ефективною компресією і безприкладною гнучкістю. Різноманітний арсенал інструментів кодування, описаних в стандарті дає можливість підтримувати широкий діапазон застосувань, таких як ефективне стиснення відеокадрів, відеокодування для передачі по ненадійних мережах зв'язку, об'єктно-орієнтоване кодування і маніпуляція кодування синтетичних і гібридних штучних/натуральних сцен і високоінтерактивних відеокомунікацій.
Стандарт MPEG-4 продовжує розвиватися з додаванням нових інструментів (наприклад, профілів, що підтримують потокове відео). Проте серед розробників і виробників найпопулярнішими елементами MPEG-4 до останнього часу залишалися простий і простий розширений профілі. Крім того все більше проявляється потреба відеоіндустрії в ще більш ефективному кодуванні відео прямокутних форматів. Ця потреба разом з тривалим періодом невизначеності у зв'язку з патентами і ліцензіюючими випусками MPEG-4 Visual означає, що новий стандарт Н.264 має непогані шанси обійти на відеоринку стандарт MPEG-4 Visual.
2. Особливості формату стиснення H.264/MPEG-4 Part 10
2.1 Огляд формату стиснення H.264/MPEG-4 Part 10
Стандарт Н.264 має більш вузькі межі застосування в порівнянні з MPEG-4. Він був розроблений для ефективного кодування і перешкодостійкої передачі відео прямокутного формату. Його первинною задачею було забезпечення функціональності, схожої з Н.263+ і MPEG-4 Visual (простий профіль), але з кращим стисненням і з більш надійним механізмом передачі відеоданих. Цільові застосування включають двосторонні відеокомунікації (відеоконференції і відеотелефонія), кодування мережного широкомовлення, відео високої якості і організацію відеопотоків через мережі пакетної передачі даних. Підтримка стійкої передачі даних по мережах вбудована в стандарт, який розроблений так, щоб його можна було легко вбудовувати в різні комп'ютерні платформи. Цей стандарт отримав назву «просунуте кодування відео» AVC (Advanced Video Coding) і був опублікований одночасно як стандарт MPEG-4 Part 10 і як рекомендація ITU-T Н.264 [1, 3].
2.2 Термінологія
В стандарті Н.264 прийнята наступна важлива концептуальна термінологія.
При кодуванні напівкадру (черезрядкового відео) або кадру (прогресивного або черезрядкового відео) будується закодований знімок. Закодований кадр має номер (присутній в бітовому потоці), який не обов'язково відповідає хронологічному порядку декодування. Крім того, кожному закодованому черезрядковому напівкадру або прогресивному кадру привласнюється порядковий номер лічильника знімка, який визначає послідовність декодування напівкадрів або кадрів. Раніше закодовані знімки (посилальні знімки) можуть використовуватися для inter-прогнозування при кодуванні подальших знімків. Посилальні знімки організовані у вигляді одного або двох списків (безлічі номерів, відповідних посилальним знімкам), які позначаються як список 0 і список 1. Закодований знімок складається з безлічі макроблоків, кожний з яких містить 16х16 семплів яскравості і відповідне число хроматичних семплів (8x8 семплів Cb і 8х8 семплів Cr для даного стандарту). Усередині кожного знімка макроблоки з'єднані в шари. Шар ця безліч макроблоків, розташованих в растровому порядку сканування. І-шар може складатися тільки з макроблоків типу I, Р-шар містить макроблоки типу Р і I, а В-шар - макроблоки типу В і I. (Крім цих існують ще два види шарів: SIшари і SPшари.
Макроблоки типу I прогнозуються в моді intra на основі закодованих семплів поточного шару. Прогноз формується або для всього макроблоку, або для кожного блоку семплів яскравості розміром 4 х 4 (і для асоційованих з ним семплів хроматичності) дані макроблоки.
Макроблоки типу Р прогнозуються в моді inter на основі посилальних знімків (одного або декількох). Закодовані в моді inter макроблоки можуть бути розділений на частини макроблоків, тобто на блоки семплів яскравості розміром 16х16, 16х8, 8х16 або 8x8 (і відповідні блоки хроматичних семплів). Якщо вибрано розділення розміром 8х8, то кожний підмакроблок 8x8 допускає подальше розділення на підмакроблоки 8x8, 8x4, 4x8 чи 4x4 (семплів яскравості і відповідне число семплів хроматичности). Кожна частина розділеного макроблоку може бути спрогнозований по одному знімку із списку 0. Якщо проводилося подальше розділення на підмакроблоки то вони прогнозуються на основі блоків того ж знімка нульового списку.
Макроблоки типу В прогнозуються в моді inter за допомогою посилальних знімків. При розділенні макроблоків на блоки їх можна прогнозувати поодинці або по двом посилальним знімкам: один береться із списку 0, а другий із списку 1. Якщо є подальше розділення на підмакроблоки, то прогноз робиться по тих же (одному або двом) посилальних знімках: один із списку 0, а другий із списку 1 [2].
2.3 Профілі і рівні
В стандарті Н.264 визначено три профілі, кожний з яких підтримує певний набір функцій кодування. Ці набори функцій визначають який потрібен вид кодера і декодера для його подальшого використання в даному профілі.
Базовий профіль підтримує моди кодування intra і inter (на основі І-шарів і Р-шарів) і ентропійне кодування за допомогою контекстно-адаптивних кодів змінної довжини CAVLC (Context-Adaptive Variable-Length Codes).
Основний профіль включає підтримку відео з черезрядковою розгорткою, кодування inter за допомогою В-шарів і зважене прогнозування, а також контекстне арифметичне ентропійне кодування САВАС (Context-based Adaptive Binary Arithmetic Coding).
Розширений профіль не підтримує черезрядкове відео і кодування САВАС, але в ньому є деякі моди, які дозволяють перемикатися між бітовими потоками (SP- і SI-шари) і підвищувати стійкість до помилок передачі (розділення даних). Потенційними сферами додатку базового профілю є відеотелефонія, організація відеоконференцій і безпроводових комунікацій. Потенційні застосування основного профілю включають телевізійне мовлення і зберігання відеоданих, а розширений профіль може виявитися корисним в додатках потокового медіа. Проте кожний профіль має достатню гнучкість для обхвату досить широкого кола застосувань, тому приведені вище приклади не слід вважати вичерпними [2].
2.4 Можливості
Стандарт H.264/AVC/MPEG-4 Part 10 містить ряд нових можливостей, що дозволяють значно підвищити ефективність стиснення відео в порівнянні з попередніми (такими, як ASP ) стандартами, забезпечуючи також велику гнучкість застосування в різноманітних мережних середовищах. Основні з них:
Багатокадровий прогноз. Використання стислих раніше кадрів як опорних (тобто із запозиченням частини матеріалу з них) куди більш гнучке, ніж в попередніх стандартах. Дозволяється використання до 32 посилань на інші кадри тоді як в ASP і більш ранніх посиланннях обмежено одним або, у разі B-кадрів, двома кадрами. Це підвищує ефективність кодування оскільки дозволяє кодеру вибирати для компенсації руху між великою кількістю зображень. В більшості сцен дана функція забезпечує не дуже велике поліпшення в якості і не дає помітного пониження бітрейта. Проте, для деяких сцен, наприклад, з частими ділянками, поворотно-поступальним рухом і т.п., що повторюються подібний підхід при збереженні якості дозволяє дуже сильно понизити витрати бітрейта.
Незалежність порядку відтворення зображень і порядку опорних зображень. В попередніх стандартах встановлювалася жорстка залежність між порядком проходження зображень при компенсації руху і порядком проходження зображень при відтворенні. В новому стандарті ці обмеження значною мірою усунені, що дозволяє кодеру вибирати порядок зображень для компенсації руху і для відтворення з високим ступенем гнучкості, яка обмежена тільки об'ємом пам'яті яка гарантує можливість декодування. Усунення обмеження також дозволяє у ряді випадків позбутися додаткової затримки, раніше пов'язаної з двонаправленим прогнозом.
Незалежність методів обробки зображень і можливості їх використовування для прогнозу руху. В попередніх стандартах зображення, закодовані з використанням деяких методів (наприклад, двонаправленого прогнозу), не могли використовуватися, як опорні, для прогнозу руху інших зображень відеопослідовності. Усунувши це обмеження, новий стандарт забезпечує кодеру велику гнучкість і у багатьох випадках можливість використовувати для прогнозу руху зображення, більш близьке за змістом до кодованого.
Компенсація руху із змінним розміром блоку (від 16x16 до 4x4 пікселя) дозволяє украй точно виділяти області руху.
Вектори руху, що ходять за межі зображення. В MPEG-2 і попередніх стандартах, вектори руху могли вказувати тільки на пікселі, які знаходяться у межах декодованого опорного зображення. Методика екстраполяції на межі зображення, що з'явилася як опція в H.263 , включена в новий стандарт.
Шеститочкова фільтрація компоненту яскравості для напівпіксельного прогнозу створена з метою зменшення зубчатості країв і забезпечення більшої чіткості зображення.
Точність до четверті пікселя (Qpel) при компенсації руху забезпечує дуже високу точність опису областей, що рухаються (що особливо актуально для повільного руху). Колірновість, як правило, зберігається з дозволом зменшеним удвічі по вертикалі і горизонталі (проріджування кольору) тому компенсація руху для компоненти колірновості використовує точність в одну восьму пікселя колірності.
Зважений прогноз, що дозволяє використовувати масштабування і зсув після компенсації руху на величини, вказані кодером. Така методика може надзвичайно сильно підняти ефективність кодування для сцен із зміною освітленості, наприклад, при ефектах затемнення, поступової появи зображення.
Просторовий прогноз від країв сусідніх блоків для I-кадрів (на відміну від прогнозу тільки коефіцієнта трансформації в H.263 + і MPEG-4 Part 2, і дискретно-косинусного коефіцієнта в MPEG-2 Part 2). Нова методика екстраполяції країв раніше декодованих частин поточного зображення підвищує якість сигналу, що використовується для прогнозу.
Стиснення макроблоків без втрат:
Метод представлення макроблоків без втрат в PCM, при якому відеодані представлені безпосередньо, він дозволяє точно описувати певні області і допускає жорстке обмеження на кількість закодованих даних для кожного макроблоку.
Поліпшений метод безпосереднього представлення макроблоків, що дозволяє точно описувати певні області, при цьому звичайно затративши істотно менше бітів, ніж PCM (підтримується не у всіх профілях).
Гнучкі функції черезрядкового стиснення (підтримується не у всіх профілях):
Адаптивне кодування полів зображення (PAFF), що дозволяє кодувати кожний кадр як поле або як пару полів (напівкадрів) - залежно від присутності/відсутності руху.
Адаптивне до макроблоків кодування полів (MBAFF), що дозволяє незалежно кодувати кожну вертикальну пару макроблоків (блок 16x32) як прогресивні або черезрядкові. Дозволяє використовувати макроблоки 16x16 в режимі розбиття на поля (порівняно з 16x8 напівмакроблоками в MPEG-2). Майже завжди ефективне PAFF.
Нові функції перетворення:
Точне цілочисельне перетворення просторових блоків 4x4 (концептуально подібне широко відомому DCT, але спрощене і здатне забезпечити точне декодування), дозволяю точно розміщувати різницеві сигнали з мінімумом шуму, яки часто виникає в попередніх кодеках.
Точне цілочисельне перетворення просторових блоків 8x8 (концептуально подібне широко відомому DCT, але спрощене і здатне забезпечити точне декодування; підтримується не у всіх профілях), забезпечує велику ефективність стиснення схожих областей, ніж 4x4.
Адаптивний вибір кодеком між розмірами блоку 4x4 і 8x8 (підтримується не у всіх профілях).
Додаткове перетворення Адамара, яке використовується до дискретно-косинусних коефіцієнтів основного просторового перетворення (до коефіцієнтів яскравості, і, в особливому випадку, колірності) для досягнення більшого ступеня стиснення в однорідних областях.
Квантування:
Логарифмічне управління довжиною кроку для спрощення розподілу бітрейта кодером і спрощеного обчислення зворотної довжини квантування.
Частотно-оптимізовані матриці масштабування квантування, вибрані кодером для оптимізації квантування на основі людських особливостей сприйняття ( підтримується не у всіх профілях).
Внутрішній фільтр деблокінга в циклі кодування, який знімає артефакти блоковості, які часто виникають при використанні заснованих на DCT-техніках стиснення зображень.
Ентропійне кодування квантованих коефіцієнтів трансформації:
Context-adaptive binary arithmetic coding (CABAC, контекстнозалежне адаптивне бінарне арифметичне кодування) - алгоритм стиснення без втрат для синтаксичних елементів відеопотоку на основі вірогідності їх появи. Підтримується тільки в Main Profile і вище. Забезпечує більш ефективне стиснення, ніж CAVLC, але вимагає значно більше часу на розшифровку.
Context-adaptive variable-length coding (CAVLC, контекстнозалежне адаптивне кодування із змінною довжиною кодового слова) - альтернатива CABAC меншої складності. Проте, воно складніше і ефективніше, ніж алгоритми, вживані для тієї ж мети в більш ранніх технологіях стиснення відео (як правило этоалгоритм Хаффмана ).
Часто використовуване кодування словами змінної довжини багатьох елементів синтаксису, не закодованого CABAC або CAVLC, просте і високо структуроване, відоме як коди Голомба (експоненціальне кодування Голомба).
Функції стійкості до помилок:
Визначення рівня мережної абстракції (NAL), що дозволяє використовувати один і той же синтаксис відео в різних мережних оточеннях, включаючи набори параметрів послідовності (sequence parameter sets, SPSs) і набори параметрів зображення (picture parameter sets, PPSs), які забезпечують велику надійність і гнучкість, ніж попередні технології.
Гнучке впорядковування макроблоків (FMO), також відоме як групи частин (підтримується не у всіх профілях) і довільне впорядковування частин (ASO) методи реструктурування порядку представлення фундаментальних областей (макроблоків) в зображеннях. При ефективному використанні гнучке впорядковування макроблоків може істотно підвищити стійкість до втрати даних.
Завдяки ASO кожна частина зображення може бути декодована незалежно від інших (при певних обмеженнях кодування), новий стандарт дозволяє посилати і одержувати їх у довільному порядку один щодо одного. Це може понизити затримку в додатках реального часу, особливо при використанні на мережах, що мають режим роботи доставка поза чергою. Ці функції можуть також використовуватися з різною метою, крім відновлення помилок.
Розбиття даних функція, що забезпечує розділення даних різної важливості (наприклад, вектори руху і інша інформація прогнозу має велику значущість для представлення відеоконтента) по різних пакетах даних з різними рівнями захисту від помилок (підтримується не у всіх профілях).
Надлишкові частини. Можливість посилки кодером надлишкового представлення областей зображень, дозволяючи відтворити області зображень (звичайно з деякою втратою якості), дані про які були втрачені в процесі передачі (підтримується не у всіх профілях).
Нумерація кадрів, що дозволяє створення «підпослідовностей» (включаючи тимчасове масштабування включенням додаткових кадрів між іншими) а також виявлення/утаєння втрат цілих кадрів при збоях каналу або зникнення пакетів [2].
Стандарт Н.264 забезпечує механізм для кодування відео, який оптимізований по ступені компресії. Його мета - задоволення багатьох вимог сучасних застосувань мультимедійних комунікацій. Діапазон доступних інструментів кодування є більш обмеженим в порівнянні із стандартом MPEG-4 Visual (через більш вузьке фокусування стандарту Н.264) проте в ньому є досить широкий спектр параметрів і стратегій кодування відеоконтента. Успіх конкретних реалізацій Н.264 (а також MPEG-4 Visual) залежить від ретельності розробки кодеків і ефективності вибору параметрів кодування.
3. Порівняння MPEG-4 Visual і Н.264
MPEG-4 Visual і Н.264 (Advanced Video Coding) є стандартами для кодованого представлення візуальної інформації. Кожний стандарт є документом, який перш за все дає визначення двом речам кодованому уявленню (або синтаксису), яке описує візуальні дані в стислій формі, і методу декодування для реконструкції візуальної інформації. Кожний стандарт має на своїй меті забезпечити злагоджену роботу кодера і декодера, надаючи розробникам свободу в створенні передових і конкурентоздатних продуктів. Зокрема, стандарти не визначають і не описують кодер, швидше, вони дають визначення вихідним даним які повинен проводити кодер. Метод декодування визначається в кожному стандарті, але виробники мають право розробляти альтернативні декодери до тих пір, поки вони дають на виході той же результат, що і стандартний метод.
MPEG-4 Visual (групи Part 2 стандартів MPEG-4) був розроблений групою експертів по зображеннях (Moving Picturc Experts Group, MPEG), що підпорядковуються, робочій групі Міжнародної організації по стандартизації (International Organization for Standanlization, ISO). Ця група, що складається з декількох сотень технічних експертів (привернутих з індустрії або з дослідницьких організацій), зустрічається з інтервалом в 2-3 місяці для розвитку ряду стандартів MPEG. Стандарт MPEG-4 був вперше представлений в 1993 році і його випуск Part 2 був стандартизований в 1999 році.
Розробка Н.264 була ініційована групою експертів по відео кодуванню (Video Coding Experts Group, VCEG) - робочою групою міжнародного союзу по телекомунікаціях (International Telecoininunication Union, ITU-T), яка функціонує подібно групі MPEG. Група VCEG розробила ряд візуальних телекомунікаційних стандартів. Остаточні стадії розвитку стандарту Н.264 були здійснені з'єднаною командою по відео (Joint Video Team) яка складається з експертів MPEG і VCEG. Ця група опублікувала остаточну редакцію стандарту під сумісним патронажем ISO/IEC (її ідентифікатор MPEG-4 Part 10) і ITU-T (рекомендація Н.264) в 2003 році.
Таблиця 3.1 - Основні відмінності MPEG-4 Visual і Н.264.
Порівняння |
MPEG-4 Visual |
Н.264 |
|
Типи даних які підтримуються |
Прямокутні кадри і напівкадри відео, відеооб'єкти довільної форми, нерухомі текстури і «спрайти», гібридні синтетичні і натуральні відеооб'єкти, сіткові двомірні і тривимірні об'єкти |
Прямокутні кадри і напівкадри відео |
|
Число профілів |
19 |
3 |
|
Ступінь стиснення |
Середня |
Висока |
|
Підтримка потокового відео |
Кодування, що масштабується |
Перемикання шарів |
|
Мінімальний розмір блоку компенсації руху |
8x8 |
4x4 |
|
Точність векторів руху |
Половина і четверть пікселя |
Четверть пікселя |
|
Перетворення |
DCT блоків 8x8 |
Наближене DСТ блоків 4x4 |
|
Вбудований деблокуючий фільтр |
Ні |
Так |
В табл. 4.3 приведені основні відмінності двох стандартів. Вона не є повною, але в ній виділені важливі особливості підходів
MPEG-4 Visual і Н.264 мають зв'язані, але істотно різні точки зору. Обидва мають відношення до стиснення відеоінформації, але MPEG-4 Visual робить акцент на варіабельність, а H.264 націлений на ефективність і надійність. MPEG-4 Visual забезпечує високу приспособлюваність своїх технічних інструментів і ресурсів кодування, даючи можливість працювати з широким спектром відеоданих, що включає прямокутні відеокадри ('традиційний відеоматеріал'), відеооб'єкти (області візуальних сцен довільної форми), що складаються як із звичайних зображень, так і з гібридів «природних об'єктів» і об'єктів, що згенеровані комп'ютером. MPEG-4 Visual забезпечує своє функціонування за допомогою набору інструментів кодування, організованих в «профілі», які складаються з груп модулів, що рекомендуються, для конкретних застосувань. Класи профілів включають прості профілі (кодуючі прямокутні відеоокадри), профілі на основі об'єктів (кодуючі візуальні об'єкти довільної форми), текстурні профілі (кодуючі нерухомі зображення або текстури), профілі, що масштабуються (кодуючі багатократні дозволи або якісні рівні) і студійні профілі (кодуючі високоякісні студійні застосування).
В порівнянні з еластичним підходом МРЕG-4 стандарт Н.264 сконцентрований на ефективності стиснення відеокадрів. Ключовими ознаками стандарту є наступні елементи: ефективність стиснення (забезпечується значне поліпшення компресії в порівнянні зі всіма попередніми стандартами), ефективність передачі даних (з безліччю вбудованих деталей, що підтримують надійну і стійку передачу по різних каналах і мережах) и сфокусованість на популярних додатках відеозтиснення. В теперішній час цим стандартом підтримуються тільки три профілі (в порівнянні з 20 профілями в МРЕG-4 Visual), кожний з яких пристосований до свого класу популярних додатків відеокомунікацій. Базовий профіль може бути використаний в «розмовних» додатках типу відео конференції, розширений профіль добавляє деякі інструменти, які можуть бути корисні в потоковому відео в мережах, а основний профіль включає інструменти для широкомовних додатків и для зберігання відеоданних.
4. Методи оцінювання якості відео зображень
4.1 Суб'єктивні методи
4.1.1 Ідеї і задачі методів суб'єктивного тестування
Багато великих організації, одна з них це VQEG, протягом багатьох років проводили суб'єктивні порівняння відео і оцінювали точність прогнозу думки користувача різними метриками, отримавши в результаті безліч цінних результатів [4]. Але в основному ці порівняння були орієнтовані на телевізійний матеріал і відеокодеки стандарту MPEG2, і лише недавно почали з'являтися порівняння кодеків сучасних стандартів, здатних забезпечувати прийнятну якість на більш низьких бітрейтах і призначених для перегляду відео на комп'ютері.
Задачею тестування було суб'єктивне порівняння нових версій популярних кодеків, порівняння результатів з даними об'єктивних метрик і відробіток технології суб'єктивного тестування
Ідея суб'єктивного тестування полягає в тому, що відео, пропущене через порівнювані системи, демонструється групі експертів, які виставляють оцінки, ґрунтуючись на своїх враженнях від якості. Існує багато методів демонстрації послідовностей і збору оцінок, багато з них описано в рекомендаціях ITU [5]. На жаль, в основному вони розраховані на порівняння відео в телевізійному форматі, і не дуже зручні для проведення тестування на PC [6].
4.1.2 Види методів суб'єктивного тестування
Метод суб'єктивного оцінювання якості мультимедійного відео (SAMVIQ - Subjective Assessment Multimedia Video Quality) [7]. Існує декілька видів методів суб'єктивного тестування. Одним з них є SAMVIQ, розроблений EBU для порівняння відеокодеків і проходячий стандартизацію в ITU. Він був розроблений спеціально для проведення порівнянь на PC, і більш зручний і простий у використовуванні, ніж інші методи суб'єктивного порівняння. Як і багато інших методів, SAMVIQ реалізований в MSU Perceptual Video Quality tool [8].
Етапи тестування:
1.Спочатку експерт вводить своє ім'я.
Рисунок.4.1 Діалог введення імені
2.Також експерт проходить тест на сприйняття кольору (використовуються стандартні таблиці Ішихари показаної на рис. 4.2).
Малюнок4.2 Приклад тесту на сприйняття кольору
3.Для кожної тестової послідовності:
4.Демонструється початкове відео, приклад вікна програвача (рис. 4.3).
5.До тих пір, поки не переглянуті всі варіанти цього відео, експерт вибирає певний варіант відео, дивиться його і виставляє оцінку (рис. 4.4). Оцінка для фільму складає від 0 до 100, чим вище, тим краще. Оцінка вже проглянутих варіантів послідовності може бути змінена у будь-який момент, також можливо переглянути будь-який з варіантів.
Малюнок4.3 Вид вікна програвача
6.Якщо всі варіанти відео переглянуті, то експерт може перейти до наступної тестової послідовності. Різні варіанти стислої послідовності приховані за літерними позначеннями, тому експерт не знає, який кодек він оцінює в даний момент.
Малюнок4.5 Діалог оцінки
Метод двосторонньої шкали впливу (DSIS - Double Stimulus Impairment Scale) [5]. Відео показуються послідовно парами: спочатку демонструється початкове відео (експерт знає про це), потім змінене. Після проглядання пари відео, експерт повинен висловити свою думку використовуючи шкалу показану на рис. 4.6.
Малюнок4.6 Шкала оцінки DSIS
Метод двосторонньої шкали непевної якості (DSCQS - Double Stimulus Continuous Quality Scale) типу I та типу II [5]. В методі типу I відео показуються парами, але тільки одне з них видно експерту (для переключення між ними потрібно натиснути на Tab). Кожна пара показується задане число раз (параметр 'reeptitions' в Task Manager). Одне з відео - початкове, але експерт про це не інформується. Після перегляду експерт повинен оцінити два відео використовуючи шкалу вказану на рис.4.7
В методі типу II (який використовується частіше) відео також показуються парами, але одночасно видні обидва з них. Кожна пара показується задане число раз (параметр 'repetitions' в Task Manager). Як і в методі типу I, одне з них початкове, але експерт про це не інформується. Використовується та ж шкала оцінки, що і в методі типу I.
Малюнок4.7 Шкала оцінки DSCQS
Метод двостороннього оцінювання та порівняння за категоріями (SCACJ - Stimulus Comparison Adjectival Categorical Judgement) [5]. Відео показуються парами одночасно, і після перегляду експерт повинен оцінити відео, використовуючи порівняльну шкалу, показану на рис. 4.8.
Малюнок4.8 Порівняльна шкала SCACJ
Метод непевного оцінювання якості МДУ (MSUCQE - MSU Continuous Quality Evaluation) [5]. Під час тесту дві послідовності програються одночасно (рис.4.9). Якщо під час програвання експерту не подобається одна з них, то він може натискувати ліву або праву стрілку на клавіатурі, в залежності від розташуванні послідовності яка йому не подобається. При цьому над послідовністю, проти якої він голосує, виникає червоний індикатор.
Малюнок4.9 Вид вікна програвача MSUCQE
4.2 Об'єктивні методи оцінки якості
Об'єктивні техніки вимірювань - це математичні моделі, які вдало моделюють результати суб'єктивної оцінки якості, вони засновані на критеріях і метриках, що можуть бути виміряні об'єктивно. Об'єктивні методи класифікуються відповідно до корисності початкового відео сигналу, для якого забезпечується висока якість. Тому вони класифікуються по трьох категоріях: повні референсні методи, скорочені референсні методи і нереференсні методи. Самим традиційним методом вимірювання якості системи обробки цифрового відео (таких як відеокодеки DivX, XviD)) є вимірювання відношення сигналу до шуму та пікового відношення сигналу до шуму між початковим сигналом і сигналом на виході системи. PSNR - це одна з метрик об'єктивної якості відео. Вона може бути автоматично обчислений комп'ютерною програмою. Але PSNR не завжди гарантує добру якість, через те що зорова система людини має нелінійну поведінку. Не так давно було розроблено декілька складніших і точних метрик, наприклад VQM і SSIM.
Всі об'єктивні методи вимагають повторення тестів, що проводяться з результатом кодування, для визначення параметрів кодування, які задовольняють певному рівню очікувань користувача, що робить їх швидкість дуже маленької, такі методи є дуже складними і непрактичними для реалізації в комерційних додатках. Тому, більшість досліджень направлена на дослідження нових методів об'єктивної оцінки якості, які дозволять передбачати сприйманий рівень якості закодованого відео перед кодуванням.
Існують такі метрики об'єктивної якості відео.
Міра відношення сигналу до шуму (PSNR - Реak-To-Реak Signal-To-Noise Ratio) [9]. Цю метрику часто використовують на практиці. ЇЇ розраховують за такою формулою:
,(4.1)
де MaxErr - максимум модуля різниці колірної компоненти, w - ширина відео, h - висота відео.
Дана метрика аналогічна середньоквадратичному відхиленню, проте користуватися нею зручніше за рахунок логарифмічного масштабу шкали.
Існує чотири варіанти обчислення PSNR. Варіанти PSNR і APSNR (середнє значення PSNR) обчислюють відношення сигналу до шуму, використовуючи вираз (4.1), а як MaxErr використовують максимум модуля різниці колірних компонент. Але це приводить до небажаних ефектів після зміни глибини кольору. Припустимо, якщо глибину кольору збільшили з 8 до 16 бітів, тоді значення PSNR і APSNR зміняться, тому що MaxErr зміниться у відповідності до максимального модуля різниці компонент (255 для 8 бітових компонент і 255 + 255/256 для 16 бітових). Тому були реалізовані варіанти PSNR (256) і APSNR (256). Значення метрик не зміняться, тому що використовують як MaxErr верхню межу різниці колірних компонент . Ця межа рівна 256. Такий підхід менш коректний, але він часто використовується, оскільки він швидше. Правила визначення значення максимуму модуля різниці колірної компоненти такі. Для метрик PSNR і APSNR значення MaxErr залежить від кількості розрядів колірних компонент:
- 255 для 8 бітових компонент;
- 255 + 3/4 для 10 бітових компонент;
- 255 + 63/64 для 14 бітових компонент;
- 255 + 255/256 для 16 бітових компонент;
- 100 для L компоненти простору LUV.
Якщо у порівнюваних файлів різна кількість біт на компоненту, то вибирається максимальне з цих значень для вибору MaxErr. Вважається, що всі перетворення колірних просторів приводять до 8 бітових зображень. Це означає, наприклад, що якщо міряти R-RGB PSNR у 14 бітового YUV файлу, то MaxErr буде вибраний рівним 255.
- Для метрик PSNR (256) і APSNR (256) MaxErr присвоюється значення 256 для просторів YUV і RGB . Різниця між метриками PSNR і APSNR полягає в обчисленні середнього значення PSNR для всієї послідовності. За визначенням для обчислення PSNR для всієї послідовності необхідно знайти усереднене значення середньоквадратичного відхилення (MSE) для всіх кадрів і потім обчислити PSNR за стандартною формулою:
PSNR=10log10 (MaxErr2/MSE)(4.2)
Цей спосіб обчислення середнього PSNR використовується в метриках PSNR і PSNR (256). Але іноді необхідно обчислити просто середнє арифметичне серед значень PSNR для всіх кадрів. Для цього випадку підходять метрики APSNR і APSNR (256). Вони просто усереднюють покадрові значення PSNR для всієї послідовності. Відмінності варіантів обчислення PSNR приведені в таблиці 4.1.
а) б) в)
Малюнок4.10 Приклад візуалізації метрики PSNR: а) оригінал фрагмента відео; б) після стиснення; в) Y-YUV PSNR
Таблиця 4.1 Відмінності варіантів обчислення PSNR:
Метрика |
Вибір MaxErr |
Обчислення середнього PSNR |
|
PSNR |
правильний |
за визначенням |
|
PSNR (256) |
256 (швидкий, менш точний) |
за визначенням |
|
APSNR |
правильний |
середнє арифметичне |
|
APSNR (256) |
256 (швидкий, менш точний) |
середнє арифметичне |
Для обчислення PSNR рекомендується використовувати метрику PSNR, оскільки вона реалізована в точності за визначенням. Приклад візуалізації цієї метрики показано на рис 4.10. Кольори, представлені на рис.4.10, в, що показують зміну значення PSNR від мінімального до максимального: червоний, жовтий, зелений, синій, чорний (чим більше PSNR, тим менше різниця між зображеннями)
Середньоквадратична абсолютна різниця (MSAD) [9]. Значенням даної метрики є усереднена абсолютна різниця значень колірних компонент у відповідних точках порівнюваних зображень. Використовується, наприклад, для налаштування кодеків або фільтрів. Приклад візуалізації метрики показано на рис.4.11.
Формула для розрахунку даної метрики:
(4.3)
а) б) в)
Малюнок4.11 Приклад візуалізації метрики MSAD: а) оригінал фрагмента відео; б) після стиснення; в) MSAD
Середня різниця (Delta) [9]. Значенням даної метрики є усереднена різниця значень колірних компонент у відповідних точках порівнюваних зображень (рис.4.12). Також використовується для налаштування кодеків або фільтрів. Формула для розрахунку даної метрики:
(4.4)
а) б) в)
Малюнок4.12 Приклад візуалізації метрики Delta: а) оригінал фрагмента відео; б) після стиснення; в) Delta
Червоний колір означає, що значення колірної компоненти на першому зображенні Xij більше від значення колірної компоненти на другому зображенні Yij, зелений колір - навпаки (Xij < Yij).
Метрика розмиття зображень (Blurring Metric) [9]. Дана метрика дозволяє порівняти ступінь розмиття двох зображень від один одного. Чим ближче її значення до 0, тим більше розмито зображення (рис. 4.13).
а) б) в)
Малюнок4.13 Приклад візуалізації метрики розмиття зображень: а) оригінал фрагмента відео; б) після стиснення; в) Blurring Metric
Червоний колір означає те, що перше зображення чіткіше другого, а зелений колір - що друге зображення чіткіше першого.
Метрика ступеня блоковості (Blocking Metric) [9]. Метрика будується так, щоб її значення було пропорційне візуальному ступеню блоковості. Наприклад, в контрастних областях кадру межі блоків майже непомітні, а в однорідних та ж межа буде добре видною. Ці особливості враховуються цією метрикою. В метриці також використовують евристичні правила визначення краю об'єкту, що потрапляє на межу блоку. Значення метрики при цьому знижується, що дозволяє більш адекватно оцінювати реальну візуальну блоковість відео. Для підвищення точності використовується інформація з попередніх кадрів (рис.4.14).
а) б)
Малюнок4.14 Приклад візуалізації: а) оригінал фрагмента відео;
Метрика структурної схожості (Structural Similarity - SSIM) [9]. Метрика SSIM ґрунтується на вимірюванні трьох компонент (схожості за яскравістю, за контрастом і структурної схожості) і об'єднанні їх значень в підсумковий результат.
Приклад візуалізації цієї метрики наведено на рис. 4.15. Тут більш яскравим областям відповідають великі відхилення між зображеннями.
У метрики SSIM є 2 коефіцієнти. Вони залежать від максимального значення колірних компонент. Вони обчислюються за такими формулами:
C1 = 0.01 0.01 video1Max video2Max
C2 = 0.03 0.03 video1Max video2Max
де video1Max - максимальне значення колірної компоненти для першої відеопослідовності, video2Max - максимальне значення колірної компоненти для другої відеопослідовності. За максимальні значення приймають (як і для PSNR):
- videoMax = 255 для 8 бітових колірних компонент;
- videoMax = 255 + 3/4 для 10 бітових колірних компонент;
- videoMax = 255 + 63/64 для 14 бітових колірних компонент;
- videoMax = 255 + 255/256 для 16 бітових колірних компонент.
а) б) в)
Малюнок4.15 Приклад візуалізації: а) оригінал фрагмента відео; б) після стиснення; в) SSIM
Метрика VQM [9], що базується на використанні дискретного косинусного перетворення (ДКП). VQM використовує ДКП для точної відповідності людському сприйняттю (рис. 4.16). Відповідно до наведеного рисунку чим яскравіше блок, тим більше відхилення в цій області.
а) б) в)
Малюнок4.16 Приклад візуалізації метрики VQM: а) оригінал фрагмента відео; б) після стиснення; в) VQM
Метрика мерехтіння між кадрами (BFM - Brightness Flicking Metric) [9]. Метрика BFM призначена для вимірювання рівня мерехтіння між кадрами послідовності. При візуалізації метрики відображається значення Y каналу (каналу яскравості).
За наслідками роботи будується графік покадрового значення метрики (рис.4.17), де значення метрики - це абсолютна різниця між середньою яскравістю попереднього і поточного кадру. Підсумкове значення метрики є середнє арифметичне значення з усіх покадрових значень.
Малюнок4.17 Приклад графіка, що ілюструє метрику BFM
Для кожного кадру обчислюється середнє арифметичне значення яскравості на кадрі. В значення метрики на кадрі заноситься модуль різниці між поточним середнім значенням і значення, отриманим на попередньому кадрі.
Метрика пропущених кадрів (DFM - Drop Frame Metric) [9]. Метрика DFM призначена для підрахунку кількості пропущених кодером кадрів в послідовності.
При візуалізації метрики відображається міжкадрова різниця в Y каналі (яскравості) плюс 128. Тобто сірий колір (128, 128, 128) позначає повний збіг яскравості пікселя з яскравістю пікселя на попередньому кадрі. За наслідками роботи будується графік покадрового значення метрики (рис.4.18), де 0 означає, що кадр присутній, а 1 що пропущений. Як підсумкове значення метрики виводиться кількість пропущених кадрів.
Малюнок4.18 Приклад графіка
Метрика оцінки рівня шуму (NE - Noise Estimation Metric) [9]. Метрика Noise Estimator використовується для обчислення рівня шуму для кожного кадру послідовності.
Метрика реалізує три різні алгоритми визначення рівня шуму:
- MAD;
- Block-Based;
- Spatio-Temporal Gradients.
За наслідками роботи метрики будують графік покадрового значення рівня шуму (рис.4.19). Підсумкове значення метрики є середнє арифметичне з усіх 30% кадрових значень.
Малюнок4.19 Приклад графіка
Метрика медіани абсолютного відхилення (MAD - Median absolute deviation) [9]. Для кожного кадру здійснюється вейвлетна декомпозиція Хаара. Потім обчислюється медіана з абсолютних значень НН - компонент (високочастотних коефіцієнтів). Підсумковим значенням метрики є нормована медіана.
Метрика, що базується на блочній структурі зображення (Block-Based) [9]. Кожний кадр розбивається на блоки розміром 8х8. Для кожного блоку обчислюється значення стандартного відхилення яскравості.
Потім ці значення сортуються за збільшенням. Блок з якнайменшим значенням буде найбільш розмитим. Вважається, що зміна яскравості в розмитому блоці може мати місце внаслідок шуму. Нормоване середнє арифметичне 30% значень всіх блоків з якнайменшими значеннями є результатом метрики.
Метрика просторово-часових гістограм (Spatio-Temporal Gradients). Для кожного кадру здійснюють вейвлетну декомпозицію. Будують просторову і часову гістограму. Первинна оцінка рівня шуму визначається значенням, при якому часова або просторова гістограма досягає свого максимального значення. Рішення про те, яку гістограму використовувати, визначається відхиленням гістограм від розподілу Релея. Потім ця оцінка корегується, використовуючи тест Колмогорова-Смірнова. Нормована скорегована оцінка є результатом метрики [9].
Метрика моментів зміни сцени (SCD - Scene Change Detector) [9] Ця метрика призначена для автоматичного визначення моментів зміни сцени в послідовності кадрів. Вона реалізує чотири різні алгоритми побудови міри схожості сусідніх кадрів:
- піксельне порівняння кадрів (Pixel-level comparison);
- порівняння глобальних гістограм розподілу яскравості (Global Histogram);
- поблочне порівняння гістограм розподілу яскравості (Block-Based Histogram);
- побудову міри схожості на основі інформації про рух (Motion-Based);
При візуалізації метрики відображається значення Y каналу. Яскравість першого кадру нової сцени штучно збільшена (рис.4.20).
Малюнок4.20 Приклад візуалізації метрики моментів зміни сцени
За результатами роботи будується графік (рис.4.21), на якому 1 означає, що кадр є першим кадром в сцені. Інакше кадру відповідає 0. Середнє значення метрики для послідовності дорівнює кількості знайдених змін сцени.
Малюнок4.21 Приклад графіка
Головною метою більшості суб'єктивних метрик оцінки якості зображення є автоматична оцінка сприймання користувачами обробленого системою відео, яке пропонується [10]. Але найкращим способом визначення думки користувача це просто спитати їх. Але іноді, суб'єктивний вимір якості відео є досить складною задачею, так як потребує дуже досвідчених експертів для його оцінки. Тому доцільніше використовувати об'єктивні метрики для оцінки якості відео. Вони дають більш точні результати. До того ж існує велика кількість метрик, які дають можливість оціни ту чи іншу характеристику досліджуваного відео.
5. Експериментальні вимірювання якості відеозображень, стиснутих у форматі MPEG-4
5.1 Постановка задачi
Проведемо експеримент, в якому виконаємо вимірювання якості відеозображень, стиснутих у форматі MPEG-4. Для цього скористаємося двома популярними відеокодерами: XviD (MPEG-4 Part2), який використовується при кодуванні відео в мультимедійних застосуваннях, та x264 (безкоштовна реалізація відеокодера H.264/MPEG-4 Part 10, який використовується як в мультимедійних застосуваннях так і в системах ЦТ високої чіткості).
Початкове відео зняте за допомогою mini DV відеокамери і являє собою нестиснуту відеопослідовність (швидкість передачі 44 Мбіт/с) з динамічним сюжетом. Для об'єктивного вимірювання якості стиснутих за допомогою наведених вище кодерів відеопослідовностей скористаємося програмою MSU Video Quality Measurement Tool. Як критерії будемо використовувати три метрики:
- Міра відношення сигналу до шуму (PSNR);
- Середньоквадратична абсолютна різниця (MSAD);
- Метрика структурної схожості (SSIM).
Оцінюватися будуть відеопослідовності з різними коефіцієнтами стиснення (з швидкістю передачі 384, 768 та 2000 кбіт/с відповідно).
5.2 Результати вимірювання для швидкості передачі 384 кбіт/с
Метрика PSNR. Початкова відеопослідовність була перекодована за допомогою програми Any Video Converter в дві відеопослідовності (mpeg4 та x264) зі швидкістю передачі 384 кбіт/с.
В програму MSU Video Quality Measurement Tool було завантажено початкове відео та дві перекодовані відео послідовності, закодовані кодеками mpeg4 та x264 відповідно. Використавши метрику PSNR, було отримано результати, показані на рисунку 5.1.
а) б)
в)
Малюнок5.1.- Візуалізація метрики PSNR: а)початкове відео;б) відео стиснуте кодеком mpeg4; в)відео стиснуте кодеком x264.
Досить складно порівняти і оцінити якість стиснутих відео зображень, використовуючи лише суб'єктивний підхід, оскільки фрагменти відео, показані на рис 5.1, б, в, майже не відрізняються один від одного. Але якщо порівнювати дві візуалізації метрики PSNR, то можна зробити висновок, що фрагмент відео, стиснутий кодеком x264, більше наближений за якістю до оригіналу (більше чорного та синього кольору при візуалізації метрики на рис.5.1, в, що означає більші значення PSNR).
Також за допомогою програми MSU Video Quality Measurement Tool було отримано графік, що ілюструє залежність значення метрики PSNR для різних кадрів двох стиснутих відео послідовностей. Результати представлені на графіку підтверджують висновки відносно якості на основі візуалізації метрики - відео послідовність у форматі x264 є дійсно більш високої якості, оскільки чим більше значення PSNR, тим краща якість стиснутої відеопослідовності (рис.5.2).
Малюнок5.2 - Графік візуалізації метрики PSNR
Метрика MSAD. На рис.5.3 показані результати вимірювання якості для метрики MSAD. Якщо порівнювати дві візуалізації метрики MSAD, то можна зробити висновок, що фрагмент відео, стиснутий кодеком x264, більше наближений за якістю до оригіналу (менше білого кольору при візуалізації метрики на рис.5.3, в, що означає менші значення MSAD).
Також за допомогою програми MSU Video Quality Measurement Tool було отримано графік, що ілюструє залежність значення метрики MSAD для різних кадрів двох стиснутих відео послідовностей. Результати, представлені на графіку, підтверджують висновки відносно якості на основі візуалізації метрики - відеопослідовність у форматі x264 є дійсно більш високої якості, оскільки чим менше значення MSAD, тим краща якість стиснутої відеопослідовності (рис.5.4).
а)
б)
в)
Малюнок5.3 - Візуалізація метрики MSAD: а)початкове відео;б) відео стиснуте кодеком mpeg4; в)відео стиснуте кодеком x264.
Малюнок5.4 - Графік візуалізації метрики
Метрика SSIM. На рис.5.6 показані результати вимірювання якості для метрики SSIM. При порівнянні двох візуалізаціій метрики SSIM можна зробити висновок, що фрагмент відео, стиснутий кодеком x264, більше наближений за якістю до оригіналу (менше білого кольору при візуалізації метрики на рис.5.6, в, що означає більші значення SSIM).
Також за допомогою програми MSU Video Quality Measurement Tool було отримано графік, що ілюструє залежність значення метрики SSIM для різних кадрів двох стиснутих відео послідовностей. Результати представлені на графіку підтверджують висновки відносно якості на основі візуалізації метрики - відео послідовність у форматі x264 є більш високої якості, оскільки чим більше значення SSIM, тим краща якість стиснутої відеопослідовності (рис.5.5).
Малюнок5.5 - Графік візуалізації метрики
а)
б)
в)
Малюнок5.6 - Візуалізація метрики SSIM: а)початкове відео;б) відео стиснуте кодеком mpeg4; в) відео стиснуте кодеком x264.
5.3 Результати для швидкості передачі 768 кбіт/с
Метрика PSNR
а)
б)
в)
Малюнок5.7 - Візуалізація метрики PSNR: а)початкове відео;б) відео стиснуте кодеком mpeg4; в)відео стиснуте кодеком x264.
Початкова відеопослідовність була перекодована за допомогою програми Any Video Converter в дві відеопослідовності (mpeg4 та x264) зі швидкістю передачі 768 кбіт/с.
Малюнок5.8 - Графік візуалізації метрики
Метрика MSAD. На рис.5.10 показані результати вимірювання якості для метрики MSAD.
Якщо порівнювати дві візуалізації метрики MSAD, то можна зробити висновок, що фрагмент відео, стиснутий кодеком x264, більше наближений за якістю до оригіналу (менше білого кольору при візуалізації метрики на рис.5.10, в, що означає менші значення MSAD). Це підтверджено графіком, що представлений на рис. 5.9.
Малюнок5.9 - Графік візуалізації метрики
а)
б) в)
Малюнок5.10 - Візуалізація метрики MSAD: а)початкове відео;б) відео стиснуте кодеком mpeg4; в)відео стиснуте кодеком x264.
Метрика SSIM. На рис.5.11 показані результати вимірювання якості для метрики SSIM. Якщо порівнювати дві візуалізації метрики SSIM, то можна зробити висновок, що фрагмент відео, стиснутий кодеком x264, більше наближений за якістю до оригіналу (менше білого кольору при візуалізації метрики на рис.5.11, в, що означає більші значення SSIM).
а) б) в)
Малюнок5.11 - Візуалізація метрики SSIM: а)початкове відео;б) відео стиснуте кодеком mpeg4; в)відео стиснуте кодеком x264.
Результати, представлені на графіку (рис.5.12), підтверджують висновки відносно якості на основі візуалізації метрики - відео послідовність у форматі x264 є дійсно більш високої якості, оскільки чим більше значення SSIM, тим краща якість стиснутої відеопослідовності (рис.5.12).
Малюнок5.12 - Графік візуалізації метрики
5.4 Результати для швидкості передачі 2000 кбіт/с
Метрика PSNR. Початкова відеопослідовність була перекодована за допомогою програми Any Video Converter в дві відеопослідовності (mpeg4 та x264) зі швидкістю передачі 2000 кбіт/с.
Використавши метрику PSNR, було отримано результати, показані на рисунку 5.13. Якщо порівнювати дві візуалізації метрики PSNR, то можна зробити висновок, що фрагмент відео, стиснутий кодеком x264, більше наближений за якістю до оригіналу (більше чорного та синього кольору при візуалізації метрики на рис.5.13, в, що означає більші значення PSNR).
Також за допомогою програми MSU Video Quality Measurement Tool було отримано графік, що ілюструє залежність значення метрики PSNR для різних кадрів двох стиснутих відео послідовностей.
Результати представлені на графіку підтверджують висновки відносно якості на основі візуалізації метрики - відео послідовність у форматі x264 є дійсно більш високої якості, оскільки чим більше значення PSNR, тим краща якість стиснутої відеопослідовності (рис.5.14).
а)
б)
в)
Малюнок5.13 - Візуалізація метрики PSNR: а)початкове відео;б) відео стиснуте кодеком mpeg4; в)відео стиснуте кодеком x264.
Малюнок5.14 - Графік візуалізації метрики
Метрика MSAD. На рис.5.16 показані результати вимірювання якості для метрики MSAD. Якщо порівнювати дві візуалізації метрики MSAD, то можна зробити висновок, що фрагмент відео, стиснутий кодеком x264, більше наближений за якістю до оригіналу (менше білого кольору при візуалізації метрики на рис.5.16, в, що означає менші значення MSAD). Такі ж висновки можна зробити з графіків, представлених на рис. 5.15.
Малюнок5.15 - Графік візуалізації метрики
а)
б), в)
Малюнок5.16 - Візуалізація метрики MSAD: а)початкове відео;б) відео стиснуте кодеком mpeg4; в)відео стиснуте кодеком x264.
Метрика SSIM. На рис.5.17 показані результати вимірювання якості для метрики SSIM.
а)
б)
Малюнок5.17 - Візуалізація метрики SSIM: а)початкове відео;б) відео стиснуте кодеком mpeg4; в)відео стиснуте кодеком x264.
При порівнянні двох візуалізацій метрики SSIM можна зробити висновок, що фрагмент відео, стиснутий кодеком x264, більше наближений за якістю до оригіналу (менше білого кольору при візуалізації метрики на рис.5.17, в, що означає більші значення SSIM).
Графік, що ілюструє залежність значення метрики SSIM для різних кадрів двох стиснутих відео послідовностей, дає можливість зробити аналогічні висновки (рис.5.18).
Малюнок5.18 - Графік візуалізації метрики
На основі проведених експериментів побудуємо графіки залежності усереднених значень отриманих метрик від швидкості передачі інформації у стиснутих відео послідовностях (рис 5.19-5.21).
Малюнок5.19 - Графік залежності усереднених значень метрики PSNR
Малюнок5.20 - Графік залежності усереднених значень метрики MSAD
Малюнок5.21 - Графік залежності усереднених значень метрики SSIM
Аналізуючи наведені вище залежності, можна зробити висновок, що значення метрик PSNR та SSIM збільшується при збільшенні швидкості передачі інформації, а значення MSAD - зменшується, що в свою чергу значить зростання якості відео послідовностей з більшою швидкістю передачі інформації ( меншим коефіцієнтом стиснення).
Всі три графіки підтверджують тезу про те, що відео, закодоване за допомогою кодера H.264/MPEG-4 Part 10, має вищу якість, ніж відео, закодоване за допомогою кодера MPEG-4 Part2. Це пов'язано з тим, що стандарт H.264/AVC/MPEG-4 Part 10 містить ряд нових можливостей, що дозволяють значно підвищити ефективність стиснення відео в порівнянні з MPEG-4 Part2, забезпечуючи також велику гнучкість застосування в різноманітних мережних середовищах. Стандарт Н.264 забезпечує механізм для кодування відео, який оптимізований за ступенем компресії. Його мета - задоволення багатьох вимог сучасних застосувань мультимедійних комунікацій. Діапазон доступних інструментів кодування є більш обмежувальним в порівнянні із стандартом MPEG-4 Visual (через більш вузьке фокусування стандарту Н.264), проте в ньому є досить широкий спектр параметрів і стратегій кодування видеоконтента. Успіх конкретних реалізацій Н.264 (а також MPEG-4 Visual) залежить від ретельності розробки кодеків і ефективності вибору параметрів кодування.
6. Охорона праці
6.1 Аналіз умов праці
Охорона праці - це система законодавчих актів, соціально-економічних, організаційних, технічних, гігієнічних, лікувально-профілактичних заходів та засобів, що забезпечують безпеку, збереження здоров'я і працездатності людини в процесі праці.
Цілком нешкідливих і безпечних виробництв не існує. Мета охорони праці - звести до мінімуму імовірність ураження або захворювання працюючого персоналу з одночасним забезпеченням найкращих умов праці при максимальній продуктивності.
Метою даного розділу є розгляд умов праці, а також заходів щодо забезпечення безпеки праці на робочому місці інженера-конструктора на стадії проектування і розробки технічних пристроїв з використанням обчислювальної техніки.
6.1.1 Організація робочого місця
При організації робочого місця, визначення робочих операцій і вибору керування машинами та апаратами необхідно керуватися принципами економії рухів, що сприяють збільшенню продуктивності праці і зниженню втомлюваності, знижують кількість помилок і травматизм .
Аналіз умов праці проводиться відповідно до вимог, зазначених в БН 245-71 і ГНТП 24-86. Відповідно до цих вимог, на одного працюючого повинно приходитися не менш S=4,5 м2 виробничої площі і V=15 м3 виробничого об'єму.
Геометричні розміри робочого приміщення:
площа приміщення: S = 4 4,5 = 18 м2 ;
висота приміщення: h = 3,1 м ;
кількість робочих місць: N = 3 ч.
Розрахуємо фактичне значення площі та об'єму на кожне робоче місце:
Отримані фактичні значення площі та об'єму відповідають нормам.
6.1.2 Небезпека ураження електричним струмом
Споживачами енергії взагалі, являються ПЕОМ і освітлювальні прилади. Напруга живлення 220 В 50 Гц. Електропроводка в лабораторії схованого типу.
ДСТ 12.1.038-82 встановлює безпечне значення напруги дотику і струмів (мА), що протікають через тіло людини та призначені для проектування засобів захисту людей при взаємодії з електроустановками виробничого і побутового призначення постійного і перемінного струму частотою 50 і 400 Гц.
Для миттєвого дотику:
IДОП = 0,1 мАUДОП = 120 В (для змінного струму);
IДОП- = 0,3 мАUДОП- = 80 В (для постійного струму).
При протіканні струму більше 1 с:
IДОП = 6 мАUДОП =36 В (для змінного струму);
IДОП- = 15 мАUДОП- =40 В (для постійного струму).
На підставі ПУЕ-85 дане приміщення по ступеню небезпеки поразки електричним струмом відноситься до класу приміщень без підвищеної небезпеки поразки електричним струмом, тому що умови, що створюють підвищену небезпеку поразки електричним струмом (вогкість, струмопровідний пил, висока температура, можливість одночасного торкання до струмопровідних частин і заземлювача ), відсутні.
Для захисту від електротравм у приміщенні використовуємо сховану, добре за ізольовану електропроводку. Розподіл енергії здійснюється за допомогою розподільного щита з ізольованими кабелями і розетками, що виключають можливість короткого замикання. Розподільний щит має автоматичні вимикачі, що спрацьовують при критичному режимі роботи. При несправності електричних пристроїв, відкритих струмоведучих частинах проводу, треба використовувати засоби захисту, попереджуючі таблички. Персонал, що працює на ВТ і ПЕОМ, зобов'язаний пройти навчання безпечним методам роботи на робочому місці і перевірку знань правил техніки безпеки.
З метою запобігання наслідків аварійних ситуацій у приміщенні проведене захисне занулення всіх приладів.
Апаратура, що підключається до мережі за допомогою штепсельної вилки повинна мати конструкцію, що виключає можливість ураження електричним струмом у випадку дотику до штирів контактної штепсельної вилки після вилучення її зі штепсельної розетки.
6.2 Розробка заходів з охорони праці
6.2.1 Нормалізація повітря робочої зони
Уміст шкідливих речовин у повітрі не повинен перевищувати ГДК відповідно ГОСТ 12.1.005-88. Джерела шкідливих речовин на даному робочому місці відсутні. Для забезпечення вимог до нормалізації повітря робочої зони застосовуються системи централізованого опалення в холодний період року і системи кондиціонування повітря в теплий період року.
6.2.2 Захист від виробничих випромінювань
Вимоги до виробничих випромінювань нормуються по ДСанПіН-3.3.2.007-98.
Припустимі норми ЕМВ, НРВ і статистичної напруги приведені в табл.5.4. У випадку неможливості виконання норм необхідно застосувати заходи для захисту персоналу від дії наступних факторів:
- використовувати захисні екрани, що навішуються на монітор;
- захист відстанню (віддалити монітор на безпечну відстань від оператора);
- захист часом (режим праці і відпочинку).
Час безупинної роботи на ВТ не повинен бути більш 2 годин. Під час перерв необхідно виконувати комплекс вправ що рекомендуються ДСанПін-3.3.2.007-98.
Джерел ЕМВ, НРВ і статистичної напруги, які б могли привести до виникнення небезпеки для здоров'я людини, у даному приміщені немає, а отже фактичні значення відповідних параметрів відповідають установленим нормам.
Вимоги до виробничих випромінювань нормуються по ДСанПін-3.3.2.007-98.
ЕМВ нормується за:
- електричною складовою Е, В/м;
- магнітною складовою Н, А/м.
Крім того будь-яка електронно-променева трубка є джерелом рентгенівського випромінювання (НРВ). Нормованим показником НРВ являється доза випромінювання Р, мкР/г.
Припустимі норми ЕМВ, НРВ і статичної напруги наведені в табл.6.1.
Таблиця 6.1- Припустимі норми ЕМВ, НРВ і статичної напруги
Величина |
ЕМВ перед екраном |
ЕМВ навколо екрана |
|
Е, В/м |
10 |
25 |
|
Н, А/м |
0,3 |
0,8 |
|
Р, мкР/г |
100 |
100 |
|
Естат, В |
500 |
500 |
6.2.3 Розрахунок системи освітлення
Для даного приміщення головним нормативним актом в області освітлення являється ДСанПін-3.3.2.007-98. Вікна приміщення повинні виходити на північ, північний захід.
Відповідно до ДСанПіН-3.3.2.007-98. Забороняється розташовувати ПЕОМ у приміщеннях без штучного освітлення. Для робочих місць КПО (коефіцієнт природного освітлення) повинний бути КПО1,2%. Освітлення поверхонь робочих місць становить: ЕГОР = 300..500 лк, ЕВЕРТ = 200 лк. При використані штучного освітлення застосовується система загального рівномірного освітлення. Рекомендовано використовувати джерела газорозрядних (люмінесцентних) ламп типу ЛБ, світильники серії ЛБО-36 із дзеркально розсіючими решітками. Коефіцієнт пульсації газорозрядних ламп не повинен перевищувати 5%.
Для розрахунку штучного освітлення вибираємо метод коефіцієнта використання світлового потоку або метод коефіцієнта використання освітлювальної установки, що призначений для розрахунку загального рівномірного освітлення горизонтальних поверхонь при відсутності великих предметів, що затемнюють. При розрахунку по цьому методу враховується пряме і відбите світло.
Для даної категорії робіт рекомендується освітленість робочої поверхні 300 лк. Для загального освітлення варто використовувати люмінесцентні ртутні лампи низького тиску денного світла, що забезпечують найбільше наближення по спектральному складу випромінюваного ними світла до природного. Для місцевого освітлення застосовні світильники з лампами розжарювання.
Необхідний повний світловий потік визначається по формулі:
,
деS = 44,5 = 18 м2 - площа приміщення;
к = 1.2 - коефіцієнт запасу;
Z = 1.2 - відношення середньої освітленості до мінімального (при відбитому світі приймають Z=1, звичайно Z=1,1..1,3);
з - коефіцієнт використання світильників.
Визначимо з. Вважаємо, що світильники підвішені впритул до стелі, тобто hв = 0 м, а робоча поверхня знаходиться в середньому на відстані hн = 1м від підлоги.
Тоді
hр = h - (hв+ hн) = 3.1 - (0 +1) = 2.1 м.
Обчислюємо індекс приміщення
.
Для обраних оздоблювальних матеріалів приймаємо усереднені коефіцієнти відбиття стелі і стін: rп = 0.70, rс = 0.50.
У якості світильників вибираємо світильники типу ПВЛМ - Д 2?40 (із двома лампами типу ЛДЦ потужністю по 40 Вт, з відбивачем без отворів, без решітки).
Для значень i, rп, rс і обраного типу світильника коефіцієнт використання з = 0.4.
Далі визначаємо повний необхідний світловий потік:
Мінімальна припустима освітленість у приміщенні створювана світильниками загального освітлення повинна становити 80 % від необхідного
Еобщ = 300?0.8 = 240 лк.
По довідковій таблиці електричних і світлових характеристик люмінесцентних ртутних ламп низького тиску за ДСТ 6825 - 74, для потужності ламп Рл = 40 Вт, і типу лампи ЛДЦ-40 (лампа денного світла з поліпшеною передачею кольору), визначаємо світловий потік однієї лампи
Fл = 2100 лм.
Далі знаходимо необхідну кількість світильників:
.
Обираємо n = 4. Отже, використовуємо 4 світильників типу : ПВЛМ - Д2?40 з лампами типу ЛДЦ потужністю 40 Вт. Площа робочого столу складає приблизно 1м2. Тоді необхідний світловий потік для світильників місцевого освітлення складе:
.
У світильнику місцевого освітлення використовуємо лампу накалювання типу Б 215 - 225 - 40 зі світловим потоком 415 лм.
Висновки
В роботі проаналізовано два формати стиснення родини MPEG-4 (MPEG-4 Visual part 2 та MPEG-4 part 10/AVC/ H.264).
Досліджено особливості формату стиснення MPEG-4 Visual, в ньому була підвищена ефективність стиснення (більше стиснення при тих же параметрах якості зображення) і збільшена гнучкість та здатність охоплювати більше застосувань.
Проаналізовано профілі MPEG-4 Visual. Стандарт продовжує розвиватися з додаванням нових інструментів (наприклад, профілів, що підтримують потокове відео). Проте серед розробників і виробників найпопулярнішими елементами MPEG-4 Visual до останнього часу залишалися простий і простий розширений профілі.
Також досліджено особливості формату стиснення H.264ю Цей стандарт забезпечує механізм для кодування відео, який оптимізований по ступені компресії. Його мета - задоволення багатьох вимог сучасних застосувань мультимедійних комунікацій. Діапазон доступних інструментів кодування є більш обмеженим в порівнянні із стандартом MPEG-4 Visual (через більш вузьке фокусування стандарту Н.264) проте в ньому є досить широкий спектр параметрів і стратегій кодування відеоконтента.
Проведено порівняння стандартів MPEG-4 Visual і Н.264, основні відмінності між ними приведено у таблиці 3.1.
В роботі приведено два методи оцінки якості зображення: суб'єктивний та об'єктивний. Головною метою більшості суб'єктивних метрик оцінки якості зображення є автоматична оцінка сприймання користувачами обробленого системою відео. Об'єктивні методи оцінки мають на увазі набір метрик, за допомогою яких проводиться порівняння зображення. Цей метод є більш точним і надійним. В роботі наведені приклади об'єктивних і суб'єктивних методів оцінки якості зображення.
П'ята частина роботи присвячена експериментальним вимірювання якості відеозображень, стиснутих у форматі MPEG-4, за допомогою об'єктивних метрик. Побудовано графіки (рис.5.19-5.21), які підтверджують тезу про те, що відео, закодоване за допомогою кодера H.264/MPEG-4 Part 10, має вищу якість, ніж відео, закодоване за допомогою кодера MPEG-4 Visual Part2.
Abstract
Image quality assessment in the digital broadcasting systems with MPEG-4 compression
MPEG-4 Part 2 or MPEG-4 Visual (formally ISO/IEC 14496-2) is a video compression technology developed by MPEG. It belongs to the MPEG-4 ISO/IEC standards. It is a discrete cosine transform compression standard, similar to previous standards such as MPEG-1 and MPEG-2. Several popular codecs including DivX, Xvid and Nero Digital are implementations of this standard.
Note that MPEG-4 Part 10 defines a different format than MPEG-4 Part 2 and should not be confused with it. MPEG-4 Part 10 is commonly referred to as H.264 or AVC, and was jointly developed by ITU-T and MPEG.
MPEG-4 Part 2 is H.263 compatible in the sense that a basic H.263 bitstream is correctly decoded by an MPEG-4 Video decoder. (MPEG-4 Video is natively capable of decoding a basic form of H.263). In MPEG-4 Visual, there are two types of video object layers: the video object layer that provides full MPEG-4 functionality, and a reduced functionality video object layer, the video object layer with short headers (which provides bitstream compatibility with base-line H.263). MPEG-4 Part 2 is partially based on ITU-T H.263. The first MPEG-4 Video Verification Model (simulation and test model) used ITU-T H.263 coding tools together with shape coding
Profiles.To address various applications ranging from low-quality, low-resolution surveillance cameras to high definition TV broadcasting and DVDs, many video standards group features into profiles and levels. MPEG-4 Part 2 has approximately 21 profiles, including profiles called Simple, Advanced Simple, Main, Core, Advanced Coding Efficiency, Advanced Real Time Simple, etc. The most commonly deployed profiles are Advanced Simple and Simple, which is a subset of Advanced Simple.
Most of the video compression schemes standardize the bitstream (and thus the decoder) leaving the encoder design to the individual implementations. Therefore, implementations for a particular profile (such as DivX or Nero Digital which are implementations of Advanced Simple Profile and Xvid that implements both profiles) are all technically identical on the decoder side. A point of comparison would be that an MP3 file can be played in any MP3 player, whether it was created through iTunes, Windows Media Player, LAME or the common Fraunhofer encoder.
H.264/AVC/MPEG-4 Part 10 (Advanced Video Coding) is a standard for video compression. The final drafting work on the first version of the standard was completed in May 2003.
H.264/AVC is a block-oriented motion-compensation-based codec standard developed by the ITU-T Video Coding Experts Group (VCEG) together with the ISO/IEC Moving Picture Experts Group (MPEG), and it was the product of a partnership effort known as the Joint Video Team (JVT). The ITU-T H.264 standard and the ISO/IEC MPEG-4 AVC standard (formally, ISO/IEC 14496-10 - MPEG-4 Part 10, Advanced Video Coding) are jointly maintained so that they have identical technical content. H.264 is used in such applications as Blu-ray Disc, videos from YouTube and the iTunes Store, DVB broadcast, direct-broadcast satellite television service, cable television services, and real-time videoconferencing.
A video codec is software or a device that enables video compression and or decompression for digital video. The compression usually employs lossy data compression, so quality measurement issues become important. Shortly after the compact disc became widely available as a digital-format replacement for analog audio, it became feasible to also store and use video in digital form. A variety of technologies soon emerged to do so. The primary goal for most methods of compressing video is to produce video that most closely approximates the fidelity of the original source and simultaneously deliver the smallest file size possible. However, there are also several other factors that can be used as a basis for comparison.
MPEG-4 video compression presume maximum quality compression (maybe multipass: 2-pass compression)
- fast decompression (but constant delay with buffering is possible)
- error resistance mechanism implementation is welcome, but not critical
- maximum quality characteristics for high and medium bitrates
- typical video processing (like automatic denoising, deinterlacing) is welcome.
Comparison of the best DVD MPEG-2 codec with the base profile videoconferencing H.264 implementation can cause some confusing issues and generally wrong results. Such methods of codec comparison were widely used for marketing materials preparation during dot-com bubble.
Video quality.The quality the codec can achieve is heavily based on the compression format the codec uses. A codec is not a format, and there can be multiple codecs that implement the same compression specification - for example, MPEG-1 codecs typically do not achieve quality/size ratio comparable to codecs that implement the more modern H.264 specification. But quality/size ratio of output produced by different implementations of the same specification can vary, too.
Prior to comparing codec video quality, it is important to understand that every codec can give a varying degree of quality for a given set of frames within a video sequence. Numerous factors play a role in this variability. First, all codecs have a bitrate control mechanism which is responsible for determining the bitrate and quality on a per-frame basis. A difference between variable bit rate (VBR) and constant bit rate (CBR) creates a trade-off between a consistent quality over all frames, and a more constant bitrate, which is required for some applications. Second, some codecs differentiate between different types of frames such as key frames and non-key frames, differing in their importance to overall visual quality and the extent to which they can be compressed. Third, quality depends on prefiltrations, that is included on all present-day codecs. Other factors can also come into play.
For a sufficiently long clip, it is possible to select sequences which have suffered little from the compression and sequences which have suffered heavily, especially if CBR was used, in which the quality between frames can vary highly due to different amounts of compression needed to achieve a constant bitrate. So, in any one long clip such as a full length movie, any two codecs may perform quite differently on a particular sequence from the clip, while the codecs may be approximately equal (or the situation reversed) in quality over a wider sequence of frames. Press-releases and amateur forums sometimes select sequences known to favor a particular codec or style of rate control in reviews[citation needed].
Objective video quality
Objective video evaluation techniques are mathematical models that approximate results of subjective quality assessment, but are based on criteria and metrics that can be measured objectively and automatically evaluated by a computer program. Objective methods are classified based on the availability of the original video signal, which is considered to be of high quality (generally not compressed). Therefore, they can be classified as:
- Full reference methods (FR);
- Reduced reference methods (RR);
- No-reference methods (NR).
The main FR metrics are:
Peak signal-to-noise ratio (PSNR)The most widely used video quality metric during last 20 years (used approximately in 99% of scientific papers and in 20% of marketing materials). However, the validity of this metric is limited. It is only conclusive when the same codec (or codec type) and content is being compared.
Structural similarity (SSim.)New metric (was suggested in 2004) shows better results than PSNR with reasonable computational complexity increasing.
Some other metrics have been suggested by Video Quality Experts Group (VQEG); private companies; and universities, but are not widespread.
Main comparison method is so called RD-curve (rate/distortion chart), where Y-axis used for metric value and X-axis used for bitrate.
Following NR metrics are used:
Blocking measure -- measurement power of so called blocking artefacts (extremely noticeable without deblocking filter usage on low bitrates)
Blurring measure -- measurement of common video blurring (washout)
Subjective video quality
Main article: subjective video quality. It is concerned with how video is perceived by a viewer and designates his or her opinion on a particular video sequence. Subjective video quality tests are quite expensive in terms of time (preparation and running) and human resources.
There is an enormous number of ways of showing video sequences to experts and to record their opinions. A few of them have been standardized. They are thoroughly described in ITU-R recommendation BT.500.
Following subjective video quality comparison methods are used:
- Double Stimulus Impairment Scale (DSIS);
- Double Stimulus Continuous Quality Scale (DSCQS) type I and type II;
- Stimulus Comparison Adjectival Categorical Judgement (SCACJ);
- Subjective Assessment Method for Video Quality evaluation (SAMVIQ);
- MSU Continuous Quality Evaluation (MSUCQE).
The reason for measuring subjective video quality is the same as for measuring the Mean Opinion Score for audio. Opinions of experts can be averaged; average mark is usually given with confidence interval. Additional procedures can be used for averaging, for example experts who give unstable results can be rejected (for instance, if their correlation with average opinion is small).
In case of video codecs, this is very common situation. When codecs with similar objective results show results with different subjective results, the main reasons can be:
Pre- and postfilters are widely used in codecs. Commonly codecs use prefilters like video denoising, deflicking, deshacking and etc. Denoising and deflicking commonly maintain PSNR value, but increase visual quality (the best slow denoising filters also increase PSNR on middle and high bitrates). Deshacking seriously decreases PSNR, but increases visual quality. The same situation with postfilters -- deblocking and deringing maintain PSNR, but increase quality. Graining (suggested in H.264) essentially increases video quality especially on big plasma screens, but decrease PSNR.
Note: All filters worsen compression/decompression time, so they increase visual quality, but decrease speed.
Motion estimation (ME) search strategy can also cause different visual quality for the same PSNR. So called true motion search commonly will not reach minimum sum of absolute differences (SAD) values in codec ME, but may result in better visual quality. Also such methods require more compression time.
Rate control strategy. VBR commonly cause better visual quality marks than CBR for the same average PSNR values for sequences.
For subjective video comparison it's difficult to use big amount of sequences. Commonly 3-4 10 seconds sequences are used in comparison with full movies compared with objective metrics. So sequences selection become pretty important (as far as those sequences will be close to the developers codec tuned sequences, their results will be more competitive).
Список літератури
1.Puri A. ,Chen. T. (eds.). Multimedia System, Standart and Networks. Marsel Denkker, 2000
2.Ян Ричардсон. Мир цифровой обработки. Видеокодирование H.264и MPEG-4- стандарты нового поколения. [пер. з англ. В.В. Чепижова]. - Техносфера Москва 2005
3. Walsh A., Bourges-Sevenier M. (eds.). MPEG-4 Jump Star. Prentice-Hall, 2002
4.VQEG, 'Final Report from the Video Quality Experts Group on the Validation of Objective Models of Video Quality Assessment' (2000): www.vqeg.org
5.International Telecommunication Union, 'Methodology for the subjective assessment of the quality of television pictures (ITU-R BT.500-11)' (2002)
6.Субъективное сравнение современных видеокодеков / [ Д. Ватолин, А. Паршин, О. Петров, А. Титаренко] - Январь 2006 CS MSU Graphics&Media Lab ,Video Group http://www.compression.ru/video
7.European Broadcasting Union, 'SAMVIQ - a New EBU Methodology for Video Quality Evaluations In Multimedia': www.ebu.ch
8.MSU Graphics & Media Lab (Video Group), 'MSU Perceptual Video Quality Tool': www.compression.ru/video/quality measure/perceptual video quality tool en.html
9.MSU Graphics & Media Lab (Video Group), MSU Quality Measurement Tool: Информация о метриках: http://www.compression.ru/video/quality_measure/info.html
10.Субъективное сравнение современных видеокодеков / [Д.Ватолин, А.Ратушняк, М.Смирнов, В.Юкин, Е.Шелвин, Д.Шкарин и др.]: http://www.compression.ru/video/codec_comparison/subjective_codecs_comparison.html
11.Документація. Звіти у сфері науки і техніки. Структура і правила оформлення. ДСТУ 3008-95 - К. : Видавництво стандартів, 1995. - 37с.