Dostępne multimedia

czas czytania: 5,5 minuty

Materiały multimedialne, nagrania audio i wideo często pełnią istotną funkcję informacyjną i są ważnym elementem stron internetowych, lub udostępniane są niezależnie od prowadzonych stron internetowych np. poprzez zewnętrzne serwisy. W każdym przypadku musimy zadbać o ich dostępność, oraz zapewnienie alternatywnego sposobu przekazania informacji, które widać lub słychać na nagraniach.

1. Różne potrzeby, przydatność dla wszystkich

Udostępniając materiały multimedialne należy kierować się podstawową zasadą dostępności cyfrowej:

Sam obraz lub sam dźwięk nie może być jedynym sposobem przekazywania informacji.

Różni odbiorcy będą potrzebować różnych rozwiązań:

  • Osoby słabosłyszące potrzebują napisów (tzw. rozszerzonych) przekazujących całą ścieżkę dźwiękową filmu.
  • Część osób, mających trudności ze wzrokiem i słuchem, potrzebuje tekstu opisującego wygląd i zawierającego ścieżkę dźwiękową  (tzw. transkrypcja).
  • Osoby niewidome oglądają filmy, ale potrzebują opisu poszczególnych scen (tzw. audiodeskrypcja).
  • Osoby nawigujące tylko klawiaturą potrzebują w pełni obsługiwalnych w ten sposób odtwarzaczy multimediów. 

Te szczególne rozwiązania będą przydatne dla wszystkich użytkowników: napisy umożliwią oglądanie filmu w głośnym miejscu, a transkrypcja umożliwia szybkie przejrzenie treści np. podcastu.

2. Napisy rozszerzone

Napisy rozszerzone to rozwiązanie zapewniające dostępność cyfrową filmów dla osób słabosłyszących i głuchych znających język polski.

Określenie „rozszerzone” oznacza, że oprócz dialogów i lektora napisy także opisują dodatkowe informacje przekazywane obrazem lub dźwiękiem. Np. dodatkowo informują. kto mówi dane słowa jeśli tej osoby nie widać oraz jakie ważne dźwięki są słyszane w tle. Napisy rozszerzone należy dodawać zawsze gdy film zawiera informacje dźwiękowe potrzebne do zrozumienia treści. Nie ma potrzeby dodawania napisów tam gdzie cała ścieżka dźwiękowa prezentowana jest także wizualnie, np. gdy nagranie pokazuje plansze z tekstem, jednocześnie czytanym przez lektora.

Napisy rozszerzone muszą być w materiale, którego dotyczą – najlepiej w formie tzw. zamkniętej, tzn. umożliwiającej ich włączanie i wyłączanie, a także dostosowanie ich parametrów wyglądu. Innym sposobem umieszczania napisów w filmach jest ich wtopienie w obraz, przez co są one cały czas wyświetlane (nie można ich wyłączyć) – takie napisy nazywamy otwartymi.

Tworząc napisy rozszerzone należy stosować podstawowe zasady:

  • Jeden wers napisów powinien zajmować do 40 znaków,
  • Na jednym ekranie należy umieszczać maksymalnie trzy wersy napisów (zalecane do dwóch),
  • Informacje o ważnych dźwiękach umieszcza się w nawiasach kwadratowych np. [warkot włączanego silnika],
  • Skracanie wypowiedzi na poziomie napisów można stosować tylko gdy jest to niezbędne,

Zasady tworzenia napisów rozszerzonych

Więcej informacji na temat tworzenia napisów rozszerzonych można znaleźć w dokumencie opracowanym przez Fundację Kultury bez barier:  Zasady tworzenia napisów rozszerzonych przygotowane przez Fundację Kultury bez Barier (dokument PDF)

3. Audiodeskrypcja

Audiodeskrypcja to dodatkowa ścieżka lektorska, opisująca istotne informacje przekazywane wizualnie, które nie są przekazane w podstawowej ścieżce dźwiękowej (np. układ scen, zachowanie postaci). Dzięki audiodeskrypcji osoby niewidome i słabowidzące mogą mieć pełen dostęp do przekazu filmowego. Audiodeskrypcja musi być dodana do materiału wideo, którego dotyczy, choć dopuszczalne jest oddzielne publikowanie wersji z audiodeskrypcją.

Przygotowanie audiodeskrypcji wymaga obrazowego opisania najważniejszych elementów wizualnych, z użyciem zrozumiałych opisów i słów. Umieszczenie audiodeskrypcji w nagraniu wymaga montażu i wkomponowania w nagranie (w przerwach podstawowej ścieżki dźwiękowej). Działania te należy powierzyć specjalistom. Zamawiając nagranie wideo u wykonawcy należy zastrzec wymóg dodania audiodeskrypcji.

Audiodeskrypcja jest niezbędna gdy film zawiera informacje wizualne potrzebne do zrozumienia treści. Jeśli nagranie ma charakter statyczny np. wywiad, wystąpienie, wykład – wówczas wystarczająca jest audiodeskrypcja na początku opisująca układ sceny, tła lub pomieszczenia.

Standardy tworzenia audiodeskrypcji

Więcej informacji na temat tworzenia audiodeskrypcji  można znaleźć w Standardach tworzenia audiodeskrypcji przygotowanych przez Fundację Audiodeskrypcja (link do strony).

4. Transkrypcja

Transkrypcja to tekstowy zapis treści filmu lub materiału audio. Transkrypcja umożliwia zapoznanie się z treścią nagrań osobom, dla których ścieżka dźwiękowa jest niedostępna. Transkrypcja filmów, zawierająca także opisy poszczególnych scen, zapewnia dostępność np. dla osób głuchoniewidomych.

Transkrypcja powinna być umieszczona obok samego materiału multimedialnego. Można też zamieścić jedynie odnośnik do transkrypcji udostępnianej w innym miejscu.

Transkrypcja musi zawierać pełną treść ścieżki lektorskiej i dialogowej z materiału wideo lub audio, oraz powinna przekazywać informacje dźwiękowe ważne dla zrozumienia sytuacji np. śmiech. W transkrypcji zawsze należy wskazywać osoby, które się wypowiadają. Dodatkowe śródtytuły (nagłówki) dzielące transkrypcję ułatwią nawigację w tekście, zwłaszcza gdy jest on obszerny.

Transkrypcję należy udostępniać dla wszystkich materiałów audio, np. podcastów, wywiadów czy wystąpień udostępnianych jedynie w formie audio. Dla materiałów wideo bez dźwięku transkrypcja może być stosowana zamiennie z audiodeskrypcją. W materiałach wideo z dźwiękiem transkrypcja nie jest wymagana, ale warto ją stosować w miarę możliwości – transkrypcja ułatwia szybkie zapoznanie się z treścią nagrania, oraz wyszukiwanie informacji.

5. Tłumaczenie na język migowy

Tłumaczenie na język migowy jest jedynym sposobem zapewniania dostępności cyfrowej filmów dla osób Głuchych, nie posługujących się językiem polskim.  Naturalnym językiem osób Głuchych jest polski język migowy – treść napisana w języku polskim, a więc także napisy rozszerzone, będzie dla tej grupy osób niezrozumiała.

Należy pamiętać, że tłumaczenie musi być wykonane w Polskim Języku Migowym (PJM), a nie w Systemie Językowo Migowym (SJM). Tłumacz umieszczony w nagraniu powinien być dobrze widoczny – jego wielkość powinna zajmować minimum 1/12 ekranu, a zalecana jest proporcja 1/8 ekranu lub więcej.

Przygotowanie tłumaczenia na język migowy wymaga biegłej znajomości polskiego języka migowego, a także właściwego wkomponowania tłumaczenia do nagrania – zadanie to należy powierzyć specjalistom.

Tłumaczenie na polski język migowy nie jest obowiązkowe, ale dla części użytkowników, osób głuchych, jest ono niezbędne dla zrozumienia treści – bardzo dobra praktyka, którą warto i należy stosować.

6. Dodatkowe wskazówki dotyczące dostępności multimediów

Na dostępność multimediów wpływ mają także inne czynniki, o których należy pamiętać:

  1. Odtwarzacze multimediów muszą umożliwiać obsługę funkcji ułatwień dostępu, np. napisów rozszerzonych oraz audiodeskrypcji. Ponadto sam odtwarzacz musi być dostępny cyfrowo – powinien być obsługiwany za pomocą klawiatury, a przyciski sterujące muszą być dostępne dla czytników ekranu, z których korzystają osoby niewidome.
  2. W nagraniach należy unikać elementów migających części niż 3 razy na sekundę – takie efekty mogą u części osób wywoływać atak padaczki. Jeśli nie można uniknąć elementów migających w nagraniu, użytkownik powinien się o tym dowiedzieć przed uruchomieniem filmu np. z opisu filmu.
  3. W nagraniach należy dbać o dobrą jakość dźwięku – bezpośrednio wpływa to na zrozumiałość przekazu dla użytkowników. Wypowiedzi osób lub lektora nie powinny być zakłócane dźwiękami w tle, lub podkładem muzycznym.
  4. Osoba mówiąca w filmie powinna być możliwie dobrze widoczna i oświetlona – ułatwi do odbiór treści przez użytkowników, którzy czytają z ruchu warg.
  5. Bezpośrednio obok filmu warto dodać opis skrócony zawartości. W opisie mogą być umieszczone linki do powiązanych z filmem materiałów np. do wersji z audiodeskrypcją.
  6. Obowiązek zapewniania dostępności nie dotyczy multimediów nadawanych na żywo oraz multimediów opublikowanych przed dniem 23 września 2020 r. Zapewnianie na żywo napisów, lub tłumaczenia polskiego języka migowego jest możliwe i jest dobrą praktyką. Należy także pamiętać, ze nadawane na żywo multimedia stają się nagraniami gdy pozostają na stronie, a więc podlegają wówczas obowiązkowi zapewnienia ich dostępności.

7. Narzędzia wspomagające

Do przygotowania transkrypcji lub napisów do nagrań możemy wspomagać się wieloma dostępnymi narzędziami. Dostępne obecnie narzędzia umożliwiają rozpoznawanie mowy polskiej z nagrań oraz ułatwiają opracowanie napisów. Część narzędzi jest zupełnie bezpłatnych więc jedynie od naszych chęci zależy przygotowanie materiałów zapewniających dostępność nagrań.

Transkrypcję nagrań można uzyskać korzystając z funkcji rozpoznawania mowy z nagrań dostępnych w najnowszych wersjach edytorów tekstu. Np. edytor Office 365 umożliwia automatyczne przygotowanie transkrypcji z nagrania, wraz z oznaczeniem osób, które się wypowiadają. Wraz z tekstem rozpoznawana jest także interpunkcja i układ akapitów.

Jeśli jakość nagrania uniemożliwi uzyskanie wysokiej jakości rozpoznanego tekstu, dobre efekty przynosi metoda respeakingu , czyli użycie osobistego mikrofonu i wyraźne powtarzanie treści słyszanej z nagrania. Dyktafon w edytorze Office 365 umożliwia także dyktowanie interpunkcji. Podobną funkcję dyktafonu udostępniają też inne edytory tekstu, np. Google Docs.


Zrzut ekranu. Aplikacja Office365 udostępnia narzędzie Dyktafon oraz Transkrybuj umożliwiające rozpoznawanie mowy do tekstu podczas dyktowania lub z nagrania.
Zrzut ekranu. Aplikacja Office365 udostępnia narzędzie Dyktafon oraz Transkrybuj umożliwiające rozpoznawanie mowy do tekstu podczas dyktowania lub z nagrania.

Do utworzenia napisów bardzo dobre efekty można uzyskać korzystając z narzędzia Whisper. Whisper zdobywa coraz większą popularność, jest udostępniany w wielu serwisach internetowych, a także możliwe jest jego zainstalowanie  na własnym komputerze – wymaga to jednak pewnej wiedzy i dość silnego komputera.

Aby użyć narzędzia Whisper do rozpoznania polskiej mowy i utworzenia napisów można użyć bezpłatnej aplikacji  Subtitle Edit, która posiada wbudowaną obsługę tego narzędzia. Subtitle Edit to także wygodne narzędzie do wykonywania korekty napisów, ich rozmieszczenia, czy dopasowania.


Zrzut ekranu. Instalacja narzędzia do rozpoznawania mowy w aplikacji Subtitle Edit. [1] Pierwsze wywołanie opcji Wideo → Audio na tekst (Whisper) wywoła instalację potrzebnych dodatkowych narzędzi: [2] kodeka FFmpeg, [3] narzędzia Whisper.cpp, [4] oraz tzw. modelu niezbędnego do rozpoznania mowy. Im większy model, tym czas rozpoznawania będzie dłuższy. Model bazowy (base) zapewnia optymalną jakość rozpoznawania w najkrótszym czasie. Modele z dopiskiem „en” służą do rozpoznawania mowy w języku angielskim.
Zrzut ekranu. Instalacja narzędzia do rozpoznawania mowy w aplikacji Subtitle Edit. [1] Pierwsze wywołanie opcji Wideo → Audio na tekst (Whisper) wywoła instalację potrzebnych dodatkowych narzędzi: [2] kodeka FFmpeg, [3] narzędzia Whisper.cpp, [4] oraz tzw. modelu niezbędnego do rozpoznania mowy. Im większy model, tym czas rozpoznawania będzie dłuższy. Model bazowy (base) zapewnia optymalną jakość rozpoznawania w najkrótszym czasie. Modele z dopiskiem „en” służą do rozpoznawania mowy w języku angielskim.


Zrzut ekranu. Rozpoznanie mowy i wygenerowanie napisów w aplikacji Subtitle Edit. [1] Najpierw należy wczytać plik Wideo → Otwórz plik wideo, a następnie [2] uruchomić narzędzie Wideo → Audio na tekst (Whisper). [3] W oknie narzędzia ustawić język (Polski), model rozpoznawania (base) i uruchomić „Generuj”. Po zakończeniu procesu rozpoznawania tekst automatycznie zostanie podzielony na napisy i umieszczony w znacznikach czasowych – możliwe będzie przeprowadzenie ich korekty.
Zrzut ekranu. Rozpoznanie mowy i wygenerowanie napisów w aplikacji Subtitle Edit. [1] Najpierw należy wczytać plik Wideo → Otwórz plik wideo, a następnie [2] uruchomić narzędzie Wideo → Audio na tekst (Whisper). [3] W oknie narzędzia ustawić język (Polski), model rozpoznawania (base) i uruchomić „Generuj”. Po zakończeniu procesu rozpoznawania tekst automatycznie zostanie podzielony na napisy i umieszczony w znacznikach czasowych – możliwe będzie przeprowadzenie ich korekty.

Innymi wygodnymi narzędziami wspomagającymi utworzenie napisów z nagrania są serwisy HappyScribe, lub GGlot. Wygodnym edytorem napisów jest serwis Amara. Serwisy on-line udostępniają możliwość bezpłatnego przetestowania ich funkcjonalności, oraz wymagają drobnych opłat za ich używanie.