- Do czego: transkrypcja, wyświetlanie tekstu mówionego na żywo, dyktowanie, wsparcie komunikacji
- Dla kogo: osoby komunikujące się z głuchymi, dysleksja
- Licencja: bezpłatna.
- System: Google Chrome dla Windows, MacOS, Chrome OS. Częściowo MS Edge i Apple Safari.
Aktualizacja: wrzesień 2024
Oryginalnie artykuł dotyczył aplikacji Web Captioner. Przestała być ona rozwijana pod koniec 2023 roku a od niedawna nie działa już jej usługa. Opisujemy poniżej alternatywne rozwiązanie, bazujące na nowocześniejszym wdrożeniu interfejsu do Web Speech API.
W skrócie: Interfejsy transkrypcji bezpłatnie rozpoznają mowę mówioną w wielu językach i pozwalają wyświetlić tekst w czasie rzeczywistym na ekranie komputera oraz pobrać rozpoznaną transkrypcję w formie pliku. Są to tzw. aplikacje webowe, czyli programy uruchamiane w przeglądarce internetowej.
Transkrypcja działa w pełni wyłącznie w przeglądarce Google Chrome. Można ją uruchomić także na Microsoft Edge lub Apple Safari, ale nie zapisują się wówczas pliki transkrypcji do edycji/pobrania. Polega ona na natychmiastowym rozpoznawaniu mowy za pomocą interfejsu Web Speech API. Mamy do dyspozycji rozpoznawanie kilkudziesięciu języków i prędkość oraz jakość jest bardzo dobra jak na całkowicie darmowe rozwiązanie. Do rozpoznawania mowy niezbędne jest aktywne połączenie z internetem.
Aktualnie najlepszą naszym zdaniem aplikacją jest ZipCaptions.
Interfejs programu jest prosty, obsługuje język polski. Aplikacja przechwytuje dźwięk jedynie z mikrofonu, nie oferuje możliwości wyboru innego źródła dźwięku, na przykład z pliku.
Do czego można użyć ZipCaptions
Bardzo łatwo można uruchomić ekran transkrypcji na żywo, aby wspomóc komunikację z osobą g/Głuchą lub niedosłyszącą. Nie potrzeba do tego specjalnego sprzętu, wystarczy laptop, czy nawet telefon. Napisy są duże i czytelne.
Po rozpoznaniu wygenerowany tekst można:
- Zapisać do pliku tekstowego (bez znaczników czasu) lub do pliku SRT — można go użyć np. w serwisie Youtube.
- Przesłać do programu OBS Studio podczas streamingu,
Aplikacja wymaga zalogowania — można do tego użyć np. konta Google. Po zalogowaniu mamy dostęp do wcześniejszych transkrypcji, ale tylko tych wykonanych na naszym komputerze. Są one przechowywane lokalnie w pamięci komputera w zaszyfrowanej formie i nie są przesyłane na zewnątrz.
Wcześniej wykonane transkrypcje możemy edytować i zapisywać do pliku, jeśli używaliśmy przeglądarki Chrome dla PC.
Wyświetlanie interfejsu, czcionkę i kolory, język rozpoznawania oraz ewentualne integracje z zewnętrznymi programami / serwisami ustawiamy w opcji „Ustawienia” w menu programu. Jeżeli jesteśmy zalogowani, to nasze ustawienia zostaną na nim zapisane na naszym komputerze. Jest też opcja synchronizacji ustawień na różnych urządzeniach.
Zalety i ograniczenia aplikacji
Zalety:
- Na pewno dużym plusem jest prędkość rozpoznawania mowy. Napisy pojawiają się niemal natychmiast.
- Prostota i dostępność interfejsu – program oferuje sensowną ilość opcji i łatwo dostosować go do swoich potrzeb.
- Prosty tryb edycji — rozpoznany tekst można od razu poprawić w oknie aplikacji.
- Jest dostępna online, nie wymaga instalacji.
- Jest darmowa.
Ograniczenia / wady:
- Jakość rozpoznawania mowy jest zaledwie poprawna, nie uwzględnia rozpoznawania tonu wypowiedzi, nie wstawia znaków przestankowych. Zapisany tekst może wymagać wielu poprawek.
- Aplikacja działa w pełni wyłącznie w przeglądarce Google Chrome dla systemów PC. W przeglądarkach Edge i iOS Safari działa tylko rozpoznawanie mowy i wyświetlanie tekstu na bieżąco.