Co testujemy?
Do naszych testów wybraliśmy dwa serwisy oferujące usługę przetwarzania mowy z nagrań na tekst i tworzenie napisów:
https://www.beey.io – serwis czeskiej firmy Newton Technologies. Newton od ponad 15 zajmuje się technologiami rozpoznawania mowy. Jest twórcą znanego programu Newton Dictate.
Newton współpracuje z czeskimi instytucjami i Uniwersytetem w Libercu nad udoskonalaniem ich autorskiego algorytmu rozpoznawania mowy.
https://www.happyscribe.com – serwis niezależnego startupu z siedzibą w Barcelonie. Happyscribe rozwija technologię rozpoznawania mowy opartą o sztuczną inteligencję.
Główne cech wybranych serwisów
Wybraliśmy te serwisy, ponieważ oferują szereg niezbędnych funkcji:
- Pozwalają wczytać piliki audio lub wideo o dużej wielkości.
- Oferują rozpoznawanie języka polskiego.
- Rozpoznany tekst można przekształcić na format ze znacznikami czasowymi zsynchronizowanymi z mediami.
- Serwisy zawierają edytor napisów, w którym możemy poprawić zarówno błędnie rozpoznane wyrazy, jak i dostosować ich czas wyświetlania.
- Przygotowane napisy można zapisać na swoim komputerze w formacie SRT
Obydwa serwisy wymagają założenia konta i usługa rozpoznawania jest płatna. Mamy także opcję darmową, ale pozwala ona na rozpoznanie zaledwie 10 minut materiału miesięcznie. W obu przypadkach możemy poza automatycznym rozpoznawaniem tekstu zlecić usługę rozpoznawania nadzorowaną przez człowieka – znacznie droższą.
Jak testowaliśmy serwisy?
W obydwóch użyliśmy tego samego, 20-minutowego nagrania wideo. Dźwięk na tym nagraniu jest dobrej jakości, jednak znajdują się tam fragmenty, w których jednocześnie słychać głos dwóch osób — lektora i programu NVDA. Lektor mówi językiem naturalnym, z drobnymi błędami i naleciałościami językowymi oraz niewielkimi manieryzmami. Sposób mówienia jest zbliżony do wykładu na żywo.
Przeprowadziliśmy przesyłanie pliku wideo i jego rozpoznanie, następnie przygotowaliśmy korektę językową we wbudowanym w serwis edytorze wraz z poprawkami układu i czasu wyświetlania napisów. Skorygowane napisy zapisaliśmy w formacie SRT i przeprowadziliśmy dodatkową ich kontrolę podczas wyświetlania w odtwarzaczu VLC.
TEST — porównanie pracy serwisami do tworzenia napisów
Obydwa serwisy oferują podobne funkcje i ułatwienia w pracy nad napisami. Możemy w nich zapisań osobne projekty, opracowywać je w edytorze, przerywać pracę i wracać do niej po jakimś czasie. Zmiany w napisach zapisywane są automatycznie w chmurach serwisów. Każdy z projektów można dowolnie nazywać, opatrywać tagami i ustawiać status ich kompletności.
Interfejs Beey można ustawić w języku polskim, natomiast HappyScribe ma tylko angielskojęzyczny.
Wgrywanie filmu i czas rozpoznawania: W obydwóch usługach można wgrać pliki ze swojego komputera lub wybrać już zapisane w chmurze Google, lub serwisie streamingowym. Transfer pliku trwał zaledwie kilka minut a kolejne 4-5 minut trwało generowanie tekstu. Bardzo szybko!
HappyScribe oferuje szerszy wybór metod i źródeł pobierania pliku do transkrypcji, od razu też możemy wygenerować kilka tłumaczeń — transkrypcja w języku oryginalnym jest wykonywana zawsze.
Jakość surowej transkrypcji w obydwu aplikacjach jest zbliżona.
Edytowanie transkrypcji
Działanie Beey i HappyScribe różni się nieco po załadowaniu i rozpoznaniu pliku z mediami. HappyScribe od razu generuje napisy z domyślnie ustawionymi parametrami i otwiera edytor. Beey pokazuje najpierw rozpoznany tekst i należy go dopiero skonwertować do napisów w menu edytora. Podczas konwersji jesteśmy pytani o parametry wyglądu i czasu napisów i dopiero po ich zatwierdzeniu aplikacja przetwarza tekst, dzieląc go znacznikami czasowymi i wstawiając podziały wierszy.
Napisy wygenerowane w HappyScribe również można dostosować, od razu po ich załadowaniu, lub w dowolnym momencie. Mamy do dyspozycji ustawienie linii i czasów oraz narzędzie do ponownego układania napisów w liniach. Jest to szczególnie przydatnie, gdy w trakcie edycji dodamy, lub usuniemy jakieś fragmenty tekstu – aplikacja sama zadba wówczas o poprawny podział na linie w ramach znacznika czasowego. W Beey niestety o łamanie tekstu po dokonaniu w nim zmian musimy zadbać sami.
Mimo pewnych różnic kontrola parametrów generowania napisów jest podobna w obydwu aplikacjach, jednak HappyScribe oferuje tu nieco większą elastyczność. Szybciej również możemy przystąpić do edytowania napisów.
Subiektywna ocena jakości napisów wygenerowanych z ustawieniami domyślnymi.
Odnieśliśmy wrażenie, że w testowanym przez nas nagraniu jakość transkrypcji była zbliżona, natomiast podział tekstu na bloki ze znacznikami czasowymi i w ramach tych bloków podział na linie był lepszy w napisach wygenerowanych przez HappyScribe. Może to być zasługa zastosowanych algorytmów, bo HappyScribe korzysta z silnika GPT 4 i jego dużej mocy obliczeniowej, natomiast Beey używa autorskiego rozwiązania Newton Technologies.
Wygląd i wygoda używania edytora napisów
Obydwa programy oferują interfejs wyposażony w
- podgląd wideo z wygenerowanymi napisami,
- oś czasu ze ścieżką audio z falą dźwięku i wskazanymi na niej blokami napisów
- oraz panel edytora napisów.
Ten ostatni różni się w obu aplikacjach najbardziej.
Edytor Beey
Beey wyświetla cały blok rozpoznanego tekstu, a podziały na bloki do wyświetlenia czasowymi są sygnalizowane w tym tekście graficznym znacznikiem. Możemy w dowolnym miejscu wstawić znacznik podziału, przesunąć aktualny wyraz w czasie skokami co 100 ms. Narzędzia znajdują się powyżej tekstu, ale ich używanie przy pomocy myszki jest dość niewygodne i aby wydajnie pracować w edytorze, niezbędne jest używanie skrótów klawiaturowych oraz myszy.
Bloki napisów o zbyt długim czasie, zbyt dużej ilości znaków, lub trwające zbyt krótko oznaczane są kolorami. Po najechaniu na taki blok kursorem wyświetlane jest wyjaśnienie błędu.
Sterowanie odtwarzaczem znajduje się na górze ekranu i pomiędzy napisami przemieszczamy się, klikając na oś czasu z falą audio, odtwarzanie najwygodniej uruchamiać i zatrzymywać klawiaturą. Podgląd wideo pozwala jedynie na rozpoczęcie i zatrzymanie odtwarzania.
Podczas odtwarzania i nawigacji po osi czasu, pozycja w tekście jest sygnalizowana jego pogrubieniem, ale naszym zdaniem aktualna pozycja jest słabo widoczna, nawet pomimo przesuwania się kursora w miarę odtwarzania. Pogrubiony jest bowiem cały tekst przed kursorem, czcionka jest dość mała i różnica pomiędzy pogrubioną i zwykła jest niewielka. Trudno na pierwszy rzut oka dostrzec, gdzie jesteśmy w tekście, a wygląd napisów możemy ocenić jedynie na podstawie podglądu wideo. Nie mamy też łatwego wpływu na to, jak łamany będzie tekst, gdy wyświetlany jest w kilku liniach. Jedynym sposobem jego podziału jest wstawianie w tekst znaku nowej linii (Enter) lub wstawianie spacji niełamliwej.
Znaczniki czasowe nie są widoczne w tekście, chyba że zmodyfikujemy domyślnie ustawiony czas. Jedyny ich podgląd jest na osi czasu z falą audio. Tam również możemy przy pomocy myszki przesuwac początki i końce bloków tekstu i synchronizować je z dźwiękiem.
Dodatkowo edytor zawiera opcje ustawiania wyglądu napisów (nagłówki) oraz dodawania informacji o rozmówcach. Obok panelu tekstu znajduje się menu opcji i narzędzi, w którym możemy wybrać akcję związaną z aktualnie edytowanym tekstem. Jeśli chcemy zmienić parametry generowanych napisów (ilość linii, ilość znaków w linii itp.), to musimy przekonwertować tekst z powrotem na czystą transkrypcję, bez podziałów, a potem dokonać konwersji na napisy z nowymi parametrami. Wszystkie zmiany dotyczące podziału napisów, dokonane do tej pory, zostaną utracone.
Dostępność cyfrowa edytora jest niestety bardzo słaba. Ponieważ aplikacja przejmuje wiele skrótów klawiaturowych, to poruszanie się po niej klawiaturą jest w praktyce niemożliwe. Również z użyciem czytnika ekranu (screenreadera) nie udało nam się dotrzeć i uruchomić większości funkcji. W praktyce jesteśmy zmuszeni do obsługi myszką i specyficznymi dla aplikacji skrótami klawiaturowymi.
Edytor HappyScribe
HappyScribe w swoim edytorze zastosowało inne podejście. Przede wszystkim interfejs jest uproszczony. W panelu tekstowym wyświetlane są od razu bloki tekstowe ze znacznikami czasowymi i od razu widać na nich, jak tekst będzie łamany do wielu linii. Edytowanie tekstów jest bardzo intuicyjne — możemy poruszać się po nim strzałkami góra / dół, enterem dzielić na bloki, a usuwając podział akapitu — łączyć je ze sobą. Łamanie tekstu uzyskujemy przez wstawienie znacznika nowej linii (shift+Enter). Edytor zawiera również szereg skrótów klawiaturowych przyspieszających pracę, ale jest ich znacznie mniej, niż w przypadku Beey.
Obok bloków tekstowych wyświetlane są ich znaczniki czasowe oraz prędkość odczytu. Bloki wyświetlane zbyt krótko, za długie, o zbyt dużej ilości znaków są tu oznaczane kolorowym indykatorem problemu. Po najechaniu na niego kursorem wyświetlane jest wyjaśnienie błędu.
Dodatkowo edycję ułatwia automatyczna synchronizacja wyświetlanego wideo i osi czasu ze ścieżką audio z pozycją naszego kursora. Podobnie w przypadku przeskoczenia w odtwarzaczu lub przemieszczenia się po osi czasu – pozostałe panele od razu przestawiają się w to samo miejsce.
Podczas odtwarzania pozycja w tekście jest oznaczana pogrubieniem oraz zmianą koloru aktualnie odczytywanego wyrazu. Teksty są wyświetlane większą czcionką niż w Beey i od razu widać, gdzie w tekście się znajdujemy.
Sterowanie odtwarzaczem znajduje się bezpośrednio pod nim i wydaje się to również intuicyjne i naturalne. Bloki tekstu możemy na osi czasu wygodnie przesuwać w całości oraz dodatkowo przeciągać ich początek lub koniec. Teksty na odtwarzaczu wyświetlane są z dodatkowym tłem, co zwiększa ich czytelność.
Na pozór wydaje się, że interfejs jest uboższy, ale tak naprawdę zawiera te same opcje, co Beey, tylko zostały one ukryte w mniej rzucających się w oczy kontrolkach. Interfejs zaprojektowano z myślą o jak największym skupieniu na jego podstawowych funkcjach. Również mamy tu opcje stylowania tekstów, możemy ponownie podzielić tekst z nowymi parametrami, wyeksportować w odpowiednim formacie.
Dostępność cyfrowa edytora — niestety, przejęcie klawisza Tab uniemożliwia swobodne przemieszczanie się po aplikacji klawiaturą. Przy użyciu screenreadera jest już lepiej i większość funkcji daje się obsłużyć, ale niektóre elementy aktywne mają problematyczne etykiety, lub nawet ich całkowity brak. Osoba widząca da radę posługiwać się wyłącznie klawiaturą. Edytowanie napisów jest całkiem wygodne, ale wywołanie dodatkowych funkcji może przysporzyć kłopotów. Aplikacja zdecydowanie najłatwiej obsługiwana jest myszką.