To tylko jedna z 4 stron tej notatki. Zaloguj się aby zobaczyć ten dokument.
Zobacz
całą notatkę
Przetwarzanie sygnałów mowy. Techniki przetwarzania głosu. Cyfryzacja sygnałów mowy. Zakres częstotliwości mowy. Kodery i dekodery sygnału mowy. Kompresja głosu. Przetwarzanie sygnałów mowy. Jak wiemy, transmisja sygnałów mowy jest podstawową usługą telekomunikacyjną. W systemach analogowych sygnał odwzorowujący bezpośrednio falę głosową moduluje parametr sygnału sinusoidalnego — amplitudę w różnych systemach z modulacją amplitudy AM, fazę - w systemach z modulacją fazy PM lub częstotliwość w przypadku zastosowania modulacji częstotliwości FM. Nowoczesne systemy telekomunikacyjne przesyłają sygnały mowy metodami cyfrowymi, stąd szczególne znaczenie efektywnego sposobu przedstawienia sygnału mowy w postaci ciągu impulsów binarnych.
Techniki przetwarzania głosu. W celu transmisji sygnału rozmownego przez cyfrowy fragment sieci telefonicznej PSTN sygnał analogowy, pochodzący zwykle od abonenta sieci, jest przetwarzany (konwersja A/C) na postać cyfrową z częstotliwością 8 kHz (PCM 64). Konwersja PCM 64 Wartość analogowa każdej próbki jest rejestrowana (kwantyzacja) jako jeden z 256 możliwych poziomów i zapisywana w 8-bitowym rejestrze zgodnie z kodem PCM. Przy wykorzystaniu 256 poziomów kwantyzacji sygnału (8 bitów danych na każdym poziomie) uzyskana przepływność kanału wynosi 8 kHz × 8 bitów =64 kb/s. PCM 64 dokonuje się w kodekach instalowanych na obrzeżach sieci komutowanej PSTN zgodnie ze standardem G.711. Do konwersji sygnałów analogowych (starsze centrale analogowe) przez cyfrowe łącza międzycentralowe o wyższej przepływności stosuje się krotnice.
Cyfryzacja sygnałów mowy. Zakres częstotliwości mowy. Przesłanie sygnału głosu ludzkiego wymaga kanału zdolnego do przeniesienia określonego pasma częstotliwości. Głos ludzki zawiera wiele częstotliwości podstawowych i harmonicznych, których zestaw nadaje ton i barwę charakterystyczną dla każdego rozmówcy.
Widmo mowy obejmuje częstotliwości od 100 Hz do ponad 8 kHz, przy czym największa gęstość widmowa (energia) przypada w okolicy 500 Hz i sukcesywnie maleje ze wzrostem częstotliwości.
Dla dobrego zrozumienia mowy i rozpoznania osoby mówiącej wystarczy pasmo, w którym jest zawarta główna część energii, to znaczy w zakresie od 300 Hz do 3400 Hz. Ze względów ekonomicznych zdecydowano transmitowaćw urządzeniach telefonicznych pasmo o szerokości 3,1 kHz (niekiedy 3,3 kHz w zakresie od 200 do 3500 Hz), zapewniające właściwe zrozumienie mowy.
(…)
….
Rzeczywista szerokość pasma transmitowanego przez urządzenia telefoniczne i kanały transmisyjne wynosi 4 kHz. Kodery i dekodery sygnału mowy. Zazwyczaj w cyfryzacji sygnałów, korzysta się z kwantyzacji liniowej - poszczególne poziomy mają identyczny krok.
Możliwe jest także, szczególnie w zastosowaniach fonicznych, wykorzystanie innych, czasem bardzo skomplikowanych wzorców kwantyzacyjnych. Na przykład w sygnale mowy ludzkiej znajdują się dźwięki głośne, jak samogłoski i dźwięki cichsze reprezentowane spółgłoskami.
Składowe o większych amplitudach mogą pochodzić od wymawiania takich dźwięków, jak „och” lub „ach”, podczas gdy niższe amplitudy mogą reprezentować dźwięki „sz” lub „cz”.
Pokazana na rysunku kwantyzacja liniowa zapewnia odpowiednią reprezentację dźwięków głośnych, lecz większość różniących…
... zobacz całą notatkę
Komentarze użytkowników (0)