Mfcc là gì

là tập các frame liên tiếp nhau, trích chọn đặc trưng MFCC cho ta tập đặc trưng cho mỗiframe tiếng nói này. Tại sao phải chia thành các frame và các frame cụ thể chúng có đặctrưng thế nào, ta sẽ đề cập tới ở ngay phần sau đây.2.2. TRÍCH CHỌN ĐẶC TRƯNG MFCC 2Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC là phương pháp phổbiến nhất. MFCC là viết tắt của Mel-frequency cepstral coefficients. Kỹ thuật này dựatrên việc thực hiện biến đổi để chuyển dữ liệu âm thanh đầu vào [đã được biến đổi Fouriercho phổ] về thang đo tần số Mel, một thang đo diễn tả tốt hơn sự nhạy cảm của tai ngườiđối với âm thanh. Kỹ thuật trích chọn đặc trưng này gồm các bước biến đổi liên tiếp,trong đó đầu ra của bước biến đổi trước sẽ là đầu vào của bước biến đổi sau. Đầu vào củaquá trình trích chọn đặc trưng này sẽ là một đoạn tín hiệu tiếng nói. Vì tín hiệu âm thanhsau khi được đưa vào máy tính đã được rời rạc hóa nên đoạn tín hiệu tiếng nói này baogồm các mẫu liên tiếp nhau, mỗi mẫu là một giá trị thực, thể hiện giá trị biên độ của âmthanh tại 1 thời điểm.Trích chọn đặc trưng MFCC gồm sáu bước như trong hình vẽ sau, kết quả là một tập gồm39 giá trị đặc trưng cho mỗi một frame tiếng nói.Hình 2 [nguồn [2]]: Sơ đồ quá trình trích chọn đặc trưng MFCC2.2.1. Pre-emphasisTín hiệu âm thanh thường được thu ở môi trường đời thường, tiếng nói bình thườngcủa một người cũng không được to, trừ khi nói to có chủ định, do đó nhiễu của môitrường [tần số thấp] nhiều khi có cường độ lớn bằng một phần đáng kể [nghe có thể dễdàng nhận ra] của tiếng nói khi thu âm, bước đầu tiên của quá trình trích chọn đặc trưng2 Nội dung tham khảo từ cuốn Speech and Language Processing, 2007, chapter 9. Tác giả Daniel Jurafsky &Jame H.Martin.8 MFCC sẽ xử lý vấn đề này, bằng việc thực hiện tăng cường độ của những tần số cao lênnhằm làm tăng năng lượng ở vùng có tần số cao – vùng tần số của tiếng nói, một cách dễhiểu là làm tiếng nói lớn hơn lên để ảnh hưởng của các âm thanh môi trường và nhiễu trởthành không đáng kể. Việc tăng cường độ của vùng tần số cao lên đồng thời làm chothông tin rõ ràng hơn đối với mẫu tiếng nói. Hình sau mô tả trước và sau quá trình Preemphasis của một đoạn tín hiệu âm thanh:Hình 3 [nguồn [2]]: Một đoạn tần âm thanh trước và sau Pre-Emphasis2.2.2. WindowingTrong hệ thống nhận dạng tiếng nói được trình bày ở khóa luận này, với mục đíchnâng cao độ chính xác của việc nhận dạng tiếng, thay vì nhận dạng từng từ riêng biệt, mỗimột từ trong đoạn hội thoại sẽ được phân tích thành các âm vị [subphone] [7], và hệthống sẽ nhận dạng từng âm vị. Âm vị ở đây là đơn vị phát âm của một từ, các âm vị cấuthành tiếng nói, trong tiếng Anh, nó là đơn vị cấu thành phiên âm của từ [chẳng hạn ONE:w-ah-n, âm vị ở đây là w, ah và n], trong cách phát âm của tiếng Việt, cách viết của từchính là hình thức văn bản của âm vị [chẳng hạn “MOT” = “m-oo-t”, âm vị là m, oo và t].Vì lý do đó, các đặc trưng cần phải được trích chọn trên từng âm vị, thay vì cả từ hay cảđoạn tiếng nói dài. Windowing là việc cắt đoạn tín hiệu âm thanh đầu vào ra thành cácmẩu tín hiệu có thời lượng nhỏ, gọi là các frame. Mỗi frame này sau đó sẽ được nhậndạng nó thuộc âm vị nào. Nói cách khác, một frame sẽ là một tập gồm một số mẫu của tínhiệu ban đầu ta đã đề cập ở phần 2.1.9 Một lý do khác cho thấy sự cần thiết của việc windowing là vì tín hiệu âm thanh thay đổirất nhanh, do đó các thuộc tính như biên độ, chu kỳ sẽ không ổn định. Khi tín hiệu âmthanh được cắt ra thành những đoạn nhỏ thì ở mỗi đoạn, có thể coi tín hiệu đó là ổn định,các đặc trưng của tín hiệu là không đổi theo thời gian. Hình vẽ sau mô tả quá trìnhWindowing:Hình 4 [nguồn [2]]: Minh họa quá trình WindowingĐể thực hiện việc này, chúng ta sử dụng một cửa sổ [window] chạy dọc tín hiện âm thanhvà cắt ra các đoạn tín hiệu nằm trong cửa sổ đó. Một cửa sổ được định nghĩa bằng cácthông số:- Frame size: độ rộng của cửa sổ, cũng là độ lớn của frame tín hiệu sẽ được cắt ra.- Frame shift: bước nhảy của cửa sổ, là độ dài đoạn mà cửa sổ sẽ trượt để cắt raframe tiếp theo.Mỗi frame sau đó sẽ được nhân với một hệ số, giá trị của hệ số này tùy thuộc vào từngloại cửa sổ.Trong đó x[n] là giá trị của mẫu thứ n, y[n] là giá trị của mẫu thứ n sau khi nhân với hệsố, w[n] là hệ số cho mẫu thứ n trong frame đó.10 Loại cửa sổ đơn giản nhất là cửa sổ Rectangular, giá trị của các hệ số w[n] được cho bởicông thức sau:Nói cách khác, của sổ Rectangular với bước nhảy là frame shift, ta lấy frame size giá trịliên tiếp của tín hiệu làm một frame.Một loại cửa sổ khác thông dụng hơn trong trích chọn đặc trưng MFCC là cửa sổHamming. Trong loại cửa sổ này, giá trị của tín hiệu sẽ giảm dần về 0 khi tiến dần ra haibiên của frame. Nói cách khác, nếu sử dụng cửa sổ Hamming để lấy ra các frame, nănglượng của mỗi frame sẽ tập trung ở giữa frame, một ưu điểm nữa là các giá trị biên củacửa sổ Hamming tiến dần về 0 sẽ làm bước biến đổi Fourier ngay sau trở nên dễ dàng hơn[với cửa sổ Rectangular các giá trị giữ nguyên so với mẫu tiếng nói, bên ngoài cửa sổnhận giá trị 0, các giá trị sẽ bị tăng đột ngột ở hai biên]. Hệ thống nhận dạng trong khóaluận này trình bày sẽ sử dụng cửa sổ Hamming. Biểu thức hệ số của cửa sổ này là:So sánh hai loại cửa sổ Rectangular và HammingHình 5 [nguồn [2]]: So sánh Rectangular [trái] và Hamming window [phải]2.2.3. DFT [Discrete fourier transform]Bước biến đổi tiếp theo là thực hiện biến đổi Fourier rời rạc đối với từng mẩu tínhiệu đã được cắt ra. Qua phép biến đổi này, tín hiệu sẽ được đưa về không gian tần số.Công thức của biến đổi Fourier:11 Trong đó x[n] là giá trị của mẫu thứ n trong frame, X[k] là một số phức biểu diễn cườngđộ và pha của một thành phần tần số trong tín hiệu gốc, N là số mẫu trong một frame.Thông thường người ta sử dụng biến đổi FFT [Fast fourier transform] thay vì DFT. Biếnđổi FFT nhanh hơn nhiều so với biến đổi DFT, tuy nhiên thuật toán này đòi hỏi giá trị Nphải là một lũy thừa của 2. Hình sau mô tả trước và sau khi biến đổi DFT của một cửa sổ:Hình 6 [nguồn [2]]: Biến đổi DFT cho một Hamming window2.2.4. Mel filter-bank and logKết quả của quá trình biến đổi Fourier thể hiện năng lượng của tín hiệu ở những dảitần số khác nhau. Tuy nhiên, tai của người lại không có sự nhạy cảm như nhau đối vớimọi dải tần số. Do đó việc mô hình hóa tính chất này của tai người trong quá trình tríchchọn đặc trưng làm tăng khả năng nhận dạng của hệ thống. Trong mô hình trích chọn đặctrưng MFCC, tần số sẽ được chuyển sang thang đo tần số mel theo công thức:Trong đó f là tần số ở thang đo thường, fmel là tần số ở thang đo mel. Người ta sử dụng cácbăng lọc để tính các hệ số mel. Sử dụng bao nhiêu băng lọc thì sẽ cho ra bấy nhiêu hệ sốmel, và các hệ số mel này sẽ là đầu vào cho quá trình tiếp theo của trích chọn đặc trưngMFCC.12 Hình vẽ sau biểu diễn mô hình các băng lọc trong thang đo tần số bình thường và thangđo mel:Hình 7 [nguồn [2]]: Mô hình các băng lọc trong thang đo tần số bình thường và thang đo melCuối cùng của giai đoạn này, ta lấy logarit cơ số tự nhiên của phổ tính theo thang đoMel, thao tác này có 2 nguyên nhân, một là do tai người nhạy cảm với âm thanh cường độthấp hơn, hai là làm các giá trị đặc trưng nhỏ đi, tiện cho việc tính toán.2.2.5. Discrete consinse transformBước tiếp theo của việc trích chọn đặc trưng MFCC là biến đổi fourier ngược vớiđầu vào là các hệ số phổ mel của bước trước, đầu ra sẽ là các hệ số cepstrum [MFCC –Mel Frequency Cepstrum Coefficients].Sau khi thực hiện biến đổi Fourier thì dãy tín hiệu theo thời gian đã được chuyểnthành phổ tần số, và việc áp dụng các băng lọc tần số mel giúp cô đọng phổ tần số về mộtsố hệ số nhất định [bằng với số băng lọc]. Các hệ số này thể hiện các đặc trưng của nguồnâm thanh như tần số cơ bản, xung âm thanh… Tuy nhiên, các đặc trưng này không quantrọng đối với việc phân biệt các âm khác nhau. Thay vào đó, các đặc trưng về bộ máyphát âm [khoang miệng, khoang mũi, thanh quản, hầu] rất cần thiết cho việc nhận dạngcác âm. Việc thực hiện biến đổi fourier ngược sẽ giúp tách biệt các đặc trưng về nguồn13 âm và bộ máy phát âm từ các hệ số [các đặc trưng về bộ máy phát âm là các hệ số đầutiên].2.2.6. Feature extractionTừ các hệ số mel thu được từ quá trình trước, thông thường chúng ta chỉ lấy ra 12 hệsố đầu tiên để chọn làm đặc trưng. 12 hệ số này chỉ đặc trưng cho các bộ phận của bộ máyphát âm. Như vậy chúng ta đã có 12 đặc trưng đầu tiên.Đặc trưng thứ 13 là năng lượng của âm. Năng lượng của mỗi khung tín hiệu được tínhngay từ sau bước windowing:Với 13 đặc trưng đó, chúng ta thêm vào 13 đặc trưng delta thể hiện tốc độ thay đổi củacủa âm giữa các khung tín hiệu, được tính bằng công thức:trong đó d[t] là đặc trưng delta của khung t, c[t+1] và c[t-1] là các đặc trưng phổ củakhung ngay sau và trước khung t; và 13 đặc trưng double delta thể hiện gia tốc thay đổicủa âm giữa các khung tín hiệu. Công thức tính các đặc trưng double delta giống với côngthức tính các đặc trưng delta, khi coi c[t] là giá trị của các đặc trưng delta.2.2.7. Tổng kếtTrích chọn đặc trưng MFCC sẽ thu được các đặc trưng sau đây:- 12 giá trị đặc trưng phổ Mel được biến đổi Fourier ngược- 12 giá trị delta phổ- 12 giá trị double delta phổ- 1 giá trị mức năng lượng- 1 giá trị delta mức năng lượng- 1 giá trị double delta mức năng lượng14 Tổng cộng: 39 đặc trưng cho mỗi frame tiếng nói.Chương 3. ĐẶC TRƯNG VỀ THANH ĐIỆU CỦA TIẾNG VIỆTỞ chương trước ta đã trình bày về việc chọn đặc trưng cho tiếng nói tiếng Việt thôngqua mô phỏng bộ máy phát âm, đây cũng là đặc trưng chung cho các ngôn ngữ khác. Tuynhiên, tiếng nói tiếng Việt còn có những đặc điểm riêng, đặc thù và độc đáo, việc tìm hiểunhững đặc trưng này và đưa chúng vào phục vụ nhận dạng sẽ làm tăng độ chính xác toàncục của hệ thống nhận dạng tiếng nói.15 3.1. Khái niệm ngôn điệu, ngữ điệu và thanh điệu 3Nói một cách nôm na, trong ngôn ngữ nói, “ngôn điệu” là cái mang lại âm sắc chotiếng nói, âm sắc là biểu hiện tự nhiên của giọng nói, mang ý nghĩa nhấn mạnh hoặc thểhiện sắc thái tình cảm, lời nói không có ngôn điệu giống như lời nói của robot, khônggiống tiếng nói tự nhiên. Các nhà ngôn ngữ học cho rằng bản chất ngôn điệu là sự phủ lênâm tiết các yếu tố trọng âm, thanh điệu, ngữ điệu và trường độ. Vai trò của ngôn điệu rấtquan trọng trong tổng hợp tiếng nói, nếu không xử lý được vấn đề ngôn điệu thì khôngthể tổng hợp được tiếng nói tự nhiên của con người được. Đặc trưng quan trọng nhất củangôn điệu là độ cao, độ dài, độ to, tương ứng là các đại lượng tần số cơ bản F0, thời giancủa âm tiết, âm vị D, và cường độ I.Ngôn điệu của lời nói liên kết chặt chẽ với khái niệm “ngữ điệu”. Có thể nói ngữđiệu là sự nâng cao hạ thấp của lời nói trong câu, khi xét là một âm tiết [trong tiếng Việtgọi là một tiếng] ngữ điệu lúc này trở thành thanh điệu của âm tiết đó. Đặc trưng chínhcho tính chất này là tần số cơ bản của giọng nói: F0. Việc lấy các giá trị F0 theo thời giantạo thành đường nét F0. Trong lời nói liên tục, đường nét F0 cho mỗi thanh điệu có cácđặc trưng khác nhau, tín hiệu thô ban đầu là dạng thô của đường nét F0, ở chương này, tađi nghiên cứu cách làm mịn đường nét F0 cho mỗi âm tiết riêng biệt, theo đúng giới hạnban đầu của bài toán.3.2. Tìm đường nét F0 và nghiên cứu đặc điểm của từng thanh điệu trong tiếng ViệtTrong tiếng Việt, có 6 thanh điệu được sử dụng: thanh ngang, huyền, sắc, hỏi,nặng và ngã. Trong văn học xưa từng xuất hiện luật bằng trắc: thanh bằng chỉ âm tiết cóđường nét có chiều hướng đi ngang hoặc đi xuống [là thanh ngang, huyền] thanh trắc chỉâm tiết có đường nét đi lên [thanh sắc, nặng, ngã], tuy nhiên phân loại như vậy là chưachặt chẽ và đầy đủ. Sau đây, ta sẽ đưa ra một cách làm mịn đường nét F0 thể hiện thanhđiệu tiếng nói và nghiên cứu đặc điểm của từng thanh điệu.3 Nội dung tham khảo trong tài liệu: “Mô hình Fujisaki và áp dụng trong phân tích thanh điệu tiếng Việt” của BạchHưng Nguyên, Nguyễn Tiến Dũng.16

Video liên quan

Chủ Đề