Thanh bằng
Thanh bằng là thanh điệu bằng phẳng, không có sự cao giọng hay thấp giọng khi đọc. Và là những thanh điệu mà khi thể hiện, đường nét âm điệu diễn biến bằng phẳng, đồng đều từ đầu đến cuối, không có sự lên xuống bất thường nào.
Thanh trắc
Thanh trắc là thanh điệu không bằng phẳng. Thanh này có âm diệu diễn biến phức tạp trong thanh điệu. thanh này khi lên khi xuống, thể hiện ra bằng một đường nét không bằng phẳng và không đồng đều.
Xem thêm: Những chất kết tủa trắng thường gặp trong hóa học
3.1. Khái niệm ngôn điệu, ngữ điệu và thanh điệu 3
Nói một cách nôm na, trong ngôn ngữ nói, ngôn điệu là cái mang lại âm sắc cho
tiếng nói, âm sắc là biểu hiện tự nhiên của giọng nói, mang ý nghĩa nhấn mạnh hoặc thể
hiện sắc thái tình cảm, lời nói không có ngôn điệu giống như lời nói của robot, không
giống tiếng nói tự nhiên. Các nhà ngôn ngữ học cho rằng bản chất ngôn điệu là sự phủ lên
âm tiết các yếu tố trọng âm, thanh điệu, ngữ điệu và trường độ. Vai trò của ngôn điệu rất
quan trọng trong tổng hợp tiếng nói, nếu không xử lý được vấn đề ngôn điệu thì không
thể tổng hợp được tiếng nói tự nhiên của con người được. Đặc trưng quan trọng nhất của
ngôn điệu là độ cao, độ dài, độ to, tương ứng là các đại lượng tần số cơ bản F0, thời gian
của âm tiết, âm vị D, và cường độ I.
Ngôn điệu của lời nói liên kết chặt chẽ với khái niệm ngữ điệu. Có thể nói ngữ
điệu là sự nâng cao hạ thấp của lời nói trong câu, khi xét là một âm tiết [trong tiếng Việt
gọi là một tiếng] ngữ điệu lúc này trở thành thanh điệu của âm tiết đó. Đặc trưng chính
cho tính chất này là tần số cơ bản của giọng nói: F0. Việc lấy các giá trị F0 theo thời gian
tạo thành đường nét F0. Trong lời nói liên tục, đường nét F0 cho mỗi thanh điệu có các
đặc trưng khác nhau, tín hiệu thô ban đầu là dạng thô của đường nét F0, ở chương này, ta
đi nghiên cứu cách làm mịn đường nét F0 cho mỗi âm tiết riêng biệt, theo đúng giới hạn
ban đầu của bài toán.
3.2. Tìm đường nét F0 và nghiên cứu đặc điểm của từng thanh điệu trong tiếng Việt
Trong tiếng Việt, có 6 thanh điệu được sử dụng: thanh ngang, huyền, sắc, hỏi,
nặng và ngã. Trong văn học xưa từng xuất hiện luật bằng trắc: thanh bằng chỉ âm tiết có
đường nét có chiều hướng đi ngang hoặc đi xuống [là thanh ngang, huyền] thanh trắc chỉ
âm tiết có đường nét đi lên [thanh sắc, nặng, ngã], tuy nhiên phân loại như vậy là chưa
chặt chẽ và đầy đủ. Sau đây, ta sẽ đưa ra một cách làm mịn đường nét F0 thể hiện thanh
điệu tiếng nói và nghiên cứu đặc điểm của từng thanh điệu.
3 Nội dung tham khảo trong tài liệu: Mô hình Fujisaki và áp dụng trong phân tích thanh điệu tiếng Việt của Bạch
Hưng Nguyên, Nguyễn Tiến Dũng.
16
3.2.1. Tính đường nét thanh điệu 4
3.2.1.1. Hàm biên độ trung bình [AMDF Average Magnitude Difference Fucntion]
Hàm hiệu biên độ trung bình của một tín hiệu là hiệu biên độ của chính nó rời đi p
mẫu, được tính bởi công thức:
d[p] = |
Ở đây x[n] là giá trị biên độ thứ n của tín hiệu, N là số giá trị biên độ [thường là số giá trị
được lấy ra trong 1 khoảng thời gian cố định, với tần số lấy mẫu là Fs]
Nếu x[n] là tín hiệu tuần hoàn với chu kì T thì khi p tiến dần tới giá trị T, hàm d[p] sẽ đạt
giá trị nhỏ nhất.
Do tín hiệu là rời rạc nên sẽ tồn tại giá trị nguyên p0 sao cho d[p0] là nhỏ nhất, khi đó giá
trị f0 = Fs/p0 được coi là tần số cơ bản của đoạn tín hiệu đó, nói cách khác nó đặc trưng
cho thanh điệu của đoạn tín hiệu đó, f 0 là một giá trị trong đường nét F0 đặc trưng cho
thanh điệu của toàn bộ tín hiệu giọng nói ban đầu.
Giọng nói của người bình thường có tần số cơ bản là khoảng 90Hz với giọng nam và
200Hz với giọng nữ, ta sẽ lấy p0 sẽ nằm trong khoảng rộng hơn từ Fs/250 đến Fs/80.
Cứ mỗi đoạn tín hiệu kéo dài từ 10-25ms ta lại lấy một giá trị f0 như vậy, tập f0 theo thời
gian thu được chính là đường nét F0.
3.2.1.2. Thực hiện tìm đường nét F0
– Cắt xén tín hiệu làm nổi rõ chu kì cơ bản
y[n] =
Trong đó C được chọn vào khoảng 1/3 giá trị biên độ cực đại trên toàn tín hiệu
– Tính hàm biên độ trung bình: tín hiệu sau khi được cắt xén được đưa vào hàm lấy biên
độ trung bình như trong mục 3.2.1.1 với N là độ dài của một khung [gồm các giá trị
được lấy trong 1 khoảng thời gian nhất định, ở đây lấy số giá trị trong 1 frame
[khoảng 10-25ms] như ở mục I đã trình bày].
4 Nội dung tham khảo trong tài liệu Nhận dạng tiếng Việt dùng mạng Neuron kết hợp trích đặc trưng dùng
LPC và AMDF, 2005, tác giả Hoàng Đình Chiến.
17
– Làm mịn: với các d[p0] > 0.7*dmax[p] ta coi đó là khung vô thanh, tính giá trị đặc trưng
f0 = 0. Sau khi được tập { f0 } tiếp tục làm mịn đường nét F0 bằng cách: nếu các
khung vô thanh ở đầu hoặc cuối âm tiết thì sẽ được thay thế bởi giá trị f0 kế cận, nếu
khung vô thanh ở giữa âm tiết thì thay bằng trung bình của 2 giá trị f0 ngay cạnh.
Cuối cùng làm trơn đường nét F0 bằng bộ lọc với đáp ứng xung h = [0.1, 0.2, 0.4,
0.2, 0.1]
– Lấy đặc trưng: Tùy vào nhu cầu sử dụng bao nhiêu đặc trưng mà lấy các giá trị từ
đường nét F0, có thể lấy các giá trị trên đường nét, hoặc có thể biến đổi rời rạc
đường nét về một số giá trị đặc trưng nhất định.
3.2.2. Đặc điểm của từng thanh điệu dựa vào đường nét 5
3.2.2.1. Thanh ngang
Đường nét của thanh ngang thường có xu hướng giảm nhẹ, điều này dễ hiểu bởi khi
phát âm, mức năng lượng gần như không đổi và giảm dần về cuối âm tiết, thanh ngang dễ
bị nhầm lẫn với thanh huyền vì đường nét của chúng tương tự nhau [xu hướng không đổi
hoặc giảm nhẹ]
Hình mô tả đường nét thô của thanh ngang.
Hình 8: Đường nét thô của thanh ngang, âm vị a
3.2.2.2. Thanh huyền
5 Nội dung tham khảo từ Mô hình Fujisaki và áp dụng trong phân tích thanh điệu tiếng Việt, tác giả Bạch
Hưng Nguyên, Nguyễn Tiến Dũng
18
Đường nét thanh huyền khi phát âm chuẩn có xu hướng không tăng, không giảm,
gần giống với thanh ngang, điều này ta vừa đề cập tới, nó gây khó khăn trong việc phân
biệt riêng hai thanh điệu này. Hình sau là phổ biên độ thô của thanh huyền:
Hình 9: Đường nét thô của thanh huyền, âm vị à
3.2.2.3. Thanh sắc
Thanh sắc có đường nét đi lên, khá giống với thanh ngã và thanh nặng, thanh sắc có
âm vực bắt đầu cao hơn 2 thanh còn lại, có báo cáo thí nghiệm kết luận rằng: cho đường
nét của thanh sắc và thanh ngã giống hệt nhau, khi tổng hợp lại người nghe vẫn phân biệt
được 2 thanh này. Tuy nhiên, thanh ngã và thanh nặng cũng còn những đặc điểm quan
trọng khác để phân biệt với các thanh còn lại.
Quan sát đường nét [ở dạng phổ] thô của thanh sắc:
Hình 10: Đường nét thô của thanh sắc, âm vị á
19
3.2.2.4. Thanh ngã
Đường nét thanh ngã bị gãy ở giữa, không chỉ gãy ở F0 mà thanh ngã còn bị gãy ở
phổ, đó chính là khác biệt lớn nhất giữa thanh ngã với các thanh còn lại. Hình sau mô tả
điều này
Hình 11: Đường nét thô của thanh ngã, âm vị ã
3.2.2.5. Thanh nặng
Thanh nặng có đặc trưng bị gẫy, đứt và đi xuống đột ngột ở cuối âm, thanh nặng
cũng gặp khó khăn khi phân biệt với thanh sắc, nếu cho thanh nặng đường nét F0 của
thanh sắc thì người nghe vẫn phân biệt được đó là thanh nặng, có điều phần cuối âm tiết
cảm giác bị nhấn lên, nếu âm tiết được phát âm rõ ràng, chuẩn để chủ động hạ giọng cuối
âm tiết có thanh nặng, khả năng phân biệt 2 thanh này sẽ cao hơn.
Sau đây là hình mô tả đường nét thô dạng phổ của thanh nặng:
Hình 12: Đường nét thô của thanh nặng, âm vị ạ
3.2.2.6. Thanh hỏi
20
Đường nét của thanh hỏi có đặc trưng là được nâng cao ở hai đầu và cao độ thấp ở
giữa âm tiết, tuy nhiên trong tiếng nói tự nhiên, đặc trưng này không được thể hiện rõ
ràng do những yếu tố như tốc độ nói, kiểu nói của mỗi người và tùy ngữ cảnh thanh điệu
này được nhấn như thế nào, thanh hỏi trong giọng nói tự nhiên, không ngữ cảnh hay bị
nhầm lẫn với thanh huyền và thanh ngang.
Trường hợp phát âm lý tưởng cho âm tiết có thanh hỏi:
Hình 13: Đường nét thô của thanh hỏi, âm vị ả
Chương 4.
SỬ DỤNG ĐẶC TRƯNG TIẾNG NÓI NÓI CHUNG VÀ TIẾNG
VIỆT NÓI RIÊNG CHO MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG
VIỆT
Như ta đã trình bày ở chương 1, trích chọn đặc trưng MFCC mô phỏng quá trình
phát ra tiếng nói của bộ máy phát âm thông qua 39 đặc trưng cho mỗi frame tín hiệu, như
vậy mỗi frame sẽ được coi như 1 vector 39 chiều giá trị thực và một tín hiệu tiếng nói là
một tập các frame. Mục tiêu bài toán trở thành: với tiếng nói đầu vào bất kì, ta gán nhãn
cho các frame [sau khi trích chọn đặc trưng] sao cho phù hợp nhất với mô hình âm học
21
của hệ thống ta xây dựng [khái niệm mô hình âm học sẽ được nhắc lại trong chính
chương này]. Bằng việc áp dụng mô hình Markov ẩn – HMM để gán nhãn frame, tiếng
nói sẽ được nhận dạng về hình thức văn bản [text]. Bên cạnh đó, ta cũng thực hiện phân
đường nét F0 [đường đặc trưng cho thanh điệu] để minh họa việc phân biệt thanh điệu
cho các âm tiết phát âm giống nhau.
4.1. Mô hình Markov ẩn [Hidden Markov Model]
Ở phần này ta sẽ giới thiệu mô hình thống kê HMM để áp dụng mô hình này vào bài
toán nhận dạng tiếng nói.
4.1.1. Xích Markov, quá trình Markov
Xích Markov [đặt theo tên nhà toán học người Nga Andrei Andreyevich Markov] là một
dãy X1, X2, X3, … gồm các biến ngẫu nhiên. Tập tất cả các giá trị có thể có của các biến này được
gọi là không gian trạng thái S, giá trị của Xn là trạng thái của quá trình [hệ] tại thời điểm n.
Nếu việc xác định [dự đoán] phân bố xác suất có điều kiện của Xn+1 khi cho biết các trạng thái quá
khứ là một hàm chỉ phụ thuộc Xn thì:
P[Xn+1 = x | X0, X1,, Xn] = P[Xn+1 = x | Xn]
trong đó x là một trạng thái nào đó của quá trình [x thuộc không gian trạng thái S]. Đó là thuộc
tính Markov.
Một cách đơn giản để hình dung một kiểu chuỗi Markov cụ thể là qua một ôtômat hữu hạn [finite
state machine]. Nếu hệ ở trạng thái y tại thời điểm n thì xác suất mà hệ sẽ chuyển tới trạng thái x
tại thời điểm n+1 không phụ thuộc vào giá trị của thời điểm n mà chỉ phụ thuộc vào trạng thái
hiện tại y. Do đó, tại thời điểm n bất kỳ, một xích Markov hữu hạn có thể được biểu diễn bằng
một ma trận xác suất, trong đó phần tử x, y có giá trị bằng P[Xn+1 = x | Xn = y] và độc lập với
chỉ số thời gian n [nghĩa là để xác định trạng thái kế tiếp, ta không cần biết đang ở thời điểm nào
mà chỉ cần biết trạng thái ở thời điểm đó là gì].
Một quá trình mang tính ngẫu nhiên có đặc tính giống như xích Markov ta gọi là quá trình
Markov bậc 1. Quá trình Markov bậc n là dãy biến ngẫu nhiên mà dự đoán phân bố xác suất có
điều kiện Xn+1 là một hàm phụ thuộc X1, X2,, Xn. Tuy nhiên ở đây, áp dụng cho bài toán nhận
dạng giọng nói, ta chỉ xét tới quá trình Markov bậc 1 [hay xích Markov]. Để tiện cho việc trình
22
Xem thêm: Vì sao “Chớ đi ngày bảy, chớ về ngày ba”?
Xem thêm: ” Thửa Đất Tiếng Anh Là Gì ? Định Nghĩa, Ví Dụ, Giải Thích
Video liên quan
Bạn đang đọc: Thanh ngang trong tiếng Việt là gì