Sai số ước lượng kì hiệu là gì

Nguồn:Wikipedia
Sau bài vềSuy luận Thống kê, mình định viết tiếp về Likelihood Function, một hàm rất quan trọng và là nền tảng cho các phương pháp Suy luận thống kê, như Khoảng tin cậy hay Kiểm định Giả thuyết. Cơ mà bài hơi lí thuyết, nên trước tiên, mình sẽ "đánh" những nội dung liên quan mà có nhiều ví dụ thực tiễn hơn.
Như ở bài viết trước, mình đã đề cập tới 3 kiểu Suy luận Thống kê cơ bản cực kì quan trọng, đó là Ước lượng điểm [Point Estimation], Khoảng tin cậy [Confidence Interval] và Kiểm định Giả thuyết [Hypothesis Testing]. Bài này sẽ tập trung về Ước lượng điểm. Bài này lược dịch Chương 7. Point Estimation của sách Applied Statistics for Engineering, và có bổ sung từ một số nguồn khác [để link ở Tài liệu Tham khảo cuối bài viết].

1. Giới thiệu

Ví dụ

Nhà sản xuất nước ngọt muốn ước lượng giá trị trung bình của thể tích của các chai nước ngọt, do trong quá trình sản xuất, công suất của nhà máy không đạt tối đa, hao hụt nguyên vật liệu,... khiến các chai nước ngọt có thể không có đúng thể tích theo quy cách của nhà sản xuất. Để ước lượng giá trị trung bình của thể tích của các chai nước ngọt, nhà sản xuất lấy mẫu gồm 120 chai nước và tính được thể tích trung bình của các chai nước ngọt trong mẫu là 1,27 ml. Khi đó, giá trị ước lượng [estimate] của thể tích trung bình của các chai nước ngọt là 1,27 ml. Hay, giá trị trung bình được ước lượng được gọi là giá trị ước lượng điểm[point estimate].
Ta biết rằng trước khi dữ liệu được thu thập, các quan sát được coi là các biến ngẫu nhiên, gọi là X1, X2,... , Xn. Để ước lượng tham số tổng thể, ta tính toán các đặc tính tương ứng của mẫu, hay gọi là sample statistic hay statistic. Ví dụ, giá trị trung bình của mẫu và phương sai mẫu là các statistic.Statisticcũng là biến ngẫu nhiên. Để giải thích rõ hơn cho điều này, ta đã biết, một biến ngẫu nhiên là một hàm gắn một giá trị số [numeric value] cho một giá trị trong không gian mẫu của một phép thử. Nếu ta coi quá trình lựa chọn một mẫu ngẫu nhiên đơn giản cũng là một phép thử, thì không gian mẫu của phép thử này sẽ là tất cả các mẫu mà ta có thể thu được. Giá trị của không gian mẫu là một mẫu nhất định. Giá trị trung bình x_ là một hàm gắn một giá trị số cho một mẫu, tức là một giá trị trong không gian mẫu của phép thử, vì thế, x_ cũng là biến ngẫu nhiên. Và cũng tương tự như các biến ngẫu nhiên khác, x_ sẽ có giá trị trung bình, phương sai và phân phối xác suất. Ta gọi phân phối xác suất của một số liệu thống kê là phân phối mẫu [sampling distribution]. Khái niệm phân phối mẫu là rất quan trọng và sẽ được thảo luận và minh họa ở phần sau.
Lưu ý: một cách giải thích khác tại sao trị thống kê cũng là biến ngẫu nhiên [và đây cũng là cách giải thích trong bài gốc của tác giả quyển sách] đó là: trị thống kê là một hàm của biến ngẫu nhiên, do đó, nó cũng là biến ngẫu nhiên. Điều này được trình bày trong Chương 5 của quyển Applied Statistics for Engineering.
Khi bàn về các vấn đề suy luận, để thuận tiện, sử dụng ký hiệu θ [theta] là biểu tượng chung đại diện cho các tham số quan tâm. Mục tiêu của ước lượng điểm là dựa trên dữ liệu mẫu, chọn một số duy nhất là giá trị hợp lý nhất cho θ. Giá trị bằng số của sample statistic sẽ được sử dụng làm giá trị ước lượng điểm [point estimate].
Tổng quát, nếu X là một biến ngẫu nhiên có phân phối xác suất f[x], được đặc trưng bởi tham số θ chưa biết và nếu X1, X2 ,... , Xn là một mẫu ngẫu nhiên có kích thước n từ biến ngẫu nhiên X, thì trị thống kê Θ ̂ = h[X1, X2, ... , Xn] được gọi là một công thức ước lượng điểm [point estimator] của θ. Lưu ý rằng Θ ̂ là một biến ngẫu nhiên vì nó là một hàm của các biến ngẫu nhiên. Sau khi chọn mẫu, Θ ̂ đưa ra một giá trị số cụ thể θ ̂ được gọi là giá trịước lượng điểm [point estimate] của θ.
Vấn đề ước lượng xảy ra thường xuyên trong trong nhiều lĩnh vực như kinh tế, kỹ thuật, y sinh. Các ước lượng điểm ta quan tâm nhất bao gồm:
- Giá trị trung bình μ của một tổng thể;
- Phương sai [hoặc độ lệch chuẩn] của một tổng thể ;
- Tỷ lệ p của các đối tượng của một nhóm quan tâm trong tổng thể;
- Sự khác biệt về giá trị trung bình của hai tổng thể [μ1 - μ2];
- Sự khác biệt về hai tỷ lệ của tổng thể [p1 - p2].
Ví dụ, các giá trị ước lượng điểm hợp lý cho các tham số này như sau:
- Đối với μ, thì giá trị ước lượng μ̂ = x_1 là trung bình mẫu [mình tạm kí hiệu x ngang như thế này vì không hiển thị được kí hiệu đó trên Spiderum :[].
- Đối với phương sai σ^2, giá trị ước lượng σ̂^2 = s^2, phương sai mẫu.
- Đối với p, giá trị ước lượng là p̂ = x/n, tỷ lệ mẫu, trong đó x là số lượng đối tượng trong một mẫu ngẫu nhiên có kích thước n thuộc về một nhóm được quan tâm.
- Đối với μ1 - μ2, giá trị ước lượng là μ̂1 - μ̂2 = x_1 - x_2, sự khác biệt giữa giá trị trung bình của hai mẫu ngẫu nhiên độc lập.
- Đối với p1- p2, giá trị ước lượng là p̂1- p̂2, sự khác biệt giữa hai tỷ lệ mẫu được tính toán từ hai mẫu ngẫu nhiên độc lập.
Ta có thể có một số lựa chọn khác cho công thức ước lượng điểm của một tham số. Ví dụ, nếu chúng ta muốn ước lượng giá trị trung bình của tổng thể, chúng ta có thể cân nhắc lựa chọn giữa giá trị mẫu [sample mean], giá trị trung vị mẫu [sample median] hoặc có thể là trung bình của các quan sát nhỏ nhất và lớn nhất trong mẫu làm giá trị ước lượng điểm. Ví dụ trên đưa ra các giá trị ước lượng có thể sử dụng của các tham số như giá trị trung bình. Tuy nhiên, liệu rằng các x_ có phải là giá trị ước lượng tốt nhất của μ̂, tức là gần với μ̂ nhất hay không? Để xác định xem công thức ước lượng điểm nào của một tham số nhất định là tốt nhất, ta cần kiểm tra các thuộc tính thống kê của chúng và phát triển một số tiêu chí để so sánh các công thức ước lượng.

Tổng kết Phần 1

- Một statistic là các đặc điểm của mẫu tương ứng với một tham số tổng thể ta cần tính. Statistic là một biến ngẫu nhiên, nên có giá trị trung bình, phương sai và phân phối mẫu.
- Công thức ước lượng điểm Θ ̂ là một hàm của X1, X2, ... , Xn, với X là một biến ngẫu nhiên có phân phối xác suất f[x], được đặc trưng bởi tham số θ chưa biết và nếu X1, X2 ,... , Xn là một mẫu ngẫu nhiên có kích thước n từ biến ngẫu nhiên X. Θ ̂ là một statistic.
- Giá trị ước lượng điểm là giá trị bằng số của một công thức ước lượng điểm.
Đọc thêm:
Xác suất thống kê - Kiểm định giả thuyết [Phần I]
Chào mọi người. Hôm nay mình sẽ viết bài về Kiểm định giả thuyết [Hypothesis Testing]. Đây là bài đầu tiên trong chuỗi bài về Xác...spiderum.com

2. Khái niệm tổng quát về Ước lượng điểm

2.1. Công thức ước lượng không chệch [Unbiased Estimators]

Một công thức ước lượng phải là gần đúng với giá trị thực của tham số chưa biết. Ta nói rằng Θ ̂ là một công thức ước lượng không chệch của θ nếu giá trị kỳ vọng của Θ ̂ bằng θ. Điều này tương đương với việc nói rằng trung bình của phân phối xác suất của Θ ̂ [hoặc trung bình của phân phối lấy mẫu của Θ ̂] bằng θ.
Công thức ước lượng Θ ̂ là công thức ước lượng không chệch của θ nếu E[Θ ̂] = θ. Nếu công thức ước lượng là không chệch, thì sự chênh lệch E[Θ ̂]  θ được gọi là độ chệch [bias] của công thức ước lượng Θ ̂.
Nếu công thức ước lượng không chệch, thì độ chệch bằng 0.
Ghi chú của cá nhân mình: Một bài tập chứng mình nho nhỏ dành cho các bạn: Chứng minh, x_ là công thức ước lượng không chệch của giá trị trung bình tổng thể; chứng minh S^2 là công thức ước lượng không chệch của phương sai tổng thể.

2.2. Phương sai của một công thức ước lượng điểm

Nếu ta xem xét tất cả các công thức ước lượng không chệch, thì công thức có phương sai nhỏ nhất là được gọi là công thức ước lượng không chệch nhỏ nhất [MVUE - minimum variance unbiased estimator].
Hình 2.1 Phân phối mẫu của 2 công cụ ước lượng không chệch Θ ̂1 và Θ ̂2 dù có cùng hội tụ về θ nhưng có phương sai khác nhau
Theo một nghĩa nào đó, MVUE là công thức ước lượng không chệch có khả năng nhất tìm ra ước lượng gần với giá trị thực của θ trong số tất cả các công thức ước lượng không chệch. Có thể phát triển phương pháp luận để xác định MVUE trong nhiều tình huống thực tế [nhưng không đề cập ở đây].
Thay vào đó, bài viết đưa ra một kết quả rất quan trọng liên quan đến phân phối chuẩn, đó là:
Nếu X1, X2,... , Xn là một mẫu ngẫu nhiễn kích thước n từ một phân phối chuẩn với giá trị trung bình μ và phương sai σ^2, thì giá trị trung bình mẫu X_ [sample mean] là MVUE của giá trị trung bình.
Trong trường hợp mà ta không biết liệu MVUE có tồn tại hay không, ta vẫn có thể sử dụng nguyên tắc phương sai nhỏ nhất để lựa chọn giữa các công thức ước lượng. Ví dụ, giả sử ta muốn ước lượng giá trị trung bình của tổng thể [không nhất thiết là tổng thể phân phối chuẩn]. Ta có một mẫu ngẫu nhiên của n quan sát X1, X2,..., Xn và ta muốn so sánh hai giá trị ước lượng có thể có của μ, đó là trung bình mẫu X_ và một quan sát đơn lẻ từ mẫu, giả sử Xi. Lưu ý rằng cả X_ và Xi đều là các công thức ước lượng không chệch của μ; đối với trung bình mẫu, ta có V[X_] = σ^2/n và phương sai của bất kỳ quan sát Xi là V[Xi] = σ^2. Vì V[X_] < V[Xi] đối với kích cỡ mẫu n >= 2, ta kết luận rằng giá trị trung bình mẫu là một công thức ước lượng tốt hơn so với một quan sát đơn lẻ.
Ghi chú của cá nhân mình: Phía trên phát biểu là MVUE không phải lúc nào cũng tồn tại. Và giả như nó có tồn tại, thì không phải lúc nào ta cũng tìm ra MVUE. Đến đây, mình tạm thời công nhận điều này. Việc chứng minh và trình bày thêm về MVUE được đề cập trong nhiều tài liệu học thuật, nhưng sẽ trở nên phức tạp cho bài viết này.

2.3 Sai số chuẩn [Standard Error]

Khi đưa ra giá trị ước lượng điểm của một tham số, ta thường mong muốn có thể đưa ra một số ý tưởng về độ chính xác của ước lượng. Thước đo độ chính xác thường được sử dụng là sai số chuẩn [standard error] của công thức ước lượng.
Sai số chuẩn của công thức ước lượng là độ lệch chuẩn của nó, được đưa ra bởi công thức [như hình dưới]. Nếu sai số chuẩn của các tham số không xác định có thể ước lượng được, thì giá trị sai số chuẩn được thay thế bằng giá trị ước lượng đó, tức là, sai số chuẩn ước lượng, kí hiệu se[Θ ̂].
Hình 2.2 Định nghĩa sai số chuẩn của một công thức ước lượngKhi công thức ước lượng tuân theo phân phối chuẩn, ta có thể tin tưởng một cách hợp lý rằng giá trị thực của tham số nằm trong khoảng hai sai số chuẩn của giá trị ước lượng. Đây là một kết quả rất hữu ích vì nhiều công thức ước lượng điểm thường được phân phối chuẩn [hoặc xấp xỉ chuẩn] nếu n lớn.

2.4 Sai số toàn phương trung bình [Mean Square Error of an Estimator]

Đôi khi cần thiết phải sử dụng một công thức ước lượng chệch. Trong các trường hợp như vậy, ta quan tâm tới sai số toàn phương trung bình của một công thức ước lượng. Sai số toàn phương trung bình của một công thức ước lượng Θ ̂ là bình phương chênh lệch kì vọng giữa Θ ̂ và θ.
MSE1 [Θ ̂] = E[[Θ ̂  θ] ^2] = V[Θˆ] + bias^2
Ghi chú của cá nhân mình: Như đề cập trong bài "Hiểu sâu hơn về Suy luận Thống kê" của mình, tham số của mô hình xác suất đơn giản chỉ là các nhãn để phân biệt các mô hình xác suất với nhau, nhưng có nhiều trừng hợp, người ta sử dụng tham số θ là mean, variance, ... để phân biệt các mô hình xác suất của một mô hình thống kê. Trong trường hợp này, mình hiểu rằng, tham số θ đại diện cho các đặc trưng như mean, variance, ... Nếu trường hợp theta là nhãn thì sẽ như thế nào? Bài viết này chưa đề cập tới phần đó.
Theo công thức trên, sai số toàn phương trung bình của Θ ̂ bằng với phương sai của công thức ước lượng cộng với bình phương độ chệch, trong đó, độ chệch = E[Θ ̂]  θ. Nếu Θ ̂ là một ước lượng không chệch của θ, tức là bias = 0, sai số toàn phương trung bình bằng với phương sai của Θ ̂.
Sai số toàn phương trung bình là một tiêu chí quan trọng để so sánh hai ước lượng. Gọi Θ ̂1 và Θ ̂2 là 2 công thức ước lượng của tham số θ, đặt MSE [Θ ̂1] và MSE [Θ ̂2] là sai số toàn phương trung bình của Θ ̂1 và Θ ̂2. Sau đó, hiệu quả tương đối của Θ ̂1 so với Θ ̂2 được định nghĩa là:
MSE[Θ ̂1] / MSE [Θ ̂2]
Nếu hiệu suất tương đối này nhỏ hơn 1, ta sẽ kết luận rằng Θ ̂1 là một công thức ước lượng hiệu quả hơn so với Θ ̂2, vì Θ ̂1 có sai số toàn phương trung bình nhỏ hơn.
Đôi khi ta thấy rằng các công thức ước lượng chệch thích hợp hơn các công thức ước lượng không chệch bởi vì chúng có sai số toàn phương trung bình nhỏ hơn. Tức là ta có thể giảm đáng kể phương sai của công thức ước lượng bằng cách đưa ra một độ chệch tương đối nhỏ. Miễn là sự giảm phương sai lớn hơn bình phương của độ chệch, ta sẽ có một công thức ước lượng tốt hơn từ quan điểm sai số toàn phương trung bình. Ví dụ, hình 2.1 cho thấy phân phối xác suất của một công thức ước lượng chệch có phương sai nhỏ hơn so với ước lượng không chệch.
Hình 2.1 Công thức ước lượng chệch Θ ̂1 có phương sai nhỏ hơn công thức ước lượng không chệch Θ ̂2
Ghi chú của cá nhân mình: như vậy, việc đi tìm MSE nhỏ nhất là tìm giá trị nhỏ nhất của V[Θˆ] và bias. Mình vẫn còn một số câu hỏi như: trường hợp nào thì công thức ước lượng chệch có phương sai nhỏ hơn công thức ước lượng không chệch, cách tìm các công thức ước lượng chệch tốt hơn, hay cách xác định bias như thế nào để giảm đáng kể phương sai của công thức ước lượng, tức là để có một công thức ước lượng chệch tốt hơn? Tuy nhiên, việc tìm hiểu những điều này đòi hỏi nhiều kiến thức và thời gian hơn, nên ở bài viết này, mình sẽ tạm công nhận nhận xét phía trên của tác giả.
Giá trị ước lượng dựa trên Θ ̂1 sẽ có nhiều khả năng gần với giá trị thực hơn so với giá trị ước lượng dựa trên Θ ̂2. Phân tích hồi quy tuyến tính[Linear regression analysis] là một lĩnh vực đôi khi sử dụng công thức ước lược chệch.
Ghi chú của cá nhân mình: Áp dụng như thế nào thì mình sẽ tìm hiểu tiếp khi viết về Linear regression.
Công thức ước lượng có sai số toàn phương trung bình nhỏ hơn hoặc bằng sai số toàn phương trung bình của bất kỳ công thức ước lượng nào khác, với tất cả các giá trị của tham số, được gọi là công thức ước lượng tối ưu [optimal estimator] của θ. Công thức ước lượng tối ưu hiếm khi tồn tại.
Ghi chú của cá nhân mình: Cũng tương tự như câu hỏi tại sao MVUE không chắc sẽ luôn luôn tồn tại, thì mình cũng thắc mắc tại sao công thức ước lượng tối ưu hiếm khi tồn tại nhỉ. Mình tiếp tục phải công nhận điều này trước khi nghiên cứu thêm và có câu trả lời cho mình.
Tóm tắt phần 2
- Tổng quát, ta sử dụng Sai số toàn phương trung bình [Mean Square Error of an Estimator] như một tiêu chuẩn đánh giá một công thức ước lượng. MSE được cho bởi công thức:
MSE1 [Θ ̂] = E[[Θ ̂  θ] ^2] = V[Θˆ] + bias^2
Trong đó, bias là độ chệch.
- Công thức ước lượng không chệch khi bias = 0, tức là MSE1 [Θ ̂] = V[Θˆ]. Giữa 2 công thức ước lượng chệch, giá trị nào nhỏ hơn thì công thức đó tốt hơn. Công thức ước lượng nhỏ nhất gọi là MVUE.
- Giữa 2 công thức ước lượng chệch, ta quyết định một công thức ước lượng tốt hơn bằng tỉ lệ tương đối của sai số toàn phương trung bình.
Đọc thêm:
Nhập môn toán xác suất
Những kiến thức về toán xác suất cơ bản nhất bạn cần biết nếu muốn thiết kế Game hóaspiderum.com

3. Các phương pháp ước lượng điểm

Trong phần này, ta thảo luận về hai phương pháp để có được các công thức ước lượng điểm: phương pháp mô-men [moments] và phương pháp Hợp lí cực đại [Maximum Likelihood]. Ước lượng dựa trên phương pháp Hợp lí cực đại [MLE] thường được ưa thích hơn ước lượng bằng mô-men bởi vì phương pháp MLE có nhiều đặc tính hiệu quả tốt hơn. Tuy nhiên, công thức ước lượng bằng phương pháp mô-men đôi khi lại dễ tính toán hơn. Cả hai phương pháp đều có thể tìm ra các công thức ước lượng điểm không chệch.

3.1 Phương pháp Mô-men

Ý tưởng cơ bản đằng sau phương pháp Mô-men là cho các mô-men tổng thể [population moments]mà được định nghĩa theo các giá trị kì vọng, bằng các mô-men mẫu [sampling moments] tương ứng. Mô-men tổng thể sẽ là hàm của các tham số chưa biết. Sau đó, giải các phương trình này để tìm ra công thức ước lượng của các tham số chưa biết.
Gọi X1, X2,... , Xn là một mẫu ngẫu nhiên từ phân phối xác suất f[x], trong đó f[x] có thể là hàm khối xác suất rời rạc [discrete probability mass function] hoặc hàm mật độ xác suất liên tục [continuous probability density function]. Mô-men tổng thể thứ k [hay mô-men phân phối - population moment] là E[X^k ], với k = 1, 2 ,.. Mô-men mẫu thứ k tương ứng là 1/n*Xích ma [Xi^k], với k = 1, 2, ...
Hình 3.1 Định nghĩa Mô-men thứ k
Ví dụ, mô-men tổng thể thứ nhất là E[X] = μ và mô-men mẫu thứ nhất là X_. Do đó, bằng cách cho mô-men tổng thể bằng mô-men mẫu, ta thấy rằng giá trị kì vọng của μ bằng X_. Nghĩa là, giá trị trung bình mẫu là công thức ước lượng mô-men của trung bình tổng thể. Trong trường hợp tổng quát, các mô-men tổng thể sẽ là các hàm của các tham số chưa biết của phân phối, giả sử, θ1, θ2, ..., θm.
Gọi X1, X2, ..., Xn là một mẫu ngẫu nhiên hoặc từ một hàm khối xác suất [probability mass function] hoặc hàm mật độ xác suất [probability density function] với m tham số chưa biết θ1, θ2, ..., θm. Công thức ước lượng mô-men Θ ̂1, Θ ̂2,... , Θ ̂m được tính bằng cách cho m mô-men tổng thể đầu tiên bằng m mô-men mẫu đầu tiên và giải phương trình này để tìm ra tham số chưa biết.
Hình 3.2 Định nghĩa Công thức ước lượng mô-men

Ví dụ 3.1

Giả sử rằng X1, X2, ..., Xn là một mẫu ngẫu nhiên từ phân phối mũ [exponential distribution] với tham số λ. Bây giờ chỉ có một tham số cần ước lượng, vì vậy ta phải cho E[X] bằng X_. Đối với phân phối mũ, E[X] = 1/λ. Do đó, X_ = 1/λ, vì thế, λ̂ [lamda hat] = 1/X_ là công thức ước lượng mô-men của λ.
Ví dụ, giả sử rằng thời gian máy không hoạt động của một mô-đun điện tử được sử dụng trong bộ điều khiển động cơ ô tô được thử nghiệm ở nhiệt độ cao để tăng tốc cơ chế hỏng hóc.
Thời gian máy không hoạt động được phân phối theo cấp số nhân. Tám đơn vị được chọn ngẫu nhiên và đã thử nghiệm, dẫn đến thời gian thất bại sau [tính theo giờ]: x1 = 11.96, x2 = 5.03, x3 = 67.40, x4 = 16.07, x5 = 31.50, x6 = 7.73, x7 = 11.10 và x8 = 22.8. Bởi vì, giá trị ước lượng mô-men của λ = 1/x_ = 1/21.65 = 0.00462.

3.2 Phương pháp Hợp lí cực đại [MLE]

Một trong những phương pháp tốt nhất để có được một công thức ước lượng điểm của một tham số là phương pháp MLE. Kỹ thuật này được phát triển vào những năm 1920 bởi một nhà thống kê nổi tiếng người Anh, R. A. Fisher. Như tên ngụ ý tên gọi của phương pháp, công thức ước lượng sẽ là giá trị của tham số mà tối đa hóa hàm likelihood [likelihood function].

Định nghĩa

Giả sử X là biến ngẫu nhiên có phân phối xác suất f[x; θ], trong đó θ là một tham số chưa biết duy nhất. Đặt x1, x2 ,... , xn là các giá trị quan sát một cách ngẫu nhiên thuộc mẫu có kích cỡ n. Sau đó, hàm likelihood của mẫu là
L[θ] = f[x1; θ] . f[x2;θ] . ... f[xn; θ]
Lưu ý rằng hàm likelihood trên chỉ là hàm của chỉ một tham số θ chưa biết. Công thức ước lượng dựa trên Hợp lí cực đại [maximum likelihood estimator] của θ là giá trị của θ mà tối đa hóa hàm L[θ]. Như vậy, MLE là phương pháp đi tìm giá trị θ sao cho hàm L[θ] đạt cực đại.
Trong trường hợp một biến ngẫu nhiên rời rạc, hàm khả năng được diễn giải một cách rõ ràng. Hàm khả năng của mẫu L[θ] chỉ là xác suất:
P [X1 = x1, X2 = x2, ..., Xn = xn]
Nghĩa là, L[θ] chỉ là xác suất của việc có được các giá trị mẫu x1, x2 ,... , xn. Do đó, trong trường hợp biến rời rạc, công thức ước lượng sử dụng MLE là một công thức ước lượng nhằm tối đa hóa xác suất xuất hiện của các giá trị mẫu.
Mặc dù việc giải thích hàm khả năng như trên bị giới hạn đối với trường hợp biến ngẫu nhiên rời rạc, phương pháp MLE có thể dễ dàng được mở rộng cho phân phối liên tục.

Ví dụ 3.2

Hình 3.3 [a] MLE với phân phối mũ
Hình 3.3 [b] MLE với phân phối mũ

Giả định độc lập và hàm log-likelihood

Phần này mình viết một cách tóm tắt, tham khảo từ bài viết về MLE trên blog Machine Learning cơ bản [link bên dưới].
Để giải trực tiếp bài toán tìm θ sao cho L[θ] lớn nhất thông thường là khá phức tạp. Muốn tìm θ, ta sẽ đạo hàm L[θ] theo θ, cho nó bằng 0 và giải phương trình. Tuy nhiên, L[θ] ở dạng tích và đạo hàm của một tích thường khá phức tạp. Vì vậy, để đơn giản hóa bài toán, người ta lấy log cả 2 vế, tức là, đưa bài toán về dạng tối ưu log của hàm mục tiêu, dưới dạng như sau:
Hình 3.4 Bài toán Maximum log-likelihood [nguồn: Machinelearningcoban.com]
- Log của một tích bằng tổng các log
- Log là một hàm đồng biến, nên hàm số đạt cực đại khi log của nó lớn nhất.
Để hiểu hơn, các bạn nên tham khảo trực tiếp từ machinelearningcoban [link cuối bài].

Ví dụ 3.3

Hình 3.1 [a] vẽ hàm log likelihood cho tham số mũ từ ví dụ trên. Ở ví dụ 3.2, ta có n = 8 quan sát về thời gian máy không hoạt động. Ta thấy rằng giá trị ước lượng của λ là λ̂ = 0.00462. Từ ví dụ 3.2, ta biết rằng đây là một công thức ước lượng MLE. Hình 3.5[a] cho thấy rõ rằng hàm log likelihood đạt cực đại tại một giá trị đó xấp xỉ bằng 0,0462. Lưu ý rằng rằng hàm log likelihood khá thoải trongvùng tối đa [the region of the maximum]. Điều này ngụ ý rằng tham số không được ước lượng rất chính xác. Nếu tham số được ước lượng chính xác, hàm log likelihood sẽ nhô rất cao ở giá trị cực đại. Cỡ mẫu ở đây tương đối nhỏ, và điều này đã dẫn đến ước lượng thiếu chính xác. Hình 3.5[b] biểu diễn sự khác biệt của hàm log likelihood cho giá trị cực đại, giả sử rằng kích thước mẫu là n = 8, 20 và 40 nhưng thời gian thất bại trung bình mẫu vẫn không đổi tại x_ = 21.65. Lưu ý rằng hàm log likelihood với n = 20 dốc hơn bao nhiêu so với n = 8, và hàm log likelihood đối với n = 40 dốc hơn như nào so với cả hai cỡ mẫu nhỏ hơn.

Hình 3.5 [a] Hàm log likelihood của phân phối mũ với n = 8; Hình 3.5 [b] Hàm log likelihood của với n = 8, n = 20, và n = 40
MLE có thể được sử dụng trong các trường hợp cần ước lượng một số tham số chưa biết, giả sử, θ1, θ2,... θk. Khi đó, hàm khả năng là một hàm của k tham số chưa biết θ1, θ2,... ,θk và tìm ra các công thức ước lượng lMLE bằng cách cho k đạo hàm riêng của hàm likelihood theo tham số θk bằng 0 và giải phương trình.

Đặc điểm của MLE

MLE thường là phương pháp ước lượng mà các nhà thống kê toán học ưa thích, bởi vì nó thường dễ sử dụng và tạo ra các công thức ước lượng có thống kê tốt tính chất.
Trong điều kiện rất chung và không hạn chế, khi cỡ mẫu n lớn và nếu Θ ̂ là công thức ước lượng từ MLE của tham số θ thì:
[1] Θ ̂ là xấp xỉ một công thức ước lượng không chệch cho θ, tức là [E[Θ ̂] xấp xỉ θ],
[2] phương sai của Θ ̂ gần như nhỏ bằng phương sai có thể thu được với bất kỳ công thức ước lượng nào khác, và
[3] Θ ̂có phân phối gần chuẩn.
Đặc điểm 1 và 2 về cơ bản nói rằng công thức ước lượng MLE xấp xỉ một MVUE. Đây là một kết quả rất đáng mong đợi và, cũng thực tế là khá dễ dàng để xác định công thức ước lượng dựa trên MLE trong nhiều trường hợp và nó có phân phối "tiệm cận" chuẩn [từ "tiệm cận" nghĩa là n lớn]. Đó là lí do tại sao kỹ thuật MLE lại được sử dụng rộng rãi. Để sử dụng MLE, hãy nhớ rằng phân phối tổng thể hoặc đã xác định hoặc đã được giả định.

Sự phức tạp của MLE

Trong khi phương pháp MLE là một kỹ thuật tuyệt vời, đôi khi sử dụng nó cũng có sự phức tạp. Ví dụ, không phải lúc nào cũng dễ dàng tối đa hóa hàm likelihood vì phương trình thu được từ dL[θ] / d[θ] = 0 có thể khó giải. Hơn nữa, không phải lúc nào ta cũng có thể sử dụng các phương pháp tích phân một cách trực tiếp để xác định giá trị cực đại của L[θ].

Tóm tắt Phần 3

- Hai phương pháp để tìm ra công thức ước lượng là Mô-men và Maximum Likelihood Estimation [MLE], trong đó, MLE được ưa thích hơn vì những đặc điểm nổi bật hơn của nó.
- MLE là bài toán tìm giá trị của θ để tối ưu hàm likelihood [ở dạng tích các xác suất]. Để đơn giản phép giải, người ta đưa về bài toán tìm giá trị của θ để tối ưu hàm log likelihood [tức là đưa dạng hàm về dạng tổng các log]. Ta giải bài toán bằng cách lấy đạo hàm theo θ.
- MLE áp dụng cho bài toán có 1 hoặc nhiều tham số. Đôi khi, tính toán MLE khá phức tạp vì sau khi đạo hàm xong, ta khó giải phương trình.

4. Phân phối mẫu

Suy luận thống kê liên quan đến việc đưa ra quyết định về tổng thể dựa trên thông tin chứa trong một mẫu ngẫu nhiên từ tổng thể đó. Chẳng hạn, ta có thể quan tâm đến thể tích trung bình của một lon nước ngọt. Khối lượng đây trung bình trong tổng thể được yêu cầu là 300 ml. Một kỹ sư lấy một mẫu ngẫu nhiên 25 lon và tính khối lượng đầy trung bình mẫu là X_ = 298 ml. Kỹ sư có thể sẽ quyết định rằng trung bình tổng thể μ = 300 ml, mặc dù giá trị trung bình mẫu là 298 ml vì người đó biết rằng giá trị trung bình của mẫu là ước lượng hợp lý của μ và rằng trung bình mẫu của 298 ml rất có thể xảy ra, ngay cả khi trung bình tổng thể thực sự là 300 ml. Trong thực tế, nếu giá trị trung bình thực là 300 ml, thử nghiệm 25 lon được thực hiện nhiều lần, có lẽ cứ sau năm phút, sẽ tạo ra các giá trị X_ khác nhau ở cả trên và dưới 300 ml.
Giá trị trung bình mẫu là một statistic, đó là một biến ngẫu nhiên phụ thuộc vào kết quả thu được trong mỗi mẫu cụ thể. Như đã giải thích ở phần 1, vì một trị thống kê là một biến ngẫu nhiên, nó có phân phối xác suất. Như vậy, ta có thể định nghĩa:
Phân phối xác suất của một statistic được gọi là phân phối mẫu [sampling distribution].
Ví dụ, phân phối xác suất của X_ được gọi là phân phối mẫu của μ. Phân phối mẫu của một trị thống kê phụ thuộc vào phân phối của tổng thể, kích cỡ của mẫu, và phương pháp chọn mẫu. Phần tiếp theo trình bày về loại phân phối mẫu có lẽ là quan trọng nhất.

Phân phối mẫu của giá trị trung bình

Xem xét việc xác định phân phối mẫu của giá trị trung bình mẫu. Giả sử rằng một mẫu ngẫu nhiên có kích thước n được lấy từ một tổng thể phân phối chuẩn với trung bình μ và phương sai σ^2 . Bây giờ mỗi quan sát trong mẫu này, giả sử, X1, X2,... , Xn, là một biến ngẫu nhiên phân phối chuẩn và độc lập có giá trị trung bình μ và phương sai σ^2. Ta cần nhắc tới đặc điểm tự sinh [reproductive property] của phân phối chuẩn trong Chương 5 của quyển Applied Statistics for Engineering, được phát biểu là: nếu X1, X2, ... , Xn là một mẫu cỡ n các biến ngẫu nhiên độc lập từ tổng thể X phân phối chuẩn, thì Y là một hàm tuyến tính của X1, X2, ..., Xn cũng là một biến ngẫu nhiên độc lập tuân theo phân phối chuẩn. Dựa vào đó, ta kết luận rằng giá trị trung bình mẫu là:
X_ = [X1 + X2 + ... + Xn] / n
có phân phối chuẩn với giá trị trung bình
μ[X_] = [μ + μ + ... + μ]/n = μ
và phương sai:
σ^2 [X_] = [σ^2 + σ^2 + ... + σ^2]/[n^2] = σ^2 / n
Nếu ta đang lấy mẫu từ một tổng thể có phân phối xác suất không xác định, thì phân phối mẫu của giá trị trung bình mẫu vẫn sẽ xấp xỉ chuẩn với giá trị trung bình μ và phương sai σ^2 / n nếu cỡ mẫu n lớn. Đây là một trong những định lý hữu ích nhất trong Thống kê, được gọi làđịnh lý giới hạn trung tâm[Central limit theorem],được phát biểu như sau:
Nếu X1, X2,... , Xn là một mẫu ngẫu nhiên có kích thước n được lấy từ tổng thể [có thể là hữu hạn hoặc vô hạn] với trung bình μ và phương sai hữu hạn σ^2, và nếu X_ là trung bình mẫu, dạng giới hạn của phân phối của Z = [X_ - μ] / [σ / sqrt[n] ] khi n có phân phối chuẩn hóa.
Hình 4.1 Phân phối của điểm trung bình khi tung khi tung: [a] 1 con xúc xắc ; [b] 2 con xúc xắc
Giá trị gần đúng chuẩn của X_ phụ thuộc vào cỡ mẫu n. Hình 4.1 [a] cho thấy phân phối thu được từ các lần tung của một con xúc xắc sáu mặt đơn lẻ. Xác suất bằng nhau [1/6] cho tất cả các giá trị hay các điểm thu được, 1, 2, 3, 4, 5 hoặc 6. Hình 4.1 [b] cho thấy phân phối của điểm trung bình thu được khi tung hai con xúc xắc và hình 4.1 [c], 4.1 [d] và 4.1[e] lần lượt cho thấy phân phối của điểm trung bình thu được khi tung ba, năm và mười con xúc xắc.
Hình 4.1 Phân phối của điểm trung bình khi tung [c]: 3 con xúc xắc; [d]: 5 con xúc xắc; [e]: 10 con xúc xắcLưu ý rằng, trong khi tổng thể [một con xúc xắc] thì tương đối xa so với chuẩn, thì phân phối của điểm trung bình được tính gần đúng hợp lý bởi phân phối chuẩn đối vỡi cỡ mẫu ít nhất là 5. [Tuy nhiên, các phân phối ném xúc xắc là rời rạc, trong khi phân phối chuẩn là liên tục]. Mặc dù định lý giới hạn trung tâm sẽ hoạt động tốt đối với các mẫu nhỏ [n = 4, 5] trong hầu hết các trường hợp, đặc biệt khi tổng thể liên tục, không đồng đều và đối xứng, các mẫu lớn hơn sẽ được yêu cầu sử dụng trong các trường hợp khác, tùy thuộc vào hình dạng của dân số.
Trong nhiều trường hợp thực tế, nếu n >= 30, phân phối xấp xỉ chuẩn sẽ được thỏa đáng bất kể hình dạng của dân số. Nếu n < 30, định lý giới hạn trung tâm sẽ có tác dụng nếu phân phối của tổng thể sai khác phân phối chuẩn một cách nghiêm [severe nonnormal].
Bây giờ xem xét trường hợp ta có hai tổng thể độc lập. Đặt tổng thể thứ nhất có trung bình μ1 và phương sai σ1^2 và tổng thể thứ hai có trung bình μ2 và phương sai σ2^2. Giả sử rằng cả hai tổng thể đều phân phối chuẩn.
Hình 4.2. Giá trị trung bình và phương sai của phân phối mẫu của X_1 - X_2Sau đó, sử dụng sử dụng đặc điểm tự sinh của phân phối chuẩn, ta có thể nói rằng phân phối mẫu của X_1 và X_2 là chuẩn với giá trị trung bình và phương sai như hình 4.2.
Nếu hai tổng thể không phân phối chuẩn và nếu cả hai cỡ mẫu n1 và n2 đều lớn hơn 30, ta có thể sử dụng Định lý giới hạn trung tâm và giả sử rằng X_1 và X_2 là xấp xỉ phân phối chuẩn độc lập. Do đó, phân phối mẫu của X_1 - X_2 là xấp xỉ chuẩn với giá trị trung bình và phương sai lần lượt được cho bởi các phương trình trong Hình 4.3. Nếu n1 hoặc n2 nhỏ hơn 30, phân phối mẫu của X_1 - X_2 vẫn sẽ là xấp xỉ chuẩn với giá trị trung bình và phương sai được đưa ra bởi các phương trình trong Hình 4.3, với điều kiện là tổng thể mà từ đó mẫu nhỏ được lấy ra không được khác biệt đáng kể so với phân phối chuẩn. Ta có thể tóm tắt điều này với định nghĩa sau đây.
Hình 4.3 Phân phối mẫu của Z đối với 2 trường hợp 2 tổng thể

Ví dụ 4.1

Tuổi thọ để hoạt động hiệu quả của một bộ phận được sử dụng trong động cơ máy bay phản lực là một biến ngẫu nhiên với trung bình 5000 giờ và độ lệch chuẩn 40 giờ. Phân phối của tuổi thọ để hoạt động hiệu quả là khá gần với một phân phối chuẩn. Nhà sản xuất động cơ giới thiệu một cải tiến vào quy trình sản xuất thành phần này giúp tăng tuổi thọ trung bình lên 5050 giờ và giảm độ lệch chuẩn xuống 30 giờ. Giả sử rằng một mẫu ngẫu nhiên của n1 = 16 thành phần được chọn từ quy trình cũ và một mẫu ngẫu nhiên gồm n2 = 25 thành phần được chọn từ quá trình cải tiến. Xác suất để sự khác biệt của 2 giá trị trung bình [tức là, X_2 - X_1] ít nhất 25 giờ là bao nhiêu? Giả sử rằng các quy trình cũ và quy trình cải tiến có thể được coi là tổng thể độc lập.
Lời giải:
Phân phối của X_1 là chuẩn với trung bình μ1 = 5000 giờ và độ lệch chuẩn σ1/sqrt[n1] = 10 giờ, và phân phói của X_2 là chuẩn trung bình μ2 = 5050 giờ và độ lệch chuẩn σ2/sqrt[n2] = 6 giờ.
Phân phối của X_1 - X_2 là chuẩn với trung bình μ1 - μ1 = 5050 - 5000 = 50 giờ và phương sai σ2^2/n2 + σ1^2/n1 = 6^2 + 1^2 = 136 giờ.
Hình 4.5. Phân phối của X_2 - X_1
Phân phối mẫu này được hiển thị trong Hình 8. Xác suất để X_2 - X_1 >=25 là phần được tô màu của phân phối chuẩn như hình 4.5.
Ta tìm được: Z = [25 - 50]/sqrt[36] = -2.14
và do đó, ta có: P[X_2 - X_1 >= 25] = P[Z>= -2.14] = 0.9838

Tóm tắt Phần 4

- Phân phối của một statistic được gọi là phân phối mẫu.
- Áp dụng tính chất tự sinh của phân phối chuẩn, giá trị trung bình mẫu của một mẫu từ một tổng thể phân phối chuẩn cũng là một biến ngẫu nhiên, có giá trị trung bình và phương sai tính theo công thức.
- Định lí Giới hạn trung tâm là một trong những định lí quan trọng nhất của Thống kê. Định lí Giới hạn Trung tâm có thể áp dụng đối với bài toán liên quan tới tham số của 2 tổng thể.

Tài liệu tham khảo

[1] Montgomery, D. C., and Runger, G. C., 2003. Applied Statistics and Probability for Engineers. New York : John Wiley & Sons.
[2] Anderson, D. R., Sweeney, D. J., and Williams, T. A., 2008. Statistics for Business and Economics. Ohio : Thomson South-Western.
[3] Vũ Hữu Tiệp, 2017. Bài 31: Maximum Likelihood và Maximum A Posteriori estimation. Machine Learning Cơ bản[online]


Video liên quan

Chủ Đề