Bài toán so sánh 2 tỷ số

Phân số a/b là kết quả của phép chia số tự nhiên a cho số tự nhiên b khác 0. Ta gọi a là tử số, b là mẫu số của phân số a/b. Mỗi phân số là thương của một phép chia. Chẳng hạn 6:2 = 6/2 = 3; 2:3 = 2/3. Như vậy sẽ có những phân số khác nhau nhưng có cùng giá trị. Chẳng hạn 8/2 và 4/1 là hai phân số khác nhau nhưng lại có cùng giá trị là 4. Mỗi số tự nhiên khác 0 đều có thể viết dưới dạng một phân số có mẫu số là một số tự nhiên khác 0 bất kỳ. Chẳng hạn 2 = 2/1 = 4/2 = 6/3...

Trong toán học, tỷ số của hai số cũng là thương của phép chia một số a cho một số b khác 0. Như vậy, khác với phân số là có tử số và mẫu số đều là các số tự nhiên, tỷ số có tử số và mẫu số là những số bất kỳ [mẫu số của phân số và tỷ số đều khác 0]. Một ví dụ tiêu biểu về tỷ số là trong in ấn, các khổ giấy dùng để in sách thường là một hình chữ nhật có tỷ số giữa chiều dài với chiều rộng là một hằng số, gọi là "tỷ số vàng". Trong thể thao, kết quả một trận đấu có thể có tỷ số là 1:2 hoặc 2:4. Đó là những tỷ số khác nhau, không giống như hai phân số bằng nhau là 1/2 = 2/4. Ở đây, tỷ số không phải là một phân số. Trong y học, để đánh giá một người là bình thường hay béo hoặc suy dinh dưỡng, người ta dùng chỉ số cơ thể BMI. Đó là phân số có tử số bằng khối lượng cơ thể [đơn vị là kilôgam], mẫu số là tích của chiều cao nhân với chiều cao của người đó [đơn vị chiều cao là mét]. Với người trên 20 tuổi thì nếu có chỉ số BMI trong khoảng từ 18 đến 24,9 được coi là bình thường, nếu nhỏ hơn 18 là người gầy, còn lớn hơn 25 là người béo phì. Ở đây, tỷ số tuy là một phân số nhưng tử số và mẫu số khác đơn vị đo. Một ví dụ khác về tỷ lệ: Theo tổng điều tra dân số Việt Nam năm 2009 của Tổng cục Thống kê thì trong một thập kỷ qua, tỷ số của trẻ trai với trẻ gái là 111/100.

Tỷ lệ cũng là một phân số nhưng tử số và mẫu số luôn cùng đơn vị đo, tử số luôn là một bộ phận của mẫu số. Chẳng hạn một lớp học có 30 bạn học sinh gồm 16 bạn nam và 14 bạn nữ thì tỷ lệ số bạn nam trong lớp học là 16/30 = 8/15. Nếu nhân tỷ lệ với 100 ta được tỷ lệ phần trăm. Như thế tỷ lệ luôn nằm trong khoảng từ 0 đến 1, còn tỷ lệ phần trăm thì nằm từ 0 đến 100. Người ta viết tắt tỷ lệ phần trăm trong vàng. Nếu viết vàng 99 thì có nghĩa là trong 100g vàng có 99g vàng nguyên chất. Tương tự, nếu viết vàng 999 thì trong 1.000g vàng có 999g vàng nguyên chất.

Tỷ lệ xích là một phân số có tử số bằng 1, mẫu số là chiều dài thực tế so với chiều dài trên một bản đồ. Chẳng hạn nếu trên một bản đồ ghi tỷ lệ xích là 1:2.000 hoặc 1/2.000 thì 1cm trên bản đồ sẽ ứng với 2.000cm hay 20m trên thực tế.

Nội dung Text: Bài tập Xác suất thống kê: Bài toán so sánh mở rộng

  1. BÀI TOÁN SO SÁNH MỞ RỘNG § 1. SO SÁNH NHIỀU TỶ LỆ Trong chương trước chúng ta đã xét bài toán so sánh tỷ lệ cá thể có đặc tính A trong hai tập hợp chính. bấy giờ chúng ta sẽ mở rộng bài toán này bằng cách xét bài toán so sánh đồng thời tỷ lệ cá thể có đặc tính A giữa nhiều tập hợp chính. Giả sử ta có k tập hợp chính H1, H2,... Hk. Mỗi cá thể của chúng có thể mang hay không mang đặc tính A. Gọi p1 là tỷ lệ có thể mang đặc tính A trong tập h ợp chính Hi [i = 1, 2, ...k]. Các tỷ lệ này được gọi là các tỷ lệ lý thuyết mà chúng ta chưa biết. Ta muốn kiểm định giả thiết sau: Ho: p1 = p2 = ... = pk [tất cả các tỷ lệ này bằng nhau]. Từ mỗi tập hợp chính Hi ta rút ra một ngẫu nhiên có kích thước ni, trong đó chúng ta thấy có mi cá thể mang đặc tính A. các dữ liệu này được trình bày trong bảng sau đây: Mẫu 1 2 ... k Tổng Có A m1 m2 ... mk m Không l1 l2 ... lk l A Tổng n1 n2 ... nk N = m + l = ni Nếu giả thiết Ho: p1 = p2 = ... = pk = p 1
  2. Là đúng thì tỷ lệ chung p được ước lượng bằng tỷ số giữa số cá thể đặc tính A của toàn bộ k mẫu gộp lại trên tổng số cá thể của k mẫu gộp lại. $ =m p N Tỷ lệ cá thể không có đặc tính A được ước lượng bởi $ = l $ = 1− p q N Khi đó số cá thể có đặc tính A trong mẫu thứ i [mẫu rút từ tập hợp chính Hi] sẽ xấp xỉ bằng $ ni m ᄉ i =n p m i = N và số cá thể không có đặc tính A trong mẫu thứ i sẽ xấp xỉ bằng $i i = n q $ l i = ni N Các số mᄉ i và $i i được gọi là các tần số lý thuyết [TSLT], còn các số mi, li được gọi là các tần số quan sát [TSQS]. Ta quyết định bác bỏ Ho khi TSLT cách xa TSQS một cách “bất thường”. Khoảng cách giữa TSQS và TSLT được đo bằng test thống kê sau đây: [ m − mᄉ ] [l ] 2 2 k i i k i − $l i T= � ᄉ i m + � $l i i =1 i =1 Người ta chứng minh được rằng nếu Ho đúng và các tần số lý thuyết không nhỏ thua 5 thì T sẽ có phân bố xấp xỉ phân bố χ2 với k – 1 bậc tự do. Thành thử miền bác bỏ Ho có dạng {T > c}, ở đó c được tìm từ điều kiện P{T > c} = . Vậy c chính là phân vị mức của phân bố χ2 với k – 1 bậc tự do. Chú ý. Test thống kê T có thể biến đổi như sau. Ta có: 2
  3. [l ] [ ] [ ] = [ m − mᄉ ] 2 2 2 2 i − $l i =� $ �= m − n p n − mi − ni 1 − p $ i �i � i i i Do đó [ m − mᄉ ] 2 �1 1� T= i i �ᄉ + $ � �m1 l i � 2� 1 � = [ m − mᄉ ] i i � 1 �n p $ + $ � � � i 1 ni q � [ m − mᄉ ] 2 k i i m2i ᄉ i mi m ᄉ 2o m = � $ ni pq = � n pq$ −2 � n pq$ + � n pq $ i =1 i i i Chú ý rằng mi mᄉ i 1 m ᄉ 12 m 1 m � $ n i pq = $ q � mi = ; $ q �n pq = $ q$ �m ᄉ i= $ q i Vậy 1 m2i m 1 m2i $ N2 p m2i m T= pq$ � ni − = $ q $ pq � ni −N = $ ml q � ni −N l Nếu sử dụng công thức này ta sẽ không cần tính các tần số lý thuyết, do đó nó được dùng trong thực hành. Ví dụ 1. So sánh tác dụng của 6 mẫu thuốc thử nghiệm trên 6 lô chuột, kết quả thu được như sau: Mẫu 1 2 3 4 5 6 Tổng thuốc Số sống 79 82 77 83 76 81 478 Số chết 21 18 23 17 24 19 122 Tổng 100 100 100 100 100 100 600 Ta muốn kiểm định giả thiết Ho: Tỷ lệ chết trong 6 mẫu thuốc là như nhau Đối thiết H1: Tỷ lệ chết trong 6 mẫu thuốc là khác nhau 3
  4. Giải 6002 � 792 822 812 � [600][478] Ta có T= � + + L + �− [478][122] � 100 100 100� 122 = 2353,24 − 2350,81= 2,42 Với mức ý nghĩa = 5%, tra bảng phân bố χ 2 với 5 bậc tự do ta có χ20,05 = 11,07 Vì T c nên ta bác bỏ giả thuyết Ho. Tỳ lệ học sinh đỗ của các thầy A, B, C, D như nhau. § 2. SO SÁNH CÁC PHÂN SỐ Xét một bộ A gồm r tính trạng, A = [A1, A2, ...Ar], trong đó mỗi cá thể của tập hợp chính H có và chỉ có một trong các tính trạng 4
  5. [hay phạm trù] Ai. Gọi pi [i = 1, 2, ... r] là tỷ lệ cá thể tính trạng A i trong tập hợp chính H. Khi đó véctơ = [p1, p2, ...pr] đượ c gọi là phân bố của A trong t ập h ợp chính H. Chẳng hạn, mọi ng ườ i đi làm có thể sử dụng một trong các phươ ng tiện sau: đi bộ, đi xe đạ p, đi xe máy, đi xe buýt. Trong thành phố X có 18% đi bộ, 32% đi xe đạp, 40% đi xe máy và 10% đi xe buýt. Như vậy = [0,18; 0,32; 0,4; 0,1] là phân bố của cách đi làm [A ] trong t ập h ợp các dân cư của thành phố X. Tươ ng tự mỗi ngườ i có thể đượ c xế p vào 1 trong 3 phạm trù sau: rất h ạnh phúc, bất hạnh, hoặc có thể đượ c xếp vào 1 trong 3 lớp sau: dưới 25 tu ổi, trong kho ảng t ừ 25 đến 45 tuổi, trên 45 tuổi... có thể dẫn ra rất nhi ều ví dụ tươ ng tự như vậy. Giả sử [p1, p2,...pr] là phân bố của [A 1, A2,...Ar] trong t ập hợp chính H và [q 1, q2,...qr] là phân bố của A = [A1, A2,...Ar] trong tập hợp chính Y. Ta nói [A1, A2...Ar] có phân bố như nhau trong X và Y nếu [p1, p2,...pr] = [q 1, q2,...rr] p1 = q1,...pr = qr. Chúng ta muốn ki ểm đị nh xem A = [A1, A2,...Ar] có cùng phân số trong X và Y hay không dựa trên các mẫu ngẫu nhiên rút từ X và Y. Tổng quát hơn, giả sử ta có k tập hợp chính H 1, H2,...Hk. Gọi π = [ p1,p2,K pr ] là phân bố của A = [A1, A2,...Ar] trong t ập i i i i hợp chính Hi. Ta muốn kiểm đị nh giả thuyết sau Ho: π1 = π2 = K = π k [Các phân bố này là như nhau trên các tập hợp chính Hi]. Chú ý rằng Ho tươ ng đươ ng với hệ đẳ ng thức sau: p11 = p12 = K = p1k p12 = p22 = K = p2k p1i = p2i = K = pki p1r = p2r = K = pkr 5
  6. Từ mỗi tập hợp chính chúng ta chọn ra một m ẫu ng ẫu nhiên. Mẫu ngẫu nhiên chọn từ tập hợp chính Hi đượ c gọi là mẫu ngẫu nhiên thứ i [i = 1, 2,... k]. Giả sử trong m ẫu ng ẫu nhiên thứ i Có n1i cá thể có tính trạng A 1 n2i cá thể có tính trạng A 2 .............................. nri cá thể có tính trạng A r Ta xắp xếp cá số liệu đó thành bảng sau đây. Mẫu Tổng 1 2 J K Tính trạng số A1 n11 n12 ... n1j ... n1k n10 A2 n21 n22 ... n2j ... n2k n20 ... ... ... ... ... ... ... ... Ai ni1 ni2 ... nij ... nik ni0 ... ... ... ... ... ... ... ... Ar nr1 nr2 ... nrj ... nrk nr0 Tổng số no1 no2 ... noj ... nok n k Ký hiệu nio = nij j=1 r noj = nij i =1 Như vậy noj là kích thướ c của mẫu th ứ j, còn n io là tổng s ố cá thể có tính trạng A i trong toàn bộ k mẫu đang xét r k n = �nio = �noj i =1 j=1 Là tổng s ố tất cả các cá thể của k mẫu đang xét. 6
  7. Nếu giả thiết Ho là đúng nghĩa là p11 = p12 = K = p1k = p1 p12 = p22 = K = p2k = p2 p1i = pi2 = K = pik = pi p1r = p2r = K = prk = pr thì các tỷ lệ chung p 1, p2,...pr đượ c ướ c lượ ng bởi: $ = nio pi n Đó ước lượng cho xác suất để một cá thể có mang tính trạng Ai. khi đó số cá thể có tính trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng $ ij = n p$ nojnio n oj i = n Các số $ ij [i = 1,2,...r; j = 1,2,...k] n đượ c gọi là các tần số lý thuyết [TSLT], các số nij đượ c gọi là các tần s ố quan sát [TSQS]. Ta quyết định bác bỏ Ho khi các TSLT cách xa TSQS m ột cách bất thườ ng. Kho ảng cách giữa TSQS và TSLT đượ c đo bằng test th ống kê sau đây [ n − n$ ] 2 k r ij ij [TSQS − TSLT]2 T = �� =� f =1 i =1 $ ij n TSLT Ngườ i ta chứng minh đượ c rằng nếu H o đúng và các TSLT không nhỏ hơn 5 thì T sẽ có phân bố xấp xỉ phân bố χ 2 với [k­1] [r­1] bậc tự do. Thành thử miền bác bỏ có dạ ng {T > c} ở đó c đượ c tìm từ điều kiện P{T > c} = . Vậy c là phân vị mức của phân bố χ 2 với [k­1][r­1] b ậc t ự do. Chú ý. T có thể biến đổi thành các dạng sau đây. 7
  8. [ n − n$ ] 2 Ta có ij ij n2ij $ ij = − 2nij + n $ ij n $nij Để ý rằng: ��n = ��n$ ij ij =n n2 n2 n2ij � n2ij � � � Vậy T = �$ − 2n + n = �$ = n� � ij ij − n = n� − 1� [1] nij nij nionoj � nionoj � $ ij , do đó Với công thức này ta không phải tính các TSLT n thườ ng đượ c sử dụ ng trong thực hành. Ví dụ 3. Ngườ i ta muốn so sánh số băng trên vỏ củ a ba loài ốc sên rừng I, II và III. Số liệu nghiên cứu được cho ở bảng sau: Loài Tổ ng I II III Số băng trên vỏ số 0 49 31 126 206 1 hoặc 2 33 20 56 109 3 hoặc 4 52 20 83 155 5 trở lên 35 29 109 173 Tổ ng số 169 100 374 643 Hỏi có thể cho rằng s ố băng trên vỏ có phân phối như nhau trên cả ba loài ốc sên này không? Chọn mức ý nghĩa là 5%. Giải. Ta tính thống kê T theo công thức [1] 492 312 1262 T = 643 + + + [169][206] [100][206] [374][206] 332 202 562 + + + + [169][109] [109][100] [109][374] 292 1092  + L + + − 1 10,4 [100][173] [374][173]  Tra bảng phân bố χ2 với bậc tự do [3 – 1][4 – 1] = 6, ta tìm được 8
  9. c = χ20,05 = 12,592 Giá trị này lớn hơn T. v ậy chúng ta chấp nh ận H o: Số băng trên vỏ có phân bố như nhau đối với cả 3 loài ốc sên rừ ng. Ví dụ 4. đài truyền hình việt nam mu ốn thăng dò ý kiến khán giả về th ời lượ ng phát sóng phim truyện Vi ệt Nam hàng tuần. Phiếu thăm dó đặt ra 4 mức. A1: Tăng thời lượ ng phát sóng A2: Giữ như cũ A3: Giảm A4: Không ý kiến Đài đã tiến hành thăm dò ba nhóm xã hội khác nhau: công nhân, nông dân, trí thức. Kết qu ả cu ộc thăm dò như sau: Tầng lớp Công Nông dân Trí thức Tổ ng số Ýù kiến nhân Tăng 100 300 20 420 Như cũ 200 400 30 630 Giảm 50 80 5 135 Không ý 30 70 5 105 kiến Tổng số 380 850 60 1290 Với mức ý nghĩa = 5%, có sự khác nhau về ý kiến trong các tầng lớp xã hội trên hay không? Giải. Tần số lý thuyết của ô “trí thức không ý kiến” là [60][105] = 4,88, bé hơn 5 do đó điều kiện cho phép áp dụ ng tiêu 1290 chuẩn “khi bình phươ ng” không đượ c thoả mãn. Để khắc phụ c khó khăn này có hai cách. Hoặc là ghép dòng cuối cùng với một dòng nào đó, hoặc là ghép cột cuối cùng với một cột nào đó. Tuy nhiên rất khó ghép dòng cuối cùng “không ý kiến” với 9
  10. một dòng nào đó cho hợp lý. “Không ý kiến” khác rất nhiều v ới việc “có bày tỏ ý kiến của mình”. Hợp lý hơn ta ghép cột cuối cùng “trí thức” với cột “công nhân” vì trí thức có vẽ gần với công nhân hơn là nông dân [đều ở khu vực thành thị ]. Như vậy ta có bảng mới sau: Tầng lớp Công nhân Nông dân Tổng số Ýù kiến Và trí thức Tăng 120 300 420 Như cũ 230 400 630 Giảm 55 80 135 Không ý kiến 35 70 105 Tổng số 440 850 1290 Sử dụng công thức tìm đượ c � 1202 702 � T = 1290� +L + − 1� 10,059 [440][220] � [850][105] � Tra bảng phân bố χ 2 ở mức 5% với bậc tự do là [2 – 1][4 – 1] = 3, ta tìm đượ c χ20,05 = 7,815 Số này bé hơn T. vây ta kết luận rằng v ề th ời l ượng phát sóng phim Vi ệt Nam có một sự khác nhau về ý kiến giữa hai tầng lớp xã hội: nông dân và công nhân viên chức. Chú thích sử dụng Minitab Để sử dụng Minitab thực hi ện tiêu chuẩn χ 2 ta cần làm như sau. Các tần s ố quan sát đượ c nhập vào dướ i dạng các cột số liệu, ch ẳng hạn các cột C 1, C2, C3 và C4 bằng lệnh READ. Sau đó chúng ta đánh lệnh CHIQUARE C1 – C4 Minitab sẽ cho ta trên màn hình các TSQS, TSLT, giá trị của test 10
  11. thống kê “Khi bình phương” T và số bậc tự do. Ta chỉ cần tra bảng phân bố χ 2 để tìm hằng số c và so sánh nó với giá trị của T. Sau đây là ví dụ về một bảng mà Minitab cho ta trên màn hình: MTB > READ C1 – C4 3 ROWS READ MTB > END MTB > MTB > CHISQUARE C1 – C4 C1 C2 C3 C4 Total 1 34 47 63 68 182 36.79 42.64 66.42 36.14 2 26 36 57 42 161 32.55 37.73 58.75 31.97 3 53 48 84 31 216 43.66 50.62 78.83 42.89 Total 113 131 204 111 559 Chisq = 11.299 DF = 6 MTB > § 2. PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ Trong chươ ng 5 chúng ta xét bài toán so sánh giá trị trung bình của hai t ập h ợp chính. Trong mục này chúng ta xét bài toán tổng quát; so sánh đồng thời các giá trị trung bình của nhiều tập hợp chính. Giả sử ta có k ĐLNN có phân bố chuẩn X 1, X2, ... X k, trong đó X i : N [ µ i , σi ] . 2 Các giá trị trung bình i và phươ ng sai σi đều chưa biết. 2 Tuy nhiên chúng ta giả thi ết r ằng các phươ ng sai bằng nhau: σ12 = σ 22 = L = σ2k Chúng ta mu ốn ki ểm đị nh xem liệu các giá trị trung bình i 11
  12. này có như nhau hay không: µ1 = µ 2 = L = µ k Trong th ốn gkê vấn đề trên thườ ng đượ c xem xét dướ i góc độ sau đây. Giả sử chúng ta quan tân đến một nhân tố X [factor] nào đó. Nhân tố X có thể xem xét ở k mức khác nhau. Ký hiệu X i là hiệu quả của việc tác động nhân tố X ở mức i đối với cá thể. Như vậy i là hiệu quả trung bình của nhân tố X ở mức i. chúng ta muốn biết khi cho nhân tố X thay đổ i các mứ c khác nhau thì điều đó có ảnh hưở ng hay không tới hiệu quả trung bình. Ví dụ. a] Chúng ta muốn nghiên cứu ảnh hưở ng của giống t ới năng suất cây trồng. Nhân tố đây là giống. Các loại giống khác nhau là các nức của nhân tố. Hiệu quả c ủa giống lên năng suấ t cây trồng đượ c đo bằng sản lượ ng của cây trồng. Như vậy X i chính là sản lượ ng của gi ống i và i là sản lượ ng trung bình của giống i. b] Giả sử rằng có 4 giáo sư Toán A, B, C, D đang dạy một giáo trình xác suất cho năm thứ nhất. Nhà trườ ng muốn tìm hiểu xem điểm thi trung bình của các sinh viên thụ giáo các giáo sư này có khác nhau hay không. Trong b ối c ảnh này, nhân tố là giáo sư. Mỗi giáo sư cụ thể là một mức của nhân tố. Hiệu quả của giáo sư A đối với cá thể [sinh viên] đượ c đo bằ ng điểm thi của sinh viên đó. Như vậy X A là điểm thi trung bình của tất cả các sinh viên này. Nhà trườ ng muốn kiểm đị nh giả thiết. µA = µB = µC = µD Giả sử {x1, x2,...xn 1} là một mẫu có kích thướ c n 1 rút ra từ 1 {x , x ,...x 2 } tập hợp chính các giá trị của X 1; 12 22 n 2 là một mẫu kích thướ c rút ra từ tập hợp chính các giá trị của X2,..., {x1k , x2k ,...xn k} k là một mẫu kích thướ c n k rút ra từ tập hợp chính các giá trị của Xk. các số liệu thu đượ c trình bày thành bảng ở dạng sau đây: 12
  13. Các mức nhân tố 1 2 ... k x11 x12 ... n1k k x21 x22 ... n2k n= n1 i=1 ... ... ... ... xn11 xn2 2 ... xnkk Tổng số k T1 T2 ... Tk T= Tk i=1 Trung T x1 x2 ... x= bình n Ta đưa ra một s ố kí hiệu sau *] Trung bình của mẫu thứ i [t ức là mẫu ở cột thứ i trong bảng trên]: ni xji Ti j=1 xi = = ni ni *] Trung bình chung k nj ��xij x= T = �� xij = i =1 j=1 n n n ở đó n = n1 + n2 + ... + n k; T = T1 + T2 + ... + Tk. *] Tổng bình phươ ng chung ký hiệu là SST [viết tắt là chữ Total Sum of Squares] đượ c tính theo công thức sau: 13
  14. n1 n2 nk �[ xi1 − x] + �[ xi2 − x] + L + �[ xik − x] 2 2 2 STT = i =1 i =1 i =1 nk n j ��[ xij − x] 2 = j=1 i =1 có thể chứng minh r ằng n1 n2 nk T2 STT = � x2i1 + � x2i2 + L + � x2ik − n i =1 i =1 i =1 2 T = x2ij − i, j n +] Tổng bình phươ ng do nhân tố ký hiệu là SSF [viết tắt của chữ Sumof Squares for Factor] đượ c tính theo công thức sau: k n i [ xi − x ] 2 SSF = i =1 T12 T22 T2 T = + +L + k − 2 n1 n2 nk n +] Tổng bình phươ ng do sai s ố ký hiệu là SSE [viết tắt của chữ Sumof Squares for the Error] đượ c tính theo công thức: n1 n2 nk SSE = � [ xi1 − x] + 2 � [ xi2 − x2 ] + L + 2 �[ xik − xk ] 2 i =1 i =1 i =1 n1 n2 nk T12 T22 Tk2 = � x2i1 − n1 + � x2i2 − n2 +L + � x2ik − nk i =1 i =1 i =1 �T12 Tk2 � = ��x2ij − � �n +L+ � nk � 1 � � Từ công thức trên ta thấy SST = SSF + SSE + Trung bình bình phươ ng của nhân tố, ký hiệu là MSF [viết tắt của ch ữ Mean Square for Factor] đượ c tính bởi công thức: 14
  15. SSF MSF = k −1 + k – 1 đượ c gọi là bậc tự do của nhân tố. Trung bình bình phươ ng của sai s ố, ký hiệu là MSS [viết tắt của chữ Mean Square for Error] đượ c tính bởi công thứ c: SSE MSE = n−k n – k đượ c gọi là bậc tự do của sai s ố. + Tỷ số F đượ c tính bởi công thức MSF F= MSE Các kết quả nói trên đượ c trình bày trong bảng sau đây gọi là ANOVA [vi ết t ắt c ủa chũ Analysis of Variance: phân tích phươ ng sai] Bảng ANOVA Tổng Trung Nguồn bình Bậc tự do bình bình Tỷ số F phươ ng phươ ng Nhân tố SSF k – 1 MSF MSF/MSE Sai s ố SSE n – k MSE Tổng số SST n – 1 Ngườ i ta chứng minh đượ c rằng nếu giả thiết H o đúng thì tỷ số F MSF F= MSE sẽ có phân bố Fisher v ới bậc tự do là [k – 1, n – k] Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fisher với bậc tự do là [k – 1, n – k]. Trong bảng IV, k – 1 được 15
  16. gọi là bậc tự do ở mẫu số. Phương pháp kiểm định nói trên được gọi là phân tích phương sai một nhân tố. Cảm tưởng ban đầu của ta là ANOVA là một quá trình rất phức tạp. Nhưng thực ra nó khá đơn giản ngay cả khi ta chỉ có máy tính bỏ túi. Các bước trong ANOVA được tiến hành theo trình tự sau đây: Bước 1: Tính SSF Bước 2: Tính SST Bước 3: Tính SSE = SST – SSF SSF Bước 4: Tính MSF = k −1 SSE Bước 5: Tính MSE = n −1 MSF Bước 6: Tính F = MSE Bước 7: Tra bảng phân bố F để tìm c rồi so sánh với F và rút ra kết luận. Ví dụ 5. thực hiện phân tích phương sai cho bảng số liệu sau đây. Các mức nhân tố Tổ ng 1 2 3 4 số Nguồn 12 12 9 12 10 16 7 8 7 15 16 8 8 9 11 10 9 7 14 ni 6 4 5 4 n = 19 16
  17. Ti 60 52 40 38 T = 190 Bướ c 1. 602 522 402 382 1902 SSF = + + + − 6 4 5 4 19 = 1957 − 1900 = 57 Bướ c 2. 1902 SST = 122 + 102 + 72 + L + 122 + 82 + 82 + 102 − 19 = 148 − 57 = 91 Bướ c 4. SSF 57 MSF = = = 19 k −1 3 Bướ c 5. SSE 148 148 MSE = = = = 6, 04 n − k 19 − 4 15 Bướ c 6. MSF 19 F= = = 3,13 MSE 6, 07 Ta trình bày các kết quả tính toán trên trong b ảng ANOVA. Tổng Trung Nguồn bình Bậc tự do bình bình Tỷ số F phươ ng phươ ng Nhân tố 57 3 19 F = 3,13 Sai s ố 91 15 6,04 Tổng số 148 18 Với mức ý nghĩa 5%, tra bảng phân bố Fisher v ới b ậc tự do [3,15] ta đượ c: c = 3,29. 17
  18. Ta có F c nên ta bác bỏ Ho, nghĩa là điểm thi trung bình của các sinh viên theo học các giáo sư A, B, C là khác nhau ở mức ý nghĩa 5%. Chú ý về sử dụng Minitab. Để tiến hành phân tích phương sai trên máy vi tính với phần mềm Minitab, đầu tiên ta nhập các số liệu vào dưới dạng các cột chẳng hạn các coat C1, C2, C3, C4. 18
  19. Sau đó chỉ cần gõ lệnh AOVONEWAY C1 – C4 là Minitab sẽ cho hiện lên màn hình bảng ANOVA tính trên dữ liệu đã đưa vào. Ví dụ 7. Tiến hành phân tích phương sai bằng máy tính [sử dụng Minitab] bảng số liệu sau: Điểm của các giáo sư An Vân Ba Bình 56 61 58 68 64 66 60 74 67 52 65 59 61 48 49 54 70 47 75 66 56 64 Giải MTB > Mame C1 “An” MTB > Mame C2 “Van” MTB > Mame C3 “Ba” MTB > Mame C4 “Binh” MTB > Set C1 DATA > 56, 64, 67, 61, 70 DATA > End MTB > Set C2 DATA > 61, 66, 52, 48, 47, 56 DATA > End MTB > Set C3 DATA > 58, 60, 65, 79, 75 19
  20. DATA > End MTB > Set C4 DATA > 68, 74, 59, 54, 66, 64 DATA > End MTB > AOVONEWAY C1 – C4 ANALYSIS OF VARIANCE SOURCE DF SS MS F P FACTOR 3 310,6 103,5 1,85 0,174 ERROR 18 1007,2 56,0 TOTAL 21 1317,8 Công việc còn lại là tra bảng phân bố Fisher với bậc tự do [3,18], mức = 5% để tìm được c = 3, 16 số này nhỏ hơn F = 1,85. vậy ta chấp nhận Ho. Giả sử việc phân tích phương sai dẫn tới bác bỏ Ho, nghĩa là có sự khác nhau giữa các trung bình. Như vậy tồn tại ít nhất một cặp i, j sao cho i j. Đôi khi ta cần biết cụ thể cặp i j đó là cặp nào. Các nhà thống kê đã xây dựng được một số phương pháp để so sánh từng cặp giá trị trung bình hay so sánh những tổ hợp phức tạp hơn của các trung bình như phương pháp Dumcan, phương pháp Tukey, phương pháp Scheffe... Tuy nhiên trong giáo trình này ta không có điều kiện trình bày những phương pháp đó. § 4. PHÂN TÍCH PHƯƠNG SAI HAI NHÂN TỐ Trên thực một biến lượng chịu tác động không chỉ một nhân tố mà có thể hai [hay nhiều nhân tố]. Chẳng hạn năng suất cây trồng chịu ảnh hưởng của nhân tố giống và của nhân tố đất. Kết quả học tập của một sinh viên chịu ảnh hưởng không những bởi nhân tố giảng viên mà còn bởi nhân tố sĩ số của lớp học... Trong mục này ta sẽ trình bày một cách vắn tắt kỹ thuật phân tích phương sai hai nhân tố nhằm phát hiện ảnh hưởng của mỗi 20

Chủ Đề