Nội dung lý thuyết
Để thu được các thông tin quan trọng từ các số liệu thống kê, người ta sử dụng những số đặc trưng như số trung bình cộng, số trung vị, mốt, phương sai, độ lệch chuẩn. Các số đặc trung này phản ánh những khía cạnh khác nhau của dấu hiệu điều tra.
Ví dụ 1: Chiều cao của \(36\) học sinh được cho trong bảng số liệu sau (đơn vị: cm):
158 152 156 158 168 170 160 166 161 160 172 173 150 167 165 163 158 162 169 159 163 164 161 160 164 159 163 155 163 165 154 161 164 151 164 152 |
Các số đo trong bảng trên được chia thành 4 lớp và được tóm tắt trong bảng phân bố tần số và tần suất sau:
Lớp số đo chiều cao (cm) | Tần số | Tần suất (%) |
\([150;156)\) \([156;162)\) \([162;168)\) \(\left[168;174\right]\) | 6 12 13 5 | 16,7 33,3 36,1 13,9 |
Cộng | 36 | 100(%) |
Áp dụng công thức tính số trung bình cộng đã học ở lớp 7, ta tính được chiều cao trung bình \(\overline{x}\) của \(36\) học sinh là: \(\overline{x}=161cm\)
Sử dụng bảng phân bố tần số và tần suất ghép lớp, ta tính được gần đúng chiều cao trung bình \(\overline{x}\) của \(36\) học sinh theo 2 cách sau:
Cách 1: Sử dụng bảng phân bố tần số ghép lớp:
Nhân giá trị đại diện của mỗi lớp với tần số của lớp đó, cộng các kết quả lại rồi chia cho 36, ta được:
\(\overline{x}=\dfrac{6.153+12.159+13.165+5.171}{36}\approx162\left(cm\right)\)
Kết quả này có nghĩa là chiều cao trung bình của 36 học sinh kể trên là \(\overline{x}=162cm\)
Ta cũng nói 162cm là số trung bình cộng của bảng trên.
Cách 2: Sử dụng bảng phân bố tần suất ghép lớp:
Nhân giá trị đại diện của mỗi lớp với tần suất của lớp đó rồi cộng các kết quả lại, ta được:
\(\overline{x}=\dfrac{16,7}{100}.153+\dfrac{33,3}{100}.159+\dfrac{36,1}{100}.165+\dfrac{13,9}{100}.171\approx162\left(cm\right)\)
Vậy ta có thể tính số trung bình cộng của các số liệu thống kê theo các công thức sau:
Trường hợp bảng phân bố tần số, tần suất:
\(\overline{x}=\dfrac{1}{n}\left(n_1x_1+n_2x_2+...+n_kx_k\right)=f_1x_1+f_2x_2+...+f_kx_k\)
trong đó \(n_i;f_i\) lần lượt là tần số, tần suất của giá trị \(x_i\), \(n\) là số các số liệu thống kê (\(n=n_1+n_2+...+n_k\))
Trường hợp bảng phân bố tần số, tần suất ghép lớp:
\(\overline{x}=\dfrac{1}{n}\left(n_1c_1+n_2c_2+...+n_kc_k\right)=f_1c_1+f_2c_2+...+f_kc_k\)
trong đó \(n_i;f_i,c_i\) lần lượt là tần số, tần suất và giá trị đại diện của lớp thứ \(i\), \(n\) là số các số liệu thống kê (\(n=n_1+n_2+...+n_k\)).
Ví dụ 2: Xét bảng phân bố tần số và tần suất ghép lớp sau:
Nhiệt độ trung bình của tháng 2 tại thành phố Vinh từ 1961 đến hết 1990 (30 năm)
Lớp nhiệt độ (\(^oC\)) | Tần số | Tần suất (%) |
\([12;14)\) \([14;16)\) \([16;18)\) \([18;20)\) \(\left[20;22\right]\) | 1 3 12 9 5 | 3,33 10,00 40,00 30,00 16,67 |
Cộng | 30 | 100(%) |
Dựa vào bảng phân bố tần số và tần suất ghép lớp trên, ta có thể tính được nhiệt độ trung bình vào tháng 2 tại thành phố Vinh trong 30 năm bằng 2 cách:
- Sử dụng bảng phân bố tần số ghép lớp:
\(\overline{x}=\dfrac{1}{30}\left(13.1+15.3+17.12+19.9+21.5\right)\approx17,93\) (\(^oC\))
- Sử dụng bảng phân bố tần suất ghép lớp:
\(\overline{x}=13.\dfrac{3,33}{100}+15.\dfrac{10,00}{100}+17.\dfrac{40,00}{100}+19.\dfrac{30,00}{100}+21.\dfrac{16,67}{100}\approx17,93\) (\(^oC\))
Ví dụ 1: Điểm thi Toán cuối năm của một nhóm 9 học sinh lớp 6 là:
1 ; 1 ; 3 ; 6 ; 7 ; 8 ; 8 ; 9 ; 10.
Điểm trung bình của cả nhóm là \(\overline{x}\approx5,9\)
Ta thấy rằng hầu hết học sinh (6 em) trong nhóm có số điểm vượt điểm trung bình và có những điểm vượt rất xa. Như vậy, điểm trung bình \(\overline{x}\) không đại diện được cho trình độ học lực của các em trong nhóm.
Khi các số liệu thống kê có độ chênh lệch lớn thì số trung bình cộng không đại diện được cho các số liệu đó. Khi đó ta chọn số đặc trưng khác đại diện thích hợp hơn, đó là số trung vị.
Sắp thứ tự các số liệu thống kê thành dãy không giảm (hoặc không tăng). Số trung vị (của các số liệu thống kê đã cho) kí hiệu \(M_e\) là số đứng giữa dãy nếu số phần tử là lẻ và là trung bình cộng của hai số đứng ở giữa dãy nếu số phần tử là chẵn.
Xét trong ví dụ trên, ta có \(M_e=7\).
Ví dụ 2: Điểm thi Toán của 4 học sinh lớp 6 được sắp xếp thành dãy không giảm là:
1 ; 2,5 ; 8 ; 9,5
Trong dãy này có 2 số đứng giữa là 2,5 và 8
Khi đó ta chọn số trung vị cho các số liệu trong dãy là: \(M_e=\dfrac{2,5+8}{2}=5,25\)
Mốt của một bảng phân bố tần số là giá trị có tần số lớn nhất và được kí hiệu là \(M_0\).
Ví dụ 1: Điều tra tiền lương hàng ngày của 30 công nhân xưởng may, ta thu được bảng phân bố tần suất:
Tiền lương (nghìn đồng) | 200 | 300 | 350 | 400 | 450 | 500 | Cộng |
Tần số | 3 | 5 | 7 | 5 | 6 | 4 | 30 |
Ta thấy trong bảng phân bố tần số trên, giá trị 350 có tần số lớn nhất là 7.
Nên 350 là mốt của bảng phân bố tần số trên hay \(M_0=350\).
Ví dụ 2: Xét bảng phân bố tần số :
Số áo bán được trong một quý ở một cửa hàng bán áo sơ mi nam
Cỡ áo | 36 | 37 | 38 | 39 | 40 | 41 | 42 | Cộng |
Tần số (số áo bán được) | 13 | 45 | 126 | 110 | 126 | 40 | 5 | 465 |
Trong bảng phân bố tần số trên, có 2 giá trị là 38 và 40 cùng có tần số lớn nhất là 126, trong trường hợp này ta coi rằng có hai mốt là: \(M_0^{\left(1\right)}=38\) và \(M_0^{\left(2\right)}=40\).