Nội dung lý thuyết
Ví dụ 1: Cho biết giá trị thành phẩm quy ra tiền (nghìn đồng) trong một tuần lao động của 7 công nhân tổ 1 là : 180 ; 190 ; 190 ; 200 ; 210 ; 210 ; 220, (1)
còn của 7 công nhân tổ 2 là: 150 ; 170 ; 170 ; 200 ; 230 ; 230 ; 250 (2)
Ta thấy trung bình cộng \(\overline{x}\) của dãy (1) và trung bình cộng \(\overline{y}\) của dãy (2) bằng nhau: \(\overline{x}=\overline{y}=200\).
Tuy nhiên khi so sánh dãy (1) và dãy (2) ta thấy các số liệu ở dãy (1) gần với số trung bình cộng hơn, nên chúng đồng đều hơn.
Khi đó ta nói: các số liệu thống kê ở dãy (1) ít phân tán hơn dãy (2).
Để tìm số đo độ phân tán (so với số trung bình cộng) của dãy (1) ta tính
Các độ lệch của mỗi số liệu thống kê đối với số trung bình cộng:
\(\left(180-200\right)\); \(\left(190-200\right)\); \(\left(190-200\right)\); \(\left(200-200\right)\); \(\left(210-200\right)\); \(\left(210-200\right)\); \(\left(220-200\right)\).
Bình phương các độ lệch và tính trung bình cộng của chúng, ta được:
\(s_1^2=\dfrac{1}{7}.[\left(180-200\right)^2+2.\left(190-200\right)^2+\left(200-200\right)^2+2.\left(210-200\right)^2+\left(220-200\right)^2]\)
\(\approx171,4\)
Số \(s_1^2\) được gọi là phương sai của dãy (1).
Tương tự, ta tính được phương sai \(s_2^2\) của dãy (2) như sau:
\(s_2^2=\dfrac{1}{7}.[\left(150-200\right)^2+2.\left(170-200\right)^2+\left(200-200\right)^2+2.\left(230-200\right)^2+\left(250-200\right)^2]\)
\(\approx1228,6\)
Ta thấy phương sai của dãy (1) nhỏ hơn phương sai của dãy (2). Điều đó biểu thị độ phân tán của các số liệu ở dãy (1) ít hơn dãy (2).
Ví dụ 2: Xét bảng số liệu:
Chiều cao của 36 học sinh (đơn vị: cm)
Lớp số đo chiều cao (cm) | Tần số | Tần suất (%) |
\([150;156)\) \([156;162)\) \([162;168)\) \([168;174]\) | 6 12 13 5 | 16,7 33,3 36,1 13,9 |
Cộng | 36 | 100(%) |
Số trung bình cộng của bảng trên là: \(\overline{x}=162cm\)
Mỗi số liệu thống kê thuộc một lớp được thay thế bởi giá trị đại diện của lớp đó.
Ta có thể tính gần đúng phương sai \(s^2\) của bảng phân bố tần số và tần suất trên bằng 2 cách như sau:
Cách 1: Tính theo tần số:
\(s^2=\dfrac{6}{36}\left(153-162\right)^2+\dfrac{12}{36}.\left(159-162\right)^2+\dfrac{13}{36}.\left(165-162\right)^2+\dfrac{5}{36}.\left(171-162\right)^2\)
\(\approx31\)
Cách 2: Tính theo tần suất:
\(s^2=\dfrac{16,7}{100}\left(153-162\right)^2+\dfrac{33,3}{100}\left(159-162\right)^2+\dfrac{36,1}{100}\left(165-162\right)^2+\dfrac{13,9}{100}\left(171-162\right)^2\)
\(\approx31\)
Chú ý:
- Khi hai dãy số liệu thống kê có cùng đơn vị đo và có số trung bình cộng bằng nhau hoặc xấp xỉ nhau, nếu phương sai càng nhỏ thì mức độ phân tán (so với số trung bình cộng) của các số liệu thống kê càng bé.
- Có thể tính phương sai bằng các cách sau:
Trường hợp bảng phân bố tần số:
\(s^2=\dfrac{1}{n}.\left[n_1\left(x_1-\overline{x}\right)^2+n_2\left(x_2-\overline{x}\right)^2+...+n_k\left(x_k-\overline{x}\right)^2\right]\)
\(=f_1\left(x_1-\overline{x}\right)^2+f_2\left(x_2-\overline{x}\right)^2+...+f_k\left(x_k-\overline{x}\right)^2\).
trong đó: \(n_i,f_i\) lần lượt là tần số, tần suất của giá trị \(x_i\) ; \(n\) là số các số liệu thống kê
(\(n=n_1+n_2+...+n_k\)) ; \(\overline{x}\) là số trung bình cộng của các số liệu đã cho.
Trường hợp bảng phân bố tần số ghép lớp:
\(s^2=\dfrac{1}{n}.\left[n_1\left(c_1-\overline{x}\right)^2+n_2\left(c_2-\overline{x}\right)^2+...+n_k\left(c_k-\overline{x}\right)^2\right]\)
\(=f_1\left(c_1-\overline{x}\right)^2+f_2\left(c_2-\overline{x}\right)^2+...+f_k\left(c_k-\overline{x}\right)^2\)
trong đó: \(c_i,n_i,f_i\) lần lượt là giá trị đại diện, tần số và tần suất của lớp thứ \(i\) ; \(n\) là số các số liệu thống kê (\(n=n_1+n_2+...+n_k\)) ; \(\overline{x}\) là số trung bình cộng của các số liệu đã cho.
Ngoài ra, người ta còn chứng minh được công thức:
\(s^2=\overline{x^2}-\left(\overline{x}\right)^2\)
trong đó: \(\overline{x^2}\) là trung bình cộng của các bình phương số liệu thống kê, tức là \(\overline{x^2}=\dfrac{1}{n}\left(n_1x_1^2+n_2x_2^2+...+n_kx_k^2\right)=f_1x_1^2+f_2x_2^2+...+f_kx_k^2\)
(đối với bảng phân bố tần số, tần suất)
\(\overline{x^2}=\dfrac{1}{n}\left(n_1c_1^2+n_2c_2^2+...+n_kc_k^2\right)=f_1c_1^2+f_2c_2^2+...+f_kc_k^2\)
(đối với bảng phân bố tần số, tần suất ghép lớp).
Trong ví dụ trên, ta tính được phương sai của bảng phân bố tần số, tần suất ghép lớp là \(s^2\approx31\). Nếu để ý đến đơn vị đo thì ta thấy đơn vị của \(s^2\) là \(cm^2\) (bình phương đơn vị đo của dấu hiệu được nghiên cứu). Muốn tránh điều này, có thể dùng căn bậc hai của phương sai gọi là độ lệch chuẩn và kí hiệu là \(s\).
Vậy \(s=\sqrt{s^2}\approx\sqrt{31}\approx5,6\left(cm\right)\).
Phương sai \(s^2\) và độ lệch chuẩn \(s\) đều được dùng để đánh giá mức độ phân tán của các số liệu thống kê (so với số trung bình cộng), nhưng khi cần chú ý đến đơn vị đo thì ta dùng \(s\), vì \(s\) có cùng đơn vị đo với dấu hiệu nghiên cứu.
Ví dụ 3: Cho bảng phân bố tần số:
Khối lượng của 30 con thằn lằn (đơn vị: gam)
Khối lượng | 140 | 150 | 160 | 170 | 180 | 190 | Cộng |
Tần số | 2 | 3 | 5 | 9 | 8 | 3 | 30 |
a) Lập bảng phân bố tần suất ;
b) Tính số trung bình cộng của bảng số liệu trên ;
c) Tính phương sai và độ lệch chuẩn của bảng số liệu trên.
Giải:
a) Bảng phân bố tần số và tần suất:
Khối lượng (gam) | Tần số | Tần suất (%) |
140 150 160 170 180 190 | 2 3 5 9 8 3 | 6,66 10 16,67 30 26,67 10 |
Cộng | 30 | 100(%) |
b) Số trung bình cộng của bảng số liệu trên là:
\(\overline{x}=\dfrac{140.2+150.3+160.5+170.9+180.8+190.3}{30}=169\left(g\right)\)
c) Phương sai của bảng số liệu trên là:
\(s^2=\dfrac{2}{30}\left(140-169\right)^2+\dfrac{3}{30}\left(150-169\right)^2+\dfrac{5}{30}\left(160-169\right)^2\)
\(+\dfrac{9}{30}\left(170-169\right)^2+\dfrac{8}{30}\left(180-169\right)^2+\dfrac{3}{30}\left(190-169\right)^2\)
\(\approx182,33\left(g^2\right)\)
Hoặc: \(s^2=\dfrac{6,66}{100}\left(140-169\right)^2+\dfrac{10}{100}\left(150-169\right)^2+\dfrac{16,67}{100}\left(160-169\right)^2\)
\(+\dfrac{30}{100}\left(170-169\right)^2+\dfrac{26,67}{100}\left(180-169\right)^2+\dfrac{10}{100}\left(190-169\right)^2\)
\(\approx182,33\left(g^2\right)\)
Độ lệch chuẩn của bảng số liệu trên là: \(s\approx\sqrt{182,33}\approx13,5\left(g\right)\).