Cách Tính Khoảng Tứ Phân Vị Của Mẫu Số Liệu Ghép Nhóm

Trong thế giới phân tích dữ liệu, việc hiểu rõ sự phân bố của một tập hợp các giá trị là vô cùng quan trọng. Đối với các mẫu số liệu ghép nhóm, việc tìm kiếm các chỉ số đo lường độ phân tán giúp chúng ta có cái nhìn sâu sắc hơn về dữ liệu. Một trong những chỉ số đó là khoảng tứ phân vị, một công cụ mạnh mẽ để đánh giá sự tập trung của 50% dữ liệu chính giữa. Bài viết này sẽ hướng dẫn bạn cách tính khoảng tứ phân vị của mẫu số liệu ghép nhóm một cách chi tiết và dễ hiểu.

Khoảng Biến Thiên Và Ý Nghĩa Trong Phân Tích Dữ Liệu

Trước khi đi sâu vào khoảng tứ phân vị, chúng ta cần hiểu về một chỉ số đo lường độ phân tán khác là khoảng biến thiên. Khoảng biến thiên cung cấp một cái nhìn tổng quát về phạm vi của dữ liệu, nhưng nó có những hạn chế nhất định.

Khái Niệm Khoảng Biến Thiên

Khoảng biến thiên, ký hiệu là R, của một mẫu số liệu ghép nhóm là hiệu số giữa đầu mút phải của nhóm cuối cùng và đầu mút trái của nhóm đầu tiên có chứa dữ liệu của mẫu số liệu. Ví dụ, nếu chúng ta có các nhóm [u1; u2), [u2; u3), …, [uk; uk+1), thì R được tính bằng uk+1 - u1, giả sử các tần số n1nk đều khác 0. Điều này có nghĩa là R thể hiện toàn bộ phạm vi mà dữ liệu có thể trải dài trong các nhóm.

Tuy nhiên, khoảng biến thiên của mẫu số liệu ghép nhóm thường sẽ lớn hơn hoặc bằng khoảng biến thiên của mẫu số liệu gốc chưa ghép nhóm. Điều này là do việc nhóm hóa dữ liệu có thể làm mất đi một phần sự chính xác của các giá trị riêng lẻ, mở rộng phạm vi tiềm năng của các điểm dữ liệu cực biên.

Tầm Quan Trọng Của Khoảng Biến Thiên

Khoảng biến thiên có ý nghĩa trong việc cung cấp một giá trị xấp xỉ cho độ phân tán của mẫu số liệu gốc. Nó có thể được sử dụng để đánh giá sơ bộ mức độ trải rộng của dữ liệu. Tuy nhiên, một hạn chế đáng kể là giá trị của R rất dễ bị ảnh hưởng bởi các giá trị ngoại lệ. Nếu có một hoặc hai điểm dữ liệu quá lớn hoặc quá nhỏ so với phần còn lại, khoảng biến thiên có thể tăng vọt, không phản ánh đúng mức độ phân tán của phần lớn dữ liệu.

Chính vì lý do này, để có một cái nhìn đầy đủ và ổn định hơn về độ phân tán của dữ liệu, đặc biệt là khi có các giá trị bất thường, người ta thường sử dụng các số đặc trưng khác như khoảng tứ phân vị, vì nó ít nhạy cảm hơn với các giá trị cực đoan, tập trung vào 50% dữ liệu ở giữa.

Cách Tính Khoảng Tứ Phân Vị Của Mẫu Số Liệu Ghép Nhóm Chi Tiết

Khoảng tứ phân vị là một chỉ số thống kê mô tả quan trọng, giúp đánh giá sự phân tán của dữ liệu một cách hiệu quả, đặc biệt khi dữ liệu có giá trị ngoại lệ. Để thực hiện cách tính khoảng tứ phân vị của mẫu số liệu ghép nhóm, chúng ta cần xác định được hai giá trị chính: tứ phân vị thứ nhất (Q1) và tứ phân vị thứ ba (Q3).

Định Nghĩa Và Công Thức Tứ Phân Vị

Khoảng tứ phân vị, ký hiệu là $Delta_Q$, của một mẫu số liệu ghép nhóm là hiệu giữa tứ phân vị thứ ba (Q3) và tứ phân vị thứ nhất (Q1) của mẫu số liệu đó. Công thức là: $Delta_Q = Q_3 – Q_1$.

Để tìm Q1 và Q3, chúng ta sử dụng công thức tổng quát cho tứ phân vị thứ i (Qi) với i = 1, 2, 3 của mẫu số liệu ghép nhóm:

$large Q_i = u_m + frac{frac{in}{4} – C}{nm}(u{m+1} – u_m)$

Trong công thức này, mỗi biến số có ý nghĩa cụ thể:

  • n = n1 + n2 + ... + nk là cỡ mẫu, tức tổng số các quan sát trong tất cả các nhóm.
  • [um; um+1) là nhóm chứa tứ phân vị thứ i. Đây là nhóm đầu tiên mà tần số tích lũy của nó lớn hơn hoặc bằng in/4.
  • nm là tần số của nhóm chứa tứ phân vị thứ i đã xác định.
  • C = n1 + n2 + ... + nm-1 là tần số tích lũy của các nhóm trước nhóm chứa tứ phân vị thứ i.
  • (u_{m+1} - u_m) là độ rộng của nhóm chứa tứ phân vị thứ i.

Việc hiểu rõ từng thành phần trong công thức này là chìa khóa để áp dụng đúng cách tính khoảng tứ phân vị của mẫu số liệu ghép nhóm.

Hướng Dẫn Từng Bước Xác Định Khoảng Tứ Phân Vị

Để tính toán khoảng tứ phân vị cho một mẫu số liệu ghép nhóm, bạn có thể làm theo các bước sau một cách hệ thống và chính xác:

  1. Xác định cỡ mẫu (n): Tổng hợp tất cả các tần số ni của từng nhóm để tìm tổng số quan sát trong mẫu. Ví dụ, nếu bạn có các nhóm với tần số n1=10, n2=15, n3=20, thì cỡ mẫu n = 10 + 15 + 20 = 45.

  2. Tính vị trí của Q1 và Q3:

    • Đối với tứ phân vị thứ nhất (Q1), bạn cần tìm vị trí n/4.
    • Đối với tứ phân vị thứ ba (Q3), bạn cần tìm vị trí 3n/4.
      Lưu ý rằng đây là vị trí chứ không phải giá trị của tứ phân vị.
  3. Xác định nhóm chứa Q1 và Q3:

    • Lập bảng tần số tích lũy. Tần số tích lũy của một nhóm là tổng tần số của nhóm đó và tất cả các nhóm trước nó.
    • Tìm nhóm đầu tiên mà tần số tích lũy lớn hơn hoặc bằng vị trí của Q1 (đã tính ở bước 2). Đây chính là nhóm chứa Q1.
    • Tương tự, tìm nhóm đầu tiên mà tần số tích lũy lớn hơn hoặc bằng vị trí của Q3. Đây chính là nhóm chứa Q3.
  4. Áp dụng công thức tính Q1 và Q3:

    • Với mỗi tứ phân vị (Q1 hoặc Q3), sử dụng công thức đã nêu: $large Q_i = u_m + frac{frac{in}{4} – C}{nm}(u{m+1} – u_m)$.
    • um là cận dưới của nhóm chứa tứ phân vị đó.
    • in/4 (hoặc n/4 cho Q1, 3n/4 cho Q3) là vị trí đã tính ở bước 2.
    • Ctần số tích lũy của nhóm ngay trước nhóm chứa tứ phân vị.
    • nm là tần số của nhóm chứa tứ phân vị.
    • (u_{m+1} - u_m) là độ rộng của nhóm chứa tứ phân vị.
  5. Tính khoảng tứ phân vị ($Delta_Q$): Sau khi đã xác định được Q1 và Q3, bạn chỉ cần thực hiện phép trừ: $Delta_Q = Q_3 – Q_1$.

Khoảng tứ phân vị càng nhỏ, dữ liệu càng tập trung xung quanh trung vị, cho thấy độ đồng đều cao hơn. Ngược lại, một khoảng tứ phân vị lớn cho thấy dữ liệu phân tán rộng hơn. Phương pháp này là nền tảng để hiểu rõ độ phân tán của dữ liệu khi làm việc với các mẫu số liệu ghép nhóm.

Ứng Dụng Thực Tiễn Của Khoảng Tứ Phân Vị

Khoảng tứ phân vị không chỉ là một khái niệm toán học khô khan mà còn có ý nghĩa thực tiễn to lớn trong nhiều lĩnh vực. Nắm vững cách tính khoảng tứ phân vị của mẫu số liệu ghép nhóm giúp chúng ta đưa ra những đánh giá chính xác và hữu ích về dữ liệu.

Một trong những ứng dụng quan trọng nhất của khoảng tứ phân vị là khả năng đo lường mức độ phân tán của nửa giữa của mẫu số liệu. Nửa giữa này bao gồm 50% các giá trị dữ liệu nằm chính giữa tập hợp, sau khi đã sắp xếp. Điều này có nghĩa là $Delta_Q$ không bị ảnh hưởng bởi các giá trị cực đoan ở hai đầu của tập dữ liệu, làm cho nó trở thành một thước đo độ phân tán mạnh mẽ và ổn định hơn so với khoảng biến thiên, đặc biệt trong các trường hợp có giá trị ngoại lệ.

Giá trị của khoảng tứ phân vị càng nhỏ, dữ liệu càng tập trung chặt chẽ xung quanh trung vị. Điều này cho thấy sự đồng đều cao trong các quan sát. Ngược lại, nếu $Delta_Q$ lớn, chứng tỏ dữ liệu có sự biến động và phân tán rộng hơn trong 50% giá trị trung tâm. Chẳng hạn, trong nghiên cứu về thu nhập, một khoảng tứ phân vị nhỏ cho thấy sự chênh lệch thu nhập giữa phần lớn người dân là không quá lớn, trong khi một giá trị lớn có thể chỉ ra sự phân hóa rõ rệt.

Ngoài ra, khoảng tứ phân vị còn được sử dụng để xác định các giá trị ngoại lệ trong mẫu số liệu. Một giá trị x được coi là giá trị ngoại lệ nếu x > Q3 + 1.5 * ΔQ hoặc x < Q1 - 1.5 * ΔQ. Quy tắc này, thường được gọi là “quy tắc 1.5 IQR” (Interquartile Range), là một phương pháp tiêu chuẩn để phát hiện các điểm dữ liệu bất thường có thể làm sai lệch kết quả phân tích thống kê. Việc nhận diện và xử lý các giá trị ngoại lệ là bước thiết yếu để đảm bảo tính chính xác và độ tin cậy của bất kỳ phân tích nào.

Với những ý nghĩa này, khoảng tứ phân vị trở thành một công cụ không thể thiếu trong thống kê mô tả, giúp các nhà nghiên cứu, phân tích dữ liệu và các chuyên gia đưa ra cái nhìn toàn diện và đáng tin cậy về các tập dữ liệu thực tế.

Ví Dụ Minh Họa Về Khoảng Tứ Phân Vị Trong Thực Tế

Để củng cố hiểu biết về cách tính khoảng tứ phân vị của mẫu số liệu ghép nhóm, chúng ta sẽ đi qua một số ví dụ minh họa cụ thể từ các bài tập trong sách giáo khoa, giúp bạn áp dụng công thức vào các tình huống thực tế.

Bài Tập Minh Họa 1: Dữ Liệu Số Thẻ (Sách Kết Nối Tri Thức)

Xét bảng dữ liệu về số thẻ vàng của các câu lạc bộ trong giải ngoại hạng Anh mùa giải 2021-2022:

Số thẻ[40; 50)[50; 60)[60; 70)[70; 80)[80; 90)[90; 100)[100; 110)
Tần số2575001

Để tính khoảng tứ phân vị cho mẫu số liệu ghép nhóm này, chúng ta cần thực hiện các bước sau:

1. Khoảng biến thiên: R = 110 – 40 = 70.

2. Xác định cỡ mẫu (n): Tổng tần số n = 2 + 5 + 7 + 5 + 0 + 0 + 1 = 20.

3. Vị trí của Q1 và Q3:

  • Vị trí Q1: n/4 = 20/4 = 5.
  • Vị trí Q3: 3n/4 = 3*20/4 = 15.

4. Bảng tần số tích lũy:

NhómTần sốTần số tích lũy
[40; 50)22
[50; 60)57
[60; 70)714
[70; 80)519
[80; 90)019
[90; 100)019
[100; 110)120

5. Xác định nhóm chứa Q1 và Q3:

  • Q1 (vị trí 5): Nhóm đầu tiên có tần số tích lũy lớn hơn hoặc bằng 5 là nhóm [50; 60) (tần số tích lũy là 7). Vậy, nhóm chứa Q1 là [50; 60).
  • Q3 (vị trí 15): Nhóm đầu tiên có tần số tích lũy lớn hơn hoặc bằng 15 là nhóm [70; 80) (tần số tích lũy là 19). Vậy, nhóm chứa Q3 là [70; 80).

6. Tính Q1 và Q3:

  • Q1: Nhóm [50; 60). um = 50, C = 2 (tần số tích lũy của nhóm [40; 50)), nm = 5, (um+1 - um) = 10.
    $large Q_1 = 50 + frac{5 – 2}{5}(60 – 50) = 50 + frac{3}{5} times 10 = 50 + 6 = 56$.
  • Q3: Nhóm [70; 80). um = 70, C = 14 (tần số tích lũy của các nhóm [40; 50), [50; 60), [60; 70)), nm = 5, (um+1 - um) = 10.
    $large Q_3 = 70 + frac{15 – 14}{5}(80 – 70) = 70 + frac{1}{5} times 10 = 70 + 2 = 72$.

7. Tính khoảng tứ phân vị ($Delta_Q$):
$Delta_Q = Q_3 – Q_1 = 72 – 56 = 16$.

Ví dụ này minh họa rõ ràng các bước trong cách tính khoảng tứ phân vị của mẫu số liệu ghép nhóm, từ việc xác định cỡ mẫu, tần số tích lũy cho đến áp dụng công thức.

Bài Tập Minh Họa 2: Thu Nhập Lao Động (Sách Kết Nối Tri Thức)

Để so sánh mức độ biến động thu nhập giữa hai nhà máy A và B, ta cần tính khoảng tứ phân vị cho từng nhà máy dựa trên bảng dữ liệu ghép nhóm sau:

Thu nhập (triệu đồng)[5; 8)[8; 11)[11; 14)[14; 17)[17; 20)
Số người của nhà máy A2035453520
Số người của nhà máy B1723302317

A. Đối với Nhà máy A:

1. Cỡ mẫu (n): n = 20 + 35 + 45 + 35 + 20 = 155.

2. Vị trí của Q1 và Q3:

  • Vị trí Q1: n/4 = 155/4 = 38.75.
  • Vị trí Q3: 3n/4 = 3 * 155/4 = 116.25.

3. Bảng tần số tích lũy (Nhà máy A):

Thu nhậpTần sốTần số tích lũy
[5; 8)2020
[8; 11)3555
[11; 14)45100
[14; 17)35135
[17; 20)20155
Xem thêm:  Giải Đáp Nữ 1999 Hợp Tuổi Nào Để Hôn Nhân Viên Mãn

4. Xác định nhóm và tính Q1, Q3:

  • Q1 (vị trí 38.75): Nhóm [8; 11). um = 8, C = 20, nm = 35, (um+1 - um) = 3.
    $large Q_1 = 8 + frac{38.75 – 20}{35}(11 – 8) approx 9.6$ (triệu đồng).
  • Q3 (vị trí 116.25): Nhóm [14; 17). um = 14, C = 100, nm = 35, (um+1 - um) = 3.
    $large Q_3 = 14 + frac{116.25 – 100}{35}(17 – 14) approx 15.4$ (triệu đồng).

5. Khoảng tứ phân vị (RAQ):
RAQ = Q3 – Q1 = 15.4 – 9.6 = 5.8 (triệu đồng).

B. Đối với Nhà máy B:

1. Cỡ mẫu (n): n = 17 + 23 + 30 + 23 + 17 = 110.

2. Vị trí của Q1 và Q3:

  • Vị trí Q1: n/4 = 110/4 = 27.5.
  • Vị trí Q3: 3n/4 = 3 * 110/4 = 82.5.

3. Bảng tần số tích lũy (Nhà máy B):

Thu nhậpTần sốTần số tích lũy
[5; 8)1717
[8; 11)2340
[11; 14)3070
[14; 17)2393
[17; 20)17110

4. Xác định nhóm và tính Q1, Q3:

  • Q1 (vị trí 27.5): Nhóm [8; 11). um = 8, C = 17, nm = 23, (um+1 - um) = 3.
    $large Q_1 = 8 + frac{27.5 – 17}{23}(11 – 8) approx 9.4$ (triệu đồng).
  • Q3 (vị trí 82.5): Nhóm [14; 17). um = 14, C = 70, nm = 23, (um+1 - um) = 3.
    $large Q_3 = 14 + frac{82.5 – 70}{23}(17 – 14) approx 15.6$ (triệu đồng).

5. Khoảng tứ phân vị (RBQ):
RBQ = Q3 – Q1 = 15.6 – 9.4 = 6.2 (triệu đồng).

Kết luận: Vì RBQ (6.2) lớn hơn RAQ (5.8), mức thu nhập của người lao động ở nhà máy B biến động nhiều hơn so với nhà máy A. Điều này cho thấy sự phân hóa về thu nhập ở nhà máy B rộng hơn ở nhà máy A.

Bài Tập Minh Họa 3: Chiều Cao Học Sinh (Sách Kết Nối Tri Thức)

Ta so sánh độ phân tán về chiều cao của học sinh hai lớp 12A và 12B.

A. Đối với Lớp 12A:

  • Cỡ mẫu n = 1 + 0 + 15 + 12 + 10 + 5 = 43.
  • Vị trí Q1: 43/4 = 10.75. Vị trí Q3: 3*43/4 = 32.25.
  • Bảng tần số tích lũy (Lớp 12A):
Chiều caoTần sốTần số tích lũy
[145; 150)11
[150; 155)01
[155; 160)1516
[160; 165)1228
[165; 170)1038
[170; 175)543
  • Tính Q1: Nhóm [155; 160). $large Q_1 = 155 + frac{10.75 – 1}{15}(160 – 155) = 158.25$.
  • Tính Q3: Nhóm [165; 170). $large Q_3 = 165 + frac{32.25 – 28}{10}(170 – 165) = 167.125$.
  • Khoảng tứ phân vị: $Delta_Q = 167.125 – 158.25 = 8.875$.

B. Đối với Lớp 12B:

  • Cỡ mẫu n = 17 + 10 + 9 + 6 = 42. (Lưu ý: Bảng dữ liệu gốc thiếu các nhóm đầu và cuối nếu có tần số 0, tôi sẽ giả định đây là các nhóm có dữ liệu).
  • Vị trí Q1: 42/4 = 10.5. Vị trí Q3: 3*42/4 = 31.5.
  • Bảng tần số tích lũy (Lớp 12B):
Chiều caoTần sốTần số tích lũy
[155; 160)1717
[160; 165)1027
[165; 170)936
[170; 175)642
  • Tính Q1: Nhóm [155; 160). $large Q_1 = 155 + frac{10.5 – 0}{17}(160 – 155) approx 158.1$.
  • Tính Q3: Nhóm [165; 170). $large Q_3 = 165 + frac{31.5 – 27}{9}(170 – 165) = 167.5$.
  • Khoảng tứ phân vị: $Delta_Q = 167.5 – 158.1 = 9.4$.

Kết luận: Để so sánh độ phân tán về chiều cao, ta nên dùng khoảng tứ phân vị vì nó ít bị ảnh hưởng bởi giá trị ngoại lệ. Với $Delta_Q$ lớp 12A (8.875) nhỏ hơn $Delta_Q$ lớp 12B (9.4), chiều cao học sinh lớp 12A đồng đều hơn.

Bài Tập Minh Họa 4: Lượng Mưa (Sách Chân Trời Sáng Tạo)

Dữ liệu lượng mưa trung bình tháng 7 tại Cà Mau từ 2002-2021 được nhóm hóa như sau:

Lượng mưa (mm)[140; 240)[240; 340)[340; 440)[440; 540)
Số tháng3773

1. Cỡ mẫu (n): n = 3 + 7 + 7 + 3 = 20.

2. Vị trí của Q1 và Q3:

  • Vị trí Q1: 20/4 = 5.
  • Vị trí Q3: 3*20/4 = 15.

3. Bảng tần số tích lũy:

Lượng mưa (mm)Tần sốTần số tích lũy
[140; 240)33
[240; 340)710
[340; 440)717
[440; 540)320

4. Xác định nhóm và tính Q1, Q3:

  • Q1 (vị trí 5): Nhóm [240; 340). um = 240, C = 3, nm = 7, (um+1 - um) = 100.
    $large Q_1 = 240 + frac{5 – 3}{7}(340 – 240) = 240 + frac{2}{7} times 100 = frac{1680 + 200}{7} = frac{1880}{7} approx 268.57$ (mm).
  • Q3 (vị trí 15): Nhóm [340; 440). um = 340, C = 10, nm = 7, (um+1 - um) = 100.
    $large Q_3 = 340 + frac{15 – 10}{7}(440 – 340) = 340 + frac{5}{7} times 100 = frac{2380 + 500}{7} = frac{2880}{7} approx 411.43$ (mm).

5. Khoảng tứ phân vị ($Delta_Q$):
$Delta_Q = Q_3 – Q_1 = frac{2880}{7} – frac{1880}{7} = frac{1000}{7} approx 142.86$ (mm).

Bảng tần số ghép nhóm lượng mưaBảng tần số ghép nhóm lượng mưa

Bài Tập Minh Họa 5: Số Lượt Đặt Bàn Trực Tuyến (Sách Chân Trời Sáng Tạo)

Dữ liệu về số lượt đặt bàn trực tuyến mỗi ngày trong quý III năm 2022 của một nhà hàng:

Số lượt đặt bàn[1; 6)[6; 11)[11; 16)[16; 21)[21; 26)
Số ngày143025185

1. Cỡ mẫu (n): n = 14 + 30 + 25 + 18 + 5 = 92.

2. Vị trí của Q1 và Q3:

  • Vị trí Q1: 92/4 = 23.
  • Vị trí Q3: 3*92/4 = 69.

3. Bảng tần số tích lũy:

Số lượt đặt bànTần sốTần số tích lũy
[1; 6)1414
[6; 11)3044
[11; 16)2569
[16; 21)1887
[21; 26)592

4. Xác định nhóm và tính Q1, Q3:

  • Q1 (vị trí 23): Nhóm [6; 11). um = 6, C = 14, nm = 30, (um+1 - um) = 5.
    $large Q_1 = 6 + frac{23 – 14}{30}(11 – 6) = 6 + frac{9}{30} times 5 = 6 + 1.5 = 7.5$.
  • Q3 (vị trí 69): Nhóm [11; 16). um = 11, C = 44, nm = 25, (um+1 - um) = 5.
    $large Q_3 = 11 + frac{69 – 44}{25}(16 – 11) = 11 + frac{25}{25} times 5 = 11 + 5 = 16$.

5. Khoảng tứ phân vị ($Delta_Q$):
$Delta_Q = Q_3 – Q_1 = 16 – 7.5 = 8.5$.

Bảng thống kê số lượt đặt bàn trực tuyếnBảng thống kê số lượt đặt bàn trực tuyến

Bài Tập Minh Họa 6: Chiều Cao Cây Keo (Sách Chân Trời Sáng Tạo)

Dữ liệu chiều cao của 100 cây keo 3 năm tuổi tại một nông trường:

Chiều cao (m)Tần sốTần số tích lũy
[8.4; 8.6)55
[8.6; 8.8)1217
[8.8; 9.0)2542
[9.0; 9.2)4486
[9.2; 9.4)14100

1. Khoảng biến thiên: R = 9.4 – 8.4 = 1 (m).

2. Cỡ mẫu (n): n = 100.

3. Vị trí của Q1 và Q3:

  • Vị trí Q1: 100/4 = 25.
  • Vị trí Q3: 3*100/4 = 75.

4. Xác định nhóm và tính Q1, Q3:

  • Q1 (vị trí 25): Nhóm [8.8; 9.0). um = 8.8, C = 17 (tần số tích lũy của [8.4; 8.6)[8.6; 8.8)), nm = 25, (um+1 - um) = 0.2.
    $large Q_1 = 8.8 + frac{25 – 17}{25}(9.0 – 8.8) = 8.8 + frac{8}{25} times 0.2 = 8.8 + 0.064 = 8.864$.
  • Q3 (vị trí 75): Nhóm [9.0; 9.2). um = 9.0, C = 42 (tần số tích lũy của các nhóm trước [9.0; 9.2)), nm = 44, (um+1 - um) = 0.2.
    $large Q_3 = 9.0 + frac{75 – 42}{44}(9.2 – 9.0) = 9.0 + frac{33}{44} times 0.2 = 9.0 + 0.15 = 9.15$.

5. Khoảng tứ phân vị ($Delta_Q$):
$Delta_Q = Q_3 – Q_1 = 9.15 – 8.864 = 0.286$.

6. Xác định giá trị ngoại lệ:
Q1 – 1.5 $Delta_Q$ = 8.864 – 1.5 0.286 = 8.864 – 0.429 = 8.435.
Một cây keo cao 8.4m có giá trị nhỏ hơn 8.435, do đó chiều cao 8.4m là một giá trị ngoại lệ của mẫu số liệu ghép nhóm này.

Bài Tập Minh Họa 7: Tuổi Thành Viên Câu Lạc Bộ (Sách Chân Trời Sáng Tạo)

So sánh tuổi của nam và nữ giới trong một câu lạc bộ dưỡng sinh.

A. Nam giới:

  • Cỡ mẫu n = 4 + 7 + 4 + 6 + 15 + 12 + 2 = 50.
  • Vị trí Q1: 50/4 = 12.5. Vị trí Q3: 3*50/4 = 37.5.
  • Bảng tần số tích lũy (Nam giới):
TuổiTần sốTần số tích lũy
[50; 55)44
[55; 60)711
[60; 65)415
[65; 70)621
[70; 75)1536
[75; 80)1248
[80; 85)250
  • Tính Q1: Nhóm [60; 65). um = 60, C = 11, nm = 4, (um+1 - um) = 5.
    $large Q_1 = 60 + frac{12.5 – 11}{4}(65 – 60) = 60 + frac{1.5}{4} times 5 = 60 + 1.875 = 61.875$.
  • Tính Q3: Nhóm [75; 80). um = 75, C = 36, nm = 12, (um+1 - um) = 5.
    $large Q_3 = 75 + frac{37.5 – 36}{12}(80 – 75) = 75 + frac{1.5}{12} times 5 = 75 + 0.625 = 75.625$.
  • Khoảng tứ phân vị ($Delta_Q$): $Delta_Q = 75.625 – 61.875 = 13.75$.

B. Nữ giới:

  • Cỡ mẫu n = 3 + 4 + 5 + 3 + 7 + 14 + 13 + 1 = 50.
  • Vị trí Q1: 50/4 = 12.5. Vị trí Q3: 3*50/4 = 37.5.
  • Bảng tần số tích lũy (Nữ giới):
TuổiTần sốTần số tích lũy
[50; 55)33
[55; 60)47
[60; 65)512
[65; 70)315
[70; 75)722
[75; 80)1436
[80; 85)1349
[85; 90)150
  • Tính Q1: Nhóm [65; 70). um = 65, C = 12, nm = 3, (um+1 - um) = 5.
    $large Q_1 = 65 + frac{12.5 – 12}{3}(70 – 65) = 65 + frac{0.5}{3} times 5 = 65 + frac{2.5}{3} approx 65.833$.
  • Tính Q3: Nhóm [80; 85). um = 80, C = 36, nm = 13, (um+1 - um) = 5.
    $large Q_3 = 80 + frac{37.5 – 36}{13}(85 – 80) = 80 + frac{1.5}{13} times 5 = 80 + frac{7.5}{13} approx 80.577$.
  • Khoảng tứ phân vị ($Delta’_Q$): $Delta’_Q = 80.577 – 65.833 approx 14.744$.

Kết luận: Vì $Delta’_Q$ của nữ giới (14.744) lớn hơn $Delta_Q$ của nam giới (13.75), nam giới trong câu lạc bộ có độ tuổi đồng đều hơn so với nữ giới.

Bài Tập Minh Họa 8: Doanh Thu Cửa Hàng (Sách Cánh Diều)

Bảng dữ liệu về doanh thu của một cửa hàng trong 60 ngày.

Bảng dữ liệu doanh thu cửa hàngBảng dữ liệu doanh thu cửa hàng

1. Khoảng biến thiên: R = 90 – 40 = 50 (nghìn đồng).

2. Cỡ mẫu (n): n = 60.

3. Vị trí của Q1 và Q3:

  • Vị trí Q1: 60/4 = 15.
  • Vị trí Q3: 3*60/4 = 45.

4. Bảng tần số tích lũy:

Nhóm (nghìn đồng)Tần sốTần số tích lũy
[40; 50)55
[50; 60)49
[60; 70)1928
[70; 80)2351
[80; 90)960

5. Xác định nhóm và tính Q1, Q3:

  • Q1 (vị trí 15): Nhóm [60; 70). um = 60, C = 9, nm = 19, (um+1 - um) = 10.
    $large Q_1 = 60 + frac{15 – 9}{19}(70 – 60) = 60 + frac{6}{19} times 10 = frac{1140 + 60}{19} = frac{1200}{19} approx 63.16$ (nghìn đồng).
  • Q3 (vị trí 45): Nhóm [70; 80). um = 70, C = 28, nm = 23, (um+1 - um) = 10.
    $large Q_3 = 70 + frac{45 – 28}{23}(80 – 70) = 70 + frac{17}{23} times 10 = frac{1610 + 170}{23} = frac{1780}{23} approx 77.39$ (nghìn đồng).

6. Khoảng tứ phân vị ($Delta_Q$):
$Delta_Q = Q_3 – Q_1 = frac{1780}{23} – frac{1200}{19} approx 77.39 – 63.16 approx 14.23$ (nghìn đồng).

Bài Tập Minh Họa 9: Chi Phí Marketing (Sách Cánh Diều)

Dữ liệu về chi phí marketing hàng tháng (triệu đồng) của một công ty.

Nhóm (triệu đồng)Tần số
[10; 15)15
[15; 20)18
[20; 25)10
[25; 30)10
[30; 35)7
[35; 40)0

1. Khoảng biến thiên: R = 40 – 10 = 30 (triệu đồng).

2. Cỡ mẫu (n): n = 15 + 18 + 10 + 10 + 7 + 0 = 60.

3. Vị trí của Q1 và Q3:

  • Vị trí Q1: 60/4 = 15.
  • Vị trí Q3: 3*60/4 = 45.

4. Bảng tần số tích lũy:

Nhóm (triệu đồng)Tần sốTần số tích lũy
[10; 15)1515
[15; 20)1833
[20; 25)1043
[25; 30)1053
[30; 35)760
[35; 40)060

5. Xác định nhóm và tính Q1, Q3:

  • Q1 (vị trí 15): Nhóm [10; 15). Vì tần số tích lũy của nhóm này bằng 15, Q1 chính là cận trên của nhóm này.
    $large Q_1 = 10 + frac{15 – 0}{15}(15 – 10) = 10 + 1 times 5 = 15$ (triệu đồng).
  • Q3 (vị trí 45): Nhóm [25; 30). um = 25, C = 43, nm = 10, (um+1 - um) = 5.
    $large Q_3 = 25 + frac{45 – 43}{10}(30 – 25) = 25 + frac{2}{10} times 5 = 25 + 1 = 26$ (triệu đồng).

6. Khoảng tứ phân vị ($Delta_Q$):
$Delta_Q = Q_3 – Q_1 = 26 – 15 = 11$ (triệu đồng).

Bài Tập Minh Họa 10: Điểm Kiểm Tra (Sách Cánh Diều)

Dữ liệu về điểm kiểm tra của 100 học sinh.

Nhóm điểmTần số
[20; 30)25
[30; 40)15
[40; 50)25
[50; 60)15
[60; 70)10
[70; 80)10

1. Khoảng biến thiên: R = 80 – 20 = 60.

2. Cỡ mẫu (n): n = 25 + 15 + 25 + 15 + 10 + 10 = 100.

3. Vị trí của Q1 và Q3:

  • Vị trí Q1: 100/4 = 25.
  • Vị trí Q3: 3*100/4 = 75.

4. Bảng tần số tích lũy:

Nhóm điểmTần sốTần số tích lũy
[20; 30)2525
[30; 40)1540
[40; 50)2565
[50; 60)1580
[60; 70)1090
[70; 80)10100

5. Xác định nhóm và tính Q1, Q3:

  • Q1 (vị trí 25): Nhóm [20; 30). Tần số tích lũy của nhóm này bằng 25, nên Q1 chính là cận trên của nhóm này.
    $large Q_1 = 20 + frac{25 – 0}{25}(30 – 20) = 20 + 1 times 10 = 30$.
  • Q3 (vị trí 75): Nhóm [50; 60). um = 50, C = 65, nm = 15, (um+1 - um) = 10.
    $large Q_3 = 50 + frac{75 – 65}{15}(60 – 50) = 50 + frac{10}{15} times 10 = 50 + frac{100}{15} = frac{750 + 100}{15} = frac{850}{15} = frac{170}{3} approx 56.67$.

6. Khoảng tứ phân vị ($Delta_Q$):
$Delta_Q = Q_3 – Q_1 = frac{170}{3} – 30 = frac{170 – 90}{3} = frac{80}{3} approx 26.67$.

Câu Hỏi Thường Gặp (FAQs)

1. Khoảng tứ phân vị là gì và tại sao nó quan trọng?
Khoảng tứ phân vị (Interquartile Range – IQR) là hiệu số giữa tứ phân vị thứ ba (Q3) và tứ phân vị thứ nhất (Q1) của một tập dữ liệu. Nó đo lường độ phân tán của 50% dữ liệu ở giữa, ít bị ảnh hưởng bởi các giá trị ngoại lệ so với khoảng biến thiên. Điều này giúp cung cấp một cái nhìn ổn định hơn về sự biến động của dữ liệu.

2. Sự khác biệt giữa khoảng biến thiên và khoảng tứ phân vị là gì?
Khoảng biến thiên (Range) là hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất của dữ liệu, thể hiện toàn bộ phạm vi dữ liệu. Ngược lại, khoảng tứ phân vị chỉ tập trung vào 50% dữ liệu ở giữa. Do đó, khoảng biến thiên rất nhạy cảm với giá trị ngoại lệ, trong khi khoảng tứ phân vị lại ít bị ảnh hưởng hơn, làm cho nó trở thành một thước đo độ phân tán tin cậy hơn trong nhiều trường hợp.

3. Khi nào nên sử dụng khoảng tứ phân vị thay vì độ lệch chuẩn?
Bạn nên sử dụng khoảng tứ phân vị khi dữ liệu có giá trị ngoại lệ hoặc phân bố không đối xứng (không theo phân phối chuẩn). Độ lệch chuẩn phù hợp hơn cho dữ liệu phân phối chuẩn và không có giá trị ngoại lệ đáng kể, vì nó bị ảnh hưởng mạnh bởi các giá trị cực đoan.

4. Làm thế nào để xác định nhóm chứa tứ phân vị trong mẫu số liệu ghép nhóm?
Để xác định nhóm chứa tứ phân vị, bạn cần tính tần số tích lũy của các nhóm. Nhóm chứa tứ phân vị thứ i là nhóm đầu tiên mà tần số tích lũy của nó lớn hơn hoặc bằng vị trí của tứ phân vị đó (ví dụ, n/4 cho Q1, 3n/4 cho Q3).

5. Khoảng tứ phân vị có thể dùng để làm gì trong phân tích dữ liệu thực tế?
Ngoài việc đo lường độ phân tán, khoảng tứ phân vị còn được sử dụng để phát hiện giá trị ngoại lệ bằng quy tắc 1.5 * IQR. Nó cũng hữu ích trong việc so sánh sự đồng đều của các tập dữ liệu khác nhau hoặc để hiểu rõ hơn về sự tập trung của phần lớn các quan sát, ví dụ như trong phân tích thu nhập, chiều cao, hoặc điểm số.

Qua bài viết này, hy vọng bạn đã nắm vững cách tính khoảng tứ phân vị của mẫu số liệu ghép nhóm và hiểu rõ ý nghĩa của nó trong phân tích dữ liệu. Việc thành thạo các kỹ năng thống kê mô tả như thế này sẽ giúp bạn có cái nhìn sâu sắc và chính xác hơn về các tập dữ liệu, từ đó đưa ra những quyết định sáng suốt hơn. Để tìm hiểu thêm về các kiến thức hữu ích khác, hãy tiếp tục khám phá các bài viết trên trang web Đồ Gỗ Vinh Vượng.

Avatar Vinh Đỗ
Vinh Đỗ
Vinh Đỗ 1990 quê gốc tại Bắc Ninh là người sáng lập và tác giả website Đồ Gỗ Vinh Vượng, kinh nghiệm hơn 10 năm trong nghề mộc, tôi luôn cố gắng theo đuổi sứ mệnh gìn giữ nghề mộc truyền thống và phát triển nội thất gỗ hiện đại. Tôi định hướng thương hiệu chú trọng chất lượng, phong thủy và trải nghiệm khách hàng tốt nhất.