BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP. HỒ CHÍ MINH
NGUYỄN THỊ THANH HOÀNG
MỘT NGHIÊN CỨU DIDACTIC VỀ
BIỂU ĐỒ BIỂU DIỄN DỮ LIỆU THỐNG KÊ
TRONG DẠY HỌC TOÁN Ở PHỔ THÔNG
LUẬN VĂN THẠC SĨ GIÁO DỤC HỌC
Thành phố Hồ Chí Minh – 2011
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP. HỒ CHÍ MINH
NGUYỄN THỊ THANH HOÀNG
MỘT NGHIÊN CỨU DIDACTIC VỀ
BIỂU ĐỒ BIỂU DIỄN DỮ LIỆU THỐNG KÊ
TRONG DẠY HỌC TOÁN Ở PHỔ THÔNG
Chuyên ngành: Lý luận và phương pháp dạy học môn Toán
Mã số : 60 14 10
LUẬN VĂN THẠC SĨ GIÁO DỤC HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. VŨ NHƯ THƯ HƯƠNG
Thành phố Hồ Chí Minh – 2011
LỜI CẢM ƠN
Lời đầu luận văn, tôi xin trân trọng gởi lời cảm ơn đến:
TS. Vũ Như Thư Hương, người đã tận tình hướng dẫn, giúp đỡ tôi về mặt nghiên cứu
khoa học cũng như niềm tin trong suốt quá trình thực hiện luận văn này.
PGS.TS Lê Thị Hoài Châu, PGS.TS Lê Văn Tiến, TS. Trần Lương Công Khanh, TS.
Lê Thái Bảo Thiên Trung và các quý thầy cô trường Đại học sư phạm Thành phố Hồ
Chí Minh đã nhiệt tình giảng dạy những tri thức quý báu và truyền thụ hứng thú và
niềm say mê đối với chuyên ngành diadactic Toán cho chúng tôi trong suốt quá trình
học tập tại trường.
PGS.TS. Claude Comiti, PGS.TS. Annie Bessot đã có những góp ý và chỉ dẫn về
luận văn cũng như những giải đáp giúp chúng tôi hiểu rõ hơn về didactic Toán.
Bên cạnh đó, tôi xin gởi lời cảm ơn chân thành đến:
Ban giám hiệu và các đồng nghiệp trường THPT Đức Tân, huyện Hàm Tân, tỉnh
Bình Thuận đã giúp đỡ và tạo mọi thuận lợi cho tôi trong suốt thời gian học tập cao
học tại trường ĐHSP.
Các bạn cùng lớp cao học Didactic Toán khóa 18 đã luôn chia sẽ và giúp đỡ cũng
như động viên tôi trong quá trình học tập và thực hiện luận văn này.
Lời cuối cùng, xin dành những lời biết ơn sâu sắc nhất, gởi đến gia đình thân yêu của tôi, đã
luôn bên cạnh, hổ trợ tôi về mọi mặt để tôi có thể hoàn thành luận văn này.
Nguyễn Thị Thanh Hoàng
MỤC LỤC
LỜI CẢM ƠN 3
MỤC LỤC 4
MỞ ĐẦU 6
1. Những ghi nhận ban đầu và câu hỏi xuất phát 6
2. Khung tham chiếu lý thuyết và mục đích nghiên cứu 8
3. Câu hỏi nghiên cứu – Mục đích nghiên cứu 9
4. Phương pháp nghiên cứu - Tổ chức của luận văn 9
Chương 1: NGHIÊN CỨU BIỂU ĐỒ Ở CẤP ĐỘ TRI THỨC KHOA HỌC 11
1.1. Đặc trưng khoa học luận của tri thức biểu đồ 11
1.1.1 Biểu đồ hình cột 11
1.1.2 Biểu đồ tổ chức 12
1.1.3 Đa giác tần số, tần suất. 13
1.1.4 Biểu đồ hình quạt 14
1.2. Mối liên hệ giữa biểu đồ và các tham số đặc trưng của mẫu số liệu 16
1.2.1 Mốt 17
1.2.2 Số trung vị 18
1.2.3 Số trung bình cộng 18
1.2.4 Phương sai, độ lệch chuẩn 21
1.3. Kết luận chương 1 29
Chương 2:NGHIÊN CỨU QUAN HỆ THỂ CHẾ DẠY HỌC 31
TRI THỨC BIỂU ĐỒ 31
2.1.BIỂU ĐỒ TRONG CHƯƠNG TRÌNH TOÁN LỚP 7 31
2.1.1 Phần lý thuyết 31
2.1.2 Phần bài tập 33
2.1.3 Một vài kết luận 38
2.2. Biểu đồ trong chương trình toán lớp 10 39
2.2.1. Phần lý thuyết 42
2.2.2. Phần bài tập 52
2.2.3. Một vài kết luận 61
2.3. Kết luận chương 2 62
CHƯƠNG 3: NGHIÊN CỨU THỰC NGHIỆM 64
3.1.THỰC NGHIỆM THỨ NHẤT 64
3.1.1Giới thiệu thực nghiệm 64
3.1.2 Bài toán thực nghiệm 64
3.1.3 Phân tích a priori 66
3.1.3.1. Phân tích câu hỏi 1 66
3.1.3.2. Phân tích câu hỏi 2. 68
3.1.4. Phân tích a posteriori 71
3.1.4.1. Phân tích câu hỏi 1 (kiểm chứng R1) 71
3.1.4.2. Phân tích câu hỏi 2 (kiểm chứng R2) 73
3.1.5. Một vài kết luận 75
3.2. THỰC NGHIỆM THỨ HAI 76
3.2.1. Mục đích 76
3.2.2. Nội dung thực nghiệm 77
3.2.2.1. Giới thiệu thực nghiệm 77
3.2.2.2. Dàn dựng kịch bản 77
3.2.3. Phân tích apriori 85
3.2.3.1. Phân tích các biến 85
3.2.3.2. Phân tích các chiến lược và những cái có thể quan sát được. 89
3.2.4. Phân tích a posteriori 97
3.3. Kết luận chương 3 109
KẾT LUẬN 111
TÀI LIỆU THAM KHẢO 113
PHỤ LỤC 115
MỞ ĐẦU
1. Những ghi nhận ban đầu và câu hỏi xuất phát
Trong sách giáo khoa mới hiện hành tại Việt Nam, một số kiến thức Thống kê mô tả
được đưa vào giảng dạy một cách có hệ thống trong chương trình Toán ở phổ thông, bao
gồm ba nội dung chính sau:
• Các khái niệm cơ bản của Thống kê mô tả.
• Các phương pháp biểu diễn dữ liệu thống kê.
• Các tham số đặc trưng của mẫu số liệu.
Mục tiêu giảng dạy Thống kê mô tả trong chương trình là cung cấp cho học sinh các
kiến thức cơ bản về phương pháp thu gọn và trình bày dữ liệu thống kê thông qua biểu đồ
hoặc các tham số đặc trưng của mẫu số liệu. Trong đó, chúng tôi đặc biệt quan tâm đến tri
thức biểu đồ, với những ghi nhận ban đầu như sau:
- Biểu đồ cho một hình ảnh trực quan về sự phân bố của các số liệu thống kê. “Biểu đồ
dùng hình ảnh, đường nét và màu sắc biểu thị cho mức độ của hiện tượng, thể hiện được
khái quát các đặc điểm về cơ cấu, mối liên hệ, so sánh và xu hướng biến động … của hiện
tượng, giúp người xem nhanh chóng và dễ dàng tiếp cận vấn đề được trình bày.” (Hà Văn
Sơn (2004), Giáo trình lý thuyết thống kê - Ứng dụng trong quản trị và kinh tế, NXB Thống
kê). Chính vì vậy mà biểu đồ có vai trò quan trọng trong việc dạy học thống kê, nhất là đối
với học sinh bước đầu tiếp cận với nội dung toán học này.
- Có nhiều loại biểu đồ dùng biểu diễn dữ liệu thống kê. Mỗi loại biểu đồ có đặc trưng
riêng về cách thức biểu thị dữ liệu, về đặc điểm của dữ liệu được trình bày, cũng như chúng
có vai trò và ý nghĩa riêng tùy theo mục đích sử dụng của người dùng. Do đó, người dùng
cần phải nắm được các đặc trưng của từng loại biểu đồ, để đảm bảo đạt hiệu quả tốt nhất
trong việc biểu diễn dữ liệu thống kê bằng biểu đồ.
- Nếu như biểu đồ cho một hình ảnh trực quan về sự phân bố của dữ liệu thống kê, thì
các tham số đặc trưng lại là công cụ thu gọn, nó cho biết những thông tin ngắn gọn và khái
quát về dữ liệu thống kê. Từ bảng dữ liệu thống kê ban đầu, ta có thể tóm tắt và sắp xếp các
số liệu dưới dạng bảng phân bố tần số, tần suất. Từ đó ta có thể tính được các tham số đặc
trưng của mẫu số liệu, hoặc có thể vẽ biểu đồ biểu diễn dữ liệu. Đồng thời, từ biểu đồ ta có
thể khôi phục lại bảng phân bố tần số, tần suất và tính được các tham số đặc trưng. Ngoài ra,
qua xem xét một số tài liệu về thống kê, chúng tôi thấy rằng từ biểu đồ ta có thể chỉ ra các
tham số đặc trưng của dữ liệu thống kê một cách trực tiếp mà không phải thông qua bảng
phân bố tần số, tần suất như trên. Như vậy, giữa biểu đồ và các tham số đặc trưng của mẫu
số liệu có mối liên hệ với nhau, thể hiện theo sơ đồ sau:
Như vậy, xuất phát từ biểu đồ, ta có hai “con đường” để xác định các tham số đặc
trưng của mẫu số liệu:
- Một là từ biểu đồ ta khôi phục bảng phân bố tần số (tần suất) để tính các tham số đặc
trưng;
- Hai là đi trực tiếp từ biểu đồ đến các tham số đặc trưng.
Tuy nhiên, qua xem xét sách giáo khoa (chương trình mới hiện hành) về nội dung
thống kê, chúng tôi nhận thấy sách giáo khoa trình bày hoàn toàn tách biệt hai tri thức biểu
đồ và các tham số đặc trưng của mẫu số liệu. Điều đó thúc đẩy chúng tôi xem xét đến mối
liên hệ giữa biểu đồ và các tham số đặc trưng của dữ liệu thống kê, mong muốn tìm hiểu
xem chương trình và sách giáo khoa quan tâm như thế nào về mối liên hệ đó?
Xuất phát từ các ghi nhận ban đầu trên, chúng tôi chọn đề tài này, nghiên cứu về tri
thức biểu đồ biểu diễn dữ liệu thống kê được đưa vào giảng dạy trong chương trình toán phổ
thông ở Việt nam, với mong muốn trả lời các câu hỏi xuất phát sau:
• Trong thống kê mô tả, biểu đồ có những đặc trưng gì, có vai trò như thế nào
trong việc biểu diễn dữ liệu thống kê? Biểu đồ và các tham số đặc trưng của
mẫu số liệu liên hệ với nhau như thế nào trong việc biểu diễn dữ liệu thống
kê?
• Biểu đồ được trình bày như thế nào trong nội dung thống kê được đưa vào
giảng dạy trong chương trình toán phổ thông ở Việt Nam? Cách trình bày của
sách giáo khoa ảnh hưởng như thế nào đến nhận thức của học sinh về tri thức
biểu đồ trong quá trình học toán thống kê?
2. Khung tham chiếu lý thuyết và mục đích nghiên cứu
Chúng tôi đặt nghiên cứu của mình trong phạm vi của lý thuyết didactic toán để giải
quyết các câu hỏi trên. Cụ thể:
Để xem xét tri thức biểu đồ được đưa vào như thế nào trong chương trình dạy học
toán phổ thông ở Việt Nam, chúng tôi chọn khung lý thuyết nhân chủng học. Chúng tôi vận
dụng lý thuyết về quan hệ thể chế R (I, O) nhằm xác định mối quan hệ của thể chế dạy học
toán ở bậc trung học phổ thông với tri thức biểu đồ, cụ thể: tri thức biểu đồ xuất hiện như
thế nào trong chương trình và sách giáo khoa? Nó được trình bày ra sao và có ý nghĩa gì?
Điều này là cơ sở để chúng tôi giải thích các ràng buộc và ảnh hưởng của nó lên quan hệ cá
nhân của học sinh đối với tri thức này.
Quan hệ thể chế R (I, O) của thể chế I với tri thức O là tập hợp các tác động qua lại mà thể
chế I có với tri thức O. Quan hệ này cho biết O xuất hiện như thế nào, ở đâu, tồn tại ra sao và có
vai trò gì, … trong I?
Quan hệ cá nhân R(X, O) của một cá nhân X với đối tượng O là tập hợp những tác động
qua lại mà X có thể có với O. Quan hệ này chỉ rõ cách thức mà cá nhân X biết về đối tượng O: nghỉ
gì về O, hiểu về O như thế nào, thao tác và sử dụng O ra sao, …?
Muốn nghiên cứu quan hệ cá nhân R(X, O) ta cần đặt nó trong một quan hệ thể chế R(I, O)
nhất định.
Để vạch rõ các đặc trưng của quan hệ thể chế và quan hệ cá nhân đối với tri thức đồ
thị thống kê, chúng tôi sử dụng khái niệm praxéologie của Bosch M. và Chevallard Y.
(1999).
Theo Chevallard, mỗi praxéologie là một bộ phận gồm bốn thành phần
[ ]
,, ,T
τθ
Θ
, trong
đó T là kiểu nhiệm vụ,
τ
là kĩ thuật cho phép giải T,
θ
là công nghệ giải thích cho ký thuật
τ
, còn
Θ
là lý thuyết giải thích cho công nghệ
θ
. Một praxéologie mà các thành phần đều mang bản chất
toán học được gọi là một tổ chức toán học .
Việc phân tích các tổ chức toán học liên quan đến tri thức biểu đồ cho phép chúng tôi
làm rõ các mối quan hệ R (I, O) của thể chế I với tri thức O và quan hệ R (X, O) mà cá
nhân X có được với tri thức O. Cụ thể, việc xác định các kiểu nhiệm vụ liên quan đến biểu
đồ cho chúng tôi thấy được vai trò của biểu đồ cũng như mức độ quan tâm của thể chế dành
cho tri thức này. Các kỹ thuật được sữ dụng cho biết cách thức thao tác và sử dụng biểu đồ.
Các phân tích trên sẽ giúp chúng tôi hiểu được quan hệ cá nhân mà cá nhân X có được đối
với tri thức biểu đồ, đồng thời cho phép giải thích những ảnh hưởng của quan hệ thể chế lên
quan hệ cá nhân.
Việc phân tích các tổ chức toán học liên quan đến đối tượng tri thức O cho phép ta làm rõ
mối quan hệ R(I, O) của thể chế I với tri thức O, từ đó hiểu được quan hệ mà cá nhân X có được với
tri thức O.
Bên cạnh đó, để làm rõ những ràng buộc của quan hệ thể chế lên quan hệ cá nhân và
giải thích những ứng xữ của học sinh liên quan đến tri thức biểu đồ, chúng tôi vận dụng lý
thuyết hợp đồng didactic.
Hợp đồng didactic là sự mô hình hóa các quyền lợi và nghĩa vụ tiềm ẩn của học sinh và
giáo viên về các đối tượng tri thức toán học. Thông thường, nó là tập hợp các qui tắc phân chia và
giới hạn trách nhiệm của mỗi thành viên, học sinh và giáo viên, về một tri thức toán học được giảng
dạy.
Khái niệm hợp đồng didactic cho phép chúng tôi giải thích các ứng xử của giáo viên
và học sinh, tìm ra ý nghĩa của những hành động mà họ tiến hành, từ đó có thể giải thích rõ
ràng và chính xác các sự kiện mà ta quan sát được trong quá trình dạy học.
3. Câu hỏi nghiên cứu – Mục đích nghiên cứu
Trong khuôn khổ của phạm vi lý thuyết tham chiếu đã chọn, chúng tôi trình bày lại
câu hỏi nghiên cứu như sau:
Lựa chọn của thể chế, cách trình bày của sách giáo khoa có ảnh hưởng như thế
nào đến quan niệm của học sinh về tri thức biểu đồ biểu diễn dữ liệu thống kê?
Những quy tắc hợp đồng didactic nào liên quan đến biểu đồ được hình thành
trong quá trình dạy - học?
Việc tìm kiếm một số yếu tố cho phép chúng tôi trả lời câu hỏi trên chính là mục đích
nghiên cứu của luận văn này.
4. Phương pháp nghiên cứu - Tổ chức của luận văn
Cấu trúc của luận văn gồm phần mở đầu và ba chương lớn:
Phần mở đầu, gồm: những ghi nhận ban đầu và các câu hỏi xuất phát, khung tham
chiếu lí thuyết, phần trình bày câu hỏi nghiên cứu, mục đích nghiên cứu, phương pháp
nghiên cứu và cấu trúc của luận văn.
Chương 1: Nghiên cứu biểu đồ ở cấp độ tri thức khoa học
Trong chương này, chúng tôi tiến hành phân tích và tổng hợp các kết quả từ một số
công trình nghiên cứu đã được công bố, các giáo trình lý thuyết thống kê sử dụng ở bậc đại
học trong và ngoài nước, nhằm chỉ ra một số yếu tố về đặc trưng khoa học luận của tri thức
biểu đồ. Việc phân tích các tổ chức toán học liên quan đến tri thức biểu đồ được tìm thấy
trong các tài liệu trên cho phép chúng tôi làm rõ vai trò và ý nghĩa của biểu đồ trong việc
biểu diễn dữ liệu thống kê, đồng thời chỉ ra mối liên hệ giữa biểu đồ và các tham số đặc
trưng của mẫu số liệu. Các kết quả có được trong chương này là cơ sở để chúng tôi tham
chiếu khi phân tích về tri thức biểu đồ trong thể chế dạy học toán phổ thông ở Việt Nam.
Chương 2: Nghiên cứu quan hệ thể chế dạy học tri thức biểu đồ
Trong chương này, chúng tôi thực hiện phân tích thể chế, bằng cách phân tích
chương trình và sách giáo khoa, sách giáo viên, tìm hiểu sự lựa chọn của thể chế và phân
tích ảnh hưởng của nó lên quá trình dạy học. Phân tích sâu sách giáo khoa, chúng tôi nêu rõ
các tổ chức toán học liên quan đến tri thức biểu đồ, xem xét các kiểu nhiệm vụ liên quan
đến chúng, những kỹ thuật nào được sử dụng, kỹ thuật nào được ưu tiên, đồng thời chỉ ra
các quy tắc hợp đồng didactic hình thành trong quá trình dạy học đối với tri thức này. Tổng
hợp từ các phân tích đó cho phép chúng tôi hình thành các giả thuyết nghiên cứu.
Chương 3: Nghiên cứu thực nghiệm
Việc tiến hành thực nghiệm cho phép chúng tôi kiểm chứng giả thuyết nêu ra. Chúng
tôi dự kiến sẽ tiến hành thực nghiệm trên đối tượng học sinh trung học phổ thông, sau khi
học xong nội dung thống kê trong chương trình toán lớp 10. Việc hợp thức các giả thuyết
nêu ra sẽ cho phép chúng tôi làm rõ được phần nào quan hệ cá nhân của học sinh với tri
thức biểu đồ. Chúng tôi dự kiến thực hiện hai thực nghiệm:
Thực nghiệm thứ nhất: kiểm chứng các giả thuyết nêu ra liên quan đến các hợp đồng
didactic rút ra được trong chương 2.
Thực nghiệm thứ hai: Nếu kết quả thực nghiệm thứ nhất cho phép chúng tôi hợp thức
giả thuyết nghiên cứu nêu ra, chúng tôi sẽ thực hiện thực nghiệm thứ hai, nhằm mục đích
hình thành mối liên hệ giữa biểu đồ biểu diễn dữ liệu thống kê và tham số đặc trưng của
mẫu số liệu, cụ thể chúng tôi lựa chọn số trung bình cộng.
Phần kết luận.
Tài liệu tham khảo.
Phụ lục.
Chương 1: NGHIÊN CỨU BIỂU ĐỒ Ở CẤP ĐỘ TRI THỨC KHOA HỌC
Trong chương này, chúng tôi xem xét tri thức biểu đồ ở cấp độ tri thức khoa học,
nhằm mục đích chỉ ra được các đặc trưng của mỗi dạng biểu đồ, vai trò, mục đích và ưu thế
của từng dạng trong việc biểu diễn dữ liệu thống kê. Đồng thời, chúng tôi tìm hiểu, phân
tích và chỉ ra mối liên hệ giữa biểu đồ với các giá trị tham số đặc trưng của mẫu số liệu. Các
kết quả có được sẽ là cơ sở để chúng tôi tham chiếu khi tiến hành phân tích tri thức biểu đồ
trong chương trình và sách giáo khoa toán hiện hành bậc trung học ở Việt Nam.
1.1. Đặc trưng khoa học luận của tri thức biểu đồ
Trong phần này, chúng tôi sử dụng kết quả phân tích khoa học luận về tri thức biểu
đồ trong tài liệu sau:
[A] Tăng Minh Dũng (2009), Dạy học thống kê và vấn đề đào tạo giáo viên, luận văn
thạc sĩ giáo dục học.
Những kết quả này tác giả đạt được khi tiến hành phân tích đặc trưng khoa học luận
về tri thức biểu đồ từ các tài liệu sau:
- Dodge Y. (2006), Premiers pas en statistique, Springer.
- Freedman D., Pisani R., Purves R. (1988), Statistics, W. W. Norton &
Company, Inc.
- Navidi W. (2006), Statistics for Engineers anhd Scientists, The Mc Graw-Hill
Companies, Inc.
- Những phân tích của Chauvat (2002) về đặc trưng một số dạng đồ thị thống
kê.
- Phần trình bày, giải thích về cách sử dụng các dạng đồ thị thống kê trong trang
web Statistics Canada.
Trong phạm vi của luận văn này, chúng tôi chỉ đề cập đến các loại biểu đồ xuất hiện
trong chương trình và sách giáo khoa toán bậc trung học ở Việt Nam, bao gồm: biểu đồ hình
cột, biểu đồ tổ chức, đa giác tần số, tần suất và biểu đồ hình quạt.
Chúng tôi tóm tắt các kết quả chính sau đây của tác giả Tăng Minh Dũng.
1.1.1 Biểu đồ hình cột
Biểu đồ hình cột được sử dụng để biểu diễn dữ liệu thống kê trong trường hợp biến
thống kê là biến định tính hoặc biến định lượng rời rạc.
([A], trang 14)
Để vẽ biểu đồ hình cột, người ta dựng các cột hình chữ nhật theo chiều đứng hoặc
chiều ngang trên cùng một trục biểu diễn các giá trị khác nhau của biến đang xem xét. Chiều
cao (hoặc chiều dài) của cột thể hiện số lượng phần tử của giá trị tương ứng mà cột biểu
diễn.
Biểu đồ hình cột có nhiều ưu thế trong việc quan sát sự phân bố của các giá trị, so
sánh mức độ phổ biến của các giá trị khác nhau của biến.
1.1.2 Biểu đồ tổ chức
Biểu đồ tổ chức dùng biểu diễn dữ liệu thống kê trong trường hợp các giá trị của biến
quan sát được ghép lớp (biến định lượng liên tục hoặc biến định lượng rời rạc có nhiều giá
trị khác nhau).
Để vẽ biểu đồ tổ chức, người ta dựng các hình chữ nhật có đáy là độ dài của các lớp
ghép trên cùng một trục nằm ngang, và diện tích của các hình chữ nhật biểu thị cho tần suất
của lớp ghép.
Thu nhập (nghìn đô-la)
Biểu đồ tổ chức thu nhập bình quân gia đình nước Mỹ năm 1973
([A], trang 18)
Chiều cao của các hình chữ nhật được xác định bằng cách chia giá trị tần suất cho độ
rộng của lớp ghép. Do đó, trục đứng trong biểu đồ tổ chức không phải là thang đo theo đơn
vị chiều cao, mà mang một ý nghĩa hoàn toàn khác: thang mật độ.
Thu nhập (nghìn đô-la)
Biểu đồ tổ chức thu nhập bình quân gia đình nước Mỹ năm 1973
([A], trang 18)
Như vậy, về hình thức, biểu đồ tổ chức và biểu đồ hình cột đều biểu diễn dữ liệu
bằng các hình chữ nhật. Tuy nhiên, có sự khác biệt về mặt bản chất giữa hai dạng đồ thị
thống kê này. Biểu đồ tổ chức biểu diễn các giá trị tần suất thông qua diện tích của các hình
chữ nhật, chứ không phải qua chiều cao như trong biểu đồ hình cột.
Trong trường hợp các lớp ghép có độ rộng bằng nhau, chiều cao của các hình chữ
nhật sẽ tỉ lệ với tần suất của các lớp ghép. Điều này dễ dẫn đến sự nhầm lẫn về đặc trưng
của biểu đồ tổ chức và biểu đồ hình cột.
1.1.3 Đa giác tần số, tần suất.
Đa giác tần số-tần suất dùng biểu diễn dữ liệu thống kê trong trường hợp biến thống
kê là biến định lượng liên tục, hoặc là biến rời rạc (có nhiều giá trị khác nhau) được ghép
lớp đều nhau, nghĩa là các lớp ghép có độ rộng bằng nhau. Nó có dạng đường gấp khúc và
thường được bổ sung vào biểu đồ tổ chức, với mục đích xem xét sự tiến triển của các số liệu
thống kê.
([A], trang 22
Để vẽ đa giác tần số-tần suất, người ta dựng các điểm có “tọa độ” (c
i
; n
i
) (hoặc (c
i
;
f
i
)), với c
i
là tâm của lớp ghép C
i
và n
i
(f
i
) là tần số (tần suất) của lớp ghép C
i
(i=1,2, ,n).
Đặc biệt, người ta bổ sung thêm hai lớp ghép “tưởng tượng” với độ rộng bằng độ rộng của
các lớp ghép đã có là C
0
vào trước lớp ghép C
1
và C
n+1
vào sau lớp ghép C
n
, rồi xác định
thêm hai điểm (c
0
;0) và (c
n+1
;0). Sau đó, nối các điểm trên với nhau bằng các đoạn thẳng
tạo thành đường gấp khúc, đó là đa giác tần số, tần suất.
Trong trường hợp đã có biểu đồ tổ chức, thì đa giác tần số-tần suất được dựng bằng
cách nối các trung điểm các cạnh trên của các cột hình chữ nhật, đồng thời cũng bổ sung hai
trung điểm của hai lớp ghép “tưởng tượng” như trên.
Đường gấp khúc xây dựng như trên tạo với trục ngang (trục biểu diễn giá trị của
biến) một miền đa giác khép kín. Do đặc điểm các lớp ghép có độ rộng bằng nhau nên diện
tích miền đa giác giới hạn này tỉ lệ với tổng tần số (tần suất) các giá trị của biến biến thống
kê đang xem xét.
Hình ảnh đường gấp khúc của đa giác tần số-tần suất tạo ưu thế cho người đọc xem
xét sự tiến triển của tần số, tần suất của các lớp ghép, đồng thời, nó cũng cho phép dự đoán
được hình dáng của đồ thị hàm mật độ lý thuyết của biến thống kê.
1.1.4 Biểu đồ hình quạt
Biểu đồ hình quạt được sử dụng trong trường hợp biểu diễn bảng phân bố tần suất,
thể hiện sự phân bố của các thành phần trong một tổng thể.
Biểu đồ thể hiện chất lượng nghiệp vụ của một nhóm nhân viên ([A], trang 16)
Một hình tròn biểu diễn cho một tổng thể. Người ta chia hình tròn thành các hình
quạt từ tâm, mỗi hình quạt biểu diễn cho một giá trị khác nhau của biến đang xem xét, có
diện tích tỉ lệ với tần suất của giá trị đó.
Để xây dựng biểu đồ hình quạt, người ta phải chuyển đổi tần suất của mỗi thành phần
thành tỉ lệ của hình quạt so với toàn bộ hình tròn, bằng cách tính góc ở tâm của hình quạt
theo công thức:
0
360 .
ii
f
α
=
, trong đó,
i
f
là tần suất.
Tuy nhiên, trong nhiều trường hợp, biểu đồ hình quạt tỏ ra có nhiều khuyết điểm
trong việc biểu diễn dữ liệu thống kê, chẳng hạn:
- Trường hợp các số liệu thống kê có sự chênh lệch thấp, biểu đồ hình quạt không
tạo thuận lợi cho việc quan sát và so sánh mức độ phổ biến giữa các giá trị của
biến thống kê.
- Trường hợp biến thống kê đang xem xét có nhiều hơn 5 hay 6 giá trị khác nhau
thì ta nên xem xét đến một loại đồ thị thống kê khác có khả năng biểu diễn tốt
hơn là sử dụng biểu đồ hình quạt.
Tóm lại, mỗi dạng đồ thị thống kê có những đặc trưng riêng về cách thức biểu thị dữ
liệu, đặc điểm của dữ liệu cũng như ưu thế riêng về mục đích sử dụng, được tóm tắt trong
bảng sau:
Đặc trưng của các dạng đồ thị thống kê
Đồ thị
thống kê
Tình huống sửdụng Đặc trưng
Đặc điểm của dãy
dữ liệu
Mục đích sử dụng
Biểu đồ
hình cột
-Biến định tính
-Biến định lượng rời
rạc
-So sánh sự phổ biến của
các dữ liệ
u khác nhau
trong dãy
Chiều cao (hoặc chiều dài) cột
thể hiện số lượng phần tử ứng
với từng giá trị của biến quan
sát.
Biểu đồ
hình quạt
-Các thành phần
trong một tổng thể
-Mô tả cấ
u trúc thành
phần (cơ cấu) của dữ liệu
-So sánh tỉ trọng giữa các
thành phần.
Diện tích hình quạt biểu diễn
tần số (tần suất) của các thành
phần trong dãy dữ liệu.
Biểu đồ
tổ chức
-Biến định lượng
(liên tục hoặc rời rạc
có rất nhiều giá trị
khác nhau) được
ghép lớp
-Xem xét phân bố dữ liệu
-So sánh hai dãy số liệu
-Dự đoán đườ
ng cong
hàm mật độ lý thuyết
Diện tích của các hình chữ
nhật biểu diễn tần suất của các
lớp ghép.
Đa giác
tần số,
tần suất
(thường
đi kèm
biểu đồ tổ
chức)
-Biến định lượng
(liên tục hoặc rời rạc
có rất nhiều giá trị
khác nhau) được
ghép lớp, các các lớp
ghép có độ rộng
bằng nhau.
-Xem xét sự tiến triển của
hàm mật độ (tần số, tần
suất) lớp ghép.
-So sánh hai dãy số liệu
-Dự đoán đườ
ng cong
hàm mật độ lý thuyết
Đường gấp khúc (bổ sung cho
biểu đồ tổ chức) nố
i trung
điểm của các đoạn thẳng giới
hạn phía trên biểu đồ tổ chức.
Diện tích giới hạn bên dưới
đường gấp khúc tỉ lệ với tổng
số quan sát
(Bảng 1.5, [A], trang 23)
1.2. Mối liên hệ giữa biểu đồ và các tham số đặc trưng của mẫu số liệu
Trong phần này, chúng tôi tìm hiểu, phân tích và chỉ ra mối liên hệ giữa biểu đồ và
các tham số đặc trưng của mẫu số liệu, cụ thể là xem xét trên biểu đồ, các tham số đặc trưng
của mẫu số liệu thể hiện như thế nào và dựa vào biểu ta có thể “đọc” các tham số đặc trưng
của mẫu số liệu như thế nào? Tương tự như đối với biểu đồ, chúng tôi chỉ quan tâm đến các
tham số xuất hiện trong chương trình và sách giáo khoa toán bậc phổ thông ở Việt Nam, cụ
thể:
- Các tham số định tâm gồm: mốt, số trung vị, số trung bình cộng
- Các tham số đo độ phân tán gồm: phương sai, độ lệch chuẩn.
Trong các phân tích ở mục này, chúng tôi sử dụng các tài liệu sau:
[B] Freedman D., Pisani R., Purves R. (1988), Statistics, W. W. Norton & Company,
Inc.
[C] David A. Kenny (1987), Statistics for the social and behavioral sciences, Little,
Brown Company (Canada) Limited.
1.2.1 Mốt
Mốt được định nghĩa là giá trị có tần số lớn nhất.
“Mốt là giá trị xuất hiện nhiều nhất trong bảng số liệu” ([C], trang 43)
Như vậy, để xác định mốt, ta lập bảng phân bố tần số (tần suất) và xác định giá trị có
tần số (tần suất) lớn nhất.
Về mối liên hệ giữa biểu đồ và mốt, chúng tôi tìm thấy trong [C] chỉ ra:
“Trên đồ thị biểu diễn sự phân bố của dãy số liệu, mốt là giá trị tương ứng với điểm
cao nhất (đỉnh) của đồ thị.”
([C], trang 44)
Như vậy, khi biểu diễn dữ liệu thống kê bằng biểu đồ, ta có thể quan sát được hình
ảnh của mốt, cụ thể:
- Trên biểu đồ hình cột, mốt là giá trị tương ứng với cột cao (dài) nhất.
- Trên biểu đồ tổ chức, mốt là giá trị tương ứng với hình chữ nhật có diện tích lớn
nhất.
- Trên đa giác tần số, tần suất, mốt là giá trị tương ứng với điểm cao nhất của
đường gấp khúc.
- Trên biểu đồ hình quạt, mốt là giá trị tương ứng với hình quạt có diện tích lớn
nhất.
1.2.2 Số trung vị
Số trung vị được định nghĩa:
“Số trung vị là giá trị chia mẫu số liệu thành hai nữa, 50% dữ liệu nằm dưới trung
vị và 50% dữ liệu nằm trên trung vị.” ([C], trang 44)
Để xác định số trung vị, ta cần xếp mẫu số liệu thành một dãy các giá trị rời nhau
theo một thứ tự nhất định (không giảm hoặc không tăng). Khi đó, số trung vị là giá trị nằm
giữa dãy số liệu.
“Số trung vị được xác định theo các bước sau:
- Xếp các số liệu thành một dãy thứ tự
- Số trung vị là giá trị của số liệu ở chính giữa dãy.
+ Nếu n (kích thước mẫu) là số lẻ thì số trung vị là giá trị thứ (n+1)/2.
+ Nếu n là số chẳn thì số trung vị là trung bình cộng của hai giá trị thứ (n/2) và thứ
(n/2 +1). Nghĩa là số trung vị là trung bình cộng của hai giá trị ở chính giữa dãy.”
([C], trang 48)
Về mối liên hệ giữa biểu đồ và số trung vị, chúng tôi tìm thấy trong [D] trình bày như
sau:
“Trên biểu đồ, số trung vị có thể được biểu thị bằng đường thẳng chia biểu đồ thành
hai nữa có diện tích bằng nhau” ([C], trang 44)
([C], trang 44)
Cũng cần phải chú ý rằng, ở đây, dãy số liệu khi biểu diễn trên biểu đồ phải đảm bảo
theo một thứ tự nhất định và khi ta chia diện tích của biểu đồ thành hai nữa bằng nhau cũng
phải đảm bảo tính từ giá trị đầu tiên theo thứ tự đã chọn.
1.2.3 Số trung bình cộng
Số trung bình cộng được định nghĩa là trung bình cộng của tất cả các số liệu thống
kê, và được kí hiệu là
x
.
“Số trung bình cộng được tính bằng tổng của tất cả các số liệu chia cho số lượng
quan sát – kích thước mẫu:
x
x
n
=
∑
” ([C], trang 45)
Trong trường hợp dữ liệu được biểu diễn bằng bảng phân bố tần số, số trung bình
cộng được tính như sau:
- “ Nhân giá trị x với tần số tương ứng.
- Cộng các kết quả tích có được ở trên.
- Chia tổng cho kích thước mẫu” ([C], trang 50)
Trong trường hợp số liệu được ghép lớp, người ta sử dụng giá trị đại diện của lớp
ghép, đó là “điểm chính giữa” của lớp ghép, tính bằng trung bình cộng của hai giá trị đầu
mút của lớp ghép.
“Điểm chính giữa của các lớp ghép có thể được dùng để thay thế cho các giá trị để
nhân với tần số của lớp ghép” ([C], trang 50)
Về ý nghĩa của số trung bình cộng:
Số trung bình cộng thể hiện mức bình quân mà biến quan sát đạt được, là mức cân
bằng giữa các số liệu.
“Số trung bình cộng là điểm cân bằng của phân phối” ([C], trang 44)
Do đó, khi biểu diễn dữ liệu bằng biểu đồ thì:
“Giá trị trung bình biểu thị bằng đường thẳng đi qua trọng tâm của biểu đồ.”
([C], trang 45)
Như vậy, mối liên hệ giữa biểu đồ tổ chức và số trung bình cộng được thể hiện qua vị
trí cân bằng trên trục ngang của biểu đồ.
Trong trường hợp dữ liệu thống kê có tính chất là dãy đối xứng, lúc đó, biểu đồ tổ
chức có dạng đối xứng qua một trục thì số trung bình cộng là giá trị tại vị trí trục đối xứng.
“Xét biểu đồ tổ chức của dãy số đối xứng: 1, 2, 2, 3. Khi đó, biểu đồ tổ chức có dạng
đối xứng qua trục tại giá trị 2, đó là số trung bình cộng.”
([B], trang 62)
Trong biểu đồ tổ chức dang xét ở trên, nếu thay đổi giá trị 3 trong dãy số, tăng lên
thành 5 hay 7, thì số trung bình cộng của dãy số sẽ thay đổi (tăng lên), lúc đó, vị trí biểu
diễn cho số trung bình cộng sẽ dịch chuyển sang phải.
“Hãy tưởng tượng hình chữ nhật tại vị trí giá trị 3 trượt sang phải trên một sợi dây
căng, đến vị trí 5 hoặc 7. Khi đó, sự đối xứng của biểu đồ bị phá vỡ, trục cân bằng
cũng xê dịch sang phải, tương ứng số trung bình cộng của dãy số cũng sẽ tăng lên.”
([B], trang 62)
(Số trung Số trung bình cộng được đánh dấu bằng mũi tên)
Quan sát sự thay đổi của số trung bình cộng xét trong ví dụ trên, ta thấy phần có diện
tích nhỏ hơn sẽ nằm xa vị trí số trung bình cộng, phần diện tích lớn hơn nằm gần vị trí số
trung bình cộng hơn, theo một tỉ lệ khoảng cách nhất định đảm bảo sự “cân bằng” xãy ra
ngay tại vị trí số trung bình cộng.
“Biểu đồ tổ chức cân bằng ngay tại số trung bình cộng.” ([B], trang 64]
([B], trang 63)
Đặc biệt, khi biểu đồ tổ chức có dạng đối xứng thì mốt bằng số trung vị và bằng số
trung bình cộng, đồng thời đó chính là giá trị tương ứng trên trục ngang tại vị trí trục đối
xứng của biểu đồ.
Trong trường hợp biểu đồ tổ chức lệch về phía bên trái, số trung bình cộng lớn hơn
số trung vị và số trung vị lớn hơn mốt.
(Mode: mốt, Median: số trung vị, Mean: số trung bình cộng)
([C], trang 48)
Ngược lại, trong trường hợp biểu đồ tổ chức lệch về phía bên phải, giá trị trung bình
sẽ nhỏ hơn số trung vị và số trung vị nhỏ hơn mốt.
(Mode: mốt, Median: số trung vị, Mean: số trung bình cộng)
([C], trang 48)
1.2.4 Phương sai, độ lệch chuẩn
Phương sai và độ lệch chuẩn là hai tham số được dùng để đo độ phân tán của dãy số
liệu, được tính dựa vào độ lệch của các số liệu so với số trung bình cộng.
Tuy nhiên, khi tính độ lệch giữa các số liệu so với số trung bình cộng thì ta có tổng
các độ lệch luôn bằng 0. Do đó, thay vì tính trung bình của các độ lệch, người ta tính trung
bình của các bình phương độ lệch.
“Phương sai, được kí hiệu là s
2
, bằng tổng bình phương độ lệch của các giá trị so
với số trung bình cộng chia cho kích thước mẫu trừ một.”
( )
−
=
−
∑
2
2
1
xx
s
n
([C], trang 63)
Trong công thức trên, người ta sử dụng kích thước mẫu trừ đi 1 với lý do để đảm bảo
phương sai không xác định khi kích thước mẫu bằng 1.
“Nếu chia cho kích thước mẫu n thì phương sai luôn bằng 0 trong trường hợp mẫu
số liệu bằng 1. Tuy nhiên, nếu mẫu số của công thức tính phương sai là (n – 1) thì
phương sai không xác định khi kích thước mẫu bằng 1” ([C], trang 65)
Khi tính phương sai, người ta sử dụng bình phương các độ lệch, do đó, làm bình
phương đơn vị của độ lệch. Để trở về đơn vị ban đầu, người ta lấy căn bậc hai của phương
sai và định nghĩa là độ lệch chuẩn.
“Độ lệch chuẩn, ký hiệu là s, là căn bậc hai số học của phương sai”
([C], trang 63)
Trong khi đó, chúng tôi tìm thấy trong [B] ký hiệu độ lệch chuẩn là “SD”. Hầu hết
các số liệu của dãy nằm trong “khu vực”
x SD±
, rất ít số liệu nằm ngoài “khu vực”
2x SD±
.
“Khoảng 68% số liệu nằm trong khu vực
x SD±
, 32% còn lại nằm ngoài khoảng
này. Khoảng 95% số liệu nằm trong khu vực
2
x SD±
, 5% còn lại nằm ngoài” ([C],
trang 68).
[A, trang 68]
Như vậy, nếu càng nhiều dữ liệu tập trung càng gần “khu vực” giá trị trung bình thì
độ lệch chuẩn của dãy số liệu càng nhỏ và ngược lại. Do đó, nếu đỉnh của đồ thị càng cao và
độ dốc của đồ thị càng lớn thì độ lệch chuẩn càng nhỏ và ngược lại, nếu đỉnh của đồ thị
càng thấp và độ dốc của đồ thị càng thấp thì độ lệch chuẩn càng lớn.
Ngoài ra, [B] cũng cung cấp công thức cho phép tính độ lệch chuẩn dựa vào dãy số
liệu:
( )
2
xx
SD
n
−
=
∑
Trong công thức trên, mẫu số được tính bàng n thay vì (n – 1) như trong [C] và điều
này không được giải thích.
Tóm lại, giữa biểu đồ và các tham số đặc trưng của mẫu số liệu có mối liên hệ qua lại
với nhau. Mối liên hệ đó cho phép xác định hoặc ước lượng trực tiếp giá trị các tham số trên
biểu đồ, mà không cần phải lập lại bảng tần số, tần suất, tức là không qua bước trung gian là
sử dụng bảng số liệu để tính theo các công thức được cung cấp. Tuy nhiên, điều đó có thật
sự được quan tâm hay không? Chúng tôi tiến hành tìm hiểu và phân tích về các tổ chức toán
học liên quan đến biểu đồ và các tham số đặc trưng của mẫu số liệu để làm rõ điều này.
Các tổ chức toán học liên quan đến mối liên hệ giữa biểu đồ và các tham số đặc trưng
của mẫu số liệu được chúng tôi tìm thấy trong [B] và [C]:
• T
t.tv
: Tính số trung vị của mẫu số liệu.
-Kĩ thuật
.t tv
τ
1
:
- Xếp các số liệu thành một dãy thứ tự
- Số trung vị là giá trị của số liệu ở chính giữa dãy.
+ Nếu n (kích thước mẫu) là số lẻ thì số trung vị là giá trị thứ (n+1)/2
+ Nếu n là số chẳn thì số trung vị là trung bình cộng của hai giá trị thứ (n/2) và
thứ (n/2 +1).
Yếu tố công nghệ
.t tv
θ
1
: Định nghĩa và cách xác định số trung vị.
-Kĩ thuật
.t tv
τ
2
: Xác định vị trí đường thẳng chia biểu đồ thành hai nữa có diện tích
bằng nhau. Số trung vị là giá trị tương ứng tại vị trí đó. Chú ý các trường hợp sau:
- Nếu biểu đồ tổ chức có dạng đối xứng thì số trung vị là giá trị tương ứng tại vị trí
trục đối xứng,
- Nếu biểu đồ tổ chức lệch về bên phải (trái) thì số trung vị có xu hướng lệch sang
bên phải (trái).
Yếu tố công nghệ
.t tv
θ
2
: Trên biểu đồ, số trung vị biểu thị bằng đường thẳng chia
biểu đồ thành hai nữa có diện tích bằng nhau.
• T
t.tb
: Tính số trung bình cộng của mẫu số liệu
-Kĩ thuật
.t tb
τ
1
: Tính tổng tất cả các số liệu thống kê và chia cho kích thước mẫu.
Trường hợp số liệu ghép lớp thì lấy điểm chính giữa lớp ghép làm giá trị đại diện cho
lớp ghép đó.
Yếu tố công nghệ
.t tb
θ
1
: Định nghĩa và cách tính số trung bình cộng.
-Kĩ thuật
.t tb
τ
2
: Xác định (hoặc ước lượng) vị trí cân bằng (trọng tâm) của biểu đồ.
Khi đó, số trung bình cộng là giá trị tại vị trí cân bằng (đường thẳng đi qua trọng
tâm).
Chú ý các trường hợp sau:
- Nếu biểu đồ tổ chức có dạng đối xứng thì giá trị trung bình là giá trị tương ứng tại
vị trí trục đối xứng,
- Nếu biểu đồ tổ chức lệch về bên phải (trái) thì giá trị trung bình có xu hướng lệch
sang bên phải (trái).
Yếu tố công nghệ
.t tb
θ
2
: trên biểu đồ tổ chức, giá trị trung bình là vị trí “cân bằng”.
Kĩ thuật
.t tb
τ
2
thường được sử dụng trong trường hợp mẫu số liệu thống kê được
trình bày bằng biểu đồ tổ chức, nhất là khi không có đầy đủ số liệu chi tiết trên biểu đồ,
chẳng hạn:
Bên dưới là ba đồ thị mô tả sự phân bố của ba dãy số liệu. Hãy chọn giá trị và điền
vào chổ trống cho mỗi dãy số liệu: số trung bình cộng của dãy số là:………. 25, 40,
50, 60, 75.
([B], trang 65)
Kĩ thuật này cũng cho thấy mối liên hệ giữa biểu đồ và số trung bình cộng của mẫu
số liệu: từ biểu đồ, ta có thể chỉ ra số trung bình cộng mà không phải sử dụng bảng số liệu
thống kê như trong kĩ thuật
.t tb
τ
1
.
• T
s.tb-tv
: So sánh số trung bình cộng và số trung vị của mẫu số liệu
-Kĩ thuật
.s tb tv
τ
−
1
: trường hợp mẫu số liệu cho dưới dạng bảng số liệu, bảng phân bố,
ta thực hiện các bước sau:
- Tính số trung vị theo kĩ thuật
.t tv
τ
1
- Tính số trung bình cộng theo kĩ thuật
.t tb
τ
1
- So sánh số trung bình và số trung vị.
Yếu tố công nghệ
.s tb tv
θ
−
1
:
- Định nghĩa và cách tính số trung vị và số trung bình cộng.
- Phép toán so sánh.
-Kĩ thuật
.s tb tv
τ
−
2
: sử dụng kĩ thuật
.t tb
τ
2
và
.t tv
τ
2
để tính (ước lượng) số trung bình
cộng và số trung vị rồi so sánh. Chú ý các trường hợp sau:
- Nếu biểu đồ tổ chức có dạng đối xứng thì số trung vị bằng số trung bình cộng, và
là giá trị ngay tại trục đối xứng đó.
- Nếu biểu đồ tổ chức lệch về phía bên trái, số trung vị nhỏ hơn số trung bình cộng,
ngược lại, nếu biểu đồ tổ chức lệch về phía bên phải, số trung vị lớn hơn số trung
bình cộng.
Yếu tố công nghệ
.s tb tv
θ
−
2
: tính chất và mối liên hệ giữa số trung vị, số trung bình
cộng và biểu đồ tổ chức.
Kĩ thuật
.s tb tv
τ
−
2
được sử dụng trong trường hợp mẫu số liệu được biểu diễn bằng biểu
đồ, nhất là trong các trường hợp không có thông tin chi tiết về các số liệu.
Ví dụ:
Trong mỗi biểu đồ tổ chức ở trên, số trung vị bằng giá trị trung bình không? Hay ở
bên trái? hay ở bên phải? ([B], trang 65)
• T
t.SD
: Tính độ lệch chuẩn của mẫu số liệu.
-Kỹ thuật
.t SD
τ
1
:
- Tính số trung bình cộng
x
- Tính độ lệch giữa các giá trị x
i và
số trung bình cộng
x
, tức là tính
i
xx−