Tải bản đầy đủ (.docx) (134 trang)

Xây dựng và đánh giá chất lượng bộ câu hỏi TNKQ hình học lớp 10 học kỳ II

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.5 MB, 134 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC GIÁO DỤC
BÁO CÁO NGHIÊN CỨU KHOA HỌC SINH VIÊN
Đề tài: XÂY DỰNG VÀ ĐÁNH GIÁ CHẤT LƯỢNG BỘ CÂU HỎI TRẮC NGHIỆM
KHÁCH QUAN PHẦN HÌNH HỌC LỚP 10 HỌC KÌ II
Nhóm
nghiên cứu
:Mai Thị Bình
Đỗ Thanh Tâm
Nguyễn Thị Đoan Trang
Lớp :QH 2011 – Sư phạm
Toán học
GVHD :ThS. Đào Thị Hoa Mai
Hà Nội, tháng 4 năm 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC GIÁO DỤC
BÁO CÁO NGHIÊN CỨU KHOA HỌC SINH VIÊN
Đề tài: XÂY DỰNG VÀ ĐÁNH GIÁ CHẤT LƯỢNG BỘ CÂU HỎI TRẮC NGHIỆM
KHÁCH QUAN PHẦN HÌNH HỌC LỚP 10 HỌC KÌ II
Nhóm
nghiên cứu
:Mai Thị Bình
Đỗ Thanh Tâm
Nguyễn Thị Đoan Trang
Lớp :QH 2011 – Sư phạm
Toán học
GVHD :ThS. Đào Thị Hoa Mai
Hà Nội, tháng 4 năm 2015
LỜI CẢM ƠN
Đầu tiên, nhóm nghiên cứu xin chân thành cảm ơn ThS. Đào Thị Hoa Mai đã tận
tình giúp đỡ, hướng dẫn và chỉ bảo nhóm trong suốt thời gian làm nghiên cứu khoa học.


Nhóm xin chân thành cảm ơn các thầy cô trong Trường Đại học Giáo Dục và các
thầy, cô trong khoa Toán – Cơ – Tin học trường Đại học Khoa học Tự nhiên đã dạy
dỗtrong suốt những năm vừa qua. Đặc biệt, nhóm xin gửi lời cám ơn sâu sắc tới Ban
giám hiệu trường THPT Việt Đức, THPT Kim Liên đã tạo điều kiện để nhóm tiến hành
thực nghiệm tại trường.
Mặc dù đã cố gắng nhiều nhưng sản phẩm nghiên cứu của nhóm vẫn còn nhiều
thiếu sót. Nhóm rất mong được sự đóng góp ý kiến của các thầy, cô trong ban phản biện
để bài nghiên cứu của nhóm được hoàn thiện hơn.
Hà Nội, ngày 22 tháng 4 năm 2015
Nhóm sinh viên
Mai Thị Bình
Đỗ Thanh Tâm
Nguyễn Thị Đoan Trang
Xác nhận của giảng viên hướng dẫn.
DANH MỤC VIẾT TẮT
GV
HS
KT – ĐG
TNKQ
NHCH
TN
ND
: Giáo viên
: Học sinh
: Kiểm tra – Đánh giá
: Trắc nghiệm khách quan
: Ngân hàng câu hỏi
: Trắc nghiệm
: Nội dung
MỤC LUC

PHẦN 1: MỞ ĐẦU
1. Lý do chọn đề tài
Trong xu thế đổi mới giáo dục, bên cạnh việc đổi mới các hình thức, phương pháp
dạy – học, việc đổi mới phương pháp và hình thức kiểm tra – đánh giá là việc làm mang
tính cấp thiết và có ý nghĩa đặc biệt quan trọng. Với triết lí đánh giá vì sự tiến bộ của
người học, bên cạnh việc kiểm tra đánh giá định kỳ, người ta ngày càng chú trọng tới
việc đánh giá thường xuyên, nhằm mục đích thu thập thông tin về quá trình học tập của
học sinh, kịp thời phát hiện những “lỗ hổng” trong dạy và học. Trong nhiều phương pháp
và kĩ thuật đánh giá thường xuyên trong lớp học, trắc nghiệm khách quan là một trong
những phương pháp thường được sử dụng phổ biến, phát huy được những ưu điểm của
TNKQ như có thể kiểm tra được khối lượng nội dung kiến thức lớn, chấm điểm nhanh và
có thể sử dụng những tiến bộ của công nghệ thông tin trong phân tích và xử lý kết quả
đánh giá.
Hiện nay các câu hỏi TNKQ được đưa vào các đề thi khá phổ biến ở các môn học
nhưng đối với môn Toán việc ra đề thi TNKQ để phát huy được những ưu điểm của hình
thức trắc nghiệm này và đánh giá đúng quá trình học tập của học sinh không hề dễ dàng.
Nhiều câu hỏi xây dựng xong không thể sử dụng dẫn đến tình trạng lãng phí thời gian và
vật chất.
Công nghệ thông tin phát triển và được ứng dụng nhiều trong dạy – học – kiểm
tra, đánh giá, với nhiều phần mềm phân tích và đánh giá chất lượng câu hỏi trắc nghiệm
khách quan. Một trong những phần mềm mới được phát triển hiện nay, giao diện đơn
giản, dễ tiếp cận và sử dụng là phần mềm IATA (Item and Test Analysis).
Với những lý do căn bản trên, nhóm nghiên cứu tiến hành tìm hiểu vấn đề với tên
gọi “Xây dựng và đánh giá chất lượng bộ câu hỏi trắc nghiệm khách quan phần Hình học
lớp 10 – học kỳ II” nhằm làm rõ hơn cách xây dựng một bộ câu hỏi TNKQ thực sự có giá
trị và sử dụng được trong các kì kiểm tra đánh giá nói chung và đánh giá thường xuyên
nói riêng với sự hỗ trợ của công nghệ thông tin.
2. Mục đích nghiên cứu
Xây dựng bộ câu hỏi TNKQ phần Hình học lớp 10 – học kỳ II và phân tích chất
lượng các câu hỏi để có thể đưa vào sử dụng.

3. Đối tượng, khách thể, phạm vi nghiên cứu
- Đối tượng nghiên cứu: Bộ câu hỏi TNKQ và chất lượng câu hỏi trắc nghiệm khách
quan.
- Khách thể nghiên cứu: Hình học học kỳ II lớp 10.
4. Nhiệm vụ nghiên cứu
- Nghiên cứu cơ sở lý luận về xây dựng câu hỏi TNKQ.
- Lý thuyết hình học học kỳ II lớp 10.
- Tìm hiểu và sử dụng phần mềm phân tích, đánh giá chất lượng câu hỏi và đề thi IATA.
- Xây dựng các câu hỏi TNKQ dựa trên nguyên tắc xây dựng và các tiêu chí đánh giá câu
hỏi TNKQ.
- Thực nghiệm và phân tích chất lượng câu hỏi trắc nghiệm khách quan bằng phần mềm
IATA.
5. Phương pháp nghiên cứu
Trong quá trình làm nghiên cứu, nhóm nghiên cứu có vận dụng nhiều phương pháp
nghiên cứu trong các lĩnh vực khoa học – xã hội, trên cơ sở thế giới quan của chủ nghĩa
duy vật biện chứng, chủ nghĩa duy vật lịch sử. Các phương pháp nghiên cứu cơ bản được
sử dụng là:
- Phương pháp nghiên cứu lí luận:
• Nghiên cứu sách giáo khoa, sách tham khảo Hình học học kỳ II lớp 10.
Quá trình nghiên cứu sách giáo khoa, sách tham khảo rất quan trọng bởi vì khi
nắm rõ từng phần và các dạng Toán trong chương trình học của học sinh thì khi đó
mới xây dựng được những câu hỏi Trắc nghiệm phù hợp với học sinh và gắn liền
với chương tình học. Nội dung phần hình học bao gồm các bài:
+ Phương trình tổng quát của đường thẳng;
+ Phương trình tham số của đường thẳng;
+ Khoảng cách và góc;
+ Đường tròn;
+ Đường elip;
+ Đường hypebol;
+ Đường parabol;

+ Ba đường cônic.
• Nghiên cứu tài liệu về xây dựng và đánh giá câu hỏi trắc nghiệm khách quan
• Nghiên cứu phần mềm IATA.
- Phương pháp nghiên cứu thực nghiệm.
• Thử nghiệm.
Bằng cách cho học sinh làm đề trắc nghiệm mà nhóm đã xây dựng với nội dung
hình học lớp 10 học kì II
• Phân tích thống kê và xử lý số liệu.
+ Sử dụng phần mềm excel để thống kê đáp án của học sinh.
PHẦN 2: NỘI DUNG
CHƯƠNG 1: CƠ SỞ LÍ LUẬN CỦA ĐỀ TÀI
1.1. Các phương pháp trắc nghiệm
Hiện nay trong giáo dục trắc nghiệm nói chung và trắc nghiệm khách quan nói
riêngđược thường xuyên đưa vào sử dụng trong các kỳ thi, kiểm tra để đánh giá kết quả
một phần môn học, cả môn học, đối với các cấp học hoặc để tuyển chọn những người có
năng lực nhất định vào học một khóa học nào đó.
Có thể phân chia các phương pháp trắc nghiệm thành ba loại lớn: loại quan sát, loại vấn
đáp, loại viết.
Các phương pháp trắc nghiệm
Quan sát Viết Vấn đáp
Trắc nghiệm khách quan Trắc nghiệm tự luận
Tự luận tự do Tự luận theo cấu trúc
Ghép đôi Điền khuyết Trả lời ngắn Đúng sai Nhiều lựa chọn
Loại trắc ngiệm qua sát giúp đánh giá các thao tác, các hành vi, các phản ứng vô
thức, các kỹ năng thực hành và cả một số kỹ năng nhận thức.
Loại vấn đáp giúp đánh giá khả năng đáp ứng các câu hỏi được nêu một cách tự
phát trong một tình huống cần kiểm tra, và nó cũng thường được sử dụng khi tương tác
giữa người hỏi và người đối thoại là quan trọng.
Trắc nghiệm viết được chia thành hai nhóm chính là trắc nghiệm khách quan và
trắc nghiệm tự luận.

Nhóm câu hỏi TNKQ: các câu TN mà trong đó đề thi gồm rất nhiều câu hỏi, mỗi
câu hỏi nêu lên vấn đề với những thông tin cần thiết để thí sinh có thể trả lời từng câu
một cách ngắn gọn.
Nhóm câu hỏi TN tự luận: các câu hỏi buộc phải trả lời theo dạng mở, thí sinh
phải tự trình bày ý kiến trong bài viết để giải quyết những vấn đề được nêu ra.
Loại trắc nghiệm tự luận thường được sử dụng nhiều nhất, vì nó có ưu điểm như:
cho phép kiểm tra nhiều thí sinh cùng một lúc; cho phép thí sinh cân nhắc nhiều hơn khi
trả lời; có thể đánh giá nhiều loại tư duy ở mức độ cao; cung cấp các bản ghi trả lời của
thí sinh để nghiên cứu kỹ khi chấm thi, dễ quản lý vì người học không tham gia trực tiếp
vào bối cảnh kiểm tra, người ra đề không nhất thiết phải tham gia chấm bài.
1.2. Quy trình tổ chức một kỳ thi KT – ĐG
1.2.1. Xác định mục đích đánh giá
Đây là yếu tố đầu tiên mà người giáo viên phải xác định trước khi tiến hành một
hoạt động đánh giá nào đó. Đánh giá được tiến hành ở nhiều thời điểm khác nhau trong
quá trình dạy học. Ở mỗi thời điểm đánh giá có mục đích khác nhau, thí dụ:
- Đánh giá “ khởi sự” (Placement Evaluation) nhằm khảo sát kiến thức đã có của người
học trước khi bắt đầu giảng dạy môn học. Câu hỏi đặt ra là người học đã có những kiến
thức, kĩ năng cần thiết để tiếp thu nội dung giảng dạy mới chưa? Họ có thể gặp những
khó khăn gì trong quá trình học tập săp tới.
- Đánh giá theo tiến trình (đánh giá hình thành – Formative Evaluation) được dùng để
theo dõi sự tiến bộ của người học, nhằm đánh giá mức độ đạt các mục tiêu trung gian,
cung cấp thong tin phản hồi để giúp người dạy – người học điều chỉnh hoạt động của
mình để đạt được mục tiêu cuối cùng.
- Đánh giá chuẩn đoán (Diagnastic Evaluation) nhằm phán đoán, dự báo trước những khó
khăn mà người học có thể gặp phải, phát hiện nguyên nhân các lỗi thường gặp và lặp đi
lặp lại để tìm cách khắc phục.
- Đánh giá tổng kết (Summative Evaluation) thường được tiến hành vào cuối một kì
giảng dạy 1 khóa học, một môn học, một đơn vị học tập nhằm xác định mức độ đạt được
của mục tiêu học tập và thường được dùng để có các quyết định quản lí phù hợp, như lên
lớp, thi lại. Kết quả của đánh giá cũng cụng cấp các thông tin để cải tiến chương trình dạy

học cũng như hiệu quả của việc dạy – học.
Như vậy đánh giá có nhiều mục đích và người giáo viên cần phải xác định rõ mục đích
của mình thì mới có thể soạn thảo được các đề kiểm tra đánh giá có giá trị vì chính mục
đích chi phối chuẩn đánh giá, nội dung, hình cùa bài thi.
1.2.2. Lựa chọn các hình thức, phương pháp đánh giá
Trên cơ sở mục đích đánh được xác định, người dạy quyết định phương pháp, hình thức
đánh giá phù hợp – có thể dùng hình thức đánh giá phù hợp – có thể dùng phương pháp
quan sát, vấn đáp hay thi viết, trong thi viết có thể dùng trắc nghiệm tự luận hay trắc
nghiệm khách quan hoặc kết hợp cả 2 loại.
1.2.3. Phân tích, nội dung, xác định tiêu chuẩn, tiêu chí đánh giá cho từng nội dung
cần đánh giá
Nếu chọn hình thức thi viết, thì đây là khâu quan trọng nhất. Trong quá trình phân
tích nội dung cần đánh giá, người soạn phải xem xét toàn bộ nội dung này và phân biệt:
- Những nội dung chỉ cần tái hiện hay tái nhận.
- Những nội dung cần giải thích, minh họa.
- Những ý tưởng phức tạp cần được phân tích, giải thích, áp dụng trong những hoàn cảnh
khác khi đã xác định được mục đích và hình thức đánh giá thì quá trình phân tích toàn bộ
nội dung chương trình đánh giá giúp nhà quản lí bao quát toàn bộ nội dung, phân tích
mức độ hoàn thiện các nội dung đó (mục tiêu các bậc) của người học. Đây là cơ sở quan
trọng để thiết lập dàn bài thi.
1.2.4. Thiết lập dàn bài thi
Phương pháp để thiết lập dàn bài thi là lập bản quy định hai chiều (table of
specification) với một chiều (hàng dọc) biểu thị toàn bộ nội dung, còn chiều kia biểu thị
các bậc mục tiêu (quá trình tư duy mà bài thi muốn khảo sát).
Mỗi phạm trù trong hai phạm trù tổng quát ấy (nội dung và mục tiêu) có thể phân ra
thành các phạm trù nhỏ khác (từ 4 - 12) tùy theo tính chất phức tạp của các mục tiêu. Ở
mỗi ô có thể ghi số hay tỉ lệ phần trăm cho câu hỏi dự tính cho mục tiêu và nội dung, ứng
với hang dọc và hang ngang cảu ô ấy. Dưới đây là một vài ví dụ
Dàn bài Kiểm tra – Thi
Môn:

Nội dung
Mục tiêu
ND1 ND2 ND3 Tổng Tỉ lệ
Nhớ (B1)
40%
Từ ngữ 1 0 1
4
Kí hiệu 0 1 0
Quy ước 0 1 0
Sự kiện 3 1 2 6
Hiểu, vận dụng
(B2)
Giải thích 2 1 2 5
40%
Tính toán 1 2 2 5
Phấn tích, tổng
hợp, đánh giá (B3) 20%
Phê phán 2 1 0 5
Bình luận 0 1 1
Tổng 9 8 8 25 100%
Với dàn bài này, ở nội dung 1 có 10 mục tiêu cần kiểm tra, trong đó có 4 mục tiêu
bậc 1 (nhớ), 3 mục tiêu bậc 2 (hiểu, vận dụng) và 3 mục tiêu bậc 3 (phân tích, tổng hợp,
đánh giá).
Tương tự như vậy có thể xác định được số và bậc mục tiêu ở các ND2 và ND3. Đây là cơ
sở để viết các câu hỏi ứng với nội dung và bậc mục tiêu dùng cho bài kiểm tra, đồng thời
để xác định biểu điểm cho mỗi câu, ở mỗi nội dung và mục tiêu tương ứng.
Với một bài kiểm tra viết dưới dạng TNKQ ở lớp học nhằm khảo sát một phần của môn
học có thể lập bản quy định đơn giản hai chiều đơn giản hơn:
Ví dụ:
Bài kiểm tra 15’

Nội dung
Mục tiêu
Mục 1 Mục 2 Mục 3 Tổng
Nhớ (B1) 1 1 2 4
Hiểu, vận dụng (B 2) 2 1 1 4
Phân tích, tổng hợp, đánh giá
(B3)
0 1 1 2
Tổng 3 3 4 10
1.2.5. Lựa chọn hoặc viết các câu hỏi
Dàn bài thi cho ta biết số lượng và bậc mục tiêu tương ứng với nội dung cần kiểm
tra. Bước tiếp theo là lựa chọn (nếu đã có ngân hang câu hỏi) hoặc viết các câu hỏi.
Đối với các mục tiêu bậc 1 và một phần mục tiêu bậc hai có thể viết các câu hỏi
TNKQ nhiều lựa chọn hoặc ghép đôi. Số lượng câu hỏi tùy thuộc vào thời gian dành để
kiểm tra. Trung bình để chọn được một câu trả lời đúng cho một câu hỏi thì học sinh cần
một phút. Đây cũng là căn cứ đối với mục tiêu bậc hai và bậc ba có thể dùng các câu
TNTL có cấu trúc để kiểm tra.
1.2.6. Phân tích câu hỏi
Việc phân tích các câu hỏi hoặc tự viết nhằm xác định xem các câu hỏi có thể
được dùng làm công cụ để việc kiểm tra đạt các mục tiêu trong các nội dung cần kiểm tra
đánh giá hay không. Việc phân tích các câu hỏi để nhằm đánh giá độ khó, độ phân biệt
của các câu hỏi đó để thay đổi hoặc điều chỉnh nếu cần.
Sau khi xem xét từng câu hỏi, cần phân tích để đánh giá lại toàn bộ đề thi vừa
được biên soạn.
Các tiêu chí để đánh giá một đề kiểm tra:
1. Phạm vi nội dung cần bao quát.
2. Sự cân đối của các loại câu hỏi về độ khó (bậc mục tiêu)
+ Khả năng tái hiện
+ Hiểu biết, vận dụng
+ Phân tích, tổng hợp, đánh giá

+ Sự sáng tạo
+ Các kĩ năng khác
3. Cơ hội bình đẳng để trả lời cho toàn bộ bài học
4. Những sai xót có thể có trong bài thi
1.2.7. Tổ chức chấm thi chấm điểm
Sau khi phân tích được từng câu hỏi và toàn bộ bài thi, công việc tiếp theo là tổ chức
một đợt thi. Đối với các kì kiểm tra – thi dưới hình thức trắc nghiệm khách quan, việc in
đề, hướng dẫn học sinh làm bài đòi hỏi nhiều công sức của giáo viên hơn vì đây là hình
thức kiểm tra đánh giá mới ở nước ta.
Việc xây dựng phương thức chấm điểm, các tiêu chuẩn, tiêu chí cho điểm chính
xác, nhất là đối với các câu TNTL là rất cần thiết. Hạn chế lựa chọn các câu TNTL tự do
và thay vào đó là các câu TNTL có cấu trúc sẽ giúp khắc phục khó khăn này. Phương
thức chấm điểm phải giúp khắc phục một số khó khăn thường gặp như:
- Thay đổi chuẩn đánh giá.
- Phân biệt đối xử do chữ viết của thí sinh…
Một phương thức chấm điểm khách quan đối với các câu TNTL là một giáo viên chấm
từng câu cho tất cả các thí sinh chứ không chấm tất cả các câu hỏi của một thí sinh.
Một điều lưu ý khi chấm các bài kiểm tra, nhất là các bài kiểm tra theo tiến trình là cần
có lời nhận xét của giáo sẽ giúp người học sửa lỗi và tiến bộ sau mỗi kì kiểm tra.
1.2.8. Ghi chép, phân tích và lưu trữ kết quả thi trước khi công bố kết quả
Với kết quả đã chấm, trong các kì kiểm tra đánh giá, do giáo viên tự tổ chức ở lớp
mình, việc ghi chép, phân tích qua thống kê đơn giản và lưu trữ kết quả cho phép giáo
viên theo dõi sự tiến bộ của người học, các dạng lỗi mà họ thường gặp để giúp họ điều
chỉnh cách học, khắc phục những nhược điểm, đồng thời động viên họ học tập ngày càng
tốt hơn. Những thông tin này cùng giúp giáo viên có những điều chỉnh trong nội dung bài
giảng, phương pháp giảng dạy. Đối với các kì thi TNKQ tiêu chuẩn hóa, việc phân tích
kết quả các bài thi cho phép xác định độ khó, độ phân biệt của các câu trắc nghiệm, độ
khó trung bình của một bài trắc nghiệm, độ giá trị, độ tin cậy của bài toán.
1.3. Quy trình thiết kế ngân hàng câu hỏi TNKQ
Ngân hàng câu hỏi là một tập hợp các câu hỏi thi nào đó dễ sử dụng để tổ hợp thành

đề thi (Millman, 1984).
Theo Choppin,1981 thì ngân hàng câu hỏi là tập hợp các câu hỏi được tổ chức và
phân loại theo nội dung và được xác định các đặc tính độ khó, độ tin cậy, tính giá trị…
Mục tiêu quan trọng của quy trình xây dựng NHCH trắc nghiệm (item banking) là có
được một NHCH trong đó các giá trị củatham số câu hỏi được biểu diễn trên một thang
đo năng lực đã biết.
Quy trình xây dựng NHCH được thực hiện theo các bước sau:
• Xác định các nội dung chi tiết và các mức độ nhận thức tương ứng;
• Phân công nhóm biên soạn câu hỏi theo sở trường của mỗi người;
• Trao đổi trong nhóm để điều chỉnh;
• Hiệu đính bởi chuyên gia và lưu giữ trong máy tính;
• Lập các đề thi thử, tổ chức thi, phân tích kết quả;
• Hiệu chỉnh các câu hỏi hoặc phương án nhiễu nếu cần thiết;
• Lưu trữ chính thức vào ngân hàng đề.
1.4. Một số lý thuyết về thống kê
1.4.1. Thang đo
Một thang đo là sự biểu diễn số học của một hiện tượng tự nhiên. Một thang đo là
sự biểu diễn nhân tạo của con người. Mọi biến số đều có một thang đo. Mỗi thang đo đều
có các thuộc tính toán học. Dưới đây là các loại thang đo khác nhau và các thuộc tính
toán học của chúng:
- Thang định danh
Chỉ có sự khác biệt giữa các giá trị mới có nghĩa. Sẽ không có phép toán nào được thực
hiện nếu sử dụng các giá trị của thang đo định danh.
- Thang đo thứ bậc
Các giá trị của thang đo thứ bậc có thể so sánh được với nhau, song chỉ trong phạm vi độ
lớn tương đối của chúng. Phép toán duy nhất có thể được thực hiện trên thang đo thứ bậc
là nhỏ hơn (<), lớn hơn (>), và bằng nhau (=).
- Thang đo định khoảng
Các giá trị của thang đo số học có thể so sánh được với nhau và có thể được sử
dụng để tính tổng và hiệu. Tuy nhiên các giá trị không thể chia hoặc nhân để tạo nên các

giá trị có ý nghĩa vì giá trị 0 không thể hiện sự vắng mặt hoàn toàn của hiện tượng được
mô tả. Các tổng và hiệu có thể được chia và nhân với nhau song không nhân và chia với
chính thang đo được. Chẳng hạn như, một sự khác biệt x lớn gấp hai lần sự khác biệt 2x,
song sự khác biệt x không thể được gọi là lớn gấp hai lần giá trị thang đo định khoảng
của y.
Cộng hoặc trừ một thang đo định khoảng vào hoặc từ một thang đo khác sẽ tạo ra một
thang đo định khoảng mới. Các thang đo định khoảng có thể được điều chỉnh bằng cách
cộng thêm bất kỳ số thực nào hoặc nhân với một số thực dương (không bao gồm số 0).
Một số thực là bất kỳ số nào (không phải âm và dương vô cùng) mà không phải tích số
của căn bậc hai của âm 1.
- Thang đo tỉ lệ
Các giá trị của thang tỉ lệ có thể so sánh được và sử dụng để thực hiện tất cả các
phép toán, bao gồm cả việc tính toán tỷ lệ với các giá trị thang tỉ lệ khác. Giá trị bằng 0
trên thang tỉ lệ biểu hiện sự vắng mặt về số lượng của hiện tượng được mô tả. Phép chia
cho 0 là không có ý nghĩa.
- Thang đo tuyệt đối
Một thang tuyệt đối có tất cả các thuộc tính của thang đo tỷ lệ và thêm một thuộc
tính nữa là: thang tuyệt đối có giá trị cực đại. Vì vậy thang tuyệt đối có thể được sử dụng
để thực hiện tất các các phép toán có ý nghĩa, bao gồm cả việc tính toán tỷ lệ phần trăm.
Các thang kế tiếp đều có tất cả các thuộc tính của thang đo trước đó. Chẳng hạn như
thang đo thứ bậc có thể dùng làm thang đo danh nghĩa. Thang đo tuyệt đối thường là
thang đo hữu ích nhất vì nó cho thực hiện tất cả các phép toán.
1.4.2. Thang đo lưỡng phân (thang đo nhị phân)
Thang đo lưỡng phân chỉ có thể có hai giá trị 0 và 1. Thang đo lưỡng phân là một dạng
đặc biệt vì nó đồng thời là tất cả các thang đo khác nhau. Mặc dù thang đo ít hữu dụng
hơn thông thường không có cùng các thuộc tính toán học như các thang đo hữu hạn, song
chúng ta có thể chuyển đổi các thang đo ít hữu dụng thành hữu dụng hơn. Phương pháp
để thực hiện chuyển đổi như vậy được mô tả trong bảng dưới đây:
Quy đổi Phương pháp
Định danh sang Thứ bậc Chuyển từng giá trị của thang đo thành một thang đo

lưỡng phân. Mỗi thang đo lại có tính bổ sung cho các
thang đo khác vì có giá trị bằng 1 trên một thang đo đơn lẻ
sẽ có nghĩa là có giá trị bằng 0 trên tất cả các thang đo
cong lại.
Thứ bậc sang Bán khoảng Kết hợp một vài thang đo thứ bậc bằng cách cộng các giá
trị của chúng lại với nhau.
Định khoảng sang Tỷ lệ Phân bố tích lũy hoặc các hàm số xác suất.
Tỷ lệ sang bán tuyệt đối Chia bởi giá trị cực đại quan sát được hoặc giá trị lý thuyết
Chú ý rằng một số việc quy đổi chỉ mang tính tương đối. Chẳng hạn như các giá trị
cộng của các thang đo như thứ bậc không hoàn toàn tạo ra một thang đo khoảng song
thang kết hợp này có tính chất như một thang đo khoảng nếu có đủ các giá trị. Tương tự
như vậy việc chia một thang tỷ lệ bởi một giá trị cực đại bất kỳ không hoàn toàn tạo ra
một thang tuyệt đối.
Một nguyên tắc chung là nên quy đổi các thang đo có độ chính xác cao hơn thành các
thang đo có độ chính xác thấp hơn.
1.4.3. Số thống kê và tham số
Một số thồng kê là tổng của tổng một biến số trong một mẫu quan sát cụ thể. Có hai
loại số thống kê chính: giá trị kỳ vọng của một biến số và sự khác biệt không kỳ vọng về
giá trị của biến số mà không cần đo lường thực tế. Chúng ta thường lấy trung bình làm kỳ
vọng và trung bình được tính toán bằng cách cộng tất cả các giá trị quan sát được và chia
cho số lượng các quan sát.
Phương sai thể hiện độ lớn của sự khác biệt kỳ vọng trong một mẫu đó là trung bình
của bình phương khoảng cách giữa mọi giá trị và giá trị trung bình. Phương sai là giá trị
tương ứng tới số lượng các giá trị khác biệt được quan sát được của một biến số. Căn bậc
hai của biến số này (còn được gọi là độ lệch chuẩn) mô tả khoảng cách tính trung bình
của từng giá trị so với giá trị trung bình.
Trong đánh giá của chúng ta thường thể hiện các điểm số kiểm tra bằng các giá trị kỳ
vọng (trung bình) của các điểm số câu hỏi.
Chúng ta có thể ước tính khoảng cách khác biệt giữa một giá trị so với giá trị trung
bình trên một số dựa trên gá trị của một biến số khác. Sự tương quan này cho biết độ lớn

của mối quan hệ giữa hai biến số này.Sự tương quan nằm trong khoảng -1 đến 1. -1 cho
biết một mối tương quan nghịch biến, tức là giá trị cao của một biến số lại liên quan đến
giá trị thấp của biến số kia. Giá trị 0 cho biết là không có mối quan hệ.
1.4.4. Số thống kê và câu hỏi
Về cơ bản chúng ta muốn biết một câu hỏi có phải là một phép đo hữu ích hay không.
Nếu chúng ta muốn tạo ra các điểm số hữu ích và có mối quan hệ chặt chẽ với các biến số
thì chúng ta cần sử dụng các câu hỏi mà có thể tạo ra một số lượng lớn các giá trị khác
nhau. Hơn nữa từng câu hỏicũng cần có mối quan hệ chặt chẽ vớihiện tượng mà chúng ta
đang đo lường. Tuy nhiên chúng ta không thể ước tính độ lớn của các mối quan hệ của
từng câu hỏi với những gì chúng ta đang đo lường mà không có một thang đo và đó chính
là mục đích của việc xây dựng các câu hỏi.
Để lựa chọn các câu hỏi tốt nhất để xây dựng một bài kiểm tra hữu ích nhất, đầu tiên
chúng ta phải xây dựng nhiều câu hỏi hơnsố câu hỏi chúng ta cần vì không phải tất cả câu
hỏi đều hữu ích. Sau đó chúng ta cần tính toán tạm thời các điểm số kiểm tra mà chúng ta
có thể sử dụng để đánh giá tính hữu dụng của từng câu hỏi. Cuối cùng chúng ta lựa chọn
các câu hỏi được cho là hữu ích nhất dựa trên số liệu thống kê.
1.4.5. Phân phối chuẩn
Các số thống kê dùng để ước tính các thông số. Trong khi một số thống kê chỉ đơn
giản là tổng các số liệu quan sat thấy thì một tham số lại giả định rằng chúng ta biết một
số hành vi cơ bản của tổng mẫu mà từ đó chúng ta rút mẫu. Một tham số là một giá trị mà
khi nhập vào một mô hình toán học sẽ có tác động tới hình dạng hoặc hành vi của mô
hình đó.
Mô hình toán học chúng ta thường gặp nhất được dùng trong thống kê là phân phối
chuẩn. Một phân phối được xác định bằng tham số thì được gọi là phân phối tham số.
phân phối chuẩn (phân phối Gauss) là một hàm số có dạng quả chuông với miền xác định
của biến số từ âm vô cùng tới dương vô cùng. Hầu hết các hiện tượng ngẫu nhiên quan
sát được đều có dạng phân phối chuẩn. Vì thế hầu hết các phương pháp thống kê đã biết
đều dựa vào giả định rằng các biến số cần xem xét có phân phối chuẩn. Phân phối chuẩn
có hai tham số, giá trị trung bình và độ lệch chuẩn. Giá trị trung bình là ước tính từ trung
bình của một mẫu, và độ lệch chuẩn là ước tính từ độ lệch chuẩn của một mẫu.

1.4.6. Năng lực tiềm ẩn và lý thuyết ứng đáp câu hỏi
Mối quan hệ giữa điểm số tổng và xác xuất trả lời đúng một câu hỏi được minh họa
bằng hàm câu trả lời (IRF). IRF có bốn thuộc tính chính:
− IRF có thể thay đổi về vị trí phương ngang và độ dốc.
− IRF có một điểm duy nhất cóđộ dốc cao nhất. Điểm này tương ứng với xác suất
0,50. Điểm này được gọi là tham số b.
− Vị trí theo phương ngang của IRF có liên quan tới độ khó của câu hỏi – câu hỏi
càng khó thì vị trí phương ngang của tham số b càng xa về bên phải.
− Độ dốc của IRF có liên quan đến độ lớn của mối quan hệ của một câu hỏi với điểm
số tổng. mối quan hệ càng lớn thì độ dốc tối đa của IRF càng lớn. Độ dốc tối đa
được mô tả bằng tham số a.
IRF rất hữu ích vì nó cho ta cách thức để liên hệ với các câu trả lời đơn lẻ với điểm số
tổng.Phương pháp truyền thống trong việc ước lượng điểm số là tính toán các giá trị
trung bình của các điểm số từng câu hỏi.Tuy nhiên phương pháp này có nhiều hạn chế.
Trước hết là số lượng các câu hỏi khó có thể giúp khái quát hóa về tập hợp các câu hỏi.
Chẳng hạn như một bài kiểm tra với chỉ hai câu hỏi không thể tạo ra điểm số 0,50% hay
100%. Khi bổ sung thêm các câu hỏi khác thì điểm số sẽ có thể khácvà vì thế sự khái
quát hóa sẽ lệch về phía các những yếu tố tăng thêm mà số lượng các câu hỏi thể hiện.
Trái lại, IRF liên kết khả năng trả lời đúng từng câu hỏi với tổng điểm số của bàikiểm tra
trong khoảng 0 và 100%.
Thứ hai là giới hạn trên và dưới là giả. Điểm số trung bình có giá trị tối thiểu là 0 và
giá trị cực đại là 100%, tức là sự khái quát hóa bài kiểm tra nằm trên một thang tuyệt đối.
Tuy nhiên, với bất kỳ bài kiểm tra nào cũng có thể tưởng tượng ra một câu hỏi bổ sung về
cùng một nội dung kiểm tra có độ khó cao hơn câu hỏi khó nhất có trong bài kiểm tra. Vì
vậy nếu như có ai đó đạt điểm 100% trong bài kiểm tra có câu hỏi khó hơn này thì họ có
lẽ có một điểm số thấp hơn thế. Điều ngược lại cũng đúng với các câu hỏi dễ hơn.Tương
tự như vậy thậm chí nếu một học sinh đạt điểm số 100% trong bài kiểm tra thì vẫn có thể
nghĩ rằng còn có một học sinh có học lực còn cao hơn. Tuy nhiên thang tuyệt đối sẽ
không thể phản ánh sai số của sự khác biệt này.
Để khắc phục hạn chế này, sẽ thích hợp hơn khi sử dụng IRF với thang đo Z (hay

thang đo chuẩn), có giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1, song lại không có
giá trị tối thiểu và giá trị cực đại. Vì thang đo này không có giới hạn giả nên cùng một
thang đo này có thể sử dụng để đánh giá học lực trong các bài kiểm tra khác nhau với bất
kỳ độ khó nào, và cũng có thể phân biệt được học sinh ở bất kỳ mức học lực nào.
1.4.7. Chỉ số về độ khó và chỉ số phân biệt
 Chỉ số về độ khó
Người ta xác định độ khó dựa vào việc thử nghiệm câu hỏi TN trên các đối tượng
thí sinh phù hợp, và định nghĩa độ khó p bằng tỉ số phần trăm thí sinh làm đúng câu hỏi
trên tổng số thí sinh tham gia câu hỏi đó:
Việc sử dụng trị số p để đo độ khó như trên cho ta biết mức khó dễ của các câu hỏi chỉ
dựa vào số liệu thống kê chứ không cần xem xét nội dung của chúng thuộc các lĩnh vực
khoa học khác nhau.
Các câu hỏi của đề TN thường có độ khó khác nhau. Theo công thức tính độ khó như
trên, rõ ràng giá trị p càng bé câu hỏi càng khó và ngược lại. Thông thường độ khó của
một câu hỏi có thể chấp nhận được nằm trong khoảng từ 0,25 đến 0,75; câu hỏi có độ khó
lớn hơn 0,75 là quá dễ, có độ khó nhỏ hơn 0,25 là quá khó.
Như đã biết, giả sử một câu hỏi có 5 phương án chọn thì xác suất làm đúng câu hỏi do
sự lựa chọn hú họa của một thí sinh không biết gì là 20% . Vậy độ khó trung bình của câu
hỏi 5 phương án chọn phải nằm giữa 20% và 100%, tức là 60%. Như vậy, nói chung độ
khó trung bình của một câu hỏi có n phương án chọn là
1
100%
2
n
+
. Độ khó trung bình
của một câu hỏi đúng – sai là 75%.
Khi chọn lựa các câu hỏi TN theo độ khó người ta thường phải loại các câu quá khó
(không ai là đúng) hoặc quá dễ (ai cũng làm đúng). Một đề TN tốt là đề có nhiều câu hỏi
ở độ khó trung bình.

Để xét độ khó của cả một đề TN, người ta có thể đối chiếu điểm số trung bình của đề
TN và điểm trung bình lí tưởng của nó. Điểm trung bình lí tưởng của một đề TN là điểm
số nằm giữa điểm số tối đa mà người làm đúng toàn bộ nhận được và điểm mà người
không biết gì có thể đạt do chọn hú họa. Giả sử có đề TN 50 câu, mỗi câu có 5 phương án
trả lời. Điểm thô tối đa là 50, điểm có thể đạt được do chọn hú họa là
0,2 50 10,× =
điểm
trung bình lý tưởng là
50 10
30.
2
+
=
Nếu điểm trung bình quan sát được trên hay dưới 30
quá xa thì đề TN ấy sẽ là quá dễ hay quá khó. Nói chung điểm trung bình lý tưởng nằm ở
khoảng giữa phân bố các điểm quan sát được thì đề TN là vừa sức đối với đối tượng thí
sinh, còn khi điểm đó nằm ở phía trên hoặc phía dưới phân bố điểm quan sát được thì đề
TN tương ứng là khó hơn hoặc dễ so với đối tượng thí sinh.
 Chỉ số độ phân biệt
Khi ra một câu hỏi hoặc một đề thi TN cho một nhóm thí sinh nào đóa, người ta
thường muốn phân biệt trng nhóm thí sinh ấy những người cso năng lực khác nhau: Giỏi,
Trung bình, Kém,… Khả năng của câu Tn thực hiện được caau TN ấy được họi là độ
phân biệt.
Dựa vào tổng điểm thô của từng thí sinh người ta tách từng đối tượng thí sinh ra một
nhóm bao gồm 27% thí sinh đạt điểm cao từ trên xuống, và nhóm kém gồm 27% thí sinh
đạt điểm kém từ dưới lên. Gọi C là số thí sinh làm đúng câu hỏi thuộc nhóm Giỏi, T là số
thí sinh làm đúng câu hỏi thuộc nhóm kém, S là số lượng thí của một trong hai nhóm nói
trên (27% tổng số) ta có biểu thức tính độ phân biệt D của câu hỏi như sau:
Chỉ số phân biệt câu hỏi là một chỉ báo tốt khác cho biết tính hữu ích của một câu hỏi.
Thuật ngữ “phân biệt” thường dùng để chỉ khả năng các câu hỏi đưa ra các điểm số khác

nhau đối với các học sinh có trình độ khác nhau.
Bảng 1.4.8.1 Chỉ số phân biệt
STT Cao Trung bình Thấp Chỉ số phân
biệt
1 0.98 0.98 0.91 0.07
2 0.97 0.91 0.44 0.53
3 1.00 0.98 0.89 0.11
4 0.70 0.36 0.21 0.49
5 0.93 0.92 0.94 -0.01
Theo quy tắc bàn tay trái, câu hỏi kiểm tra phù hợp nên có giá trị phân biệt trên 0.25, với
dữ liệu kiểm tra thí điểm thì có thể giảm xuống 0.2.
1.4.8. Phân tích yếu tố gây nhiễu
Có rất nhiều lý do một câu hỏi có chỉ số phân biệt thấp hay thậm chí mang giá trị âm.
Những lý do này bao gồm cách diễn đạt kém, các hướng dẫn trả lời câu hỏi dễ gây nhầm
lẫn, sai số chọn mẫu và lỗi gán nhầm đáp án hay gán mã đáp án sai.
Dưới hình thức đơn giản nhất, phân tích yếu tố gây nhiễu xem xét cách thức mỗi
phương án (hay mã điểm số) phân biệt giữa ba cấp độ kỹ năng của học sinh (cao 1/3,
trung bình, thấp) dựa trên điểm kiểm tra tổng thể. Bảng 1.4.8.1 trình bày một phân tích
yếu tố gây nhiễu điển hình cho một câu hỏi riêng biệt.
Bảng 1.4.8.1. Phân tích lỗi trả lời (hay lỗi gây nhiễu)
Nhóm
Q9 Tổng
1* 2 3 4 8 9
Cao 78.4 .1 14.7 2.5 4.2 100.0
Trung
bình
52.5 2.6 30.8 6.9 1.1 6.2 100.0
Thấp 18.1 17.4 38.1 17.6 .7 8.1 100.0
Tổng
cộng

50.5 6.6 27.4 8.9 .6 6.1 100.0
Câu hỏi Q9 có 4 phương án trả lời và hai mã số bị thiếu giá trị (8 và 9). Mã trả lời bị
thiếu 8 cho thấy không thể cho điểm câu trả lời học sinh hoặc bởi vì không đọcđược câu
trả lời, có hai phương án được chọn cùng một lúc hoặc một số vấn đề nào khác. Mã trả
lời 9 cho thấy học sinh đã để trống câu trả lời. Dấu hoa thị * bên cạnh phương án 1 thể
hiện nó là đáp án câu hỏi hay câu trả lời đúng. Tổng tỷ lệ học sinh chọ phương án 1 là
bằng với câu trả lời đúng câu hỏi đó. Nói chung một câu hỏi hoạt động tốt cần phải có
các đặc điểm sau:
− Phương án ở cột trả lời chính xác cần phải có tỷ lệ chọn cao đối với nhóm cao và
có tỷ lệ chọn thấp hơn lần lượt đối với các nhóm trung bình và thấp;
− Các cột ứng với các phương án không chính các cần phải có tỷ lệ xấp xỉ bằng với
mỗi cấp độ kỹ năng và tỏng thể;
− Với nhóm có kỹ năng cao, tỷ lệ chọn các phương án chính xác cần phải cao hơn tỷ
lệ chọn các phương án khác;
− Với nhóm có kỹ năng thấp, tỷ lệ chọn các phương án chính xác cần phải thấp hơn
tỷ lệ chọn các phương án khác;
− Với tất cả các nhóm, tỷ lệ các mã giá trị bị thiếu cần phải bằng gần 0;
− Nếu nhiều trả lời bị thiếu, tỷ lệ cần phải bằng nhau đối với các cấp độ kỹ năng.
Khi một câu hỏi nào đó không có các đặc điểm mong muốn này thì nó thường là kết
quả của một trong các lỗi sau: câu trả lời bị gán nhầm đáp hay đáp án bị gán nhầm mã số,
có nhiều câu trả lời đúng, câu hỏi có các yêu cầu khó hiểu hay nội dung câu hỏi kiểm tra
không thích hợp, quá khó hoặc quá dễ. Ví dụ trong mỗi vấn đề này được thể hiện trong
Bảng 1.4.8.2, Bảng 1.4.8.3, Bảng 1.4.8.4 và Bảng 1.4.8.5
Bảng 1.4.8.2. Lỗi gán nhầm đáp án hay gán sai mã số
Nhóm
Q9 Tổng
1 2 3* 4 8 9
Cao 78.4 .1 14.7 2.5 4.2 100.0
Trung
bình

52.5 2.6 30.8 6.9 1.1 6.2 100.0
Thấp 18.1 17.4 38.1 17.6 0.7 8.1 100.0
Tổng
cộng
50.5 6.6 27.4 8.9 0.6 6.1 100.0
Phân tích yếu tố gây nhiễu trong bảng 1.4.8.2 cho thấy rằng đáp án câu hỏi Q9 là 3 chứ
không phải 1. Dùng phương pháp tính toán chỉ số phân biệt đơn giản thể hiện rằng bằng
câu hỏi đối với Q9 là -0,23 (0.147 - 0,381). Sự xuất hiện của chỉ số phân biệt âm cho thấy
một câu hỏi có thể bị gán nhầm đáp án. Bạn có thể xác định đáp án đúng bằng cách đi tìm
tìm ra phương án nào thỏa mãn nhiều nhất các điều kiện được mô tả ở trên. Trong trường
hợp này, phương án 1 (được tô đậm) là phương án duy nhất có tỷ lệ học sinh chọn
phương án chính xác cao hơn tỷ lệ chọn các phương án khác. Chú ý rằng việc chọn lựa
câu trả lời chính xác là trách nhiệm của chính các chuyên gia về vấn đềđó chứ không phải
của người phân tích dữ liệu.
Bảng 1.4.8.3. Sự phân biệt thấp: nhiều hơn một câu trả lời “chính xác”

×