Tải bản đầy đủ (.pdf) (35 trang)

Vận dụng lý thuyết khảo thí cổ điển nhằm nâng cao chất lượng đề trắc nghiệm khách quan

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.34 MB, 35 trang )


SỞ GIÁO DỤC – ĐÀO TẠO BÌNH PHƯỚC
TRƯỜNG THPT CHUYÊN QUANG TRUNG















SÁNG KIẾN KINH NGHIỆM

VẬN DỤNG LÝ THUYẾT KHẢO THÍ CỔ ĐIỂN
NHẰM NÂNG CAO CHẤT LƯỢNG ĐỀ
TRẮC NGHIỆM KHÁCH QUAN













Người thực hiện: Nguyễn Văn Nghiêm
Tổ chuyên môn: Tin học









BÌNH PHƯỚC - 2012
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

MỤC LỤC
A. Tổng quan 1
1. Đặt vấn đề 1
2. Mục đích, nhiệm vụ của SKKN 2
3. Cấu trúc SKKN: 2
4. Giới thiệu về dữ liệu đề thi 2
B. Nội dung 3
Chương 1. Cơ sở lý luận 3
1. Các tham số cơ bản của lý thuyết khảo thí cổ điển 4
1.1. Sai số 4
1.2. Điểm thực của thí sinh 4

1.3. Phương sai của điểm làm bài test 5
1.4. Đồng phương sai (covariance) 5
2. Phân tích câu hỏi thi theo lý thuyết khảo thí cổ điển 6
2.1. Phương pháp chuyên gia 6
2.2. Phân tích thống kê các câu hỏi thi kiểm tra 8
3. Kết luận chương 1 13
Chương 2. Phân tích đề thi bằng lý thuyết cổ điển 14
1. Độ khó của câu hỏi thi: 14
2. Các khả năng nhầm đáp án 16
3. Chất lượng của các phương án sai (mồi nhử) 16
4. Độ phân biệt của câu hỏi thi 19
5. Hệ số tương quan giữa điểm của câu hỏi thi với điểm toàn bài thi 20
6. Kết luận chương 2 21
Chương 3. Những ứng dụng thực tiễn và kết quả 23
1. Đánh giá và cho điểm 23
2. Xây dựng ngân hàng câu hỏi 23
3. Đánh giá công tác biên soạn đề. 24
4. Kết luận chương 3 24
C. Kết luận & kiến nghị 25
Tài liệu tham khảo 27
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

PHỤ LỤC 28
Nhận xét của hội đồng khoa học 32



DANH MỤC BẢNG BIỂU
Bảng 1. Giá trị p của một câu hỏi trắc nghiệm 10

Bảng 2. Giá trị p của một câu hỏi trắc nghiệm kém chất lượng 10
Bảng 3. Giá trị p của một câu hỏi nhầm đáp án 12
Bảng 4. Giá trị p của các nhóm thí sinh đạt kết quả cao và kết quả thấp 12
Bảng 5. Độ khó câu hỏi thi 15
Bảng 6. Thống kê phân bổ độ khó 15
Bảng 7. Các câu có độ khó dươi 0.4 15
Bảng 8. Độ lệch giữa nhóm trên và nhóm dưới. 19
Bảng 9. Phân bổ độ lệch của đáp án 19
Bảng 10. Độ phân biệt câu hỏi thi 20
Bảng 11. Thống kê phân bổ độ phân biệt 20
Bảng 12. Hệ số tương quan 21
Bảng 13. Thống kê HSTQ 21


DANH MỤC PHỤ LỤC
Biểu mẫu 1. Phiếu đánh giá sự tương hợp giữa câu hỏi thi kiểm tra và mục đích
của kỳ thi kiểm tra: 28
Biểu mẫu 2. Tổng hợp ý kiến của chuyên gia về sự tương hợp giữa câu hỏi thi
kiểm tra và mục đích của kỳ thi kiểm tra: 30

Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

1
A. Tổng quan
1. Đặt vấn đề
Trên thực tế, học lực (năng lực) của học sinh Việt Nam vẫn còn được
đánh giá thông qua điểm số thô, nghĩa là điểm có được từ các bài thi/kiểm tra

chứ chưa áp dụng các phương pháp thống kê chuyển đổi các điểm số thô thành
điểm chuẩn bằng việc sử dụng giá trị trung bình và độ lệch chuẩn, chẳng hạn
như, t-scores, z-scores. Vì vậy, sai số của đề thi là vấn đề rất cần được quan tâm.
Theo PGS.TS Nguyễn Phương Nga thì việc đánh giá năng lực học sinh “Có thể
khái quát bằng công thức: Năng lực học sinh = Điểm thi + sai số chuẩn. Sai số
càng lớn thì mức độ đánh giá chính xác càng giảm. Ra đề thi như hiện nay,
nhiều học sinh sẽ trượt oan nhưng cũng nhiều học sinh đỗ oan.”
Để nâng cao chất lượng đề thi, thu nhỏ sai số chuẩn, thì việc đầu tiên cần
quan tâm là việc viết câu hỏi thi và tổ hợp thành đề thi. Người thiết kế đề thi
phải dựa trên các chuẩn: chuẩn chương trình, chuẩn mục tiêu đào tạo của từng
môn học, chuẩn kiến thức yêu cầu người học phải đạt được khi hoàn tất một lớp
học, bậc học hay chương trình đào tạo Từ chuẩn mới có thể đo lường được
bằng các yêu cầu cụ thể về kiến thức, kỹ năng để ra đề thi. Đặc biệt, người thiết
kế đề thi phải được trang bị kiến thức về kiểm tra, đánh giá mới có thể làm việc
một cách khoa học và như thế mới đánh giá đúng hơn năng lực của người học
thông qua đề thi/kiểm tra.
Vận dụng những kinh nghiệm công tác và kiến thức có được từ các môn
học như: Cơ sở khoa học và thiết kế các loại hình kiểm tra đánh giá kết quả học
tập, Lý thuyết đo lường và đánh giá, Mô hình Rasch và Phân tích dữ liệu bằng
phần mềm QUEST,…; với mong muốn góp phần nâng cao chất lượng trong
công tác kiểm tra đánh giá trong nhà trường, tác giả chọn đề tài sáng kiến kinh
nghiệm: “Vận dụng lý thuyết khảo thí cổ điển nhằm nâng cao chất lượng đề trắc
nghiệm khách quan”. Rất mong nhận được ý kiến nhận xét, góp ý của cô và các
bạn đồng nghiệp.
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

2

2. Mục đích, nhiệm vụ của SKKN
Hệ thống hóa một số vấn đề lý luận về đo lường và đánh giá trong giáo
dục, về các loại hình kiểm tra đánh giá kết quả học tập, phương pháp soạn đề
thi-kiểm tra nhằm phục vụ công việc xây dựng đề thi kiểm tra.
SKKN vận dụng lý thuyết khảo thí cổ điển nhằm đánh giá câu hỏi thi.
Qua đó có thể trả lời các câu hỏi nghiên cứu như:
- Đề thi có phù hợp với năng lực của nhóm thí sinh dự thi hay không?
Nếu chưa phù hợp thì cần điều chỉnh như thế nào?
- Có câu hỏi nào trong đề không phù hợp và cần chỉnh sửa hay loại bỏ hay
không?
Những phân tích này là cơ sở để đánh giá, cho điểm bài thi/kiểm tra và
lựa chọn câu hỏi đạt chất lượng xây dựng ngân hàng câu hỏi thi. Đồng thời đưa
ra khuyến cáo cho công tác viết câu hỏi trắc nghiệm trong những lần ra đề sau
này đạt chất lượng được tốt nhất, đề xuất một số gợi ý đối với cấp quản lý giáo
dục và giáo viên về vấn đề kiểm tra, đánh giá.
3. Cấu trúc SKKN:
A. Tổng quan
B. Nội dung
Chương 1. Cơ sở lý luận
Chương 2. Phân tích đề thi bằng lý thuyết cổ điển
Chương 3. Những ứng dụng thực tiễn
C. Kết luận
4. Giới thiệu về dữ liệu đề thi
Bộ dữ liệu là kết quả làm bài kiểm tra học kỳ của học sinh lớp 11 trường
THPT chuyên Quang Trung, năm học 2010 – 2011, môn Tin học với 50 câu hỏi
trắc nghiệm (dạng 4 lựa chọn) gồm 210 thí sinh tham gia dự thi.
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –


3
File dữ liệu có 52 biến gồm: mahs, gioi, Cau1, , Cau50. Trong đó mahs
là mã số thí sinh (case), gioi là thông tin về giới tính (0 là nữ, 1 là nam) và các
biến từ Cau1 đến Cau50 là kết quả trả lời của 50 câu trắc nghiệm (item).

B. Nội dung
Chương 1. Cơ sở lý luận
Một trong những ứng dụng của lý thuyết đánh giá cổ điển là phân tích câu
hỏi thi kiểm tra. Phân tích câu hỏi thi kiểm tra là một quá trình xem xét chúng
một cách kỹ lưỡng và có phê phán. Phân tích câu hỏi thi kiểm tra nhằm làm tăng
chất lượng của chúng, loại bỏ những câu hỏi quá tồi, sửa chữa những câu hỏi có
thể sửa được và giữ lại những câu hỏi đáp ứng yêu cầu.
Phân tích câu hỏi thi kiểm tra có thể thực hiện bằng một trong hai phương
pháp:
(1) Phương pháp chuyên gia (Phương pháp bình phẩm, phê phán) bằng
cách đề nghị một số chuyên gia cho ý kiến nhận xét về những câu hỏi thi kiểm
tra cụ thể theo một số tiêu chí đề ra. Những người được hỏi có thể là các chuyên
gia môn học, chuyên gia soạn thảo văn bản, thậm chí là một số thí sinh.
Cách tiếp cận này có hai nguyên tắc:
 Người được hỏi phải là người có khả năng bình phẩm, phê phán các
câu hỏi thi kiểm tra;
 các câu hỏi thi kiểm tra được viết theo một nguyên tắc đã được xác
định và có các tiêu chí để bình phẩm, phê phán.
(2) Phương pháp định lượng (Phân tích số liệu): Phân tích thống kê kết
quả làm bài của thí sinh. Sau khi có kết quả, nhập dữ liệu để phân tích. Việc này
thường làm trong quá trình thử nghiệm các câu hỏi thi kiểm tra. Mục đích chính
của thử nghiệm là thu thập dữ liệu để phân tích các câu hỏi thi kiểm tra, chỉ ra
những câu hỏi thi kiểm tra cần phải sửa.
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm

2012

www.chuyenquangtrung.com.vn –

4
Các phương pháp phân tích số liệu và bình phẩm, phê phán đều quan
trọng để nâng cao chất lượng câu hỏi thi kiểm tra.
1. Các tham số cơ bản của lý thuyết khảo thí cổ điển
Vấn đề cốt lõi của lý thuyết khảo thí cổ điển được thể hiện bởi phương
trình cơ bản sau:
x
i
= t
i
+ e
i

[1]
Trong đó: x
i
là điểm làm bài test của thí sinh i
t
i
là điểm thực của thí sinh i
e
i
là sai số
1.1. Sai số
Trong lý thuyết khảo thí cổ điển, sai số được giả thiết là đại lượng ngẫu
nhiên. Sai số, đôi khi có thể lớn, nhỏ, có thể có giá trị âm hoặc dương Sai số

hệ thống được bỏ qua.
Vì sai số là đại lượng ngẫu nhiên nên:
- Với một số lượng thí sinh lớn, trung bình cộng của sai số ngẫu nhiên
bằng 0.
0
N
e
e
N
1i
i




[2]
Do đó, trung bình cộng điểm làm bài của thí sinh bằng trung bình cộng
điểm thực của họ, tức là
xt 

- Sai số ngẫu nhiên phải không có mối tương quan với điểm thực
Mối tương quan giữa t và e = 0
- Mối tương quan của sai số giữa hai test = 0
1.2. Điểm thực của thí sinh
Điểm thực của thí sinh i, tức là t
i
được xác định như sau:
Khi thí sinh thực hiện k bài test đồng nhất thì
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012


www.chuyenquangtrung.com.vn –

5
k
e
t
k
x
k
s
i
i
k
s
i



11

[3]

Khi k khá lớn thì
k
x
t
k
s
is

k
i




1
lim

[4]

Những bài test đồng nhất là những bài test đo cùng một đại lượng và bao
gồm những câu hỏi tương tự. Như vậy, với một số test đồng nhất thì:
a. Điểm thực của mỗi thí sinh trong hai bài test phải tương đương nhau
b. Phương sai của điểm quan sát được (điểm làm bài) của thí sinh trong hai
bài test cũng phải tương đương nhau
c. Tương quan của điểm làm bài của thí sinh trong hai bài test bất kỳ phải có
cùng một giá trị.
1.3. Phương sai của điểm làm bài test
Từ phương trình cơ bản (1) và tính chất của sai số ngẫu nhiên, ta có
var(x) = var(t) + var(e) [5]
Phương sai của điểm làm bài test của thí sinh có thể chia làm hai phần:
a. Phương sai của điểm thực, và
b. Phương sai của sai số ngẫu nhiên.
Điều đó chứng tỏ phương sai của điểm làm bài test của thí sinh phải lớn bằng
phương sai của điểm thực vì phương sai của sai số tự nhiên bằng 0. Một điều
kiện để đánh giá bài test là tỷ lệ var(t)/var(x) gần bằng 1 (độ tin cậy của bài test).
1.4. Đồng phương sai (covariance)
Cho hai bài test đồng nhất 1 và 2
x

i1
= t
i1
+ e
i1

x
i2
= t
i2
+ e
i2

và t
i1
= t
i2
.
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

6
Đồng phương sai (covariance) của x
i4
và x
i2
là tổng của 4 phần:
a đồng phương sai giữa t

i1
và t
i2
, chính là var(t)
b đồng phương sai giữa t
i1
và e
i2
, bằng 0
c đồng phương sai giữa e
i1
và t
i2
, bằng 0
d đồng phương sai giữa e
i1
và e
i2
, bằng 0
Do đó cov(x
1
, x
2
) = var(t)
Mối tương quan giữa x1 và x2 = độ tin cậy của bài test.
2. Phân tích câu hỏi thi theo lý thuyết khảo thí cổ điển
Cộng dụng trước hết của việc phân tích câu hỏi thi kiểm tra là để làm tăng
giá trị nội dung của câu hỏi thi kiểm tra. Chất lượng của câu hỏi thi kiểm tra có
thể được làm tăng lên bằng cách thu thập các bằng chứng liên quan đến nội dung
của câu hỏi thi kiểm tra từ đó loại bỏ hoặc điều chỉnh những câu hỏi chưa đạt

yêu cầu.
2.1. Phương pháp chuyên gia
Có thể hỏi ý kiến về mức độ tương thích và phù hợp (tương hợp) giữa
những câu hỏi thi kiểm tra cụ thể với nội dung mà chúng ta dự định kiểm tra
đánh giá bằng chính những câu hỏi thi kiểm tra đó. Việc này đòi hỏi phải tập
hợp một nhóm chuyên gia để đánh giá mức độ phù hợp giữa câu hỏi thi kiểm tra
với nội dung cần kiểm tra đánh giá theo một số tiêu chí đã được xác định.
Hai phương pháp chính để lấy ý kiến của chuyên gia về mức độ tương
hợp giữa nội dung cần kiểm tra đánh giá và câu hỏi thi kiểm tra là:
Phương pháp thứ nhất: người đánh giá được cung cấp mục đích, nội
dung của kỳ thi kiểm tra và các câu hỏi thi kiểm tra dự định dùng để kiểm tra
đánh giá học sinh. Nhiệm vụ của người đánh giá là khẳng định các câu hỏi thi
kiểm tra phù hợp hay không phù hợp với mục đích và nội dung dự định kiểm tra
đánh giá học sinh. Tất nhiên, cần có một mẫu phiếu để ghi lại các ý kiến của
người đánh giá. Phiếu đánh giá cho phép người đánh giá ghi lại 3 mức độ của sự
tương hợp:
- Rất phù hợp
- Tương đối phù hợp hoặc không chắc chắn là phù hợp
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

7
- ít hoặc hoàn toàn không phù hợp
Ba mức này là đủ để đánh giá một câu hỏi thi kiểm tra. Bên cạnh phần ghi
kết quả đánh giá còn dành chỗ để ghi các ý kiến về lý do đưa ra các mức đánh
giá đó. Biểu mẫu 1 (xem phụ lục) là một ví dụ về phiếu đánh giá câu hỏi thi
kiểm tra.
Phương pháp thứ hai: (mạnh hơn và khó hơn) để thu thập sự nhất trí của

các chuyên gia về sự tương hợp giữa câu hỏi thi kiểm tra và mục đích của kỳ thi
kiểm tra bằng cách yêu cầu họ chỉ ra những câu hỏi thi kiểm tra tương hợp với
những mục đích cụ thể của kỳ thi kiểm tra nhưng không cho họ biết dự định của
người viết câu hỏi thi kiểm tra. Người đánh giá sẽ lựa chọn những câu hỏi thi
kiểm tra tương hợp với từng mục đích của kỳ thi kiểm tra, theo ý kiến cá nhân
của họ và ghi vào phiếu đánh giá. Ban thư ký sẽ tổng hợp lại ý kiến của các
chuyên gia đánh giá.
Ý kiến thống nhất của các chuyên gia đánh giá về sự tương hợp giữa câu
hỏi và mục đích cụ thể của kỳ thi kiểm tra là bằng chứng về giá trị nội dung của
câu hỏi thi kiểm tra. Biểu mẫu 2 (xem phụ lục) đưa ra một ví dụ về phiếu đánh
giá theo phương pháp này. Các biểu mẫu 1 và 2 (R.K. Hambleton “Validating
the test scores” (p.225) in R.A. Berk (Ed.) A Guide to Criterion-Referenced Test
Construction, 1984, Baltimore. Xem phụ lục) có thể được điều chỉnh, sửa đổi để
phù hợp với từng trường hợp cụ thể.
Để tăng thêm tính chính xác, các chuyên gia có thể được mời phản biện
kín, họ không tiếp xúc với bộ phận viết câu hỏi thi kiểm tra, không biết những
chuyên gia khác cũng được mời đánh giá. Họ nhận nhiệm vụ và gửi ý kiến của
họ qua bưu điện, fax, email hoặc giao dịch qua điện thoại với Ban tổ chức. Cách
làm này đảm bảo các ý kiến của chuyên gia ít bị tác động bởi những người khác.
Thông thường một nhóm 4-5 chuyên gia đủ để đánh giá từng câu hỏi thi
kiểm tra. Tuy nhiên, nếu có quá nhiều câu hỏi thi kiểm tra cần đánh giá thì có
thể lập một số nhóm chuyên gia, mỗi nhóm có 4-5 người. Với những đề thi kiểm
tra quan trọng như các kỳ thi tuyển sinh, thi tốt nghiệp thì có thể lập mỗi nhóm
gồm 10 thậm chí 15 chuyên gia để đánh giá các câu hỏi thi kiểm tra. Không nên
để 1 người hoặc chính những người viết câu hỏi thi kiểm tra làm công việc này
để hạn chế tối đa các sai sót có thể xẩy ra.
Mỗi nhóm chuyên gia nên có hai thành phần:
 Chuyên gia môn học,
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012


www.chuyenquangtrung.com.vn –

8
 Chuyên gia được đào tạo để đánh giá các câu hỏi thi kiểm tra.
Chuyên gia môn học phải là những người có uy tín chuyên môn và am
hiểu việc tổ chức thi kiểm tra và có kinh nghiệm viết câu hỏi thi kiểm tra. Các
chuyên gia được đào tạo để đánh giá câu hỏi thi kiểm tra phải được đào tạo kỹ,
được trao đổi nhiều kinh nghiệm khác nhau để có thể phát hiện nhanh các lỗi
của câu hỏi thi kiểm tra.
Định lượng kết quả đánh giá của chuyên gia
Sau khi các chuyên gia hoàn thành nhiệm vụ, cần thu thập kết quả đánh
giá và lập thành cơ sở dữ liệu đánh giá câu hỏi thi kiểm tra, tiến hành phân tích
và lý giải các kết quả thu được để xác định mức độ đồng nhất ý kiến của các
chuyên gia về mỗi câu hỏi thi kiểm tra. Những người viết câu hỏi thi kiểm tra
nhận các thông tin phản hồi về chất lượng câu hỏi thi kiểm tra để xác định liệu
có đạt được những ý kiến thống nhất về việc các câu hỏi thi kiểm tra phù hợp
với những mục đích của kỳ thi kiểm tra như dự định hay không. Mặc dù không
có những con số qui định và chính xác, nhưng các câu hỏi thi kiểm tra được xem
là được đánh giá thống nhất nếu có ít nhất 4 trên 5 hay 8 trên 10 chuyên gia
đồng ý (đạt ít nhất 80%).
Mặc dù phương pháp lập bảng thống kê các ý kiến đồng ý của chuyên gia
là phương pháp được sử dụng rộng rãi, tuy nhiên nhiều phương pháp khác cũng
được ưa dùng trong nhiều trường hợp, nhưng chưa được giới thiệu ở đây.
2.2. Phân tích thống kê các câu hỏi thi kiểm tra
Một số thống kê có thể chỉ ra những thuộc tính cụ thể của câu hỏi thi kiểm
tra, qua đó chung ta biết được những câu hỏi tốt và chưa tốt. Các nhà nghiên cứu
(Crocker & Algina, 1986) đã phân loại các chỉ số thường được sử dụng như sau:
1. Những chỉ số mô tả sự phân bố trả lời của thí sinh về một câu hỏi cụ thể
(trung bình cộng và phương sai trả lời của thí sinh).

2. Những chỉ số mô tả mức độ của mối quan hệ giữa sự trả lời của thí sinh
về một câu hỏi và những tiêu chí cụ thể đang được quan tâm.
3. Những chỉ số liên quan đến phương sai của câu hỏi thi kiểm tra và mối
liên hệ với những tiêu chí cụ thể.
Một số thống kê thường được sử dụng để mô tả các thông số trên của câu
hỏi thi kiểm tra là giá trị p, phương sai, một số chỉ số phân biệt như hệ số tương
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

9
quan point-biserial, hệ số tương quan biserial, hệ số tương quan phi. Mỗi chỉ số
thống kê này đều quan trọng với những mục tiêu cụ thể khi phân tích câu hỏi thi
kiểm tra. Dưới đây chỉ mới giới thiệu việc sử dụng giá trị p vào việc phân tích
câu hỏi thi kiểm tra.
2.1 Độ khó của câu hỏi thi kiểm tra:
Độ khó của câu hỏi (giá trị p) được sử dụng rộng rãi đối với các câu hỏi
đúng/sai, đa lựa chọn. Giá trị p là tỷ lệ thí sinh trả lời đúng so với tổng số thí
sinh tham gia trả lời câu hỏi đó. Ví dụ: Giả sử 100 thí sinh tham gia trả lời 1 câu
hỏi nào đó và có 80 thí sinh trả lời đúng. Khi đó giá trị p = 80/100 = 0.80, cho
biết có 80% thí sinh trả lời đúng. Nếu có 300 thí sinh nhưng chỉ có 225 thí sinh
trả lời đúng thì giá trị p = 0.75 (vì 225/300 = 0.75).
Giá trị p của mỗi câu hỏi chưa nói lên được câu hỏi đó tốt hay không,
nhưng nó nói lên độ khó tương đối của câu hỏi đó đối với số thí sinh tham gia
làm bài test. Nếu một nhóm thí sinh khác trả lời câu hỏi đó thì giá trị p có thể
khác.
Khái niệm Sự phụ thuộc mẫu (sample dependence) thường được sử dụng
để phản ánh một số phương diện nào đó của một nhóm hay tập hợp thí sinh
tham gia làm bài thi kiểm tra. Ví dụ: một nhóm học sinh lớp ba và một nhóm

khác học sinh lớp 5 cùng làm một bài test. Kết quả cho thấy giá trị p giữa hai
nhóm sẽ rất khác nhau. Khi đó, mỗi câu hỏi sẽ có hai giá trị p, một giá trị p chỉ
độ khó tương đối so với học sinh lớp 3 và một giá trị p khác - so với học sinh
lớp 5. Như vậy, giá trị p phụ thuộc vào mẫu thí sinh tham gia làm bài test.
2.2 Sử dụng giá trị p để phân tích câu hỏi thi kiểm tra
Giá trị p có ý nghĩa quan trọng đối với những người viết câu hỏi thi kiểm
tra trong quá trình phân tích câu hỏi. Hiểu đúng ý nghĩa của giá trị p và lý giải
hợp lý các kết kết quả thu được, người viết câu hỏi có thể thấy được mức độ phù
hợp của các câu hỏi đó đối với nhóm thí sinh. Ngoài ra, giá trị p còn giúp xác
định một số lỗi khác của câu hỏi để kịp thời điều chỉnh, sửa đổi hoặc rút kinh
nghiệm cho lần sau. Ví dụ: lỗi do dùng từ, hành văn làm thí sinh không hiểu câu
hỏi, hiểu nhầm, bị đánh lừa hay có nhiều cách hiểu khác nhau; lỗi trong phần lựa
chọn của câu hỏi trắc nghiệm; không có phương án trả lời đúng hay có nhiều
phương án trả lời đúng Giá trị p cũng có thể cho thấy kết quả làm bài của các
nhóm thí sinh khác nhau trong cùng một tập hợp (ví dụ: cũng là học sinh lớp 5
nhưng của những tỉnh có đặc trưng khác nhau như thành phố, nông thôn, miền
núi ).
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

10
Khi phân tích câu hỏi trắc nghiệm, giá trị p được tính cho từng phương án
trả lời, bằng tỷ lệ giữa số thí sinh lựa chọn từng phương án (ví dụ: số thí sinh
chọn phương án A) với tổng số thí sinh (kể cả số thí sinh bỏ sót hay không trả
lời câu hỏi đó)
Bảng 1. Giá trị p của một câu hỏi trắc nghiệm
Phương án trả lời
A

B
C*
D
Bỏ sót
Tổng
Số lượng
28
17
197
41
3
286
Giá trị p
0.10
0.06
0.69
0.14


Ghi chú: * ký hiệu phương án trả lời đúng.
Trong ví dụ này, đa số thí sinh trả lời được câu hỏi này và đã lựa chọn
phương án C. Giá trị p = 0.69 cho thấy câu hỏi này không quá dễ và không quá
khó đối với nhóm thí sinh này. Tất cả các phương án đều thu hút được một số thí
sinh lựa chọn, không có phương án nào có giá trị p = 0. Điều đó có nghĩa không
một phương án nào bị thí sinh loại trừ. Điều này chứng tỏ câu hỏi trắc nghiệm
này có chất lượng, tuy nhiên, phương án B có giá trị p = 0.06 là quá bé chứng tỏ
phương án này chỉ thu hút được một số ít thí sinh có năng lực thấp, với hầu hết
những thí sinh có năng lực cao hơn thì phương án B là phương án sai tương đối
rõ, bị nhiều thí sinh loại trừ. Phương án B cần được nghiên cứu thêm để giảm
khả năng loại trừ quá lộ liễu.

Một câu hỏi có thể quá dễ đối với nhóm thí sinh này và quá khó đối với
nhóm thí sinh khác. Người viết câu hỏi thi kiểm tra cần quan tâm đến giới hạn
thích hợp của giá trị p đối với một nhóm thí sinh nhất định. Theo Osterlind
(1989), giá trị p nên nằm trong khoảng từ 0.40 đến 0.80. Dưới 0.4 nghĩa là câu
hỏi quá khó và trên 0.80 là quá dễ đối với nhóm thí sinh. Người viết câu hỏi thi
kiểm tra cố gắng điều chỉnh để độ khó của câu hỏi rơi vào trong khoảng 0.4-0.8
cho phù hợp với đối tượng dự thi kiểm tra.
Bảng 2. Giá trị p của một câu hỏi trắc nghiệm kém chất lượng
Phương án trả lời
A*
B
C
D
Bỏ sót
Tổng
Số lượng
77
0
130
63
16
286
Giá trị p
0.27
0.00
0.45
0.22
0.06

Ghi chú: * ký hiệu phương án trả lời đúng.

Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

11
Trong ví dụ này, giá trị p chỉ ra một số lỗi trong câu hỏi thi kiểm tra. Rõ ràng,
thí sinh bị nhầm lần khi trả lời câu hỏi này. Phương án A (lựa chọn đúng) lại thu
hút được ít thí sinh (27%) hơn phương án C (lựa chọn sai). Phương án B không
thu hút được một thí sinh nào, chứng tỏ phương án này sai quá lộ liễu nên bị loại
trừ. Hơn nữa, khoảng 6% thí sinh không trả lời câu hỏi này cũng là một dấu hiệu
về sự sai sót của câu hỏi. Những điều trên chỉ ra rằng, câu hỏi này sai rất nghiêm
trọng, không chấp nhận được.
Mặc dù những cách lý giải ở trên mới chỉ dựa trên lý thuyết đánh giá cổ
điển, chưa hoàn toàn phù hợp với lý thuyết đánh giá hiện đại, nhưng những
thông tin do giá trị p đưa đến cũng rất bổ ích để suy xét chất lượng của câu hỏi
thi kiểm tra.
Người đọc có thể thấy rằng câu hỏi có nhiều sai sót chắc chắn không phải
do những chuyên gia giỏi biên soạn và họ không phải là người biết làm việc
nghiêm túc. Người đọc cần lưu ý rằng các lỗi ẩn chứa trong mỗi câu hỏi không
dễ phát hiện ra trừ phi các câu hỏi đó được phân tích kỹ lưỡng. Viết câu hỏi thi
kiểm tra mới chỉ là việc làm bước đầu, nó đòi hỏi phải được thử nghiệm trước
khi sử dụng và sau mỗi lần tổ chức thi kiểm tra cần được phân tích kỹ lưỡng để
rút kinh nghiệm và đồng thời để lý giải được kết quả làm bài của thí sinh.
2.3 Nhầm đáp án
Một thuộc tính bổ ích khác của giá trị p là giúp xác định những câu hỏi bị
nhầm đáp án. Rất tiếc, nhầm đáp án là một hiện tượng khá phổ biến trong quá
trình viết câu hỏi trắc nghiệm. Trong nhiều trường hợp, những nhầm lẫn này có
thể hiểu được. Nhiều khi, sự đơn điệu và buồn tẻ trong việc viết câu hỏi thi kiểm
tra làm các chuyên gia thiếu tập trung, dẫn đến nhầm đáp án. Những lúc khác, sự

mơ hồ, thiếu rõ ràng trong việc hành văn, diễn đạt câu hỏi đã gây khó khăn cho
việc xác định phương án trả lời đúng. Khi viết những câu hỏi để đánh giá những
kỹ năng của quá trình nhận thức phức tạp, sự phức tạp về nội dung hoặc thuật
ngữ có thể dẫn đến xác định sai đáp án.
Những câu hỏi thi kiểm tra bị nhầm đáp án thường bị phát hiện khi người
soạn câu hỏi xem bảng giá trị p và thấy có sự khác biệt lớn giữa dự định và thực
tế trả lời của thí sinh. Ví dụ: Bảng 3 cung cấp thông tin thống kê liên quan đến 1
câu hỏi trên cơ sở kết quả làm bài của thí sinh và cho thấy, người soạn câu hỏi
này cho rằng phương án B là đáp án của câu hỏi nhưng thực tế đa số thí sinh đều
chọn phương án A. Tuy đây là câu hỏi tốt vì các phương án B, C và D có giá trị
p tương đối gần nhau và cùng khác biệt với giá trị p của phương án A, nhưng
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

12
đây lại là một câu hỏi nhầm đáp án. Người soạn câu hỏi cần nghiên cứu lại vì
thông tin thống kê cho thấy phương án A mới là đáp án.
Bảng 3. Giá trị p của một câu hỏi nhầm đáp án
Phương án trả lời
A
B*
C
D
Bỏ sót
Tổng
Số lượng
202
31

28
25
0
286
Giá trị p
0.71
0.11
0.10
0.09


Ghi chú: * ký hiệu phương án trả lời đúng.
2.4 So sánh các giá trị p giữa các nhóm đạt kết quả cao và kết quả thấp
Đôi khi cũng nên so sánh các nhóm thí sinh khác nhau để xác định các
thuộc tính của câu hỏi thi kiểm tra. Nhằm mục đích đó, hai nhóm thí sinh được
chọn ra: một nhóm có kết quả cao và nhóm khác có kết quả thấp. Cụ thể, nhóm
thứ nhất bao gồm 27% số thí sinh làm bài test có tổng điểm bài test cao nhất.
Nhóm thứ hai bao gồm 27% số thí sinh làm bài test có tổng điểm bài test thấp
nhất. Kelly (1939) cho rằng con số 27 có thể cho một chỉ số ổn định về sự khác
nhau giữa hai nhóm có năng lực cao và thấp. Sự so sánh này nhằm làm rõ mức
độ khác biệt kết quả làm bài của hai nhóm thí sinh có năng lực khác nhau.
Bảng 4. Giá trị p của các nhóm thí sinh đạt kết quả cao và kết quả thấp
Phương án trả lời
A
B*
C
D
Bỏ sót
Nhóm trên
0.29

0.61
0.08
0.02
1
Nhóm dưới
0.31
0.27
0.31
0.11
6
Sự khác nhau
-0.2
0.34
-0.23
-0.9

Ghi chú: * ký hiệu phương án trả lời đúng.
Bảng 4 cho thấy câu hỏi này không khó đối với nhóm trên nhưng khá khó
đối với nhóm dưới. Sự khác nhau giữa hai nhóm khi lựa chọn phương án B là
khá lớn. Sự khác nhau ở các phương án A, C và D cho thấy ít thí sinh ở nhóm
trên lựa chọn các phương án này hơn so với nhóm dưới. Tuy nhiên, sự khác
nhau không đáng kể giữa hai nhóm khi lựa chọn phương án A là dấu hiệu có sự
phân biệt không đáng kể giữa hai nhóm này. Điều đó chỉ ra rằng phương án A
cần được xem lại.
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

13

3. Kết luận chương 1
Trên đây là cơ sở lý luận để ứng dụng lý thuyết khảo thí cổ điển vào việc
phát hiện những câu hỏi thi kiểm tra kém chất lượng. Trong khuôn khổ một
SKKN chỉ có thể bàn về những ứng dụng cơ bản và cần thiết nhất mà lý thuyết
khảo thí cổ điển có thể đem lại. Việc nghiên cứu lý thuyết khảo thí cổ điển còn
đưa lại nhiều ứng dụng khác giúp ích cho việc nâng cao chất lượng câu hỏi thi
kiểm tra
[3]
. Hơn thế nữa, ở mức cao hơn, lý thuyết đánh giá hiện đại còn có nhiều
ứng dụng hơn và giúp chúng ta định cỡ câu hỏi thi kiểm tra, từ đó có thể so sánh
kết quả làm bài của thí sinh ở những lần thi kiểm tra khác nhau.
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

14
Chương 2. Phân tích đề thi bằng lý thuyết cổ điển
Phân tích đề thi bằng lý thuyết khảo thí cổ điển có 2 phương pháp như đã
nói ở trên. Mỗi phương pháp có những ưu điểm và nhược điểm riêng song
chúng đề giúp nâng cao chất lượng đề trắc nghiệm. Ta có thể chọn một phương
pháp thuận tiện nhất để tiến hành phân tích hoặc kết hợp cả 2 phương pháo và
phân tích đề thi.
Xét về mặt kỹ thuật, phương pháp chuyên gia rất đơn giản và đã được
trình bày chi tiết trong phần II chương 1. Trong chương này tác giả tập trung
làm rõ thêm phương pháp phân tích thống kê thông qua ví dụ phân tích một đề
thi (đã giới thiệu tại mục 4 phần Tổng quan).
1. Độ khó của câu hỏi thi:
Độ khó của câu hỏi thi (P) là tỷ lệ thí sinh trả lời đúng so với tổng số thí
sinh tham gia trả lời câu hỏi đó. Kết quả phân tích số liệu được thể hiện ở bảng

thống kê dưới đây:
Câu
Phương án
Sót
Độ
khó

Câu
Phương án
Sót
Độ
khó
A
B
C
D
A
B
C
D
1
13.33
11.90
3.81
70.00
0.95
0.70
26
11.43
63.33

17.14
7.62
0.48
0.63
2
73.81
12.38
1.90
10.95
0.95
0.74
27
36.67
17.62
20.95
21.90
2.86
0.37
3
2.86
29.52
44.29
21.43
1.90
0.44
28
12.86
15.71
27.62
42.86

0.95
0.43
4
50.48
37.14
0.48
10.95
0.95
0.50
29
27.14
10.95
9.05
52.86
0.00
0.53
5
20.00
37.62
26.19
15.71
0.48
0.38
30
20.95
11.43
40.95
25.71
0.95
0.41

6
26.67
18.10
14.29
39.05
1.90
0.27
31
17.62
45.24
9.05
26.67
1.43
0.45
7
17.62
13.33
59.52
9.05
0.48
0.60
32
28.57
21.43
35.24
13.81
0.95
0.35
8
40.00

16.67
19.05
22.38
1.90
0.40
33
8.57
46.67
28.57
16.19
0.00
0.47
9
11.90
51.90
21.43
13.81
0.95
0.52
34
14.76
13.81
23.33
46.19
1.90
0.46
10
15.71
47.62
18.57

17.62
0.48
0.48
35
20.48
15.24
48.57
14.29
1.43
0.49
11
19.52
8.10
11.90
60.00
0.48
0.60
36
19.05
13.81
27.62
38.57
0.95
0.39
12
22.86
21.90
32.86
21.43
0.95

0.33
37
21.90
26.19
37.14
12.38
2.38
0.37
13
10.48
57.62
9.52
22.38
0.00
0.58
38
46.67
13.33
11.43
26.67
1.90
0.47
14
52.38
13.81
21.90
11.43
0.48
0.52
39

60.95
13.33
16.67
8.10
0.95
0.61
15
29.05
22.86
22.86
24.76
0.48
0.29
40
16.67
5.71
52.86
23.33
1.43
0.53
16
20.48
21.43
32.38
24.76
0.95
0.32
41
32.38
17.14

24.76
23.33
2.38
0.32
17
18.57
48.10
22.86
10.48
0.00
0.48
42
20.95
13.81
25.71
38.57
0.95
0.39
18
20.95
16.19
37.62
25.24
0.00
0.25
43
24.76
35.71
18.57
20.48

0.48
0.36
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

15
Câu
Phương án
Sót
Độ
khó

Câu
Phương án
Sót
Độ
khó
A
B
C
D
A
B
C
D
19
54.76
7.14

13.33
24.29
0.48
0.55
44
14.29
54.29
13.81
17.62
0.00
0.54
20
7.14
3.33
7.14
81.90
0.48
0.82
45
22.86
34.76
18.57
23.33
0.48
0.35
21
20.00
16.19
47.62
15.71

0.48
0.48
46
15.71
53.33
12.86
18.10
0.00
0.53
22
21.43
15.24
27.62
34.76
0.95
0.35
47
22.38
25.71
34.29
15.24
2.38
0.34
23
11.43
63.33
10.00
15.24
0.00
0.63

48
8.57
40.95
31.43
19.05
0.00
0.41
24
56.67
29.05
6.19
7.62
0.48
0.57
49
15.24
15.71
26.67
40.48
1.90
0.40
25
19.52
40.00
18.10
21.90
0.48
0.40
50
21.90

17.62
26.19
33.33
0.95
0.33
Bảng 5. Độ khó câu hỏi thi
Độ khó
>0.8
>0.7
>0.65
>=0.6
<0.6
<0.55
<0.5
<0.45
<0.4
<0.3
<0.2
Số câu
1
2
3
7
43
40
32
24
17
3
0

(%)
2.0
4.0
6.0
14.0
86.0
80.0
64.0
48.0
34.0
6.0
0.0
Bảng 6. Thống kê phân bổ độ khó
P
0.25
0.27
0.29
0.32
0.32
0.33
0.33
0.34
0.35
0.35
0.35
0.36
0.37
0.37
0.38
0.39

0.39
item
18
6
15
16
41
12
50
47
22
45
32
43
27
37
5
36
42
Bảng 7. Các câu có độ khó dưới 0.4
Theo thuyết khảo thí cổ điển, Osterlind (1989), thì giá trị độ khó càng lớn
cho thấy câu hỏi càng dễ, độ khó của câu hỏi nằm trong khoảng 0.4 đến 0.8 là
chấp nhận được. Thống kê dữ liệu cho thấy độ khó trung bình của của 50 câu
hỏi là 0.46 và rải từ 0.25 đến 0.82. Chỉ có 1 câu có độ khó lớn hơn 0.8, có đến
17 câu có độ khó p < 0.4 câu chiếm tỷ lệ 34% số câu trong đề thi, số câu có độ
khó từ 0.6 trở lên chỉ có 7 câu (chiếm 14%) và có đến 43 câu có độ khó dưới 0.6
(chiếm 86%). Như vậy, hầu hết các câu hỏi của bài test này thuộc loại khó đối
với nhóm học sinh tham gia nghiên cứu này.
Nhận xét: Đề thi có quá nhiều câu hỏi khó và thiếu các câu dễ. Cần tăng
cường, bổ sung các câu dễ mới đánh giá được năng lực của học sinh. Các câu

5,6,12,15,16,18,22,27,32,36,37,41,42,43,45,47,50 có độ khó < 0.4 cần được điều
chỉnh trước khi chọn vào ngân hàng câu hỏi vì là những câu này quá khó. Câu
20 có độ khó p = 0.82 là một câu hỏi quá dễ cũng cần được điều chỉnh.
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

16
2. Các khả năng nhầm đáp án
Nhầm đáp án là trường hợp đa số thí sinh tham gia làm bài chọn phương
án khác với đáp án. Trường hợp nhầm đáp án có thể xảy ra bởi các nguyên nhân:
có thể do người viết câu hỏi có sự nhầm lẫn, cũng có thể do phần lớn thí sinh
tham gia làm bài hiểu sai câu hỏi hoặc được dạy sai kiến thức, cũng có thể do
câu hỏi quá khó khiến thí sinh đoán mò và trùng hợp là phần đông thí sinh đoán
mò trùng một phương án (trường hợp này xác xuất xảy ra là rất thấp).
Bảng 5. Độ khó câu hỏi thicho thấy có 2 trường hợp nhầm đáp án. Đó là
câu 6 và câu 18 . Các câu này cần được điều chỉnh hoặc loại bỏ.
3. Chất lượng của các phương án sai (mồi nhử)
Phương án sai hay gọi là mồi nhử là các phương án ngoài đáp án. Mồi
nhử tốt là mồi nhử có tỷ lệ lựa chọn gần với tỷ lệ mong muốn được tính theo
công thức: i = (1 – P)/(k – 1) x 100%.
Trong đó: P là độ khó của câu hỏi;
k là số phương án trả lời.
Ví dụ câu hỏi 4 lựa chọn có độ khó là 0.6 thì tỷ lệ mồi nhử mong muốn là
(1 – 0.6)/(4-1) x 100% = 13.33 % cho mỗi phương án. Cùng với cách tính này ở
đây ta xác định mồi nhử kém khi tỷ lệ lựa chọn nhỏ hơn 50% tỷ lệ mong muốn.
Từ dữ liệu thống kê được ta thấy bài test có đến 10 câu xuất hiện mồi nhử
kém (gồm các câu: 1,2,3,4,19,24,31,33,40,48).
Ở Bảng 8. Độ lệch giữa nhóm trên và nhóm dưới. dưới đây, khi so sánh

các phương án sai giữa nhóm trên gồm những thí sinh có kết quả điểm toàn bài
thi cao nhất chiếm 27% tổng số thí sinh (Nh. trên) với nhóm dưới gồm những thí
sinh có kết quả điểm toàn bài thi thấp nhất chiếm 27% tổng số thí sinh (Nh.
dưới) cho thấy có 39 câu có độ lệch rất thấp (trong khoảng ±0.1). Điều này cho
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

17
thấy các phương án sai này không có hiệu quả đối với cả 2 nhóm có năng lực
khác nhau.
Độ lệch của các phương án là đáp án của đề thi tương đối tốt. Có 47 câu
(94%) có độ lệch đáp án >0.2, trong đó có 14 câu có độ lệch đáp án >0.5. Có 2
câu có độ lệch đáp án <0 cần phải loại bỏ hoặc chỉnh sửa, đó là câu 6 và câu 18.
Trong 39 câu có độ lệch trong khoảng ± 0.1 thì có 10 câu là câu có mồi
nhử kém đã được tính ở trên (gồm các câu: 4, 3, 2, 40, 1, 24, 48, 19, 33, 31)
(chiếm 20% số câu trong đề thi). Điều này có nghĩa là cả nhóm trên và nhóm
dưới đều rất ít thí sinh chọn, cho thấy những mồi nhử ấy thật sự là mồi nhử kém.
Nhận xét: Chất lượng của các phương án sai (mồi nhử) không cao vì cả
học sinh kém và học sinh giỏi đều có tỷ lệ trả lời sai gần nhau. Có nhiều câu cả
nhóm trên và nhóm dưới đều rất ít thí sinh chọn, cho thấy những mồi nhử ấy thật
sự là mồi nhử kém, nhất định phải chỉnh sửa mồi nhử trước khi đưa vào ngân
hàng câu hỏi hoặc có thể loại bỏ.
P.án
A
B
C
D
Câu

N.Trên
N.Dưới
Lệch
N.Trên
N.Dưới
Lệch
N.Trên
N.Dưới
Lệch
N.Trên
N.Dưới
Lệch
1.
0.04
0.19
-0.16
0.02
0.23
-0.21
0.02
0.05
-0.04
0.93
0.54
0.39
2.
0.91
0.63
0.28
0.05

0.16
-0.11
0.00
0.02
-0.02
0.04
0.18
-0.14
3.
0.04
0.02
0.02
0.12
0.42
-0.30
0.77
0.26
0.51
0.05
0.28
-0.23
4.
0.68
0.37
0.32
0.26
0.47
-0.21
0.00
0.02

-0.02
0.05
0.14
-0.09
5.
0.11
0.40
-0.30
0.61
0.21
0.40
0.23
0.23
0.00
0.05
0.16
-0.11
6.
0.07
0.37
-0.30
0.12
0.19
-0.07
0.05
0.28
-0.23
0.74
0.16
0.58

7.
0.05
0.26
-0.21
0.02
0.30
-0.28
0.84
0.33
0.51
0.09
0.11
-0.02
8.
0.72
0.23
0.49
0.11
0.25
-0.14
0.09
0.26
-0.18
0.07
0.25
-0.18
9.
0.04
0.21
-0.18

0.86
0.37
0.49
0.04
0.32
-0.28
0.07
0.09
-0.02
10.
0.05
0.26
-0.21
0.70
0.26
0.44
0.14
0.26
-0.12
0.11
0.21
-0.11
11.
0.11
0.32
-0.21
0.00
0.19
-0.19
0.05

0.14
-0.09
0.84
0.35
0.49
12.
0.21
0.21
0.00
0.21
0.26
-0.05
0.44
0.23
0.21
0.12
0.32
-0.19
13.
0.05
0.23
-0.18
0.81
0.37
0.44
0.05
0.12
-0.07
0.09
0.30

-0.21
14.
0.70
0.39
0.32
0.09
0.09
0.00
0.14
0.35
-0.21
0.07
0.18
-0.11
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

18
P.án
A
B
C
D
Câu
N.Trên
N.Dưới
Lệch
N.Trên

N.Dưới
Lệch
N.Trên
N.Dưới
Lệch
N.Trên
N.Dưới
Lệch
15.
0.56
0.14
0.42
0.11
0.40
-0.30
0.18
0.18
0.00
0.16
0.28
-0.12
16.
0.19
0.26
-0.07
0.19
0.21
-0.02
0.51
0.18

0.33
0.11
0.33
-0.23
17.
0.11
0.19
-0.09
0.77
0.26
0.51
0.11
0.32
-0.21
0.02
0.25
-0.23
18.
0.16
0.25
-0.09
0.07
0.19
-0.12
0.60
0.30
0.30
0.18
0.28
-0.11

19.
0.72
0.40
0.32
0.02
0.12
-0.11
0.14
0.11
0.04
0.12
0.37
-0.25
20.
0.00
0.16
-0.16
0.04
0.05
-0.02
0.02
0.14
-0.12
0.95
0.67
0.28
21.
0.12
0.21
-0.09

0.04
0.26
-0.23
0.74
0.28
0.46
0.11
0.26
-0.16
22.
0.05
0.37
-0.32
0.12
0.21
-0.09
0.19
0.30
-0.11
0.63
0.11
0.53
23.
0.09
0.16
-0.07
0.84
0.40
0.44
0.02

0.23
-0.21
0.05
0.23
-0.18
24.
0.91
0.32
0.60
0.05
0.53
-0.47
0.00
0.11
-0.11
0.04
0.07
-0.04
25.
0.09
0.21
-0.12
0.65
0.23
0.42
0.12
0.26
-0.14
0.14
0.30

-0.16
26.
0.02
0.25
-0.23
0.91
0.40
0.51
0.07
0.23
-0.16
0.00
0.12
-0.12
27.
0.60
0.25
0.35
0.12
0.18
-0.05
0.14
0.19
-0.05
0.12
0.35
-0.23
28.
0.04
0.19

-0.16
0.09
0.16
-0.07
0.19
0.40
-0.21
0.68
0.25
0.44
29.
0.16
0.44
-0.28
0.07
0.07
0.00
0.02
0.19
-0.18
0.75
0.32
0.44
30.
0.21
0.25
-0.04
0.04
0.21
-0.18

0.42
0.26
0.16
0.33
0.26
0.07
31.
0.07
0.26
-0.19
0.68
0.25
0.44
0.04
0.12
-0.09
0.21
0.33
-0.12
32.
0.14
0.40
-0.26
0.18
0.21
-0.04
0.67
0.16
0.51
0.00

0.23
-0.23
33.
0.02
0.14
-0.12
0.81
0.28
0.53
0.14
0.32
-0.18
0.04
0.28
-0.25
34.
0.04
0.19
-0.16
0.02
0.28
-0.26
0.12
0.30
-0.18
0.82
0.21
0.61
35.
0.11

0.28
-0.18
0.05
0.14
-0.09
0.81
0.32
0.49
0.04
0.25
-0.21
36.
0.09
0.28
-0.19
0.04
0.28
-0.25
0.09
0.33
-0.25
0.79
0.11
0.68
37.
0.09
0.35
-0.26
0.11
0.35

-0.25
0.67
0.19
0.47
0.12
0.09
0.04
38.
0.72
0.28
0.44
0.02
0.23
-0.21
0.07
0.18
-0.11
0.19
0.28
-0.09
39.
0.89
0.30
0.60
0.05
0.25
-0.19
0.04
0.32
-0.28

0.02
0.14
-0.12
40.
0.12
0.25
-0.12
0.04
0.11
-0.07
0.77
0.30
0.47
0.07
0.32
-0.25
41.
0.54
0.23
0.32
0.09
0.12
-0.04
0.19
0.32
-0.12
0.16
0.32
-0.16
42.

0.11
0.28
-0.18
0.05
0.26
-0.21
0.11
0.32
-0.21
0.74
0.14
0.60
43.
0.16
0.30
-0.14
0.56
0.18
0.39
0.12
0.28
-0.16
0.16
0.25
-0.09
44.
0.11
0.19
-0.09
0.79

0.32
0.47
0.05
0.23
-0.18
0.05
0.28
-0.23
45.
0.14
0.30
-0.16
0.54
0.19
0.35
0.14
0.25
-0.11
0.18
0.26
-0.09
46.
0.12
0.21
-0.09
0.72
0.33
0.39
0.07
0.21

-0.14
0.09
0.26
-0.18
47.
0.12
0.35
-0.23
0.12
0.33
-0.21
0.58
0.16
0.42
0.16
0.14
0.02
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

19
P.án
A
B
C
D
Câu
N.Trên

N.Dưới
Lệch
N.Trên
N.Dưới
Lệch
N.Trên
N.Dưới
Lệch
N.Trên
N.Dưới
Lệch
48.
0.04
0.12
-0.09
0.72
0.19
0.53
0.18
0.37
-0.19
0.07
0.33
-0.26
49.
0.04
0.18
-0.14
0.07
0.25

-0.18
0.14
0.35
-0.21
0.75
0.21
0.54
50.
0.11
0.30
-0.19
0.12
0.25
-0.12
0.16
0.30
-0.14
0.61
0.14
0.47
Bảng 8. Độ lệch giữa nhóm trên và nhóm dưới.

>0.7
>0.6
>=0.5
>0.4
>0.3
>0.2
>0.1
>0

<0
item
0
2
14
34
44
47
48
48
2
Tỷ lệ (%)
0.00
4.00
28.00
68.00
88.00
94.00
96.00
96.00
4.00
Bảng 9. Phân bổ độ lệch của đáp án
4. Độ phân biệt của câu hỏi thi
Độ phân biệt của câu hỏi thi là mức độ khác nhau về kết quả trả lời giữa
hai nhóm trên và dưới khi làm bài thi. Câu hỏi có chỉ số phân biệt nhỏ hơn hoặc
bằng 0 cần bị loại bỏ. Ebel (1956) đề xuất rằng các câu hỏi của bài test trong lớp
học nên có chỉ số phân biệt bằng 0,30 hoặc cao hơn. Một số tác giả khác cho
rằng độ phân biệt nên nằm trong khoảng 0,25 - 0,75. Tuy nhiên, trong các kỳ thi
có quy mô lớn, việc sử dụng một số câu hỏi thi quá dễ hoặc quá khó sẽ dẫn đến
độ phân biệt của câu hỏi thi có thể có giá trị quá thấp hoặc quá cao.

Đề thi này là một đề thi tuyển sinh đầu vào môn tiếng Anh của một
trường chuyên, là một đề thi khó đối với thí sinh dự thi nên độ phân biệt của câu
hỏi thi có thể sẽ cao. Độ phân biệt của từng câu hỏi được tính toán như Bảng 9
dưới đây.
Câu hỏi
Độ PB
Câu hỏi
Độ PB
Câu hỏi
Độ PB
Câu hỏi
Độ PB
Câu hỏi
Độ PB
1
0.39
11
0.49
21
0.46
31
0.44
41
0.32
2
0.28
12
0.21
22
0.53

32
0.51
42
0.60
3
0.51
13
0.44
23
0.44
33
0.53
43
0.39
4
0.32
14
0.32
24
0.60
34
0.61
44
0.47
5
0.40
15
0.42
25
0.42

35
0.49
45
0.35
6
-0.30
16
0.33
26
0.51
36
0.68
46
0.39
7
0.51
17
0.51
27
0.35
37
0.47
47
0.42
8
0.49
18
-0.11
28
0.44

38
0.44
48
0.53
9
0.49
19
0.32
29
0.44
39
0.60
49
0.54
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –

20
Câu hỏi
Độ PB
Câu hỏi
Độ PB
Câu hỏi
Độ PB
Câu hỏi
Độ PB
Câu hỏi
Độ PB

10
0.44
20
0.28
30
0.16
40
0.47
50
0.47
Bảng 10. Độ phân biệt câu hỏi thi
Độ phân biệt
>0.75
>0.6
>0.5
>=0.4
>=0.3
<0.25
Min
Mean
Max
Số câu:
0
2
14
34
44
4
-0.30
0.42

0.68
Tỷ lệ (%)
0.00
4.00
28.00
68.00
88.00
8.00
Bảng 11. Thống kê phân bổ độ phân biệt
Từ số liệu thống kê trên cho thấy các câu hỏi đều có độ phân biệt trung
bình là 0.42 rải từ -0.30 đến 0.68. Có 34 câu (chiếm 68%) đạt độ phân biệt từ 0.4
trở lên, 44 câu có độ phân biệt từ 0.30 trở lên (chiếm 88%) điều này cho thấy đề
thi có độ phân biệt rất tốt. Các câu có độ phân biệt chưa tốt (< 0.25) gồm 4 câu:
6, 12, 18, 30 trong đó có hai câu có độ phân biệt < 0 là câu 6, và câu 18 (cũng là
2 câu nhầm đáp án).
Nhận xét: Có 88% số câu hỏi đạt độ phân biệt trong khoảng chấp nhận
được (từ 0.25 đến 0.75) Số câu đạt độ phân biệt ở mức rất tốt chiếm 68% đề thi,
chứng tỏ độ phân biệt của đề thi là rất tốt. Tuy nhiên cần chỉnh sửa một số câu
có độ phân biệt chưa tốt như câu 6, 12, 18, 30.
5. Hệ số tương quan giữa điểm của câu hỏi thi với điểm toàn bài thi
Giữa kết quả điểm của từng câu hỏi thi với điểm chung của toàn bài thi
phải có mối tương quan thuận (hệ số tương quan dương). Mối tương quan chặt
chẽ giữa câu hỏi thi và toàn bài thi góp phần làm tăng độ tin cậy của bài test.
Cần giữ lại những câu hỏi thi có mối tương quan cao và loại bỏ những câu hỏi
có mối tương quan thấp hoặc dưới 0 để làm tăng độ tin cậy của đề thi. Theo
Griffin (1998), những câu hỏi tốt là những câu hỏi có hệ số tương (Pt-Biserial)
nằm trong khoảng 0.35 và 0.75.
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012


www.chuyenquangtrung.com.vn –

21

Câu
HSTQ
Pt-
Biserial
Câu
HSTQ
Pt-
Biserial
Câu
HSTQ
Pt-
Biserial
Câu
HSTQ
Pt-
Biserial
Câu
HSTQ
Pt-
Biserial
1
0.33
11
0.36
21
0.33

31
0.32
41
0.36
2
0.30
12
0.17
22
0.45
32
0.43
42
0.55
3
0.42
13
0.36
23
0.35
33
0.47
43
0.36
4
0.31
14
0.30
24
0.47

34
0.47
44
0.38
5
0.32
15
0.41
25
0.35
35
0.44
45
0.37
6
-0.29
16
0.32
26
0.41
36
0.60
46
0.34
7
0.41
17
0.42
27
0.36

37
0.40
47
0.40
8
0.41
18
-0.11
28
0.38
38
0.34
48
0.48
9
0.39
19
0.28
29
0.40
39
0.45
49
0.46
10
0.38
20
0.22
30
0.07

40
0.39
50
0.45
Bảng 12. Hệ số tương quan
Min
Mean
Max
-0.29
0.36
0.60
Bảng 13. Thống kê HSTQ
Bảng 11 cho thấy chỉ có 2 câu (6, 18) có hệ số tương quan giữa điểm của
câu hỏi thi với điểm toàn bài thi (point-biserial) < 0 nên cần phải loại bỏ. Các
câu còn lại có hệ số tương quan rải từ 0.07 đến 0.50 và có đến 42 câu (84%) đạt
trên 0.3 chứng tỏ các câu hỏi có mối tương quan thuận và khá mạnh với điểm
chung của bài thi.
6. Kết luận chương 2
1. Đề thi và các câu hỏi trắc nghiệm có chất lượng không cao, có 2 trường
hợp nhầm đáp án cần phải loại bỏ và rút kinh nghiệm đối với công tác viết câu
hỏi trắc nghiệm.
2. Đề thi quá ít những câu hỏi dễ nên không phân biệt được giữa những
học sinh có năng lực trung bình với học sinh yếu, kém. Nhìn chung đề thi này là
khó so với học sinh tham gia làm bài kiểm tra. 17 câu (5, 6, 12, 15, 16, 18, 22,
27, 32, 36, 37, 41, 42, 43, 45, 47, 50) có độ khó p < 0.4; câu 20 có độ khó
p=0.82 cần được điều chỉnh trước khi chọn vào ngân hàng câu hỏi.
Nguyễn Văn Nghiêm Sáng kiến kinh nghiệm
2012

www.chuyenquangtrung.com.vn –


22
3. Chất lượng của các phương án sai (mồi nhử) không cao vì cả học sinh
kém và học sinh giỏi đều có tỷ lệ trả lời sai gần nhau. Các câu: 1, 2, 3, 4, 19, 24,
31, 33, 40, 48, cả nhóm trên và nhóm dưới đều rất ít thí sinh chọn cho thấy
những mồi nhử của các câu này thật sự là mồi nhử kém, cần phải chỉnh sửa mồi
nhử trước khi đưa vào ngân hàng câu hỏi hoặc có thể loại bỏ.
4. Có 88% số câu hỏi đạt độ phân biệt trong khoảng chấp nhận được (từ
0.25 đến 0.75) Số câu đạt độ phân biệt ở mức rất tốt chiếm 68% đề thi, chứng tỏ
độ phân biệt của đề thi là rất tốt. Tuy nhiên cần chỉnh sửa một số câu có độ phân
biệt chưa tốt như câu 6, 12, 18, 30.
5. Có 84% số câu hỏi đạt hệ số tương quan đạt trên 0.3 chứng tỏ các câu
hỏi có mối tương quan thuận và khá mạnh với điểm chung của bài thi. Riêng 2
câu có hệ số tương quan < 0 (tương quan nghịch với điểm toàn bài thi) cần phải
loại bỏ đó là câu 6 và câu 18.

×