Đánh giá chất lượng câu hỏi và đề trắc nghiệm bằng lý thuyết ứng đáp câu hỏi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1010.51 KB, 89 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH

LÝ TRẦN THÁI HỌC

ĐÁNH GIÁ CHẤT LƯỢNG
CÂU HỎI VÀ ĐỀ TRẮC NGHIỆM
BẰNG LÝ THUYẾT ỨNG ĐÁP CÂU HỎI

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201

Thành phố Hồ Chí Minh, tháng 03 năm 2018

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH

LÝ TRẦN THÁI HỌC

ĐÁNH GIÁ CHẤT LƯỢNG
CÂU HỎI VÀ ĐỀ TRẮC NGHIỆM
BẰNG LÝ THUYẾT ỨNG ĐÁP CÂU HỎI

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201

CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN AN KHƯƠNG

Thành phố Hồ Chí Minh, tháng 03 năm 2018

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: TS. Nguyễn An Khương

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM ngày 17 tháng 6
năm 2018.

Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
STT

Họ và tên

Chức danh Hội đồng

1

PGS. TS. Võ Đình Bảy

Chủ tịch

2

TS. Nguyễn Thị Thúy Loan

Phản biện 1

3

TS. Văn Thiên Hoàng

Phản biện 2

4

TS. Vũ Thanh Hiền

Ủy viên

5

TS. Lê Thị Ngọc Thơ

Ủy viên, thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn Thạc sĩ sau khi Luận văn đã được
sửa chữa (nếu có):
...................................................................................
...................................................................................

Chủ tịch Hội đồng đánh giá luận văn

TRƯỜNG ĐH CÔNG NGHỆ TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
VIỆN ĐÀO TẠO SAU ĐẠI HỌC

Độc lập - Tự do - Hạnh phúc

TP. HCM, ngày 26 tháng 9 năm 2016

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Lý Trần Thái Học

Giới tính: Nam

Ngày, tháng, năm sinh: 15/3/1987

Nơi sinh: Long An

Chuyên ngành: Công nghệ thông tin

MSHV: 1541860008

I-Tên đề tài:
Đánh giá chất lượng câu hỏi và đề trắc nghiệm bằng lý thuyết ứng đáp câu hỏi . . . . . . . . . . . .
...................................................................................
II-Nhiệm vụ và nội dung:
Nội dung nghiên cứu là các tư liệu, tài liệu có liên quan đến trắc nghiệm khách quan nói
chung; lý thuyết trắc nghiệm cổ điển và lý thuyết ứng đáp câu hỏi; ứng dụng ngôn ngữ R
trong thống kê, phân tích và đánh giá câu hỏi và đề trắc nghiệm. . . . . . . . . . . . . . . . . . . . . . . . . .
...................................................................................
III-Ngày giao nhiệm vụ: 26/09/2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
IV-Ngày hoàn thành nhiệm vụ: 17/03/2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
V-Cán bộ hướng dẫn: TS. Nguyễn An Khương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
...................................................................................
...................................................................................

CÁN BỘ HƯỚNG DẪN

(Họ tên và chữ ký)

KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)

i

LỜI CAM ĐOAN
Tôi xin cam đoan rằng nội dung của luận văn này chính là công trình nghiên cứu của chính
bản thân. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố
trong bất kỳ công trình nghiên cứu nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn
và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc.

Học viên thực hiện luận văn
(Ký và ghi rõ họ tên)

Lý Trần Thái Học

ii

LỜI CẢM ƠN
Để có thể hoàn thành tốt luận văn này, tôi đã nhận được rất nhiều sự động viên, chia sẻ, giúp
đỡ từ nhiều tổ chức và cá nhân.
Trước tiên, tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc nhất đến Thầy - TS.
Nguyễn An Khương, người đã nhiệt tình hướng dẫn, chỉ bảo và tạo điều kiện cho tôi trong
suốt quá trình nghiên cứu để thực hiện luận văn này.
Tôi trân trọng ghi nhận và cảm ơn về những kiến thức nền tảng mà Thầy/Cô tham gia

giảng dạy chương trình đào tạo sau đại học ngành Công nghệ thông tin, Đại học Công nghệ
Thành phố Hồ Chí Minh đã cung cấp trong quá trình giảng dạy. Tôi xin cảm ơn Viện đào tạo
Sau Đại học về những sự hỗ trợ trong suốt quá trình học tập. Bên cạnh đó tôi cũng xin gửi
lời cảm ơn đến Thầy - PGS. TS. Võ Đình Bảy cùng đồng sự đã hỗ trợ tôi rất nhiều trong quá
trình học tập tại trường cũng như trong quá trình thực hiện luận văn này.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, người thân, bạn bè và đồng nghiệp đã
động viên, chia sẻ, hỗ trợ và cảm thông trong suốt quá trình học tập cũng như thực hiện luận
văn.

Lý Trần Thái Học

iii

Mục lục
1 TỔNG QUAN VỀ
LĨNH VỰC NGHIÊN CỨU

4

1.1

Tổng quan về đo lường, kiểm tra đánh giá trong giáo dục . . . . . . . . . .

4

1.1.1

Khái niệm về đo lường, đánh giá trong giáo dục . . . . . . . . . . .

4

1.1.2

Lý thuyết đo lường trong giáo dục . . . . . . . . . . . . . . . . . .

4

Tổng quan về trắc nghiệm khách quan . . . . . . . . . . . . . . . . . . . .

5

1.2.1

Lý thuyết trắc nghiệm cổ điển . . . . . . . . . . . . . . . . . . . .

5

1.2.2

Lý thuyết trắc nghiệm hiện đại . . . . . . . . . . . . . . . . . . . .

9

1.2

2 CƠ CỞ LÝ THUYẾT

11

2.1

Lý thuyết ứng đáp câu hỏi và mô hình Rasch . . . . . . . . . . . . . . . . .

11

2.2

Đường cong đặc trưng của câu hỏi . . . . . . . . . . . . . . . . . . . . . .

13

2.2.1

Mô hình đường cong chuẩn . . . . . . . . . . . . . . . . . . . . . .

14

2.2.2

Mô hình đường cong logistic . . . . . . . . . . . . . . . . . . . . .

14

2.2.3

Mô hình một tham số . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.2.4

Mô hình hai tham số . . . . . . . . . . . . . . . . . . . . . . . . .

24

2.2.5

Mô hình ba tham số . . . . . . . . . . . . . . . . . . . . . . . . . .

25

2.3

Đường cong đặc trưng của đề trắc nghiệm - điểm thực . . . . . . . . . . . .

25

2.4

Ước lượng các tham số của câu hỏi . . . . . . . . . . . . . . . . . . . . . .

28

2.5

Ước lượng năng lực của thí sinh . . . . . . . . . . . . . . . . . . . . . . . .

33

2.6

Hàm thông tin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

2.6.1

Hàm thông tin câu hỏi . . . . . . . . . . . . . . . . . . . . . . . .

36

2.6.2

Hàm thông tin của bài trắc nghiệm . . . . . . . . . . . . . . . . . .

40

2.7

Ước lượng đồng thời các tham số của câu hỏi và năng lực thí sinh và quá trình
chuẩn hóa đề trắc nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

iv
3 THỰC NGHIỆM, PHÂN TÍCH VÀ ĐÁNH GIÁ
3.1

46

Thực nghiệm và phân tích . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

3.1.1

Mô tả dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

3.1.2

Thực nghiệm và phân tích . . . . . . . . . . . . . . . . . . . . . .

50

3.2

Đánh giá chất lượng câu hỏi và đề trắc nghiệm . . . . . . . . . . . . . . . .

61

3.3

Đề xuất áp dụng mô hình phù hợp với dữ liệu . . . . . . . . . . . . . . . .

63

4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

68

4.1

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

4.2

Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

TÀI LIỆU THAM KHẢO

69

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt

Ý nghĩa

TN

Trắc nghiệm

ĐTN

Đề trắc nghiệm

CHTN

Câu hỏi trắc nghiệm

CH

Câu hỏi

NHCH

Ngân hàng câu hỏi

CTT

Lý thuyết trắc nghiệm cổ điển

IRT

Lý thuyết ứng đáp câu hỏi

TNKQ

Trắc nghiệm khách quan

BGDĐT

Bộ Giáo dục và Đào tạo

THPT

Trung học phổ thông

CĐ - ĐH

Cao đẳng - Đại học

GV

Giảng viên

TS

Thí sinh

TS, CH

Thí sinh - Câu hỏi

ICC

Đường cong đặc trưng câu hỏi

TCC

Đường cong đặc trưng đề trắc nghiệm

IIC

Đường cong hàm thông tin câu hỏi trắc nghiệm

IIF

Hàm thông tin câu hỏi trắc nghiệm

TIF

Hàm thông tin đề trắc nghiệm

MLE

Ước lượng hợp lý cực đại

ĐLNN

Đại lượng ngẫu nhiên

i.i.d.

độc lập và có cùng phân phối

c.d.f.

hàm phân phối tích lũy

vi

Danh sách bảng
1.2.1

Bảng độ khó của câu hỏi . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.1

Dữ liệu đường cong đặc trưng câu hỏi trong mô hình đường cong chuẩn
với bi = 0.3, ai = 1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.2

6

15

Dữ liệu đường cong đặc trưng của câu hỏi theo mô hình logistic với bi =
0.3, a∗i = 1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

2.2.3

Các mức độ phân biệt của câu hỏi . . . . . . . . . . . . . . . . . . . . .

21

2.2.4

Các mức độ khó của câu hỏi . . . . . . . . . . . . . . . . . . . . . . . .

21

2.3.5

Xác suất trả lời đúng các câu hỏi với mức năng lực θ = 0 . . . . . . . . .

27

2.5.6

Các tham số của câu hỏi trong một đề gồm 3 câu trắc nghiệm . . . . . .

34

2.5.7

Dữ liệu minh họa quá trình ước lượng năng lực thí sinh trong mô hình IRT
2 tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.6.8

I(θ) ứng với 7 mức năng lực dưới mô hình hai tham số cho câu hỏi có độ
phân biệt a = 0.8 và độ khó b = 1.0 . . . . . . . . . . . . . . . . . . . .

2.6.9

35

37

I(θ) ứng với 7 mức năng lực dưới mô hình một tham số cho câu hỏi có
b = 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

2.6.10 I(θ) ứng với 7 mức năng lực dưới mô hình ba tham số cho câu hỏi có độ
phân biệt a = 0.8, độ khó b = 1.0 và độ phân biệt c = 0.2 . . . . . . . .

39

2.6.11 Thông tin đề trắc nghiệm trong mô hình hai tham số . . . . . . . . . . .

42

2.6.12 Thông tin đề trắc nghiệm trong mô hình một tham số . . . . . . . . . . .

43

2.6.13 Thông tin đề trắc nghiệm trong mô hình ba tham số . . . . . . . . . . .

44

3.1.1

Minh họa dữ liệu trả lời 20 câu hỏi của 100 thí sinh . . . . . . . . . . . .

47

3.1.2

Kết quả phân tích mức độ khó của 20 câu hỏi trong đề thi dưới mô hình
Rasch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.3

52

Kết quả phân tích mức độ khó của 20 câu hỏi trong đề thi dưới mô hình
hai tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

vii
3.1.4

Kết quả phân tích độ phân biệt của các câu hỏi trong đề thi dưới mô hình
hai tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.5

Kết quả phân tích mức độ khó của 20 câu hỏi trong đề thi dưới mô hình
ba tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.6

58

61

Kết quả phân tích độ phân biệt của các câu hỏi trong đề thi dưới mô hình
ba tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

3.2.7

Đánh giá chất lượng câu hỏi dựa vào độ khó và độ phân biệt . . . . . . .

64

3.2.8

Đánh giá chất lượng 20 câu hỏi dựa vào mô hình hai tham số . . . . . . .

65

3.2.9

Đánh giá chất lượng 20 câu hỏi dựa vào mô hình ba tham số . . . . . . .

66

viii

Danh sách hình vẽ
2.2.1

Biểu đồ đường cong đặc trưng của câu hỏi trong mô hình đường cong
chuẩn với bi = 0.3, ai = 1.5 . . . . . . . . . . . . . . . . . . . . . . . .

2.2.2

Biểu đồ đường cong đặc trưng của câu hỏi trong mô hình logistic với
bi = 0.3, a∗i = 1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.3

16

Biểu đồ đường cong đặc trưng câu hỏi dựa vào mô hình đường cong chuẩn
và đường cong logistic với b = 0.3, a = 1.5 . . . . . . . . . . . . . . . .

2.2.4

15

17

Biểu đồ đường cong đặc trưng của câu hỏi trong việc ứng đáp đúng và sai
của một câu hỏi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.2.5

Biểu đồ đường cong đặc trưng câu hỏi . . . . . . . . . . . . . . . . . . .

19

2.2.6

Biểu đồ đường cong đặc trưng câu hỏi trong mô hình ba tham số với
ai = 1.5, bi = 0, ci = 0.25 . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.7

20

Biểu đồ đường cong đặc trưng các câu hỏi có cùng tham số độ phân biệt
(a) và độ đoán mò (c) nhưng khác tham số về độ khó (b) . . . . . . . . .

22

2.2.8

Các đường cong đặc trưng câu hỏi trong mô hình một tham số . . . . . .

23

2.2.9

Các đường cong đặc trưng câu hỏi hai tham số với cùng giá trị độ khó
b = 0 nhưng độ phân biệt a là khác nhau. . . . . . . . . . . . . . . . . .

24

2.2.10 Ba đường cong đặc trưng câu hỏi trong mô hình ba tham số với giá trị
a = 2, b = 0 và c có giá trị lần lượt là 0.1, 0.2, 0.3 . . . . . . . . . . . . .

26

2.3.11 20 đường cong đặc trưng của câu hỏi theo mô hình hai tham số . . . . .

27

2.3.12 Đường cong đề đặc trưng của trắc nghiệm . . . . . . . . . . . . . . . . .

28

2.6.13 Đường cong thông tin câu hỏi trong mô hình IRT hai tham số . . . . . .

38

2.6.14 Đường cong thông tin câu hỏi trong mô hình một tham số . . . . . . . .

39

2.6.15 Đường cong thông tin của câu hỏi với độ phân biệt a = 0.8, độ khó b = 1.0
và độ phân biệt c = 0.2 trong mô hình ba tham số . . . . . . . . . . . . .

40

2.6.16 3 đường thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm
dưới mô hình IRT 2 tham số . . . . . . . . . . . . . . . . . . . . . . . .

42

ix
2.6.17 3 đường thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm
dưới mô hình một tham số . . . . . . . . . . . . . . . . . . . . . . . . .

43

2.6.18 3 đường thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm
dưới mô hình ba tham số . . . . . . . . . . . . . . . . . . . . . . . . . .

44

3.1.1

Đường cong đặc trưng của 20 câu hỏi trong mô hình Rasch . . . . . . . .

52

3.1.2

Đường cong đặc trưng câu hỏi 20 . . . . . . . . . . . . . . . . . . . . .

54

3.1.3

Đường cong đặc trưng đề trắc nghiệm trong mô hình Rasch . . . . . . .

54

3.1.4

Đường cong đặc trưng câu hỏi, đường cong thông tin câu hỏi và đường
cong hàm thông tin đề trắc nghiệm cho dữ liệu NTTU_DATA dưới mô
hình Rasch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

3.1.5

Đường cong đặc trưng của 20 câu hỏi theo mô hình hai tham số . . . . .

56

3.1.6

Đường cong đặc trưng câu hỏi 9 trong mô hình hai tham số . . . . . . .

57

3.1.7

Đường cong đặc trưng đề trắc nghiệm trong mô hình hai tham số . . . .

58

3.1.8

Đường cong đặc trưng câu hỏi, đường cong thông tin câu hỏi và đường

cong hàm thông tin đề trắc nghiệm cho dữ liệu NTTU_DATA dưới mô
hình hai tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

Đường cong đặc trưng của 20 câu hỏi theo mô hình ba tham số . . . . .

60

3.1.10 Đường cong đặc trưng câu hỏi 5 trong mô hình ba tham số . . . . . . . .

62

3.1.9

3.1.11 Đường cong đặc trưng câu hỏi, đường cong thông tin câu hỏi và đường
cong hàm thông tin đề trắc nghiệm cho dữ liệu NTTU_DATA dưới mô
hình ba tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

1

LỜI MỞ ĐẦU
Kiểm tra - đánh giá là một khâu rất quan trọng trong quá trình dạy học, có ý nghĩa quyết
định trong việc nâng cao chất lượng và hiệu quả của giáo dục. Kiểm tra là hình thức và là
phương tiện của quá trình đánh giá. Không có một hình thức kiểm tra - đánh giá nào là toàn
vẹn, hoàn hảo, mỗi hình thức đều có ưu điểm và nhược điểm riêng. Nổi bật nhất là hình thức
trắc nghiệm, mặc dù còn hạn chế nhưng hình thức này đã chứng tỏ được những ưu điểm so

với tự luận trong việc kiểm tra - đánh giá với số lượng thí sinh lớn.
Trắc nghiệm (TN) là một phương pháp của khoa học về đo lường trong nhiều lĩnh vực
khác nhau như tâm lý học, thần kinh học và giáo dục học. Cũng như mọi phép đo khác trong
khoa học và đời sống, ở phép đo bằng trắc nghiệm người ta cũng có thước đo và một đối
tượng cần đo. Thước đo là đề trắc nghiệm (ĐTN) và đối tượng cần đo là năng lực của thí
sinh (TS). Yêu cầu cần thỏa mãn để phép đo được chính xác là kết quả chuẩn hóa (xem Mục
2.7) ĐTN không phụ thuộc vào mẫu TS được dùng để trắc nghiệm thử, và sau đó các điểm
số đo được của TS không phụ thuộc vào ĐTN cụ thể, tức là các điểm số đo được sẽ như nhau
dù đo bằng ĐTN nào trong các ĐTN đã được định chuẩn. Cụ thể, một TS có năng lực tiếng
Anh mức 7 điểm thì đưa bất kỳ ĐTN nào (đã được chuẩn hóa) cho TS đó làm thì cũng sẽ thu
được xấp xỉ gần 7 điểm.
Hiện nay, trắc nghiệm khách quan (TNKQ) được đưa vào trong các kỳ thi tốt nghiệp
trung học phổ thông quốc gia [6] và tuyển sinh đại học cũng như kiểm tra đánh giá kết thúc
học phần tại các cơ sở giáo dục, nên sự quan tâm của các cơ sở giáo dục và đội ngũ nhà giáo
đến chất lượng của câu hỏi trắc nghiệm (CHTN), đề trắc nghiệm (ĐTN) ngày càng nhiều
hơn. Do đó, việc thống kê, phân tích, ước lượng và đánh giá CHTN, ĐTN và ước lượng năng
lực của thí sinh là hết sức cần thiết.
Trong trắc nghiệm, hai vấn đề chúng ta phải quan tâm đến đó là: Ngân hàng câu hỏi trắc
nghiệm đạt chất lượng hay không? Việc đánh giá năng lực thí sinh có chính xác và khách
quan hay không?
• Ngân hàng câu hỏi trắc nghiệm: để ngân hàng câu hỏi đạt chất lượng thì yêu cầu mỗi
câu hỏi trong ngân hàng câu hỏi phải đạt chất lượng. Chất lượng của câu hỏi thường
được xem xét ở các tham số đặc trưng của câu hỏi như độ khó (b), độ phân biệt (a),
mức độ đoán mò (c).

2
• Đánh giá năng lực của thí sinh: chính là xem xét lượng kiến thức mà thí sinh đạt được
qua việc trả lời các câu hỏi trắc nghiệm đã được định chuẩn dựa vào một lý thuyết trắc
nghiệm cụ thể.

Việc xác định các tham số đặc trưng của câu hỏi cũng như đánh giá năng lực thí sinh có
quan hệ mật thiết với nhau và dựa trên cơ sở của lý thuyết trắc nghiệm. Hiện nay có hai lý
thuyết trắc nghiệm cơ bản là: lý thuyết trắc nghiệm cổ điển (Classical Test Theory - CTT)
và lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT). Lý thuyết ứng đáp câu hỏi (hay
còn gọi là lý thuyết trắc nghiệm hiện đại) ra đời sau và đã khắc phục được một số nhược
điểm cơ bản của lý thuyết trắc nghiệm cổ điển đó là: Việc xác định các tham số của câu hỏi
không phụ thuộc vào nhóm thí sinh trả lời câu hỏi trắc nghiệm; Việc đánh giá năng lực thí
sinh không phụ thuộc vào đề trắc nghiệm mà thí sinh làm.
Điểm nổi bật của IRT chính là việc ước lượng đồng thời các tham số của câu hỏi và năng
lực của thí sinh với một độ chính xác nhất định, điều mà CTT không thể thực hiện được. Việc
áp dụng IRT trong phân tích, đánh giá CHTN, ĐTN và đánh giá năng lực của thí sinh nhằm:
• Xác định các tham số đặc trưng của câu hỏi để từ đó loại bỏ ra các câu hỏi kém chất
lượng (nếu có).
• Đánh giá năng lực của thí sinh một cách khách quan, chính xác với độ tin cậy cao.
Trên thế giới, việc nghiên cứu và áp dụng lý thuyết trắc nghiệm hiện đại vào đo lường và
đánh giá được phát triển từ những năm 1960. Những nhà nghiên cứu có nhiều đóng góp quan
trọng cho sự phát triển của lý thuyết này có thể kể đến như là Rasch , Birnbaum, Baker (xem
[15], [16], [17]).
Ở Việt Nam, việc áp dụng lý thuyết trắc nghiệm hiện đại vào đánh giá kết quả học tập của
người học chưa thực sự được quan tâm đúng mức. Theo nhận định của chúng tôi thì hầu hết
các cơ sở giáo dục hiện nay đều đánh giá qua việc thí sinh trả lời đúng bao nhiêu câu hỏi trên
tổng số câu hỏi của bài thi (mà theo lý thuyết ứng đáp câu hỏi đây chỉ là điểm số thô không
phản ánh chính xác năng lực của thí sinh). Kỳ thi tốt nghiệp THPT quốc gia năm 2017 Bộ
Giáo Dục và Đào Tạo đã sử dụng phương pháp trắc nghiệm khách quan vào đánh giá năng
lực thí sinh. Điều này cho thấy phương pháp trắc nghiệm khách quan sẽ ngày càng được sử
dụng rộng rãi. Việc tìm hiểu và ứng dụng lý thuyết ứng đáp câu hỏi vào phân tích đánh giá
câu hỏi và đề trắc nghiệm là hết sức cần thiết trong giai đoạn hiện nay và tác giả đã chọn nó
là vấn đề chính cần giải quyết trong luận văn này.

3
Với mong muốn góp phần nâng cao chất lượng giáo dục thông qua việc chuẩn hóa câu
hỏi và đề trắc nghiệm bằng việc áp dụng một lý thuyết trắc nghiệm cụ thể vào việc đánh giá,
tôi chọn đề tài “Đánh giá chất lượng câu hỏi và đề trắc nghiệm bằng lý thuyết ứng đáp
câu hỏi” cho hướng nghiên cứu của mình.
Luận văn tập trung việc trình bày lý thuyết ứng đáp câu hỏi và ứng dụng lý thuyết này vào
việc phân tích, ước lượng, đánh giá CHTN và ĐTN bằng phương pháp thống kê toán học. Sử
dụng ngôn ngữ R trong phân tích, ước lượng đánh giá CHTN và ĐTN từ bộ dữ liệu thật của
Trung Tâm Tin Học - Trường Đại học Nguyễn Tất Thành thông qua việc xử lý kết quả trả lời
các câu hỏi trắc nghiệm của bài thi lý thuyết kiểm tra năng lực tin học Trình độ A - Quốc gia,
khóa thi ngày 18 tháng 10 năm 2015. Hướng phát triển về sau, tác giả sẽ áp dụng lý thuyết
ứng đáp câu hỏi vào một hệ thống cụ thể để đánh giá câu hỏi trắc nghiệm, đề trắc nghiệm.
Luận văn được chia thành 4 chương:
CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
Tổng quan về đo lường, kiểm tra đánh giá trong giáo dục
Tổng quan về trắc nghiệm khách quan
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Lý thuyết ứng đáp câu hỏi và mô hình Rasch
Đường cong đặc trưng của câu hỏi
Đường cong đặc trưng của đề trắc nghiệm - điểm thực
Ước lượng các tham số của câu hỏi
Ước lượng năng lực của thí sinh
Hàm thông tin
Ước lượng đồng thời các tham số của câu hỏi và năng lực của thí sinh
CHƯƠNG 3: THỰC NGHIỆM, PHÂN TÍCH VÀ ĐÁNH GIÁ
Thực nghiệm và phân tích
Đánh giá chất lượng câu hỏi và đề trắc nghiệm
Đề xuất áp dụng mô hình phù hợp với dữ liệu
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết luận

Hướng phát triển

4

Chương 1
TỔNG QUAN VỀ
LĨNH VỰC NGHIÊN CỨU
1.1

Tổng quan về đo lường, kiểm tra đánh giá trong giáo dục

1.1.1

Khái niệm về đo lường, đánh giá trong giáo dục

Đo lường (measurement) là phép so sánh một đại lượng nào đó với một vật chuẩn đã biết, và
đưa ra các con số để đánh giá. Để thực hiện một phép đo trong bất kỳ lĩnh vực khoa học kỹ
thuật nào cũng cần một thước đo tác động lên đối tượng cần đo, trên thước đo có xác định
đơn vị đo. Bất kỳ một phép đo nào cũng được thực hiện với một độ chính xác nào đó, nghĩa
là phép đo nào cũng có sai số (xem [5]).
Đánh giá (evaluation) là một khâu rất quan trọng trong quá trình giáo dục để xác định,
một là mục tiêu giáo dục đặt ra có phù hợp hay không và có đạt được hay không, hai là việc
giảng dạy có thành công hay không, người học có tiến bộ hay không. Để đánh giá được đúng
đắn người ta phải triển khai đo lường.

1.1.2

Lý thuyết đo lường trong giáo dục

Việc đo lường và đánh giá trong giáo dục đã phát triển từ xa xưa. Tuy nhiên có thể nói, một
ngành khoa học thật sự về đo lường tâm lý và giáo dục chỉ mới bắt đầu hình thành từ cuối
thế kỷ 19 và phát triển mạnh mẽ trong thế kỷ 20 với những dấu mốc quan trọng như “trắc
nghiệm trí tuệ Simon-Binet” được xây dựng bởi hai nhà tâm lý học người Pháp Binet và
Simon vào khoảng năm 1905. Nó liên tục được cải tiến và ngày nay được biết đến với tên
gọi là Trắc nghiệm chỉ số thông minh (Intelligence Quotient Test). Bộ trắc nghiệm thành quả

5
học tập tổng hợp đầu tiên Standford Achievement Test - SAT ra đời vào năm 1923 ở Mỹ. Với
việc chấm trắc nghiệm bằng máy của IBM năm 1935, việc thành lập Hội đồng quốc gia về
đo lường trong giáo dục Mỹ (National Council on Measurement in Education - NCME) vào
thập niên 1950 cũng như sự ra đời của hai tổ chức làm dịch vụ trắc nghiệm lớn nhất Hoa Kỳ
(Educational Testing Service - ETS năm 1947, American College Testing - ACT năm 1959)
đánh dấu một ngành công nghiệp về trắc nghiệm đã hình thành (xem [5]).
Tại Việt Nam, trước năm 1975, ở miền Bắc, khoa học về trắc nghiệm cũng như ứng dụng
của nó vào thực tiễn chưa được chú trọng; ở miền Nam trắc nghiệm được áp dụng sớm hơn
nhờ một số học giả du học từ các nước Phương Tây trong đó có Giáo sư Dương Thiệu Tống
(xem [5]), và điển hình là kỳ thi tú tài IBM năm 1974 đã áp dụng phương pháp trắc nghiệm
khách quan (TNKQ).

1.2

Tổng quan về trắc nghiệm khách quan

Lý thuyết trắc nghiệm là cơ sở khoa học để đánh giá chất lượng của một đề trắc nghiệm và
xác định năng lực của thí sinh. Cho đến thời điểm hiện nay có hai lý thuyết trắc nghiệm được
biết đến và được sử dụng trong nhiều ngành khoa học trong đó có khoa học về đo lường giáo
dục.

1.2.1

Lý thuyết trắc nghiệm cổ điển

Lý thuyết trắc nghiệm cổ điển (Classical Test Theory - CTT) ra đời từ cuối Thế kỷ 19 và hoàn
thiện vào khoảng thập niên 1970, đã có nhiều đóng góp quan trọng cho hoạt động đánh giá
trong giáo dục. Lý thuyết này quan niệm rằng năng lực của mỗi TS được xác định bởi điểm
thực (True Score - T ) thu được trong trường hợp phép đo không có sai số (Error - E). Điểm
thực được xác định như là điểm trả lời đúng kỳ vọng khi triển khai đề kiểm tra độc lập vô số
lần. Tuy nhiên, điểm thực T của TS không bao giờ có thể thu được trực tiếp. Điểm X được
gọi là “điểm quan sát” (observed score) của TS dựa vào công thức
X = T + E,
trong đó:
• X (observed score): điểm quan sát là điểm mà thí sinh nhận được sau khi thực hiện bài
thi, điểm này thường được tính là tổng điểm của các câu hỏi trong bài thi;

6
• T (true score): điểm thực là một số đo năng lực thực sự của một thí sinh, điểm này
không thể đo được trực tiếp;
• E (error): sai số.
Trong CTT, việc đánh giá năng lực của thí sinh chủ yếu dựa vào điểm bài thi trắc nghiệm.
Trong đó, một đề thi trắc nghiệm là tập hợp các câu hỏi trắc nghiệm. Xét một đề thi trắc
nghiệm gồm N câu hỏi được thực hiện bởi M thí sinh. Khi đó:
Định nghĩa 1.2.1 (Độ khó, xem [5]). Độ khó của một câu hỏi chính là tỉ số giữa số thí sinh
trả lời đúng câu hỏi so với tổng số thí sinh tham gia trả lời câu hỏi đó và được xác định bởi
công thức
Di =

ri

,
M

trong đó:
• Di : là độ khó câu hỏi thứ i;
• ri : là số thí sinh trả lời đúng câu hỏi thứ i;
• M : là tổng số thí sinh tham gia trả lời câu hỏi thứ i.
Tỉ lệ trả lời đúng Di (%)

Độ khó
Rất khó (Very Difficult)

0 ≤ Di ≤ 20

Khó (Difficult)

20 < Di ≤ 40

Trung bình (Average / Moderately Difficult)

40 < Di ≤ 60

Dễ (Easy)

60 < Di ≤ 80

Rất dễ (Very easy)

80 < Di ≤ 100

Bảng 1.2.1. Bảng độ khó của câu hỏi

Theo đó, giá trị độ khó của Di sẽ nằm trong khoảng từ 0 đến 1. Giá trị của Di càng cao
thì câu hỏi càng dễ và ngược lại. Chúng tôi phân chia mức độ khó của các câu hỏi dựa vào tỉ
lệ trả lời đúng câu hỏi trên tổng số thí sinh tham gia trả lời câu hỏi được trình bày như Bảng
1.2.1.
Định nghĩa 1.2.2 (Độ phân biệt, xem [5]). Độ phân biệt của một câu hỏi được tính bằng
công thức
Disci =

Hi − Li
,
S

7
trong đó:
• Disci : là độ khó câu hỏi thứ i;
• Hi : là số thí sinh thuộc nhóm năng lực cao trả lời đúng câu hỏi thứ i;
• Li : là số thí sinh thuộc nhóm năng lực thấp trả lời đúng câu hỏi thứ i;
• S: là tổng số thí sinh tham gia của mỗi nhóm.
Trong CTT, độ phân biệt được xem là một đại lượng được sử dụng để đo mức độ phân
biệt giữa các thí sinh trong nhóm. Khi ra một câu hỏi trắc nghiệm hoặc bài thi trắc nghiệm,
chúng ta thường muốn phân biệt trong nhóm thí sinh đó những người có các mức năng lực
khác nhau như: giỏi, khá, trung bình, yếu, . . . . Khả năng của câu trắc nghiệm thực hiện được
sự phân biệt ấy được gọi là độ phân biệt.
Một câu hỏi có độ phân biệt cao thì tỉ lệ trả lời đúng câu hỏi đó giữa nhóm thí sinh giỏi
và nhóm thí sinh kém phải có sự khác nhau cao.
Định nghĩa 1.2.3 (Độ tin cậy, xem [5]). Độ tin cậy của bài trắc nghiệm chính là đại lượng
biểu thị cho mức độ chính xác của phép đo nhờ bài trắc nghiệm và được tính dựa theo phương

pháp Kuder-Richarson 1 như sau
r=

N
pq
(1 −
)
2
(N − 1)
σ

trong đó:
• N: số câu hỏi của đề trắc nghiệm;
• p: tỉ lệ trả lời đúng cho một câu hỏi;
• q: tỉ lệ trả lời không đúng cho câu hỏi;
• σ 2 : phương sai của tổng điểm mọi thí sinh đối với cả đề trắc nghiệm.
Độ tin cậy càng cao, điểm số thu được từ bài trắc nghiệm càng chính xác.
Định nghĩa 1.2.4 (Độ giá trị, xem [5]). Độ giá trị của bài trắc nghiệm là đại lượng biểu thị
mức độ đạt được mục tiêu đề ra cho phép đo nhờ bài trắc nghiệm.
1

Phương pháp Kuder-Richarson dựa trên ý tưởng xem mỗi câu hỏi trắc nghiệm trong một đề trắc nghiệm là
một đề trắc nghiệm tương đương, tức là chúng có cùng điểm trung bình và cùng phương sai.

8
Phát triển từ đầu Thế kỷ 20 cho đến thập niên 1970, lý thuyết trắc nghiểm cổ điển đã đạt
được nhiều thành tựu, tạo cơ sở khoa học để thiết kế các phép đo tương đối chính xác. Tuy
nhiên lý thuyết này còn các hạn chế chính sau [3, Ch. 3, tr. 70-72]:
• Hạn chế cơ bản nhất của lý thuyết trắc nghiệm cổ điển chính là không thể tách biệt

được các đặc trưng của TS độc lập với các đặc trưng của ĐTN, đặc trưng này chỉ có
thể giải thích trong mối quan hệ với đặc trưng kia.
Một đặc trưng quan trọng mà ta quan tâm là năng lực của TS. Trong lý thuyết trắc
nghiệm cổ điển, năng lực được diễn tả bởi điểm của TS mà một ĐTN có thể đo được.
Khi ĐTN khó thì TS sẽ thể hiện năng lực thấp, khi ĐTN dễ thì TS sẽ thể hiện năng
lực cao. Nhưng ĐTN như thế nào được gọi là khó hay dễ? Độ khó của một CH được
định nghĩa là tỉ số giữa số TS trả lời đúng CH trên tổng số TS tham gia trả lời CH, tức
là độ khó CH tùy thuộc vào năng lực của các TS được đo. Độ phân biệt của CH cũng
như độ tin cậy và độ giá trị của ĐTN cũng được xác định phụ thuộc vào một nhóm TS
cụ thể được đo. Các đặc trưng của CH và ĐTN thay đổi khi trình trạng TS thay đổi, và
các đặc trưng của TS thay đổi khi tình trạng ĐTN thay đổi. Điều này rất khó so sánh
các TS khi họ làm các ĐTN khác nhau, cũng như rất khó so sánh các ĐTN khi được
làm bởi các nhóm TS khác nhau.
Đặc trưng CH phụ thuộc vào nhóm TS sẽ ảnh hưởng nhiều đến việc xây dựng ngân
hàng câu hỏi. Việc mở rộng một ngân hàng CH sẽ gặp khó khăn nếu các đặc trưng
của CH bổ sung thu được nhờ một nhóm TS khác với nhóm TS trước đó được dựa vào
để xác định các đặc trưng của ngân hàng CH cũ. Năng lực xác định được của TS phụ
thuộc vào ĐTN: rất khó so sánh điểm biểu diễn năng lực của các TS làm các ĐTN khác
nhau thậm chí khi cho các nhóm TS làm các ĐTN tương đương vì khi các nhóm TS có
năng lực khác nhau thì các điểm thu được của TS từ ĐTN đó có sai số khác nhau.
• Việc xác định độ tin cậy của các đề trắc nghiệm phải dựa vào các đề trắc nghiệm tương
đương. Đây là mặt hạn chế khác của lý thuyết trắc nghiệm cổ điển. Theo lý thuyết này,
độ tin cậy là “tương quan giữa các điểm của hai ĐTN tương đương”. Nhưng trong thực
tế không thể có các ĐTN thỏa mãn tiêu chí tương đương. Liên quan với độ tin cậy là
sai số tiêu chuẩn của phép đo năng lực TS. Lý thuyết trắc nghiệm cổ điển quan niệm
rằng các sai số tiêu chuẩn của phép đo năng lực TS là như nhau trong khi thực tế độ
chính xác của phép đo năng lực là khác nhau đối với các TS có năng lực khác nhau.

9

• Một hạn chế nữa của lý thuyết trắc nghiệm cổ điển là lý thuyết này xem xét việc ứng
đáp dựa vào cấp độ ĐTN chứ không phải cấp độ CH trắc nghiệm. Định nghĩa điểm
thực trong trắc nghiệm cổ điển không lưu ý tới việc TS ứng đáp một CH như thế nào.
Cụ thể hơn, lý thuyết trắc nghiệm cổ điển không cho phép dự báo về một TS hay một
nhóm TS nào ứng đáp một CH ra sao. Câu hỏi “xác suất để một TS ứng đáp đúng một
CH xác định là bao nhiêu?” là rất quan trọng trong nhiều ứng dụng trắc nghiệm nhưng
không trả lời được trong lý thuyết trắc nghiệm cổ điển.
Từ những hạn chế nêu trên, có thể thấy lý thuyết trắc nghiệm cổ điển không cho phép giải
quyết tốt một số vấn đề trong thực tiễn trắc nghiệm. Nhiều nhà tâm trắc học cố gắng tìm một
lý thuyết mới để thay thế lý thuyết trắc nghiệm cổ điển với kỳ vọng đạt được các yêu cầu sau:
• Các đặc trưng câu hỏi không phụ thuộc vào nhóm thí sinh;
• Đánh giá năng lực thí sinh không phụ thuộc vào đề trắc nghiệm mà thí sinh làm;
• Mô hình xem xét ở cấp độ câu hỏi chứ không phải cấp độ đề trắc nghiệm;
• Mô hình không đòi hỏi các đề trắc nghiệm hoàn toàn tương đương để đánh giá độ tin
cậy;
• Mô hình cung cấp các sai số khác nhau của phép đo ở từng mức năng lực của thí sinh.

1.2.2

Lý thuyết trắc nghiệm hiện đại

Lý thuyết trắc nghiệm hiện đại hay còn gọi là Lý thuyết ứng đáp câu hỏi (Item Response
Theory - IRT) là một lý thuyết của khoa học về đo lường trong giáo dục đã ra đời từ nửa cuối
Thế kỷ 20 và phát triển mạnh mẽ cho đến nay. Để đánh giá đối tượng nào đó, lý thuyết trắc
nghiệm cổ điển tiếp cận ở cấp độ một đề kiểm tra, còn lý thuyết ứng đáp câu hỏi tiếp cận ở
cấp độ từng câu hỏi.
IRT được xây dựng dựa trên khoa học về xác suất và thống kê để xử lý dữ liệu dựa trên
nghiên cứu mọi cặp tương tác nguyên tố “Thí sinh - Câu hỏi” (TS, CH). Mỗi TS sẽ ứng đáp
như thế nào trước một CH sẽ phụ thuộc vào năng lực (được ký hiệu là θ) của TS và các tham
số đặc trưng (a-độ phân biệt, b-độ khó, c-độ đoán mò) của CH. Mối quan hệ giữa xác suất

trả lời đúng CH và năng lực của TS được mô tả bởi hàm đặc trưng câu hỏi có dạng
P (θ) = c +

1−c
,
1 + e−a(θ−b)

(1.1)

10
và có đồ thị của hàm đặc trưng (hay còn gọi là đường cong đặc trưng câu hỏi (Item Characteristic Curves - ICC)).
Hiện nay có ba mô hình ứng đáp câu hỏi thông dụng: mô hình một tham số chỉ xét đến
một tham số đặc trưng duy nhất của câu hỏi đó chính là độ khó (b), mô hình hai tham số có
xét thêm đến đặc trưng thứ hai của câu hỏi là độ phân biệt (a), và mô hình ba tham số xét
thêm đến tham số đặc trưng thứ ba của câu hỏi là mức độ đoán mò (c) của TS khi trả lời câu
hỏi. So với lý thuyết trắc nghiệm cổ điển, lý thuyết ứng đáp câu hỏi có những ưu điểm nổi
bật:
• Trong lý thuyết cổ điển: độ khó, độ phân biệt của các CH tính được sẽ phụ thuộc vào
mẫu TS được chọn thử nghiệm, và năng lực xác định được của TS phụ thuộc vào ĐTN
mà TS làm.
• Với lý thuyết ứng đáp câu hỏi, thành tựu kỳ diệu nhất mà các mô hình tính toán mang
lại là các tham số đặc trưng của CH (độ khó (b), độ phân biệt (a), mức độ đoán mò (c))
không phụ thuộc vào mẫu thử để định cỡ CH và năng lực (θ) đo được của TS không
phụ thuộc vào ĐTN cụ thể được lấy từ ngân hàng câu hỏi (NHCH) đã được định chuẩn.
Như vậy theo IRT, mỗi CH có các thuộc tính đặc trưng của nó, mỗi TS ở một trình độ nào
đó có một năng lực xác định, các thuộc tính đặc trưng này không phụ thuộc vào phép đo,
hay nói cách khác chúng là bất biến (invariance). Việc ứng dụng IRT sẽ góp phần gia tăng
độ chính xác của phép đo lường trong giáo dục. Từ đó, chúng ta có thể đề xuất quy trình xây
dựng ngân hàng câu hỏi (NHCH), phân tích kết quả trả lời các câu hỏi TNKQ để xác định

chất lượng câu hỏi, chủ động trong việc thiết kế, xây dựng đề kiểm tra trắc nghiệm đáp ứng
tốt các mục đích đã đề ra.

11

Chương 2
CƠ CỞ LÝ THUYẾT
2.1

Lý thuyết ứng đáp câu hỏi và mô hình Rasch

Trong những thập niên cuối của Thế kỷ 20, cùng với sự tiến bộ vượt bậc của tin học và sự
tăng nhanh về tốc độ tính toán của máy tính. Phương hướng mô hình hóa quá trình đo lường
bằng trắc nghiệm cũng đạt được những thành tựu to lớn. Một trong những thành tựu đó chính
là lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT). Để hiểu rõ hơn về lý thuyết này,
chúng ta xét đến ví dụ cụ thể sau:
Ví dụ 1. Giả sử chúng ta tạo ra một đề trắc nghiệm 20 câu cho một kỳ thi có 100 TS tham
gia để xác định năng lực Tin học cơ bản của TS. Mỗi TS có một năng lực (θ) nào đó và mỗi
CHTN có một độ khó (b) nào đó. Phải xem xét TS thứ j có năng lực θj sẽ ứng đáp như thế
nào trước CH thứ i có độ khó bi .
Trong ví dụ nêu trên, ta dễ dàng nhận thấy có 2000 mối quan hệ tương tác giữa thí sinh
và câu hỏi. Nhà toán học người Đan Mạch, Rasch đã đưa ra một mô hình ứng đáp để mô tả
mối quan hệ tương tác này. Đối với TS, Rasch chọn tham số năng lực (θ). Đối với CH, Rasch
chỉ chọn một tham số duy nhất đó là độ khó (b). Rasch đã phát biểu: “Một TS có khả năng
hơn một TS khác thì phải có xác suất trả lời đúng câu trắc nghiệm bất kỳ cao hơn TS còn lại,
cũng tương tự như vậy, một CH khó hơn một CH khác thì xác suất để một TS bất kỳ trả lời
đúng CH sau sẽ cao hơn câu hỏi trước.”(xem [15])
Từ phát biểu của Rasch, có thể rút ra hệ quả: xác suất P trả lời đúng câu hỏi phụ thuộc
vào tương quan giữa năng lực (θ) của TS và độ khó (b) của CH được biểu diễn qua công thức

θ
f (P ) = ,
b

(2.1)

12
trong đó f là một hàm nào đó của xác suất trả lời đúng.
Để đơn giản trong việc tính toán, người ta sử dụng hệ thống cộng trừ thay cho hệ thống
nhân chia. Chính vì vậy, người ta thường lấy logarit của (2.1) thành
ln f (P ) = ln

θ
= θ − b.
b

P
(1 − P )
hay còn gọi là tỉ số odds, tức là tỉ lệ xác suất của sự kiện xảy ra so với xác suất sự kiện không

Trong trắc nghiệm nhị phân (Dichotomous Item Responses), Rasch chọn hàm f =

xảy ra. Như vậy
ln
trong đó, ln

P
1−P

= θ − b,

(2.2)

P
được gọi là logit. Lấy logarithm tự nhiên hai vế của (2.2) ta được
(1 − P )
P
= eθ−b .
1−P

Từ đó ta xác định được giá trị
P =

eθ−b
.
1 + eθ−b

Như vậy Rasch đã tìm ra một biểu thức đơn giản và thuận lợi dưới dạng hàm mũ để tính
giá trị xác suất nói trên đối với cặp TSj và CHi như sau
Pi (θj ) =

e(θj −bi )
1 + e(θj −bi )

trong đó e là hằng số Euler có giá trị gần bằng 2.718281828 . . . , và chính là cơ số của logarit
tự nhiên. Trong ví dụ nêu trên chúng ta có chỉ số j chạy từ 1 đến 100 ứng với 100 thí sinh, chỉ
số i chạy từ 1 đến 20 ứng với 20 câu hỏi, và ta có 2000 giá trị ứng với 2000 cặp (TSj , CHi ).
Qua ví dụ đã trình bày ở trên, chúng ta dễ dàng nhận thấy được lý thuyết ứng đáp câu hỏi
được xây dựng dựa trên một hàm phân bố xác suất phụ thuộc năng lực thí sinh và các tham

số câu hỏi. Một số giả định cơ bản trong IRT là:
• Việc trả lời một câu hỏi của thí sinh bị tác động bởi hai yếu tố cơ bản: đặc trưng của
câu hỏi (độ khó, độ phân biệt, độ đoán mò), năng lực của thí sinh.
• Năng lực của thí sinh là đại lượng không thể đo lường trực tiếp mà chỉ có thể ước lượng

Đánh giá chất lượng câu hỏi và đề trắc nghiệm bằng lý thuyết ứng đáp câu hỏi

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về