Tải bản đầy đủ (.doc) (9 trang)

PHÂN TÍCH CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN BẰNG PHẦN MỀM QUEST CONQUEST

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (152.09 KB, 9 trang )

PHÂN TÍCH CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN BẰNG PHẦN
MỀM QUEST CONQUEST

I. ĐẶT VẤN ĐỀ
Trắc nghiệm là một phương pháp của khoa học về đo lường trong giáo dục.
Những năm gần đây, trắc nghiệm khách quan (TNKQ) được đưa vào trong các kỳ
thi tốt nghiệp phổ thông và tuyển sinh đại học nên sự quan tâm của các trường học
Đại học, các cơ sở quản lý giáo dục và đội ngũ giáo viên về phương pháp giảng dạy
này ngày một nhiều. Một ưu điểm nổi bật của phương pháp trắc nghiệm là việc sử
dụng các phần mềm để xử lý số liệu của câu hỏi trắc nghiệm (CHTN), đề trắc
nghiệm (ĐTN) đã mang lại hiệu quả cao. Do đó, việc vận dụng phần mềm
Quest/Conquest để phân tích, đánh giá câu hỏi trắc nghiệm, đề trắc nghiệm là rất
cần thiết.
II. NỘI DUNG NGHIÊN CỨU
1. Vận dụng lý thuyết khảo thí cổ điển trong phân tích đề thi
Một trong những ứng dụng của lý thuyết đánh giá cổ điển là phân tích câu hỏi thi
- kiểm tra. Phân tích câu hỏi - thi kiểm tra là một quá trình xem xét chúng một cách
kỹ lưỡng và có phê phán. Phân tích câu hỏi thi - kiểm tra nhằm làm tăng chất lượng
của chúng, loại bỏ những câu hỏi quá tồi, sửa chữa những câu hỏi có thể sửa được
và giữ lại những câu hỏi đáp ứng yêu cầu.
Phân tích câu hỏi thi - kiểm tra có thể thực hiện bằng một trong hai phương
pháp:
Phương pháp chuyên gia (Phương pháp bình phẩm, phê phán) bằng cách đề nghị
một số chuyên gia cho ý kiến nhận xét về những câu hỏi thi - kiểm tra cụ thể theo
một số tiêu chí đề ra. Những người được hỏi có thể là các chuyên gia môn học,
chuyên gia soạn thảo văn bản, thậm chí là một số thí sinh.
Cách tiếp cận này có hai nguyên tắc:
+ Người được hỏi phải là người có khả năng bình phẩm, phê phán các câu hỏi thi
- kiểm tra;
+ các câu hỏi thi - kiểm tra được viết theo một nguyên tắc đã được xác định và
có các tiêu chí để bình phẩm, phê phán.


Phương pháp định lượng (Phân tích số liệu): Phân tích thống kê kết quả làm bài
của thí sinh. Sau khi có kết quả, nhập dữ liệu để phân tích. Việc này thường làm
trong quá trình thử nghiệm các câu hỏi thi - kiểm tra. Mục đích chính của thử
nghiệm là thu thập dữ liệu để phân tích các câu hỏi thi - kiểm tra, chỉ ra những câu
hỏi thi - kiểm tra cần phải sửa.
Các phương pháp phân tích số liệu và bình phẩm, phê phán đều quan trọng để
nâng cao chất lượng câu hỏi thi - kiểm tra.
2. Thuyết ứng đáp câu hỏi
Thuyết ứng đáp câu hỏi (Item Response Theory - IRT) là một lý thuyết của khoa
học về đo lường trong giáo dục, ra đời từ nửa sau của thế kỷ XX và phát triển mạnh
mẽ cho đến nay. So với lý thuyết khảo thí cổ điển, lý thuyết khảo thí hiện đại ưu
việt hơn nhiều, được áp dụng ngày càng rộng rãi để định cỡ các CHTN và thiết kế
các đề trắc nghiệm.
Thuyết đáp ứng câu hỏi của Rasch mô hình hóa mối quan hệ giữa mức độ khả
năng của người làm trắc nghiệm và đáp ứng của người ấy với câu trắc nghiệm. Mỗi
câu trắc nghiệm được mô tả bằng một thông số (độ khó) ký hiệu là δ và mỗi người
làm trắc nghiệm được mô tả bằng một thông số (khả năng) ký hiệu là θ. Mỗi khi
một người cố gắng trả lời một câu hỏi, các thông số độ khó và khả năng tác động
lẫn nhau, để cho một xác suất đáp ứng của người làm trắc nghiệm ấy. Dạng toán
học của mô hình này là:
Trong đó, P(θ) là xác suất để thí sinh có năng lực θ trả lời ĐÚNG câu hỏi có độ
khó δ.
3. Xử lý số liệu bằng phần mềm Quest/Conquest
Chúng tôi sử dụng mô hình Rasch với phần mềm Quest/Conquest để phân
tích đề thi trắc nghiệm khách quan môn Thuế nhà nước của sinh viên (SV) Trường
Đại học Hùng Vương gồm 50 câu hỏi trắc nghiệm. Đề thi có 150 thí sinh tham gia
với 5 mã đề khác nhau (có chất lượng tương đương nhau). Chúng tôi đã chọn ngẫu
nhiên 1 mã đề bất kỳ (mã đề 32) trong 5 mã đề.
- Sau khi thi xong, Phòng Thanh tra, Khảo thí và Đảm bảo Chất lượng của
Trường tiến hành thu nhận bài thi. Kết quả bài thi được nhập bằng tay vào máy tính.

Dữ liệu này được nhập vào phần mềm SPSS để chuyển sang định dạng phù hợp với
phần mềm Quest/Conquest.
- Chương trình Quest/Conquest xử lý sẽ cho ta các kết quả như mức độ phù hợp
của các câu hỏi với mô hình Rasch, năng lực của thí sinh so với độ khó của câu hỏi,
độ tin cậy của đề thi và các chỉ số đặc trưng cho từng câu hỏi như độ khó, độ phân
biệt, hệ số tương quan giữa câu hỏi thi với toàn bài, độ tin cậy, sai số.
- Sau đây là các bảng mô tả kết quả phân tích 50 câu trắc nghiệm.
3.1. Mức độ phù hợp với mô hình
Khi dữ liệu phù hợp với mô hình Rasch thì trị số kỳ vọng của các bình phương
trung bình (mean square) xấp xỉ bằng 1 và độ lệch chuẩn (SD) xấp xỉ bằng 0.
Bảng 1. Mức độ phù hợp với mô hình Rash
THUE NHA NUOC
Summary of item Estimates
=========================
Mean .00 - chấp nhận
SD 2.43 - quá lớn
SD (adjusted) 2.29 - quá lớn
Reliability of estimate .89 - tin cậy
Fit Statistics
===============
Infit Mean Square Outfit Mean Square
Mean .99 Mean 1.04
SD .10 SD .60
Infit t Outfit t
Mean .26 Mean .22
SD .54 SD .63
13 items with zero scores
3 items with perfect scores
Summary of case Estimates
=========================

Mean -1.11 - rất thấp
SD .54
SD (adjusted) .00
Reliability of estimate .00

Fit Statistics
===============
Infit Mean Square Outfit Mean Square
Mean .98 Mean 1.04
SD .64 SD 1.17
Infit t Outfit t
Mean 20 Mean 18
SD 1.60 SD 1.42
- Các giá trị SD quá lớn so với điểm số các phương án trả lời của thí sinh.
- Các thông tin về kết quả tính toán cho thấy năng lực trung bình của mẫu thí
sinh (case estimate) tham gia bài kiểm tra - 1.11 thấp hơn nhiều so với độ khó
chung của bài kiểm tra. Độ tin cậy của tính toán đáng tin cậy vì có giá trị bằng
0,89= (89%).
3.2. Mức độ phù hợp của các câu hỏi với nhau
Trong biểu đồ Item Fit sau đây, mỗi câu trắc nghiệm biểu thị bằng dấu *. Những
câu trắc nghiệm nằm trong hai đường chấm thẳng đứng có giá trị INFIT MNSQ
nằm trong khoảng [0,77; 1,30] sẽ phù hợp với mô hình Rasch. Nếu câu trắc nghiệm
nào nằm ngoài khoảng này là không phù hợp và sẽ bị loại bỏ. Trong nghiên cứu
này, câu 46 cần xem xét lại vì nằm ngoài khoảng cho phép (tỷ lệ chọn đáp án giữa
phương án đúng - sai là 50 - 50).
Bảng 2. Sự phù hợp các câu hỏi trong bài thi trắc nghiệm
THUE NHA NUOC
INFIT
MNSQ .63 .67 .71 .77 .83 .91 1.00 1.10 1.20 1.30
1.40 1.50 1.60

+ + + + + + + +
+ + + + +-
2 item 2 . | * .
3 item 3 . * | .
4 item 4 . | * .
5 item 5 . * | .
6 item 6 . *| .
9 item 9 . | * .
10 item 10 . | * .
11 item 11 . * .
13 item 13 . * | .
14 item 14 . * | .
15 item 15 . * | .
16 item 16 . | * .
17 item 17 . | * .
18 item 18 . |* .
19 item 19 . * | .
20 item 20 . | * .
23 item 23 . | * .
26 item 26 . | * .
27 item 27 . * | .
28 item 28 . * | .
29 item 29 . | * .
31 item 31 . * | .
32 item 32 . | * .
33 item 33 . *| .
35 item 35 . | * .
36 item 36 . * | .
37 item 37 . * | .
38 item 38 . * | .

39 item 39 . | * .
40 item 40 . | * .
44 item 44 . | * .
45 item 45 . * | .
46 item 46 . | .*
47 item 47 . * | .
3.3. Phân bố độ khó câu hỏi thi và năng lực thí sinh
Sơ đồ phân bố độ khó câu hỏi thi và năng lực thí sinh cho thấy mức độ phù
hợp của đề thi đối với thí sinh dự thi. Kết quả xử lý bằng phần mềm CONQUEST
cho một bản đồ phân bố năng lực học sinh và độ khó câu hỏi thi. Dựa vào biểu đồ ở
bảng 2, ta thấy đề thi khá dễ với năng lực của nhóm thí sinh tham gia bài thi này, do
đó cần bổ sung một số câu khó để đánh giá những thí sinh có năng lực ở mức giữa,
một số câu dưới ngưỡng năng lực thấp của thí sinh (quá dễ: câu 2, 13, 15, 17, 18,
23, 24, 27, 29, 32, 44, 45, 50, 36, 4, 5, 28). Các câu 1, 48, 49, 50 có 100% sinh viên
chọn đáp áp đúng nên phần mềm tự động không đưa vào phân tích đánh giá.
+item

|3 6 9 11 12 16 21 26 31 33 34 37 |Câu hỏi khó
|39 47 48 49 |
| |
| |
| |
| |
|41 |
| |
| |
XXX| |
|14 |
XXX| |
XXX|19 |

| |
XXXXXXX| |Câu hỏi khó trung
bình
XXXXXXXXXX| |
XXX| |
XXXXXXXXXXXXX| |
0 XXX| |
XXX| |
XXXXXXXXXX| |
XXXXXXXXXX| |
XXXXXXXXXXXXXXXXXXXXXXX| |
XXXXXXXXXXXXXXXXXXXXXXX|10 38 |
XXXXXXXXXXXXXXXXXXXX| |
XXXXXXXXXXXXX| |
XXXXXXXXXXXXX| |
XXXXXXXXXXXXXXXXXXXXXXX| |
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX|
|
XXXXXXXXXXXXXXXXXXXX| |
XXXXXXXXXXXXXXXXXXXXXXXXXXX|
|
XXXXXXXXXXXXXXXXX| |
XXXXXXXXXXXXXXXXX| |
XXXXXXXXXX|40 |
XXXXXXXXXX|46 |
XXXXXXXXXXXXXXXXXXXXXXX| |
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX|20
|
XXXXXXXXXXXXXXXXX| |
XXXXXXXXXXXXX| |

XXX| |
XXXXXXXXXXXXX|35 |
XXXXXXX| |
XXXXXXXXXX| | Câu hỏi dễ
| |
| |
| |
| |
|5 28 |
| |
| |
XXX| |
| |
| |
|4 |
| |
|36 |
| |
XXX| |
|45 50 |
|2 13 15 17 18 23 24 27 29 32 44 |
Hình 1. Biểu đồ minh họa sự phân bố độ khó câu hỏi trắc nghiệm với năng lực
sinh viên
3.4. Phân tích các tiêu chí khác
Ta tiếp tục xem xét các chỉ số thu được từ kết quả phân tích bằng phần mềm
QUEST như sau:
- Độ khó: số người trả lời đúng/tổng số người tham gia trả lời (0,3 - 0,7 là chấp
nhận).
- Categories: câu chọn, trắc nghiệm, phương án đúng được đánh dấu (*).
- Disc: độ phân biệt của câu hỏi giữa các nhóm thí sinh, (Disc) phải nằm trong

khoảng (0,25 - 0,75) đối với các test trong lớp học.
- Percent: tỉ lệ phần trăm của một phương án là tỉ lệ giữa số thí sinh chọn phương
án đó so với thí sinh làm bài kiểm tra; Infit MNSQ phải nằm trong khoảng 0,77 -
1,30.
- Beserial: hệ số tương quan point biserial. Cần loại bỏ những câu hỏi có mối
tương quan thấp hoặc dưới 0 sẽ làm tăng độ tin cậy của bài kiểm tra.
- Step Label 1: giữa giá trị 0 và 1 có một bước, thí sinh thực hiện được bước này
khi trả lời đúng câu hỏi.
- Thresholds: ngưỡng để vượt qua, thực chất là độ khó của câu trắc nghiệm.
- Error: sai số trong tính toán.
Bảng 3: Ví dụ chỉ số thống kê của câu hỏi tính toán từ QUEST đối với câu hỏi 1.
Item 1: item 1 Infit MNSQ = .00
Disc = .00

Categories 0 1 2 3 4* 9 missing

Count 0 0 0 0 27 0 0
Percent (%) .0 .0 .0 .0 100.0 .0
Pt-Biserial NA NA NA NA .00 NA
p-value NA NA NA NA .500 NA
Mean Ability NA NA NA NA -1.11 NA NA

Step Labels 1

Thresholds
Error
Kết quả phân tích cho thấy chỉ số MNSQ = 0,00 dưới ngưỡng cho phép, độ phân
biệt (Disc) = 0,00 cũng dưới ngưỡng cho phép, các phương áp gây nhiễu (A, B, C)
không có sinh viên nào chọn, tất cả đều chọn đáp án D (được mã hóa là 4 có gắn
dấu *). Tương tự như vậy là các câu 7, 8, 21, 22, 24, 25, 30, 34, 41, 42, 43, 48, 49,

50. Những câu này xác suất trả lời đúng là 1, độ khó ở ngưỡng rất dễ (1,0).
Những câu hỏi có chất lượng tốt hơn là các câu 38.
Bảng 4: Ví dụ chỉ số thống kê của câu hỏi tính toán từ QUEST đối với câu hỏi 38.
Item 38: item 38 Infit MNSQ = .83
Disc = .56

Categories 0 1 2* 3 4 9 missing

Count 0 1 17 7 2 0 0
Percent (%) .0 3.7 63.0 25.9 7.4 .0
Pt-Biserial NA 29 49 .55 .20 NA
p-value NA .070 .004 .001 .158 NA
Mean Ability NA -1.98 -1.31 63 70 NA NA

Step Labels 1

Thresholds 01
Error .45
Câu hỏi này có độ khó trung bình (0,63), độ phân biệt tốt (0,56) và chỉ số MNSQ
nằm trong khoảng cho phép.
- Đường cong liền thể hiện các xác suất để thí sinh có năng lực θ trả lời đúng
câu hỏi 38 với độ khó thấp nhất là
0,01.
δ
= −
- Đường gấp khúc nét đứt được nối bởi các điểm mẫu với nhau thể hiện năng
lực, độ khó và khả năng thí sinh làm đúng đáp án.
- Hình vẽ thể hiện xác suất trả lời đúng ở câu 38 trong bộ TNKQ ở mức khá
cáo (32% - 100%), câu 38 có độ khó thấp.
Tương tự như vậy là các câu 14, 18, 23.

4. Kết luận
Qua phân tích ứng dụng phần mềm Quest/Conquest trong phân tích đánh giá
đề thi cho thấy đây là một công cụ quan trọng trong việc đánh giá chất lượng đề thi
trắc nghiệm, tiến tới từng bước để xây dựng ngân hàng đề thi. Thông qua công cụ
này giúp giáo viên có thể chẩn đoán thăm dò, đánh giá được năng lực học tập chung
của lớp để có những điều chỉnh phù hợp.
Kết quả phân tích cũng cho thấy đề thi còn dễ so với năng lực chung của sinh
viên, nhiều câu hỏi dễ, các phương án nhiễu không có tác dụng, độ phân biệt thấp
cần phải thay thế bằng các câu hỏi khác (15 câu).
TÀI LIỆU THAM KHẢO
1. Phạm Xuân Thanh (2013), Mô hình Rash và phân tích dữ liệu bằng phần
mềm QUEST, Chương trình đào tạo thạc sỹ đo lường và đánh giá, Hà Nội.
2. Lâm Quang Thiệp (2011), Đo lường trong giáo dục, lý thuyết và ứng dụng,
Nxb Đại học Quốc gia Hà Nội.
3. Nguyễn Bảo Hoàng Thanh (2008), Sử dụng phần mềm Quest để phân tích
câu hỏi trắc nghiệm khách quan, Tạp chí Khoa học và Công nghệ, Đại học Đà
Nẵng. số 2 (25).

×