Tải bản đầy đủ (.pdf) (9 trang)

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm Conquest tại Học viện Quân y

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (348.66 KB, 9 trang )

Tạp chí y - dợc học quân sự số 4-2021

PHN TÍCH, ĐÁNH GIÁ CÂU HỎI VÀ ĐỀ THI TRẮC NGHIỆM
KHÁCH QUAN HỌC PHẦN BỆNH HỌC NHI KHOA BẰNG
PHẦN MỀM CONQUEST TẠI HỌC VIỆN QUÂN Y
Hoàng Anh Tuấn1, Đặng Văn Cao1, Nguyễn Việt Hưng1
TĨM TẮT
Mục đích: Đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng
câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học
phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số
của câu hỏi, đề thi trắc nghiệm. Kết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905. Câu
hỏi trắc nghiệm được phân thành 3 nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi
cần loại bỏ). Độ khó của câu hỏi được chia thành 3 nhóm: Câu hỏi có độ khó trung bình, câu
hỏi dễ, câu hỏi quá dễ so với năng lực của thí sinh. Kết luận: Câu hỏi thi trắc nghiệm khách
quan có thơng số phù hợp, đề thi phù hợp với mơ hình Rash, độ tin cậy cao, đánh giá đúng nội
dung, dễ so với năng lực của thí sinh.
* Từ khóa: Trắc nghiệm; Lý thuyết khảo thí cổ điển; Thuyết đáp ứng câu hỏi; Phần mềm Conquest.

Analysis and Evaluation of Questions and Objective Test of
Pediatric Disease Software by Conquest Software at Vietnam
Military Medical University
Summary
Objectives: To evaluate the quality of questions and on multiple-choice questions using
question-response theory (IRT). Subjects and methods: Multiple-choice questions and
multiple-choice questions in the Pediatric Pathology section were processed using Conquest
software to provide the parameters of the questions and multiple-choice questions. Results:
Separation reliability = 0.905. Multiple choice questions were divided into 3 groups: Good
questions, bad questions that need editing, and questions that need to be eliminated. The
difficulty of the question was divided into 3 groups: Medium difficulty questions, easy questions,
and too easy questions compared to the competitor's ability. Conclusion: Objective multiplechoice questions with appropriate parameters, exam questions suitable for the Rash model,
high reliability, correct content assessment, easy compared to the candidate's capacity.


* Keywords: Testing; Classic test theory; Theory of response to the question; Conquest software.
1

Phòng Khoa học Quân sự, Học viện Quân y

Người phản hồi: Hoàng Anh Tuấn ()
Ngày nhận bài: 20/2/2021
Ngày bài báo được đăng: 28/4/2021

134


Tạp chí y - dợc học quân sự số 4-2021
T VẤN ĐỀ
Kiểm tra đánh giá là một khâu rất quan
trọng trong quá trình đổi mới đào tạo.
Kiểm tra đánh giá khách quan, nghiêm
túc, công bằng, đúng cách sẽ tạo động
lực cho người học, khích lệ người học
trên con đường chiếm lĩnh tri thức. Mặt
khác, thông qua hoạt động kiểm tra đánh
giá giúp giảng viên và các nhà quản lý đổi
mới về phương pháp giảng dạy, phương
pháp quản lý để hỗ trợ người học đạt
được các mục tiêu trong học tập. Những
năm gần đây, tại Học viện Quân y, bên
cạnh việc đổi mới chương trình và
phương pháp giảng dạy, hoạt động đổi
mới phương pháp kiểm tra đánh giá cũng
được quan tâm, chú trọng bằng việc thay

đổi quan điểm tiếp cận về lý luận kiểm tra
đánh giá, thay đổi phương pháp kiểm tra
đánh giá phù hợp với yêu cầu của hoạt
động giảng dạy. Hình thức thi trắc nghiệm
khách quan là phương pháp đánh giá có
nhiều ưu điểm được sử dụng trong nhiều
kỳ thi quan trọng như: Thi tuyển sinh Đại
học, thi tốt nghiệp Trung học phổ thông
Quốc gia… và ngày càng được áp dụng
với nhiều môn thi tại Học viện Quân y
trong những năm gần đây. Tuy nhiên,
hiện nay các câu hỏi trắc nghiệm khách
quan và đề thi trắc nghiệm được sử dụng
tại Học viện Quân y chưa được đánh giá
một cách khoa học và khách quan. Do đó,
việc nâng cao chất lượng của câu hỏi trắc
nghiệm, cũng như đánh giá mức độ phù
hợp của đề thi với năng lực của sinh viên
là rất quan trọng để hoạt động kiểm tra
đánh giá thực hiện được vai trị và chức

năng của nó. Chúng tôi nghiên cứu đề tài
này nhằm: Đánh giá chất lượng câu hỏi
trắc nghiệm khách quan và đề thi học
phần Bệnh học Nhi khoa.
ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP
NGHIÊN CỨU
1. Đối tượng nghiên cứu
Dữ liệu thu thập từ kết quả thi của 86
thí sinh với đề thi 50 câu hỏi trắc nghiệm

khách quan môn Bệnh học Nhi khoa tại
Học viện Quân y năm 2021. Ngân hàng
câu hỏi thi trắc nghiệm sau khi được biên
soạn đảm bảo đáp ứng được nội dung
yêu cầu của chương trình đào tạo.
2. Phương pháp nghiên cứu
Sử dụng phần mềm Conquest xử lý
kết quả thi được trích xuất từ phần mềm
thi trắc nghiệm sau khi thi xong.
Chương trình Conquest cho ra các
thông số về mức độ phù hợp của câu hỏi
với mơ hình Rash, năng lực thí sinh với
độ khó của câu hỏi, độ tin cậy của đề thi
và các đặc trưng của câu hỏi đó là độ
khó, độ phân biệt, hệ số tương quan của
câu hỏi với tồn bài, độ tin cậy và sai số.
* Các thơng số đánh giá câu hỏi và đề
thi trắc nghiệm:
Sau khi câu hỏi trắc nghiệm khách
quan được nghiệm thu về nội dung, cần
định lượng các tham số của câu hỏi bằng
kết quả trả lời của thí sinh với câu hỏi đó.
Theo lý thuyết khảo thí cổ điển, câu hỏi
cần đạt được các giá trị về độ khó, độ
phân biệt. Các giá trị này được tính tốn
135


Tạp chí y - dợc học quân sự số 4-2021
cy của đề trắc nghiệm có thể được


dựa trên kết quả về thống kê mà không
xem xét nội dung thuộc vào lĩnh vực nào.

đánh giá bằng nhiều phương pháp như:

- Độ khó của câu hỏi (p): Là tỷ lệ phần

Trắc nghiệm - trắc nghiệm lại; đề thi trắc

trăm thí sinh trả lời đúng câu hỏi/tổng số

nghiệm tương đương; phân đôi đề thi trắc

thí sinh tham gia trả lời. Giá trị của p nằm

nghiệm; phương pháp Kuder-Richardson;

trong khoảng 0,1, p càng lớn thì câu hỏi

hệ số Cronbach alpha: là biểu thức dùng

càng dễ và ngược lại. Giá trị của có thể

ước lượng độ tin cậy của một đề kiểm tra

chấp nhận được nằm trong khoảng

tổng thể (có thể gồm nhiều đề trắc


0,25 - 0,75; câu hỏi có p < 0,25 là quá

nghiệm con nhị phân hoặc đa phân, được

khó, câu hỏi có p > 0,75 là quá dễ với thí

sử dụng nhiều trong tâm lý và giáo dục).

sinh (Lord [2]).

Về lý thuyết, giá trị độ tin cậy nằm trong

- Độ phân biệt của câu hỏi trắc nghiệm
hoặc đề thi trắc nghiệm: Là khả năng
phân biệt được năng lực của thí sinh:
giỏi, khá, trung bình, kém… Độ phân biệt
của câu hỏi liên quan đến độ khó của câu
hỏi. Nếu một câu hỏi quá khó hay q dễ
thì phản ứng của thí sinh có năng lực
khác nhau là giống nhau: Hoặc sai hết
hoặc đúng hết, do đó khơng phân biệt
được năng lực của thí sinh. Vì vậy, 1 câu
hỏi có khả năng phân biệt tốt cần có độ
khó ở mức trung bình và 1 đề thi trắc
nghiệm tốt cần có nhiều câu hỏi có mức
độ trung bình. Khi đó, điểm số của thí
sinh có phổ trải rộng. Để xác định độ
phân biệt của câu hỏi, tính hệ số tương
quan giữa điểm của câu hỏi với điểm của
cả bài thi trắc nghiệm (hệ số R-pearson).

Thông thường, giá trị Rp > 0,2 (Lord [2]).
- Độ tin cậy: Là giá trị dùng để đánh
giá chất lượng của đề thi trắc nghiệm,
là đại lượng biểu thị mức độ chính xác
của phép đo nhờ đề trắc nghiệm. Độ tin
136

khoảng 0 - 1. Độ tin cậy cao nghĩa là các
câu hỏi có độ gắn kết với nhau. Thí sinh
trả lời được câu hỏi này có xu hướng trả
lời được các câu hỏi cùng nhóm. Đề thi
có độ tin cậy > 0,8 là rất tốt và có thể sử
dụng cho đề thi trên lớp; độ tin cậy từ
0,7 - 0,8 là tốt, tuy nhiên cần chỉnh sửa
một số câu hỏi; độ tin cậy < 0,7 là tương
đối thấp (Brenan [4]).
- Độ giá trị của đề thi trắc nghiệm: Là
yêu cầu quan trọng nhất vì nó phản ánh
đúng giá trị nội dung cần đo, biểu thị mức
độ đạt được mục tiêu đề ra cho phép đo
nhờ đề trắc nghiệm. Để độ giá trị của đề
trắc nghiệm cao, cần xác định tỉ mỉ mục
tiêu cần đo và bám sát mục tiêu đó trong
quá trình xây dựng ngân hàng câu hỏi.
Độ giá trị và độ tin cậy của đề thi trắc
nghiệm có liên quan với nhau. Đề thi có
độ tin cậy thấp khơng thể có giá trị.
Nhưng ngược lại, độ tin cậy cao chưa
chắc có giá trị vì có thể khơng phản ánh
đúng đối tượng cần đo (Samuel Messick

[7]).


Tạp chí y - dợc học quân sự số 4-2021
* Lý thuyết khảo thí hiện đại và phần
mềm Conquest:

số: sử dụng cả 3 tham số là độ khó, độ
phân biệt và độ phán đốn của thí sinh.

Thuyết đáp ứng câu hỏi (Item Response
Theory), cịn gọi là lý thuyết khảo thí hiện

Phần mềm Conquest được xây dựng
dựa trên lý thuyết IRT, được sử dụng để
đánh giá và phân tích câu hỏi, cho phép
khảo sát thuộc tính về đánh giá năng lực
và đánh giá truyền thống. Phần mềm
cung cấp cho người sử dụng các thông
tin: Thông số cơ bản của việc phân tích
câu hỏi theo mơ hình IRT; thơng số độ
khó, độ phân biệt theo lý thuyết cổ điển;
các tham số liên quan đến độ khó, độ
phân biệt, độ phỏng đốn theo lý thuyết
IRT, độ tin cậy của đề thi, số lượng thí
sinh lựa chọn từng phương án trả lời;
phân bố độ khó của câu hỏi với năng lực
của thí sinh; đường cong đặc trưng của
câu hỏi; trường hợp bất thường của
người trả lời.


đại, được ra đời vào thế kỷ XX và phát
triển mạnh mẽ cho đến nay. Lý thuyết
khảo thí hiện đại đã khắc phục được một
số nhược điểm của lý thuyết khảo thí cổ
điển là khơng tách biệt được các đặc
trưng của thí sinh độc lập (năng lực) với
đặc trưng của đề trắc nghiệm; thuyết
khảo thí cổ điển coi sai số tiêu chuẩn của
phép đo năng lực giữa các thí sinh là như
nhau, quan tâm mức độ đáp ứng của thí
sinh với đề thi mà khơng chú trọng mức
độ đáp ứng của thí sinh với các câu hỏi
riêng biệt (Lâm Quang Thiệp [1]).
Lý thuyết ứng đáp câu hỏi là mô hình
hóa mối quan hệ giữa biến khơng thể
quan sát là năng lực của thí sinh và xác
suất mà tại đó thí sinh trả lời đúng 1 câu
hỏi (Harris [5]). Hiểu đơn giản hơn, theo
Wu và CS [3], lý thuyết ứng đáp câu hỏi
là sử dụng mơ hình tốn học để dự
đoán xác suất trả lời đúng 1 câu hỏi, dựa
trên chỉ số về năng lực của người trả lời
và độ khó của câu hỏi. Câu hỏi trắc
nghiệm được đặc trưng bởi 3 thơng số là:
Độ khó, độ phân biệt và độ phán đốn
(đốn mị của thí sinh). Tương ứng các
thơng số đó, các mơ hình đáp ứng được
đưa ra bao gồm: Mơ hình đáp ứng 1
thơng số (mơ hình Rash): chỉ sử dụng 1

tham số là độ khó của câu hỏi; mơ hình 2
tham số: sử dụng cả 2 biến là độ khó và
độ phân biệt của câu hỏi; mơ hình 3 tham

KẾT QUẢ NGHIÊN CỨU
Đề thi gồm 50 câu hỏi trắc nghiệm
khách quan ở học phần Bệnh học Nhi
khoa với thời gian 60 phút của 85 sinh
viên y khoa năm thứ 5. Đề thi nhằm đánh
giá năng lực nhận thức ở 3 mức độ: Nhớ
(25 câu), thông hiểu (15 câu) và vận dụng
(10 câu).
1. Mức độ phù hợp với mơ hình IRT
Tiến hành phân tích kết quả trong file
SHW cho thấy, các câu hỏi trong bài kiểm
tra có giá trị Unweighted fit nằm trong giới
hạn 0,7 - 1,30 và chỉ số của Weighted
MNSQ của các câu hỏi đều xấp xỉ 1 cho
thấy dữ liệu dùng để phân tích phù hợp
với mơ hình IRT.
137


Tạp chí y - dợc học quân sự số 4-2021

Bng 1: Mức độ phù hợp của câu hỏi với mô hình IRT.
Cả 50 câu hỏi trong đề thi trắc nghiệm hoàn toàn phù hợp, đánh giá đúng nội dung
cần đánh giá. Bài thi trắc nghiệm có độ tin cậy cao với hệ số tin cậy Sr = 0,905.
2. Các đặc tính của câu hỏi
Câu hỏi trắc nghiệm khách quan tốt là câu hỏi đảm bảo chuẩn về nội dung, các

tham số của câu hỏi như độ khó, độ phân biệt, các phương án nhiễu đều hợp lý. Câu
hỏi không phù hợp với mơ hình, q khó, q dễ, phương án nhiễu không hiệu quả
cần loại bỏ hoặc điều chỉnh cho phù hợp.
- Nhóm câu hỏi tốt (44, 33, 29, 9, 5, 4): Là câu hỏi có độ khó phù hợp, phương án
nhiễu có giá trị. Ví dụ phân tích câu hỏi số 9:
138


Tạp chí y - dợc học quân sự số 4-2021

Hỡnh 2: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 9.
Câu hỏi có độ khó theo lý thuyết khảo thí cổ điển là 0,65, nằm trong giới hạn
(0,25 -0,75), có 65,88% thí sinh trả lời đúng kết quả. Độ phân biệt của câu hỏi ở mức
khá (Discrimnation = 0,48 > 0,2), tức câu hỏi có khả năng phân biệt được nhóm học
sinh có năng lực cao và nhóm học sinh có năng lực thấp. Chỉ số Pt Bis ở các phương
án nhiễu (A, B, C) đều có giá trị âm, trong khi phương án đúng (D) có giá trị dương và
cao nhất. Chứng tỏ các phương án nhiễu có giá trị trong việc đánh giá năng lực của thí
sinh. So sánh cấu trúc đề thi và ý kiến của chuyên gia về nội dung câu hỏi cho thấy,
câu hỏi số 9 dùng để đánh giá năng lực nhận thức ở mức độ vận dụng, do đó độ khó
bằng 0,65 là khá phù hợp, độ phân biệt 0,48 ở mức chấp nhận được. Phân tích đường
cong đặc trưng của câu hỏi cũng thấy khá phù hợp.
- Nhóm câu hỏi cân nhắc điều chỉnh (40, 27, 26, 25, 21, 17, 10, 8, 42): Là câu hỏi có
độ phân biệt rất thấp, phương án nhiễu không hiệu quả hoặc có độ khó khơng phù
hợp. Ví dụ phân tích câu hỏi số 27:
139


Tạp chí y - dợc học quân sự số 4-2021

Hỡnh 3: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 27.

Kết quả phân tích cho thấy câu hỏi có độ khó 0,77, độ phân biệt 0,1. Tham khảo ý
kiến chuyên gia cho thấy câu hỏi được sử dụng để đánh giá năng lực mức thông hiểu.
Do câu hỏi dễ nên khơng có khả năng phân biệt năng lực của thí sinh. Xem xét giá trị
Pt Bis thấy các đáp án A, D có chỉ số dương, chỉ có 1/85 thí sinh chọn đáp án A.
Chứng tỏ phương án nhiễu khơng hiệu quả.
- Nhóm câu hỏi chưa tốt (32, 30, 24, 23, 20, 15, 6, 2, 41): Là câu hỏi có độ khó, độ
phân biệt hoặc phương án nhiễu khơng hợp lý. Ví dụ phân tích câu hỏi số 20:

140


Tạp chí y - dợc học quân sự số 4-2021

Hỡnh 4: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 20.
Kết quả phân tích cho thấy câu hỏi có độ khó 0,85, độ phân biệt -0,11. Có thể thấy,
câu hỏi khơng có khả năng phân biệt năng lực giữa các nhóm thí sinh. Điều này cũng
thấy rõ ở chỉ số Pt Bis khi đáp án đúng A có 85,88% sinh viên trả lời đúng nhưng có
giá trị -0,01, nhỏ hơn giá trị của đáp án sai B, C.
3. Phân bố độ khó của câu hỏi với năng lực thí sinh

Hình 5: Thang phân bố độ khó của câu hỏi với năng lực thí sinh.
141


Tạp chí y - dợc học quân sự số 4-2021
khó của câu hỏi với các mức năng
lực của thí sinh từ -2 đến +2 theo đơn vị
logic.
Câu hỏi trắc nghiệm phân thành 3
nhóm chính: Nhóm câu hỏi có độ khó

trung bình, nhóm câu hỏi dễ và nhóm câu
hỏi rất dễ.
- Nhóm câu hỏi có độ khó trung bình:
36, 47, 24, 11, 29, 44, 8, 4, 3, 42, 21, 33, 38.
- Nhóm câu hỏi dễ: 9, 16, 30, 26, 31, 5,
48, 7, 13, 32, 49, 6, 27, 40, 46, 17, 14, 23,
37, 1, 18, 2, 10, 20, 22, 35.
- Nhóm có câu hỏi quá dễ: 43, 19, 34,
28, 41, 50, 12, 15, 25, 39.
Nhiều thí sinh (16/85 thí sinh) có năng
lực cao hơn câu hỏi có độ khó cao nhất.
Ngược lại, nhiều câu hỏi ở mức độ quá
dễ khi độ khó của câu hỏi nằm dưới năng
lực của tất cả thí sinh tham gia kiểm tra
(các câu hỏi 43, 28, 41, 50, 12, 15, 25, 39).
KẾT LUẬN
Từ kết quả phân tích các đặc tính của
câu hỏi bằng lý thuyết đáp ứng IRT (mức
độ phù hợp mơ hình, độ tin cậy, độ giá trị,
độ phân biệt và phân bố độ khó của câu
hỏi với năng lực thí sinh, đường cong đặc
trưng câu hỏi) kết hợp ý kiến chuyên gia,
chúng tôi rút ra một số kết luận:

đó giúp giảng viên và các nhà quản lý lựa
chọn được những câu hỏi tốt, đề xuất
những câu hỏi cần chỉnh sửa và loại bỏ
những câu hỏi khơng chất lượng, từ đó
nâng cao chất lượng ngân hàng câu hỏi,
góp phần đánh giá đúng năng lực của

người học, nâng cao chất lượng đào tạo.
TÀI LIỆU THAM KHẢO
1. Lâm Quang Thiệp. Đo lường và đánh
giá hoạt động học tập trong nhà trường. NXB
Đại học Sư phạm. Hà Nội 2012.
2. Lord FM. Tài liệu dịch: Psychometrika Mối quan hệ giữa độ tin cậy của câu hỏi đa
lựa chọn và phân bổ độ khó của câu hỏi 1952;
18:181-194.
3. Wu M, Adams R. Applying the Rasch
Model to Psycho-social Measurement: A practical
approach. Tài liệu tập huấn Thiết kế công cụ
đánh giá do Ngân hàng Thế giới phối hợp với
ACER tổ chức năm 2007-2008 tại Việt Nam.
2007.
4. Brennan LR. Educational Measurement
(4th ed.). American Council on Education.
Washington DC 2006.
5. Harris D. Comparison of 1-, 2-, and
3-paramater ITR models. A module in NCME
series of Instructional Topics in Educational
Measurement. NCME Journal of Educational
Measurement: Issues and Practices 1989; 35-41.
6. Margaret L, Wu Raymond J, Adams
Mark R, Wilson Samuel A Haldane. ACER
Conquest version 2.0: Generalised item response
modelling software. ACER Press 2007.

- Đề thi phù hợp với mơ hình Rash, có
độ giá trị và độ tin cậy cao. Tuy nhiên, đề
thi cịn dễ so với năng lực của thí sinh,

thể hiện qua việc nhiều thí sinh (16/85) có
năng lực vượt qua mức độ khó của câu
hỏi và có 14/50 câu hỏi có mức độ khó
dưới năng lực của tất cả các thí sinh.

7. Messick S. Validity of psychological
assessment: Validation of inferences from
persons’ responses and performances as
scientific inquiry into score meaning. American
Psychologist 1995; 50:741-749.

- Phần mềm Conquest hỗ trợ việc
phân tích đánh giá chất lượng câu hỏi
trắc nghiệm và đề thi trắc nghiệm rất hiệu
quả theo lý thuyết khảo thí hiện đại. Qua

8. Rasch G. Probablistic models for some
intelligence and attainment tests. Danish
Institute for Educational Research. Copenhagen,
Denmark 1960.

142



×