Tải bản đầy đủ (.doc) (10 trang)

PHÂN TÍCH ĐỀ THI BẰNG PHẦN MỀM QUEST VÀ CONQUEST

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (188.54 KB, 10 trang )

1
PHÂN TÍCH ĐỀ THI BẰNG PHẦN MỀM QUEST VÀ CONQUEST
Giảng viên hướng dẫn: TS. Phạn Xuân Thanh
Cục khảo thí và kiểm định chất lượng
Học viên : Đặng Trần Cường
Lớp: K9. Đo lường và đánh giá trong giáo dục
Viện Đảm bảo chất lượng giáo dục - ĐHQGHN
Tóm
tắt
Bài báo này nhằm đưa ra kết quả khi sử dụng phần mềm Quest/Conquest
để phân tích 5 câu Viết Đề số 2 môn Tiếng Anh của kỳ khảo sát đánh giá kết
quả học tập của học sinh lớp 9 năm học 2008-2009. Các phần mềm
QUEST/CONQUEST được xây dựng dựa trên lý thuyết ứng đáp câu hỏi IRT
để phân tích câu hỏi từ đó đưa ra được cái nhìn khách quan về đặc điểm câu
hỏi, đề thi, năng lực thí sinh và các mối quan hệ giữa các yếu tố này.
Từ khóa: Lý thuyết khảo thí hiện đại, phân tích đề thi, Quest, Conquest.
1. Đặt vấn đề.
Kiểm tra đánh giá kết quả học tập của học sinh là một việc làm quan trọng
không thể thiếu trong quá trình dạy học. Hiện nay, việc kiểm tra đánh giá kết quả
học tập của học sinh thường được tiến hành bằng các bài thi sử dụng câu hỏi trắc
nghiệm và tự luận. Đồng thời, song song với việc kiểm tra đánh giá, việc vận
dụng các phần mềm để xử lý số liệu của câu hỏi, đề thi cũng ngày càng được chú
trọng do tính hiệu quả, chính xác cao. Bên cạnh các phần mềm VITESTA,
WINSTEP, ….các phần mềm QUEST/CONQUEST là những phần mềm thông
dụng, đang được sử dụng nhiều nhất để phân tích câu hỏi.
Kỳ khảo sát đánh giá kết quả học tập của học sinh lớp 9 năm học 2008-
2
2009 là kỳ khảo sát cấp quốc gia với cỡ mẫu là hơn 35000 học sinh lớp 9 của 63
tỉnh/thành phố. Kỳ khảo sát đánh giá năng lực học sinh ở 4 môn: Toán, Ngữ Văn,
Tiếng Anh và Vật lý.
Bài báo này chỉ giới hạn trong mục đích đánh giá chất lượng của đề thi


Viết Đề số 2 môn Tiếng Anh học sinh lớp 9 với cỡ mẫu là 11671.
2. Lý thuyết ứng đáp IRT.
Thuyết ứng đáp câu hỏi (Item Response Theory-IRT) là một lý thuyết của
khoa học về đo lường trong giáo dục, ra đời từ nửa sau của thế kỷ XX và phát
triển mạnh mẽ cho đến nay. So với lý thuyết khảo thí cổ điển, lý thuyết khảo thí
hiện đại ưu việt hơn nhiều, được áp dụng ngày càng rộng rãi để định cỡ các câu
hỏi và thiết kế các đề thi.
Thuyết đáp ứng câu hỏi của Rasch mô hình hóa mối quan hệ giữa mức độ
khả năng của người làm trắc nghiệm và đáp ứng của người ấy với câu trắc
nghiệm. Mỗi câu trắc nghiệm được mô tả bằng một thông số (độ khó) ký hiệu là ô
và mỗi người làm trắc nghiệm được mô tả bằng một thông số (khả năng) ký hiệu
là 6. Mỗi khi một người cố gắng trả lời một câu hỏi, các thông số độ khó và khả
năng tác động lẫn nhau, để cho một xác suất đáp ứng của người làm trắc nghiệm
ấy. Dạng toán học của mô hình này là:
P(θ)
)exp(1
)exp(
δθ
δθ
−+

=
Trong đó P(θ) là xác suất để thí sinh n có năng lực
θ
trả lời ĐÚNG câu hỏi
có độ khó δ
3. Xử lý số liệu bằng phần mềm QUEST và CONQUEST.
Chúng tôi sử dụng phần mềm QUEST/CONQUEST để phân tích đề thi
viết môn Tiếng Anh lớp 9. Cấu trúc đề thi gồm 25 câu TNKQ và 5 câu TL đánh
giá 3 cấp độ nhận biết, thông hiểu, vận dụng của học sinh. Trong đó: Đối với 25

câu hỏi TN có 13 câu hỏi ở mức nhận biết, 6 câu hỏi ở mức thông hiểu và 6 câu
hỏi ở mức vận dụng. Đối với 5 câu hỏi tự luận có 3 câu ở mức độ thông hiểu, 1
câu ở mức vận dụng thấp và 1 câu ở mức vận dụng cao. Cỡ mẫu là 587 học sinh
3
lớp 9 tỉnh Nghệ An. Chương trình QUEST/CONQUEST sẽ cho chúng ta biết các
thông tin quan trọng như: sự phù hợp của câu hỏi với mô hình RASCH, sự phù
hợp của các câu hỏi với nhau, năng lực của thí sinh so với độ khó của đề thi, độ
tin cậy của đề thi và các chỉ số đặc trưng cho từng câu hỏi như độ khó, độ phân
biệt, hệ số tương quan, độ tin cậy, sai số….
3.1. Mức độ phù hợp với mô hình Rash
Khi đề thi phù hợp với mô hình Rasch thì trị số kỳ vọng của các bình
phương trung bình (mean square) gần bằng 1 và độ lệch chuẩn SD gần bằng 0:
Summary of item Estimates
=========================
Mean .00 MEAN =0
SD .80 SD GẦN BẰNG 1
SD (adjusted) .80
Reliability of estimate 1.00
Fit Statistics
===============
Infit Mean Square Outfit Mean Square
Mean 1.01 Mean .96 MEAN =1
SD .10 SD .14 SD GẦN BẰNG 0
Infit t Outfit t
Mean .26 Mean -1.08
SD 6.66 SD 6.27
0 items with zero scores
0 items with perfect scores
===========================================================
===========================================================

==============
QUEST: The Interactive Test Analysis System


4

Case Estimates
11/11/14 10:47
all on anhtl (N =**** L = 5 Probability Level= .50)



Summary of case Estimates
=========================
Mean .05
SD 1.36
SD (adjusted) 1.07
Reliability of estimate .62
Fit Statistics
===============
Infit Mean Square Outfit Mean Square
Mean .96 Mean .96 MEAN GẦN BẰNG 1
SD .68 SD .80 SD HƠI CAO
3611 cases with zero scores
172 cases with perfect scores
- Căn cứ vào các kết quả ở trên ta thấy dữ liệu của đề thi phù hợp với mô
hình Rasch.
-Các thông tin về kết quả tính toán cho thấy năng lực của thí sinh (case
5
estimate) tham gia làm khảo sát là (0.05) cao hơn so với độ khó chung của bài

kiểm tra (0.00). Trong biểu đồ Item Fit sau đây, mỗi câu trắc nghiệm được biểu
thị bằng dấu *. Những câu trắc nghiệm nằm trong hai đường chấm thẳng đứng
có giá trị INFIT MNSQ nằm trong khoảng (0.77 ; 1.30) sẽ phù hợp với mô hình
Rasch. Nếu câu nào nằm ngoài khoảng này là không phù hợp và sẽ bị loại bỏ.


Item Fit 10/11/14 10:47
all on anhtl (N =**** L = 5 Probability Level= .50)


INFIT
MNSQ .63 .67 .71 .77 .83 .91 1.00 1.10 1.20 1.30 1.40
1.50 1.60
+ + + + + + + + + +
+ + +-
1 item 1 . * | .
2 item 2 . * | .
3 item 3 . * | .
4 item 4 . | * .
5 item 5 . | * .
=============================================================
==================================================================
===== Kết quả cho
thấy cả 5 câu hỏi đều nằm trong khoảng cho phép. Điều này chứng tỏ các câu
hỏi đã đo đúng được cái cần đo.
3.2. Bản đồ phân bố độ khó câu hỏi thi và năng lực thí sinh
Bản đồ phân bố độ khó câu hỏi thi và năng lực thí sinh cho thấy mức độ
phù hợp của đề thí đối với thí sinh dự thi. Có thể là đề thi quá dễ, quá khó hoặc
rất phù hợp.
6

QUEST: The Interactive Test Analysis System


Item Estimates (Thresholds)
10/11/14 10:47
all on anhtl (N =**** L = 5 Probability Level= .50)


4.0 |
|
|
|
|
|
|
| 5.2
3.0 |
|
|
|
XXXXXXXXXXXXXXXXX |
|
|
|
2.0 |
|
|
|
|
XXXXXXXXXXXXXXXXXXXX |

|
|
1.0 |
| 3.2
XXXXXXXXXXXXXXXXXXXX |
|
| 2.2
|
XXXXXXXXXXXXXXXXX |
.0 | 1.2
|
XXXXXXXXXXXXXXXX |
| 4.2 5.1
|
XXXXXXXXXXXXX |
| 2.1
|
-1.0 XXXXXXXXXXXXX | 3.1 4.1
| 1.1
|
XXXXXXXXXXXXXXX |
|
|
|
|
-2.0 |
XXXXXXXXXXXXXXXX |
|
|
|

|
7
|
|
-3.0 | Each X represents 2 students
Nhìn vào biểu đồ phân bố ta thấy năng lực của thí sinh thấp hơn so với mức
yêu cầu của đề thi.
3.3. Độ tin cậy của đề thi
Summary of item Estimates( đối với đề thi)
=========================

Mean .00
SD .80
SD (adjusted) .80
Reliability of estimate 1.00

Kết quả tính toán bằng phần mềm QUEST cho thấy đề thi có độ tin cậy là
1.0. Đây là một đề thi có độ tin rất cao, đánh giá được đúng những năng lực cần
đánh giá.
3.4. Phân tích câu hỏi theo các tiêu chí
Ta tiếp tục xem xét các chỉ số thu được từ kết quả phân tích bằng phần mềm
QUEST như sau:
- Categories: Các mức điểm của câu hỏi.
- Disc: độ phân biệt của câu hỏi giữa các nhóm thí sinh, (Disc) phải nằm
8
trong khoảng 0,25 - 0,75.
- Percent: tỉ lệ phần trăm của một phương án là tỉ lệ giữa số thí sinh chọn
phương án đó so với thí sinh làm bài kiểm tra; Infit MNSQ phải nằm trong khoảng
0,77 - 1,30.
- Beserial: hệ số tương quan point biserial. Cần loại bỏ những câu hỏi có mối

tương quan thấp hoặc dưới 0 sẽ làm tăng độ tin cậy của bài kiểm tra.
- P-Value: Là xác suất thống kê khả năng mỗi phương án trả lời được lựa
chọn phải nhỏ hơn hoặc bằng 0.05
- StepLabel 1: Giữa giá trị 0 và 1 có một bước, thí sinh thực hiện được bước
này khi trả lời đúng câu hỏi.
- Thresholds: ngưỡng để vượt qua, thực chất là độ khó của câu trắc nghiệm.
- Error: sai số trong tính toán.
9
3.4.1. Độ phân biệt (tiêu chí Disc)
Chỉ số phân biệt (Disc - Distribution of Item difficulty and student
ability) của các câu hỏi nằm trong khoảng 0.28 -0.75 là trong khoảng chấp
nhận. Các kết quả chạy ra của phần mềm QUEST cho thấy chỉ số phân biệt
của 5 câu hỏi thi còn rất tốt.
3.4.2. Hệ số tương quan (point biserial)
Hầu hết các mức yêu cầu ở mức độ thấp đều có hệ số tương quan rất thấp
(chủ yếu >0, 1 số yêu cầu có hệ số tương quan ≈0.20). Chỉ có các yêu cầu ở mức
độ cao nhất mới có hệ số tương quan cao, hầu hết đều từ 0.60 trở lên trừ câu hỏi .
3.4.3.Tiêu chí Thresholds.
Chỉ số Thresholds của các câu hỏi của đề thi nằm hầu hết đều nằm ở mức
thấp hoặc nhỏ hơn 0. Trừ đối với yêu cầu ở mức 2 của câu hỏi số 1 ,3 và các mức
yêu cầu của câu hỏi số 5 có chỉ số Thresholds > 0.5, đặc biệt là yêu cầu ở mức 2
cảu câu hỏi số 5 có chỉ số Thresholds khá cao (3.13). Như vậy yêu cầu này là khá
khó đối với học sinh.
3.3.4 Tiêu chí P-value
100% các câu hỏi của đề thi đều có P-value bằng 0 hoặc nhỏ hơn . Điều
này cho thấy các câu hỏi đều có độ tin cậy rất cao.
4. Kết luận.
Qua phân tích đề thi trên chúng ta có thể dễ dàng nhận thấy đây là một đề
thi khó so với học sinh.
10

TÀI LIỆU THAM KHẢO
1. TS. Phạm Xuân Thanh , Tài liệu giảng dạy “Mô hình Rasch và Phân tích
dữ liệu”.
2. GS. Lâm Quang Thiệp (2011), Đo lường trong giáo dục, lý thuyết và ứng
dụng, Nhà xuất bản Đại học quốc gia Hà Nội.

×