Tải bản đầy đủ (.pdf) (291 trang)

ĐO LƯỜNG TRONG GIÁO DỤC lý thuyết và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.37 MB, 291 trang )

GS.TSKH. LM QUANG THIP

ĐO LƯờNG
TRONG GIáO DụC
Lý thuyết và ứng dụng

Nhà xuất bản đại học quốc gia Hà nội

1


2


MỤC LỤC
LỜI NÓI ĐẦU ................................................................................................................ 7
GIỚI THIỆU CẤU TRÚC VÀ CÁCH SỬ DỤNG CUỐN SÁCH ............................. 9
PHẦN I. MỘT SỐ KHÁI NIỆM BAN ĐẦU VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG
TRONG GIÁO DỤC .................................................................................................... 15
Chương 1. VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG TRONG GIÁO DỤC ............... 16
1.1. NHU CẦU ĐO LƯỜNG TRONG CUỘC SỐNG VÀ KHOA HỌC VỀ ĐO LƯỜNG
NÓI CHUNG ............................................................................................................... 16
1.2. ĐO LƯỜNG VÀ ĐÁNH GIÁ TRONG GIÁO DỤC ................................................... 17
1.3. PHÂN LOẠI CÁC MỤC TIÊU GIÁO DỤC ............................................................... 19
1.4. PHÂN LOẠI CÁC PHƯƠNG PHÁP ĐO LƯỜNG VÀ ĐÁNH GIÁ
TRONG GIÁO DỤC ................................................................................................... 23
1.5. CÁC KIỂU CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN .......................................... 26
1.6. SO SÁNH CÁC PHƯƠNG PHÁP TRẮC NGHIỆM KHÁCH QUANVÀ TỰ LUẬN29
1.6.1. Các đặc điểm của phương pháp TL: ............................................................... 29
1.6.2. Các đặc điểm của phương pháp TNKQ:......................................................... 29
1.7. SỰ KẾT HỢP TRẮC NGHIỆM KHÁCH QUAN VỚI TỰ LUẬN


TRONG ĐÁNH GIÁ ................................................................................................... 37
1.8. SỬ DỤNG CÁC CÂU HỎI TRẮC NGHIỆM ĐỂ ĐÁNH GIÁ CÁC MỨC ĐỘ
NHẬN THỨC KHÁC NHAU ..................................................................................... 37
1.9. CÁCH CHẾ TÁC CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN ............................... 41
1.10. QUY TRÌNH XÂY DỰNG MỘT NGÂN HÀNG CÂU HỎI HOẶC MỘT ĐỀ TRẮC
NGHIỆM TIÊU CHUẨN HÓA .................................................................................. 42
1.10.1. Mục tiêu giảng dạy, ma trận kiến thức và đề kiểm tra .................................. 42
1.10.2. Quy trình thiết kế một đề kiểm tra tiêu chuẩn hóa và một NHCH......................... 43

Chương 2. MỘT SỐ KHÁI NIỆM BAN ĐẦU VỀ THỐNG KÊ VÀ KHÁI QUÁT
VỀ TRẮC NGHIỆM CỔ ĐIỂN ............................................................. 51
2.1. MỘT SỐ KHÁI NIỆM VÀ ĐỊNH LUẬT QUAN TRỌNG
TRONG THỐNG KÊ HỌC ......................................................................................... 51
2.1.1. Xác suất.......................................................................................................... 51
2.1.2. Luật số lớn ..................................................................................................... 52
2.1.3. Tổng thể và mẫu ............................................................................................. 52
2.1.4. Phân bố .......................................................................................................... 53
2.1.5. Tương quan .................................................................................................... 57
2.2. CÁC THAM SỐ ĐẶC TRƯNG CHO MỘT CÂU HỎI TRẮC NGHIỆM VÀ MỘT
ĐỀ TRẮC NGHIỆM ................................................................................................... 59
2.2.1. Độ khó của CH............................................................................................... 59
2.2.2. Độ phân biệt của CH ...................................................................................... 60
2.2.3. Độ tin cậy của ĐTN ....................................................................................... 62

3


2.2.4. Độ giá trị của ĐTN......................................................................................... 64
2.3. ĐÁNH GIÁ MỘT ĐỀ TRẮC NGHIỆM ..................................................................... 66
2.3.1. Phân tích các CH trắc nghiệm ........................................................................ 66

2.3.2. Tính độ tin cậy của ĐTN ................................................................................ 68
2.3.3. Xem xét độ giá trị của ĐTN ........................................................................... 70
2.4. CÁC LOẠI ĐIỂM TRẮC NGHIỆM ........................................................................... 71
2.4.1. Điểm thô ........................................................................................................ 71
2.4.2. Điểm tiêu chuẩn tuyệt đối .............................................................................. 72
2.4.3. Các loại điểm tương đối dựa vào phân bố chuẩn ............................................ 72
2.4.4. Về các thang điểm được sử dụng ở nước ta ................................................... 75
2.5. CÁC HẠN CHẾ CỦA LÝ THUYẾT TRẮC NGHIỆM CỔ ĐIỂN
VÀ KỲ VỌNG ĐỐI VỚI MỘT LÝ THUYẾT TRẮC NGHIỆM MỚI ...................... 76

PHẦN II. TRẮC NGHIỆM HIỆN ĐẠI - LÝ THUYẾT ỨNG ĐÁP CÂU HỎI ......... 81
Chương 3. HÀM ĐẶC TRƯNG CÂU HỎI – TẾ BÀO CỦA LÝ THUYẾT ỨNG
ĐÁP CÂU HỎI ....................................................................................... 82
3.1. VỀ CÁC PHÉP ĐO LƯỜNG ...................................................................................... 82
3.1.1. Về quy trình xây dựng một phép đo lường ..................................................... 82
3.1.2. Các con số và các loại thang đo ..................................................................... 83
3.1.3. Về các phép đo lường trong tâm lý và giáo dục ............................................. 85
3.2. VỀ ĐƯỜNG CONG ĐẶC TRƯNG CÂU HỎI ........................................................... 86
3.2.1. Các mối tương tác nguyên tố và tính đơn chiều ............................................. 86
3.2.2. Xây dựng thang đo để biểu diễn các tương tác .............................................. 87
3.2.3. Ví dụ về mô hình đường cong đặc trưng câu hỏi đơn chiều, nhị phân, một
tham số (mô hình Rasch) ......................................................................................... 88

Chương 4. CÁC MÔ HÌNH ĐƯỜNG CONG ĐẶC TRƯNG
CỦA CÂU HỎI NHỊ PHÂN .................................................................. 92
4.1. BA MÔ HÌNH ĐƯỜNG CONG ĐẶC TRƯNG CỦA CÂU HỎI NHỊ
PHÂN
DẠNG LOGISTIC ...................................................................................................... 92
4.1.1. Mô hình đường cong đặc trưng của câu hỏi hai tham số ................................ 92
4.1.2. Mô hình đường cong đặc trưng của câu hỏi ba tham số ................................. 94

4.2. MỘT VÀI LƯU Ý VỀ CÁC MÔ HÌNH KIỂU KHÁC VỀ ĐẶC TRƯNG
CỦA CÂU HỎI ........................................................................................................... 96
4.2.1. Mô hình đặc trưng của câu hỏi dạng đường cong tích lũy vòm chuẩn ..... 97
4.2.2. Về mô hình Rasch và vai trò của nó ............................................................... 98

Chương 5. ƯỚC LƯỢNG CÁC THAM SỐ CỦA CÂU HỎI TRẮC NGHIỆM ... 102
5.1. QUY TRÌNH ƯỚC LƯỢNG CÁC THAM SỐ CỦA CÂU HỎI ............................... 102
5.2. VỀ TÍNH BẤT BIẾN CỦA CÁC THAM SỐ CÂU HỎI
ĐỐI VỚI MẪU THÍ SINH ........................................................................................ 105

Chương 6. ĐIỂM THỰC - ĐƯỜNG CONG ĐẶC TRƯNG CỦA ĐỀ TRẮC
NGHIỆM .............................................................................................. 117
6.1. ĐIỂM THỰC VÀ ĐƯỜNG CONG ĐẶC TRƯNG CỦA ĐỀ TRẮC NGHIỆM ....... 117
6.1.1. Quan niệm về điểm thực trong CTT............................................................. 117
6.1.2. Xác định điểm thực theo IRT ....................................................................... 118
6.1.3. So sánh điểm thô, điểm thực và điểm năng lực ............................................ 122

4


6.2. MỘT SỐ PHÉP CHUYỂN ĐỔI ................................................................................ 124
6.2.1. Vài phép chuyển đổi tuyến tính .................................................................... 124
6.2.2. Vài phép chuyển đổi phi tuyến ..................................................................... 125

Chương 7. HÀM THÔNG TIN CỦA CÂU HỎI VÀ CỦA ĐỀ TRẮC NGHIỆM . 129
7.1. HÀM THÔNG TIN CỦA CÂU HỎI TRẮC NGHIỆM ............................................. 129
7.2. HÀM THÔNG TIN VÀ SAI SỐ TIÊU CHUẨN CỦA ĐỀ TRẮC NGHIỆM .................. 132
7.2.1. Hàm thông tin của đề trắc nghiệm ................................................................ 132
7.2.2. Sai số tiêu chuẩn của đề trắc nghiệm............................................................ 134
7.2.3. Hàm hiệu suất tỷ đối .................................................................................... 135


Chương 8. ƯỚC LƯỢNG NĂNG LỰC CỦA THÍ SINH
VÀ ĐỊNH CỠ ĐỀ TRẮC NGHIỆM .................................................... 137
8.1. QUY TRÌNH ƯỚC LƯỢNG GIÁ TRỊ NĂNG LỰC CỦA THÍ SINH ..................... 137
8.1.1. Các nguyên tắc chung của quy trình............................................................. 138
8.1.2. Một ví dụ đơn giản về ước lượng nhờ đồ thị ................................................ 140
8.1.3. Một ví dụ về việc sử dụng phương pháp tính lặp để tìm cực đại .................. 142
8.1.4. Về sai số ước lượng giá trị năng lực ............................................................. 145
8.2. ĐỊNH CỠ ĐỀ TRẮC NGHIỆM: ƯỚC LƯỢNG ĐỒNG THỜI THAM SỐ
CỦA CÂU HỎI VÀ NĂNG LỰC CỦA THÍ SINH .................................................. 146
8.2.1. Về việc ước lượng các tham số của câu hỏi ................................................. 146
8.2.2. Ước lượng đồng thời tham số của câu hỏi và năng lực của thí sinh:
định cỡ đề trắc nghiệm ........................................................................................... 146
8.2.3. Vấn đề metric ............................................................................................... 148
8.3. TÍNH BẤT BIẾN CỦA VIỆC ƯỚC LƯỢNG NĂNG LỰC THÍ SINH
ĐỐI VỚI CÁC ĐỀ TRẮC NGHIỆM ........................................................................ 149
8.4. VÍ DỤ VỀ ĐỊNH CỠ ĐỀ TRẮC NGHIỆM, TÍNH HÀM THÔNG TIN, HÀM ĐẶC
TRƯNG CỦA ĐỀ TRẮC NGHIỆM ......................................................................... 150

Chương 9. ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU VÀ MÔ HÌNH .............. 161
9.1. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU
VÀ MÔ HÌNH ........................................................................................................... 161
9.1.1. Đảm bảo tính đơn chiều ............................................................................... 162
9.1.2. Kiểm tra tính bất biến ................................................................................... 162
9.1.3. Kiểm tra các dự đoán mô hình ..................................................................... 163
9.2. VÍ DỤ VỀ ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU VÀ MÔ HÌNH .................. 164
9.2.1. Kiểm tra tính bất biến của tham số CH đối với các mẫu TS khác nhau ....... 164
9.2.2. Kiểm tra tính bất biến của năng lực TS đối với các ĐTN khác nhau ..... 166
9.2.3. Đánh giá sự phù hợp giữa số liệu thực nghiệm và mô hình
qua giá trị thặng dư tiêu chuẩn hóa ........................................................................ 168


Chương 10. THIẾT KẾ CÁC ĐỀ TRẮC NGHIỆM .............................................. 171
10.1. SO SÁNH CTT VÀ IRT TRONG VIỆC THIẾT KẾ CÁC ĐỀ TRẮC NGHIỆM................. 171
10.2. CÁCH TIẾP CẬN CƠ BẢN ĐỂ THIẾT KẾ ĐỀ TRẮC NGHIỆM ........................ 172
10.3. MỘT SỐ LOẠI ĐỀ TRẮC NGHIỆM VÀ CÁCH THIẾT KẾ ................................ 174
10.4. ẢNH HƯỞNG CỦA MÔ HÌNH ĐƯỜNG CONG ĐTCH VÀ SỐ LƯỢNG CÂU HỎI
LÊN ĐỀ TRẮC NGHIỆM......................................................................................... 175

Chương 11. SO BẰNG CÁC ĐIỂM TRẮC NGHIỆM .......................................... 178

5


11.1. CÁC PHƯƠNG PHÁP SO BẰNG TRONG CTT ................................................... 178
11.2. CÁC PHƯƠNG PHÁP SO BẰNG – KẾT NỐI – XÁC LẬP THANG ĐO THEO IRT .... 181
11.2.1. Một số trường hợp thực hiện định cỡ và xác lập thang đo ......................... 182
11.2.2. Xác định các hằng số thiết lập thang đo ..................................................... 186
11.3. VÍ DỤ VỀ SO BẰNG – KẾT NỐI – XÁC LẬP THANG ĐO THEO IRT ............. 191

Chương 12. TRẮC NGHIỆM NHỜ MÁY TÍNH .................................................. 203
12.1. ĐẶC ĐIỂM CỦA TRẮC NGHIỆM NHỜ MÁY TÍNH
VÀ CÁC HỆ THỐNG HỖ TRỢ ............................................................................... 203
12.1.1. Một số đặc điểm của trắc nghiệm nhờ máy tính ......................................... 203
12.1.2. Đòi hỏi đối với các phầm mềm hỗ trợ trắc nghiệm nhờ máy tính .................... 204
12.2. MỘT SỐ MÔ HÌNH TRIỂN KHAI TRẮC NGHIỆM NHỜ MÁY TÍNH .............. 206
12.2.1. Các trắc nghiệm cố định nhờ máy tính ....................................................... 206
12.2.2. Các trắc nghiệm di chuyển thẳng nhờ máy tính ......................................... 207
12.2.3. Các trắc nghiệm thích ứng nhờ máy tính dựa vào câu hỏi.......................... 207
12.2.4. Các trắc nghiệm thích ứng nhờ máy tính dựa vào phân đề ......................... 210
12.2.5. Các trắc nghiệm thích ứng nhờ máy tính cấu trúc đa giai đoạn ..................... 210

12.3. VÍ DỤ VỀ TRẮC NGHIỆM THÍCH ỨNG NHỜ MÁY TÍNH ............................... 215

Chương 13. CÁC MÔ HÌNH TRẮC NGHIỆM ĐA PHÂN................................... 219
13.1. MỘT SỐ MÔ HÌNH TRẮC NGHIỆM ĐA PHÂN ................................................. 219
13.1.1. Mô hình định giá từng phần ....................................................................... 220
13.1.2. Mô hình định giá từng phần tổng quát ....................................................... 231
13.2. CÁC VÍ DỤ VỀ ỨNG DỤNG TRẮC NGHIỆM ĐA PHÂN .................................. 232
13.2.1. Phân tích các bài kiểm tra gồm các CH tự luận
nhờ phần mềm CONQUEST.................................................................................. 232
13.2.2. Phân tích các bài kiểm tra gồm hỗn hợp các CH trắc nghiệm khách quan và
tự luận nhờ phần mềm CONQUEST...................................................................... 242
13.2.3. Phân tích các bài kiểm tra gồm hỗn hợp các CH trắc nghiệm khách quan và
tự luận nhờ phần mềm PARSCALE ...................................................................... 251

Chương 14. KHÁI NIỆM VỀ TRẮC NGHIỆM ĐA CHIỀU ................................ 256
14.1. MỘT SỐ MÔ HÌNH TRẮC NGHIỆM ĐA CHIỀU ................................................ 256
14.1.1. Mô hình trắc nghiệm đa chiều nhờ các hàm logistic tuyến tính theo
số liệu từ các CH nhị phân ..................................................................................... 256
14.1.2. Một cách tiếp cận xây dựng mô hình tổng quát cho trắc nghiệm nhị phân,
đa phân, một chiều, đa chiều .................................................................................. 262
14.1.3. Về các cách biểu hiện tính đa chiều: giữa các CH và trong từng CH ......... 265
14.2. VÀI VÍ DỤ VỀ ÁP DỤNG TRẮC NGHIỆM ĐA CHIỀU ...................................... 266
14.2.1. Phân tích bài kiểm tra gồm các CH nhị phân và đa phân đo lường 3 chiều
năng lực biểu hiện ở riêng từng CH ....................................................................... 266
14.2.2. Phân tích bài kiểm tra gồm các CH nhị phân đo lường 3 chiều năng lực
biểu hiện hỗn hợp trong mỗi CH ............................................................................ 268

Các tài liệu dẫn và tham khảo chính ........................................................................ 289

6



LỜI NÓI ĐẦU
Trong các khoa học về giáo dục có một nhánh quan trọng là khoa
học về đo lường trong tâm lý và giáo dục, thường được gọi là tâm trắc học
(psychometrics). Khoa học này ở phương Tây bắt đầu phát triển mạnh từ
cuối thế kỷ XIX và đạt được rất nhiều thành tựu vào cuối thế kỷ XX. Tuy
nhiên tại Liên Xô cũ vì gặp một số trắc trở nên khoa học này phát triển rất
chậm, điều đó cũng ảnh hưởng đến nước ta, do vậy cho đến thập niên 90
của thế kỷ XX nước ta hầu như vẫn chưa tiếp cận với khoa học này, trừ vài
ba chuyên gia ở phía Nam được đào tạo từ phương Tây trước năm 1975.
Nhìn thấy khiếm khuyết lớn nói trên trong việc xây dựng một nền
giáo dục bền vững cho đất nước, khi làm công tác quản lý ở Bộ Giáo dục
và Đào tạo vào thập niên 90 của thế kỷ trước, tác giả tập sách này đã đề
nghị Bộ Giáo dục và Đào tạo lần lượt gửi hàng mấy chục giảng viên đại
học đi học thạc sỹ và tiến sỹ về khoa học này ở các nước tiên tiến. Nhiều
người học xong đã về làm việc rải rác ở các trường đại học, cũng có người
tiếp tục làm việc ở nước ngoài. Tuy nhiên, một thực tế đáng buồn là cho
đến nay việc tiếp cận và ứng dụng khoa học này vào thực tiễn giáo dục ở
nước ta vẫn còn rất yếu kém. Trong các chương trình đào tạo giáo viên các
cấp không có một môn học thích đáng giúp sinh viên tiếp cận khoa học
này; ở các kỳ thi quan trọng cấp quốc gia, khoa học này cũng chưa thực sự
được áp dụng. Ngay trong các trường đại học lớn về sư phạm và giáo dục
hiện nay chưa có các nhóm nghiên cứu sâu về đo lường trong tâm lý và
giáo dục, cũng chưa có một cuốn giáo trình nào giới thiệu về thành tựu
hiện đại của khoa học này. Những thiếu sót nói trên chứng tỏ việc lấp lỗ
hổng về nhánh khoa học giáo dục này ở nước ta quá chậm, điều đó tất yếu
ảnh hưởng đến sự phát triển bền vững của toàn bộ hệ thống giáo dục.
Vì thấy tầm quan trọng của khoa học đo lường trong tâm lý và giáo
dục qua hoạt động thực tiễn, cũng vì vẻ đẹp bên trong của bản thân nó,

tác giả đã dành thời gian tiếp cận lý luận và áp dụng thực tiễn khoa học
7


đã nêu trong hơn mười năm qua. Cuốn sách trong tay bạn đọc nhằm đóng
góp thúc đẩy sự phát triển nhanh chóng hơn khoa học này ở nước ta.
Cuốn sách có thể sử dụng làm cơ sở ban đầu để giảng dạy trong các
chương trình đại học và sau đại học ở các trường có các ngành sư phạm
và giáo dục, đặc biệt để tạo cho các bạn giáo viên và sinh viên trẻ quan
tâm một con đường tương đối ngắn để tiếp cận khoa học này so với con
đường mà tác giả đã phải đi qua.
Từ năm 2007 đến nay, Viện Khoa học Giáo dục Việt Nam đã tạo
cơ hội cho tác giả được tham gia phân tích các kết quả trắc nghiệm khách
quan và tự luận từ việc khảo sát kết quả học tập một số môn học lớp 5,
lớp 6 và lớp 9 ở nước ta, nhờ đó tác giả có số liệu thô để minh họa về kỹ
thuật phân tích trắc nghiệm trong sách, tác giả trân trọng cảm ơn Viện về
các cơ hội nói trên. Một công cụ được dùng để phân tích kết quả trắc
nghiệm trong cuốn sách này là phần mềm phân tích trắc nghiệm
VITESTA được xây dựng đầu tiên ở nước ta theo Lý thuyết Ứng đáp
Câu hỏi. Công ty Khoa học và Công nghệ Giáo dục (EDTECH-VN) đã
cung cấp các kỹ sư giúp tác giả xây dựng thành công phần mềm nói trên,
tác giả chân thành cảm ơn Công ty về sự hỗ trợ đó. Tác giả cảm ơn
Trường Đại học Giáo dục thuộc Đại học Quốc gia Hà Nội đã hỗ trợ làm
thủ tục in cuốn sách. Cuối cùng tác giả tỏ lòng biết ơn anh Dương Quang
Minh, nghiên cứu sinh về tâm trắc học tại Viện Đại học Bang Michigan
đã đọc bản thảo cuốn sách và đóng góp nhiều ý kiến quý báu.
Một cuốn sách như thế này lẽ ra phải được các giảng viên đã có cơ
hội tiếp cận đầy đủ các chương trình đào tạo tiến sỹ ở các nước tiên tiến
viết ra, nhưng vì chờ đợi mãi hàng chục năm qua chưa thấy ai chịu khó
làm việc này nên tác giả đành phải cố gắng thực hiện. Một mảng khoa

học hiện đại rộng lớn, phát triển nhanh chóng và có nhiều ứng dụng đa
dạng, nhưng chỉ được giới thiệu thu gọn trong một cuốn sách tương đối
nhỏ như thế này thì chắc không tránh khỏi thiếu sót. Tác giả rất hoan
nghênh các ý kiến đóng góp về cuốn sách và xin bạn đọc gửi về địa chỉ

Hà Nội, tháng 10 năm 2010
TÁC GIẢ
8


GIỚI THIỆU
CẤU TRÚC VÀ CÁCH SỬ DỤNG CUỐN SÁCH

Cuốn sách gồm 2 phần lớn. Phần I có 2 chương, chương 1 giới thiệu
các khái niệm chung về trắc nghiệm và đo lường trong giáo dục; chương 2
giới thiệu khái quát về lý thuyết trắc nghiệm cổ điển. Phần II là trọng tâm
của cuốn sách, có 12 chương, tập trung vào trắc nghiệm hiện đại, đặc biệt
là Lý thuyết Ứng đáp Câu hỏi (Item Response Theory – IRT). Để bạn đọc
dễ theo dõi, đầu mỗi chương đều có nêu những vấn đề sẽ được đề cập
đến trong chương và lưu ý người đọc nên tập trung vào vấn đề gì, ở cuối
mỗi chương có các câu hỏi tự kiểm tra hoặc bài tập, hoặc cả hai.
Người đọc nếu đã quen với trắc nghiệm cổ điển qua các cuốn sách
về trắc nghiệm của GS. Dương Thiệu Tống [1] thì chỉ cần đọc lướt phần I
để nhớ lại các khái niệm sẽ được dùng đến ở phần II.
Ở phần II, IRT được trình bày theo trình tự từ các điểm xuất phát
cần thiết để xây dựng một phép đo lường trong giáo dục nói chung. Diễn
tả được bắt đầu từ khái niệm cơ bản của IRT là hàm đặc trưng câu hỏi
(biểu hiện qua đường cong đặc trưng câu hỏi), mô tả ứng đáp của một thí
sinh lên một câu hỏi, mối tương tác xảy ra trong một “tế bào” bao gồm một
cặp “thí sinh – câu hỏi”, mà tác giả gọi là “mối tương tác nguyên tố”.

Mối tương tác đó là viên gạch để xây dựng toàn bộ tòa nhà IRT, cơ sở
của khoa học đo lường hiện đại trong tâm lý và giáo dục. Chương 3 và 4
dành để giới thiệu các mô hình đường cong đặc trưng câu hỏi khác nhau,
mô hình 1, 2 và 3 tham số dạng logistic, cũng giới thiệu mối quan hệ giữa
chúng với dạng đường cong tích lũy vòm chuẩn đã được sử dụng nhiều
trong quá khứ. Vai trò của mô hình Rasch (mô hình một tham số) trong
IRT nói chung cũng được bàn đến trong chương 3. Từ chương 3 đến
chương 12 của phần II chỉ tập trung trình bày mô hình trắc nghiệm nhị
phân (dichotomous) và đơn chiều (unidimentional).
9


Sau khi giới thiệu các hàm đặc trưng câu hỏi, chương 5 mô tả định
tính về quy trình ước lượng các tham số của câu hỏi để bạn đọc hiểu thực
chất của quy trình này, rồi chương 8 trở lại giới thiệu định lượng về quy
trình ước lượng giá trị năng lực của thí sinh và ước lượng đồng thời các
tham số của câu hỏi và năng lực của thí sinh, tức là định cỡ đề trắc
nghiệm. Những bạn đọc ngại đi vào các tính toán định lượng có thể chỉ
đọc chương 5 là đủ để hình dung được khái quát cách dựa vào mô hình để
tính toán các kết quả mong đợi cuối cùng – các tham số đặc trưng câu hỏi
và giá trị năng lực của thí sinh. Bắt đầu ở chương 5 và trình bày rõ hơn ở
chương 8 một tính chất quan trọng, hòn đá tảng thể hiện ưu việt của IRT,
đó là tính bất biến của các tham số của câu hỏi và năng lực của thí sinh đối
với các phép đo bằng trắc nghiệm. Tính bất biến (invariance) này cũng
hay được diễn đạt bằng các cụm từ “không phụ thuộc vào câu hỏi” (itemfree), “không phụ thuộc vào mẫu thử” (sample-free). Các chương 6 và 7
trước hết giới thiệu thêm một công cụ quan trọng phản ánh tính chất của
câu hỏi trắc nghiệm là hàm thông tin của câu hỏi trắc nghiệm, sau đó giới
thiệu các công cụ tổng hợp mô tả tính chất của toàn bộ đề trắc nghiệm, đó
là hàm và đường cong đặc trưng đề trắc nghiệm (đường cong điểm thực)
cũng như hàm và đường cong thông tin của đề trắc nghiệm.

Chương 9 trình bày một vấn đề quan trọng, đó là cách đánh giá sự
phù hợp giữa số liệu và mô hình trong IRT. Chỉ khi mức độ phù hợp giữa
số liệu và mô hình có thể chấp nhận được thì mọi ưu điểm liên quan đến
IRT mới phát huy đầy đủ và chất lượng các phép đo lường mới đảm bảo.
Ba chương tiếp theo nêu các phương pháp ứng dụng thực tế cụ thể
của lý thuyết trắc nghiệm. Chương 10 trình bày các phương pháp thiết kế
các đề trắc nghiệm dựa vào lý thuyết trắc nghiệm cổ điển và đặc biệt là
dựa vào IRT. Chương 11 trình bày các phương pháp liên quan đến một
nhu cầu quan trọng của hoạt động đánh giá trong thực tế: làm sao so sánh
được các điểm trắc nghiệm thu được từ các đề trắc nghiệm khác nhau
cũng như so sánh được các tham số của câu hỏi trắc nghiệm thu được từ
các mẫu định cỡ khác nhau. Nhu cầu này được giải quyết bởi các phương
pháp so bằng các điểm trắc nghiệm. Chương 12 giới thiệu các mô hình
trắc nghiệm nhờ máy tính, đặc biệt là phương pháp trắc nghiệm thích ứng

10


nhờ máy tính (computational adaptive tests) một phương pháp phát triển
rất thuận lợi dựa trên cơ sở IRT.
Hai chương cuối phần II của cuốn sách trình bày các cách tiếp cận
mở rộng mô hình nhị phân đơn chiều sang các mô hình đa phân
(polytomous) và đa chiều (multidimentional). Chương 13 giới thiệu
chung các mô hình trắc nghiệm đa phân và tập trung đi sâu vào mô hình
định giá từng phần (partial credit model), một mô hình trắc nghiệm đa
chiều có tính khái quát cao. Có thể sử dụng mô hình này để phân tích kết
quả đo lường bằng các đề tự luận có cấu trúc và được quy định điểm cho
từng phần. Mô hình trắc nghiệm nhị phân được xem là một trường hợp
riêng của mô hình trắc nghiệm đa phân nói chung cũng như của mô hình
định giá từng phần. Với quan niệm đó, có thể triển khai phân tích một đề

thi kết hợp trắc nghiệm với tự luận bằng mô hình định giá từng phần.
Chương 14 trình bày mở đầu về trắc nghiệm đa chiều, giới thiệu một số
mô hình trắc nghiệm đa chiều và việc ứng dụng chúng khi phân tích ảnh
hưởng của các chiều năng lực khác nhau lên kết quả đo lường.
Phần ứng dụng lý thuyết đo lường vào thực tiễn đánh giá trong giáo
dục được trình bày qua nhiều ví dụ đan xen trong các chương. Ví dụ
được lấy phần lớn từ thực tế đánh giá ở nước ta trong mấy năm qua.
Qua các ví dụ thực tế, một vài phần mềm tính toán tiêu biểu cũng được
sử dụng, đó là phần mềm CONQUEST của ACER (Úc), phần mềm
BILOG-3M, MULTILOG, PARSCALE (Mỹ) và phần mềm VITESTA
của EDTECH-VN (Việt Nam).
Để bạn đọc dễ theo dõi, đầu cuốn sách có đưa ra bảng thống kê các từ
viết tắt được sử dụng nhiều trong sách. Hơn nữa, do thành tựu hiện đại của
khoa học đo lường trong giáo dục hầu hết gắn với các tác giả phương Tây,
cho nên có thể xem chúng ta đang nhập khẩu khoa học này từ phương
Tây. Vì vậy các thuật ngữ tiếng Việt liên quan trong sách phần lớn do tác
giả tự tạo ra, và để dễ đối chiếu khi đọc các tài liệu tiếng Anh ở cuối sách
có đưa ra một bảng thuật ngữ đối chiếu Anh – Việt.
Cuối cùng tác giả có liệt kê các tài liệu dẫn và tài liệu tham khảo
chính là các sách hoặc bài viết mà tác giả có lấy ý tưởng hoặc trích dẫn
trong cuốn sách, cũng là các tài liệu mà tác giả đã đọc và tin tưởng về
11


chất lượng. Tác giả không muốn đưa quá nhiều tài liệu tham khảo liên
quan vì không muốn giới thiệu với bạn đọc những cuốn sách mà tác giả
chưa đọc kỹ và chưa nắm chắc về chất lượng.
Tuy cố gắng giới thiệu một số kiến thức tổng quát ban đầu liên
quan đến những thành tựu hiện đại của khoa học về đo lường trong giáo
dục, nhưng cuốn sách vẫn chưa bao trùm hết các vấn đề cần thiết. Tác giả

hy vọng sẽ bổ sung trong các lần xuất bản sau.

12


CÁC TỪ VIẾT TẮT THƯỜNG DÙNG
Câu hỏi

CH

Thí sinh

TS

Lý thuyết Ứng đáp Câu hỏi (Item Response Theory)

IRT

Lý thuyết trắc nghiệm cổ điển (Classical Test Theory)

CTT

Tự luận

TL

Trắc nghiệm khách quan

TNKQ


Đề trắc nghiệm

ĐTN

Nhiều lựa chọn

NLC

Ngân hàng câu hỏi

NHCH

Đặc trưng của câu hỏi

ĐTCH

Hàm đặc trưng của câu hỏi (Item Characteristic Function)

ICF

Đường cong đặc trưng của CH (Item Characteristic Curve)

ICC

Log odds unit

logit

Ước lượng theo biến cố hợp lý cực đại (maximum likelyhood


MLE

estimation)
Phản ứng khác biệt của câu hỏi (differential item functioning)

DIF

Dịch vụ trắc nghiệm giáo dục (Educational Testing Service)

ETS

Trắc nghiệm Đại học Hoa Kỳ (American College Testing)

ACT

Trắc nghiệm Đánh giá Học vấn (Scholastic Assesment Test)

SAT

Kỳ thi Ghi nhận Sau đại học (Graduate Record Examination)

GRE

13


Trắc nghiệm Tuyển sinh sau đại học ngành Quản lý (Graduate

GMAT


Management Admission Test)
Trắc nghiệm Ngoại ngữ tiếng Anh (Test of English as a Foreign Language)

TOEFL

Mô hình định giá từng phần

PCM

Trắc nghiệm nhờ máy tính (Computer-based test)

CBT

Trắc nghiệm Thích ứng nhờ máy tính (Computational Adaptive Test)

CAT

Trắc nghiệm cố định nhờ máy tính (Computerized Fixed Tests)

CFT

Trắc nghiệm thích ứng nhờ máy tính cấu trúc đa giai đoạn

ca-MST

(Structured Computer Adaptive Multistage Test)
Trắc nghiệm trên giấy (paper-and-pencil test)

PAP


Quá trình tạo đề tự động (automated test assembly)

ATA

Trắc nghiệm di chuyển thẳng nhờ máy tính (Linear-on-the-Fly Test)

LOFT

14


Phần I
MỘT SỐ KHÁI NIỆM BAN ĐẦU
VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG
TRONG GIÁO DỤC

15


Chương 1

VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG
TRONG GIÁO DỤC
Mở đầu chương này là các khái niệm chung về đo lường và đánh
giá trong giáo dục, các cách phân loại mục tiêu giáo dục và các cách
phân loại quan trọng đối với các phương pháp đo lường và đánh giá
trong giáo dục. Tiếp đến hai nhóm phương pháp đánh giá quan trọng là
trắc nghiệm khách quan và tự luận được trình bày, được so sánh với
nhau để dẫn đến nhận định phải tận dụng kết hợp ưu thế của từng
phương pháp phục vụ các bài toán đánh giá trong giáo dục. Một quy

trình nhằm thiết kế các đề kiểm tra tiêu chuẩn hóa và các ngân hàng câu
hỏi (NHCH) được nêu tóm tắt ở cuối chương, trong đó cho thấy ở các
khâu nào cần sử dụng lý thuyết trắc nghiệm cổ điển hay hiện đại. Làm
quen với những khái niệm mở đầu về đo lường và đánh giá trong giáo
dục ở chương này rất quan trọng để đọc tiếp các chương sau.
1.1. NHU CẦU ĐO LƯỜNG TRONG CUỘC SỐNG VÀ KHOA HỌC
VỀ ĐO LƯỜNG NÓI CHUNG

Từ buổi sơ khai của lịch sử loài người, trong quá trình lao động và
giao tiếp, con người đã phải thực hiện các phép đo lường. Đo lường là
phép so sánh một đại lượng nào đó với một vật chuẩn đã biết, và kết quả
là đưa ra các con số để đánh giá.
D. I. Menđêlêep có nói: “Ở đâu có sự đo lường thì ở đó bắt đầu có
khoa học”. Ở buổi ban đầu, con người cần đo lường để xây dựng nơi cư
trú, chế tạo quần áo, trao đổi thực phẩm, nguyên liệu… Với sự phát triển
các hoạt động của con người, các phép đo ngày càng chính xác, các đơn
vị đo ngày càng tinh tế. Chẳng hạn, để đo chiều dài người cổ đại sử dụng

16


các đơn vị đo dựa trên gang tay, để đo thời gian dùng các chu kỳ mọc và
lặn của Mặt Trời và Mặt Trăng… Người Lưỡng Hà đã biết sử dụng hệ
thập phân khi đo chiều dài, và các sử gia có biết đến đơn vị nhỏ nhất để
đo chiều dài mà người Lưỡng Hà đã sử dụng còn lưu lại ở các dấu khắc
trên ngà voi vào cỡ 1,704mm. Khi đo thời gian và góc người xưa sử dụng
cách chia vòng tròn thành 360 phần, có lẽ xuất phát từ con số 360 ngày
trong một năm.
Khi khoa học còn sơ khai thì các phép đo cũng thô thiển. Với sự
phát triển của một khoa học nào đó, độ chính xác của phép đo trong khoa

học ấy cũng ngày càng được nâng cao. Hãy lấy ví dụ về phép đo thời
gian. Thời xa xưa con người đo thời gian bằng đơn vị tính theo độ dài
ước chừng giữa thời điểm Mặt Trời mọc và Mặt Trời lặn, rồi sau đó sử
dụng đồng hồ dựa vào độ dài của chu kỳ dao động con lắc. Ngày nay
người ta phải tính đơn vị đo thời gian bằng việc xác định các bước sóng
bức xạ của dịch chuyển siêu tinh vi trong nguyên tử. Mặt khác, tùy theo
mục tiêu của mỗi phép đo mà người ta đòi hỏi độ chính xác đến đâu, tức
là chấp nhận sai số đến mức nào. Chẳng hạn, trong cuộc sống hàng ngày
người ta chỉ cần hẹn nhau chính xác đến năm ba phút. Tuy nhiên, nói
chung sự tiến bộ của khoa học giúp con người có cơ sở để thiết kế các
phép đo có độ chính xác ngày càng cao.
1.2. ĐO LƯỜNG VÀ ĐÁNH GIÁ TRONG GIÁO DỤC

Bất kỳ một quá trình giáo dục nào mà một con người tham gia cũng
nhằm tạo ra những biến đổi nhất định trong con người đó. Muốn biết
những biến đổi đó xảy ra ở mức độ nào phải đánh giá hành vi của người
đó trong một tình huống nhất định. Việc đánh giá cho phép chúng ta xác
định, một là mục tiêu giáo dục được đặt ra có phù hợp hay không và có
đạt được hay không, hai là việc giảng dạy có thành công hay không, học
viên có tiến bộ hay không.
Để việc đánh giá được đúng đắn phải triển khai đo lường: muốn so
sánh vật nào nặng hơn trong hai vật có bề ngoài không khác nhau người
ta phải đem cân chúng lên. Việc dạy và học đã xuất hiện trong lịch sử
loài người hàng nghìn năm trước đây, và để tuyển dụng người giỏi người
ta phải tạo ra các hình thức thi để so sánh các thí sinh với nhau.
17


Trong lịch sử giáo dục Việt Nam, nhằm giúp nhà vua đánh giá đúng hiền
tài để tuyển dụng vào các chức quan lại trị nước, triều đình phải tổ chức

các kỳ thi từ thấp đến cao: thi hương, thi hội, thi đình. Ở các kỳ thi này,
người ta ra đề thi cho sỹ tử làm bài, và các giám khảo đo lường năng lực
của thí sinh qua các bài thi đó dựa vào sự nhận xét chủ quan của mình.
Giám khảo giỏi và công bằng thì việc đo lường sẽ chính xác, giám khảo
kém và không công bằng thì việc đo lường thường sai lệch, như vậy việc
tuyển chọn đúng người tài cho quốc gia phụ thuộc nhiều vào độ chính
xác trong phép đo lường năng lực thí sinh của giám khảo.
Những ví dụ nêu trên cho thấy, việc đo lường và đánh giá trong
giáo dục đã phát triển từ xa xưa, tuy nhiên, có thể nói, một ngành khoa
học thật sự về đo lường trong tâm lý và giáo dục mới bắt đầu hình thành
từ cuối thế kỷ XIX. Ở châu Âu, và đặc biệt là ở Mỹ, lĩnh vực khoa học về
trắc nghiệm phát triển mạnh trong thế kỷ XX. Có thể kể những dấu mốc
quan trọng trong tiến trình phát triển, như Trắc nghiệm trí tuệ SimonBinet được xây dựng bởi hai nhà tâm lý học người Pháp Alfred Binet và
Theodore Simon vào khoảng năm 1905, tiếp đến được áp dụng tại Đại
học Stanford ở Mỹ bởi Lewis Terman năm 1916, sau đó nó đã được cải
tiến liên tục và được sử dụng ngày nay với tên gọi là Trắc nghiệm trí tuệ
IQ (intelligence quotient). Bộ trắc nghiệm thành quả học tập tổng hợp
đầu tiên Stanford Achievement Test ra đời vào năm 1923 ở Mỹ. Với việc
đưa vào chấm trắc nghiệm bằng máy của IBM năm 1935, việc thành lập
Hội quốc gia về Đo lường trong giáo dục (National Council on
Measurement in Education - NCME) vào thập niên 1950, sự ra đời hai tổ
chức tư nhân Educational Testing Service (ETS) năm 1947 và American
College Testing (ACT) năm 1959, hai tổ chức làm dịch vụ trắc nghiệm
lớn thứ nhất và thứ hai Hoa Kỳ, một ngành công nghiệp về trắc nghiệm
đã hình thành ở Mỹ. Từ đó đến nay khoa học về đo lường trong tâm lý và
giáo dục đã phát triển liên tục, những phê bình chỉ trích đối với khoa học
này cũng xuất hiện thường xuyên nhưng chúng không đánh đổ được nó
mà chỉ làm cho nó tự điều chỉnh và phát triển mạnh mẽ hơn. Hiện nay ở
Mỹ ước tính mỗi năm số lượt trắc nghiệm tiêu chuẩn hoá cỡ 1/4 tỷ và
trắc nghiệm do giáo viên soạn lên đến con số 5 tỷ. Tương ứng với ngành

công nghiệp trắc nghiệm đồ sộ và sự phát triển của công nghệ thông tin,

18


lý thuyết về đo lường trong tâm lý giáo dục cũng phát triển nhanh. Các
thành tựu lý luận quan trọng của khoa học về đo lường trong giáo dục đạt
được cho đến thập niên 70 của thế kỷ trước được bao gồm trong "Lý
thuyết trắc nghiệm cổ điển" (Classical Test Theory - CTT). Còn bước
phát triển về chất của nó trong khoảng 4 thập niên vừa qua bao gồm
trong “Lý thuyết trắc nghiệm hiện đại” mà cốt lõi là "Lý thuyết Ứng đáp
Câu hỏi" (Item Response Theory - IRT). IRT đã đạt được những thành
tựu quan trọng nâng cao độ chính xác của trắc nghiệm, và trên cơ sở lý
thuyết đó, công nghệ Trắc nghiệm thích ứng nhờ máy tính (Computer
Adaptive Test – CAT) ra đời. Ngoài ra, trên cơ sở những thành tựu của
IRT và ngôn ngữ học máy tính, công nghệ Criterion chấm tự động các
bài tự luận tiếng Anh nhờ máy tính của ETS đã được triển khai qua mạng
Internet trong mấy năm qua.
1.3. PHÂN LOẠI CÁC MỤC TIÊU GIÁO DỤC

Để thiết kế quá trình dạy, học và đánh giá kết quả học tập, xác định
rõ các mục tiêu của hoạt động giáo dục là rất quan trọng. Tại Hội nghị
của Hội Tâm lý học Mỹ năm 1948, B. S. Bloom đã chủ trì xây dựng một
hệ thống phân loại các mục tiêu đó. Ba lĩnh vực của các hoạt động giáo
dục đã được xác định, đó là lĩnh vực về nhận thức (cognitive domain),
lĩnh vực về cảm xúc, thái độ (affective domain) và lĩnh vực về tâm lý vận
động (kỹ năng) (psychomotor domain).
Lĩnh vực nhận thức thể hiện ở khả năng suy nghĩ, lập luận, bao
gồm việc thu thập các sự kiện, giải thích, lập luận theo kiểu diễn dịch và
quy nạp và sự đánh giá có phê phán.

Lĩnh vực cảm xúc liên quan đến những đáp ứng về mặt tình cảm,
bao hàm cả những mối quan hệ như yêu ghét, thái độ nhiệt tình, thờ ơ,
cũng như sự cam kết với một nguyên tắc và sự tiếp thu các lý tưởng.
Lĩnh vực tâm lý vận động liên quan đến những kỹ năng đòi hỏi sự
khéo léo về chân tay, sự phối hợp các cơ bắp và khả năng của thân thể từ
đơn giản đến phức tạp để điều phối động tác.
Các lĩnh vực nêu trên không hoàn toàn tách biệt hoặc loại trừ lẫn
nhau. Phần lớn việc phát triển tâm linh và tâm lý đều bao hàm cả 3 lĩnh
vực nói trên.
19


1) Lĩnh vực nhận thức
Bloom và những người cộng tác với ông ta cũng xây dựng nên các
mức độ của các mục tiêu giáo dục, thường được gọi là cách phân loại
Bloom, trong đó lĩnh vực nhận thức được chia thành các mức độ nhận
thức (hay mức độ thao tác xử lý kiến thức) từ đơn giản nhất đến phức tạp
nhất như sau [32]:
- Biết (Knowledge): được định nghĩa là sự nhớ, thuộc lòng, nhận
biết được và có thể tái hiện các dữ liệu, các sự việc đã biết hoặc đã học
được trước đây. Điều đó có nghĩa là một người có thể nhắc lại một loạt
dữ liệu, từ các sự kiện đơn giản đến các lý thuyết phức tạp, tái hiện trong
trí nhớ những thông tin cần thiết. Đây là mức độ hành vi thấp nhất đạt
được trong lĩnh vực nhận thức.
- Hiểu (Comprehention): được định nghĩa là khả năng nắm được ý
nghĩa của tài liệu. Điều đó có thể thể hiện bằng việc chuyển tài liệu từ
dạng này sang dạng khác (từ các ngôn từ sang số liệu…), bằng cách giải
thích tài liệu (giải nghĩa hoặc tóm tắt), mô tả theo ngôn từ của mình và
bằng cách ước lượng xu hướng tương lai (dự báo các hệ quả hoặc ảnh
hưởng). Hành vi ở mức độ này cao hơn so với mức độ biết, và cũng bao

gồm cả mức độ biết.
- Áp dụng (Application): được định nghĩa là khả năng sử dụng các
tài liệu đã học vào một hoàn cảnh cụ thể mới. Điều đó có thể bao gồm
việc áp dụng các quy tắc, phương pháp, khái niệm, nguyên lý, định luật
và lý thuyết. Hành vi ở mức độ này cao hơn mức độ biết và hiểu trên đây,
và cũng bao gồm cả các mức độ đó.
- Phân tích (Analysis): được định nghĩa là khả năng phân chia một
tài liệu ra thành các phần của nó sao cho có thể hiểu được các cấu trúc tổ
chức của nó. Điều đó có thể bao gồm việc chỉ ra đúng các bộ phận, phân
tích mối quan hệ giữa các bộ phận, và nhận biết được các nguyên lý tổ
chức của chúng. Hành vi ở mức độ này cao hơn so với mức độ biết, hiểu
và áp dụng, và cũng bao gồm cả các mức độ đó, vì nó đòi hỏi một sự thấu
hiểu cả nội dung và hình thái cấu trúc của tài liệu.
- Tổng hợp (Synthesis): được định nghĩa là khả năng sắp xếp các
bộ phận lại với nhau để hình thành một tổng thể mới. Điều đó có thể bao

20


gồm việc tạo ra một cuộc giao tiếp đơn nhất (chủ đề hoặc bài phát biểu),
một kế hoạch hành động (dự án nghiên cứu), hoặc một mạng lưới các
quan hệ trừu tượng (sơ đồ để phân lớp thông tin). Hành vi ở mức độ này
cao hơn so với các mức độ biết, hiểu, áp dụng, phân tích, và cũng bao
gồm cả các mức độ đó, nó nhấn mạnh các yếu tố sáng tạo, đặc biệt tập
trung vào việc hình thành các mô hình hoặc cấu trúc mới.
- Đánh giá (Evaluation): là khả năng xác định giá trị của tài liệu,
phán quyết được về những tranh luận, bất đồng ý kiến (tuyên bố, tiểu
thuyết, thơ, báo cáo nghiên cứu). Việc đánh giá dựa trên các tiêu chí nhất
định. Đó có thể là các tiêu chí bên trong (cách tổ chức) hoặc các tiêu chí
bên ngoài (phù hợp với mục đích), và người đánh giá phải tự xác định

hoặc được cung cấp các tiêu chí. Hành vi ở mức độ này cao hơn so với
tất cả các mức độ biết, hiểu, áp dụng, phân tích, tổng hợp, và cũng bao
gồm tất cả các mức độ đó.
Cách phân chia mức độ thao tác xử lý kiến thức của lĩnh vực nhận
thức trên đây do nhóm các nhà tâm lý học được chủ trì bởi B. Bloom đưa
ra từ cách đây hơn nửa thế kỷ. Vào năm 2001, các học trò cũ của Bloom là
Anderson L.W. và Krathwohl D.R. [33], sau một quá trình bàn luận với
một số nhà tâm lý học, đã đưa ra phương án điều chỉnh phân loại mục tiêu
trong lĩnh vực nhận thức của Bloom. Nội dung chính của điều chỉnh bởi
Anderson và Krathwohl là thay 2 thao tác xử lý kiến thức tổng hợp và
đánh giá ở mức độ thứ 5 và thứ 6 tương ứng bằng đánh giá và sáng tạo.
Ngoài ra, họ mô tả các thao tác xử lý kiến thức bằng các động từ thay vì
danh từ như trước đây (trong tiếng Anh), và tạo thành một ma trận phân
loại 2 chiều bằng cách, cùng với chiều đứng biểu diễn 6 thao tác xử lý kiến
thức, đưa vào thêm chiều ngang biểu diễn 4 loại kiến thức liên quan đến sự
vật (factual), khái niệm (conceptual), quy trình (procedural) và siêu nhận
thức (metacornitive). Hiện nay trong cộng đồng giáo dục thế giới sử dụng cả
hai cách phân loại cổ điển và điều chỉnh tùy theo thói quen của từng người.
2) Lĩnh vực tình cảm: lĩnh vực tình cảm được phân chia thành các
mức độ hành vi từ đơn giản nhất đến phức tạp nhất như sau:
- Tiếp nhận (Receiving): thể hiện sự tự nguyện tiếp nhận thông tin,
sự quan tâm có lựa chọn.
21


- Đáp ứng (Responding): thể hiện sự quan tâm tích cực để tiếp
nhận, sự tự nguyện đáp ứng và cảm giác thỏa mãn.
- Chấp nhận giá trị (Valuing): thể hiện niềm tin và sự chấp nhận
giá trị, sự ưa chuộng và sự cam kết.
- Tổ chức (Organization): thể hiện sự khái quát hóa các giá trị và tổ

chức thành hệ thống giá trị.
- Đặc trưng hóa (Characterization): Đây là cấp độ cao và phức tạp
nhất. Nó bao gồm hành vi liên quan tới việc tiếp nhận một tập hợp các giá
trị và sự khái quát thành đặc trưng của bản thân hay triết lý của cuộc sống.
Cách phân loại mức độ hành vi của lĩnh vực tình cảm trên đây được
đề xuất bởi nhóm nhà tâm lý học do Krathworl D.R. (1964) chủ trì.
3) Lĩnh vực kỹ năng: lĩnh vực kỹ năng được chia thành các mức độ
hành vi từ đơn giản nhất đến phức tạp nhất như sau:
- Bắt chước thụ động (Imitation): Làm theo hành vi của một người
khác một cách thụ động.
- Thao tác theo (Manipulation): Thực hiện được các thao tác theo
một sự hướng dẫn từng bước quy trình.
- Tự làm đúng (Precision): Thực hiện được một nhiệm vụ với sai
sót nhỏ và dần dần chính xác hơn mà không có nguồn hướng dẫn. Thể
hiện thao tác trơn tru, chính xác.
- Khớp nối được (Articulation): Sắp xếp được một chuỗi thao tác
bằng cách kết hợp hai hay nhiều kỹ năng, có thể cải tiến thao tác cho phù
hợp để giải quyết một vấn đề gì đó.
- Thao tác tự nhiên (Naturalisation): Chứng tỏ mức độ thực hiện
thao tác một cách tự nhiên như bản hăng (”không cần suy nghĩ”). Các kỹ
năng được kết hợp, thao tác trình tự, thực hiện nhất quán dễ dàng, tức là
mất ít năng lượng và thời gian.
Cách phân loại mức độ hành vi của lĩnh vực kỹ năng trên đây được
Dave R.H. (1970) đề xuất.
Ngoài ra còn có một số cách phân loại mục tiêu giáo dục khác,
nhưng trên đây là các cách được sử dụng phổ biến nhất.
22


1.4. PHÂN LOẠI CÁC PHƯƠNG PHÁP ĐO LƯỜNG VÀ ĐÁNH GIÁ

TRONG GIÁO DỤC

Có nhiều kiểu phân loại các phương pháp đo lường và đánh giá
trong giáo dục, tùy theo cách xem xét và mục tiêu phân loại. Chúng ta
hãy làm quen với một số kiểu phân loại sau đây.
1) Theo cách thực hiện việc đánh giá, có thể phân chia các phương
pháp đánh giá làm ba loại quan trọng: loại quan sát, loại vấn đáp và loại
viết (xem Bảng 1).
- Loại quan sát giúp đánh giá các thao tác, các hành vi, các phản ứng
vô thức, các kỹ năng thực hành và cả một số kỹ năng về nhận thức, chẳng
hạn cách giải quyết vấn đề trong một tình huống đang được nghiên cứu.
- Loại vấn đáp có tác dụng tốt để đánh giá khả năng ứng đáp các
câu hỏi được nêu một cách tự phát trong một tình huống cần kiểm tra,
cũng thường được sử dụng khi sự tương tác giữa người hỏi và người đối
thoại là quan trọng, chẳng hạn để xác định thái độ người đối thoại...
- Loại viết thường được sử dụng nhiều nhất, vì nó có các ưu điểm sau:
+ cho phép kiểm tra nhiều thí sinh cùng một lúc;
+ cho phép thí sinh cân nhắc nhiều hơn khi trả lời;
+ có thể đánh giá một số thao tác tư duy ở mức độ cao;
+ cung cấp các bản ghi trả lời của thí sinh để nghiên cứu kỹ khi
chấm điểm;
+ dễ quản lý vì người chấm không tham gia trực tiếp vào bối cảnh
kiểm tra.
Loại viết lại được chia thành hai nhóm chính:
+ Nhóm các câu hỏi (CH) trắc nghiệm tự luận (TL- essay test): Các
CH buộc thí sinh (TS) phải tự mình trình bày ý kiến trong một đoạn bài
viết để trả lời.
+ Nhóm các CH trắc nghiệm khách quan (TNKQ - objective test):
Đề thi thường bao gồm rất nhiều CH, mỗi CH nêu lên vấn đề và cho
những thông tin cần thiết để TS có thể trả lời một cách ngắn gọn.

23


Bảng 1 còn mô tả hai kiểu bài tự luận, và các loại CH TNKQ. Mục 1.5
sẽ mô tả kỹ hơn các loại CH đó. Ở nước ta nhiều người thường gọi tắt
TNKQ là “trắc nghiệm”. Thuận theo thói quen ấy, từ nay về sau nếu
trong sách này dùng từ “trắc nghiệm” mà không nói gì thêm thì ta ngầm
hiểu là TNKQ.
Bảng 1. Phân loại các phương pháp đánh giá thành quả học tập
theo cách thực hiện việc đánh giá
CÁC PHƯƠNG PHÁP ĐÁNH GIÁ THÀNH QUẢ HỌC TẬP

VẤN ĐÁP

VIẾT

QUAN SÁT

TRẮC NGHIỆM KHÁCHQUAN
(Objective tests)

TRẮC NGHIỆM TỰ LUẬN
(Essay tests)

Tiểu luận

Ghép đôi

Điền khuyết


Trả lời ngắn

Cung cấp thông tin

Đúng sai

Nhiều lựa chọn

2) Theo mục tiêu của việc đánh giá có thể phân chia các phương
pháp đánh giá làm hai nhóm: đánh giá trong tiến trình (formative) và
đánh giá tổng kết (summative).
- Đánh giá trong tiến trình được sử dụng trong quá trình dạy và học
để nhận được các phản hồi từ học viên, xem xét mức độ thành công của
việc dạy và học, chỉ ra các trở ngại và tìm cách khắc phục.
- Đánh giá tổng kết nhằm tổng kết những gì học viên đạt được, xếp
loại học viên, lựa chọn học viên thích hợp để tiếp tục đào tạo hoặc sử
dụng trong tương lai, chứng tỏ hiệu quả của khóa học cũng như việc dạy
của giảng viên, đề ra mục tiêu tương lai cho học viên.
Hai nhóm đánh giá nêu trên được tiến hành theo những cách hoàn
toàn khác nhau. Trong giảng dạy ở nhà trường, các đánh giá trong tiến trình

24


thường gắn chặt với giảng viên, còn các đánh giá tổng kết thường bám sát
vào mục tiêu dạy học đã được đề ra, và có thể tách khỏi giảng viên. Khi chỉ
quan tâm đến mục tiêu của hai phương pháp đánh giá trên đây, người ta
thường diễn tả ngắn gọn hai loại phương pháp nêu trên tương ứng là đánh
giá vì việc học tập (assessment FOR learning) và đánh giá việc học tập
(assessment OF learning).

3) Theo phương hướng sử dụng kết quả đánh giá, có thể phân chia
ra đánh giá theo chuẩn (norm-referenced) và đánh giá theo tiêu chí
(criterion-referenced)
- Đánh giá theo chuẩn: là đánh giá được sử dụng để xác định mức
độ thực hiện của một cá nhân nào đó so với các cá nhân khác trong một
nhóm mà trên đó việc đánh giá được thực hiện.
- Đánh giá theo tiêu chí: là đánh giá được sử dụng để xác định mức
độ thực hiện của một cá nhân nào đó so với các tiêu chí xác định cho
trước của môn học hoặc chương trình học.
4) Theo cách chuẩn bị cuộc đánh giá, có thể phân chia đánh giá
theo hai nhóm, đánh giá tiêu chuẩn hoá và đánh giá ở lớp học.
- Đánh giá tiêu chuẩn hoá thường do các chuyên gia đánh giá thiết
kế, thử nghiệm, tu chỉnh công cụ đánh giá, soạn thảo quy trình đánh giá và
sử dụng kết quả đánh giá. Nếu đánh giá bằng TNKQ thì mỗi CH trắc
nghiệm được gắn với các chỉ số cho biết thuộc tính và chất lượng của nó
(độ khó, độ phân biệt và các tham số khác đặc trưng cho CH, nội dung và
mức độ kỹ năng gắn với CH), mỗi ĐTN phải đảm bảo có độ tin cậy và độ
giá trị xác định.
- Đánh giá ở lớp học là đánh giá chủ yếu do giáo viên tự chế tác
hoặc lựa chọn để sử dụng trong quá trình giảng dạy, có thể chưa được thử
nghiệm và tu chỉnh công phu, thường chỉ sử dụng ở lớp học hoặc trong các
kỳ kiểm tra với số lượng học sinh không lớn và không thật quan trọng.
5) Theo mức độ đảm bảo thời gian để làm đề kiểm tra, có thể phân
chia loại đánh giá theo tốc độ và đánh giá không theo tốc độ.
- Đánh giá theo tốc độ thường hạn chế thời gian, chỉ một ít TS làm
nhanh mới có thể làm hết số CH của đề kiểm tra, nhằm đánh giá khả
năng làm nhanh của TS.
25



×