Tải bản đầy đủ (.pdf) (41 trang)

Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm chuẩn hóa chất lượng đề thi tại trường đại học kinh tế TP HCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.74 MB, 41 trang )

Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG

NGHIÊN CỨU MÔ HÌNH BIỂU DIỄN KIẾN TRÚC
ĐỀ THI VÀ KHAI THÁC KẾT QUẢ THI NHẰM
CHUẨN HÓA CHẤT LƯỢNG ĐỀ THI TẠI
TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
MÃ SỐ: CS-2014-46

Chủ nhiệm: Đặng Thái Thịnh

TP. Hồ Chí Minh, tháng 3/2015
Trang i


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Trang ii


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

NHẬN XÉT CỦA HỘI ĐỒNG NGHIỆM THU


……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………
……………………………………………………

Trang iii


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Trang iv



Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Danh mục các hình ảnh trong đề tài
Hình 1 Khung châu Âu CEFR ............................................................................ 8
Hình 2 Biểu diễn câu hỏi dạng vector .............................................................. 12
Hình 3 Các câu hỏi được học không có giám sát để phân tách cụm ................ 13
Hình 4 Ví dụ quá trình phân cụm ..................................................................... 14
Hình 5 Phân cụm sử dụng K-means ................................................................. 15
Hình 6 Các bước của quá trình phân cụm ........................................................ 17
Hình 7 Giao diện phần mềm EMP Test ........................................................... 19
Hình
Hình
Hình
Hình
Hình

8 So sánh độ khó dựa ý kiến chuyên gia và cộng đồng (chưa sắp xếp) .. 27
9 So sánh độ khó dựa ý kiến chuyên gia và cộng đồng (đã sắp xếp) ..... 27
10 Giao diện phần mềm khi làm thực nghiệm ........................................ 27
11 Biểu đồ độ tương đồng giữa các đề thi (chuyên gia) ......................... 29
12 Biểu đồ độ tương đồng giữa các đề thi (cộng đồng) .......................... 29

Trang v


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM


Danh mục các bảng biểu trong đề tài
Bảng 1 Bảng mô tả khung châu Âu CEFR ......................................................... 9
Bảng 2 Bảng so sánh các chứng chỉ tiếng Anh ................................................ 10
Bảng 3 Ví dụ về đánh giá độ khó câu hỏi ........................................................ 11
Bảng 4 Ví dụ dữ liệu quá trình thi .................................................................... 11
Bảng 5 Ví dụ về tỷ lệ trả lời đúng ở câu hỏi .................................................... 12
Bảng 6 Cách trộn đề ngẫu nhiên không phân cụm ........................................... 19
Bảng 7 Cách trộn đề ngẫu nhiên có phân cụm ................................................. 20
Bảng
Bảng
Bảng
Bảng
Bảng
Bảng

8 Lượt trả lời câu hỏi ở thực nghiệm ...................................................... 24
9 Tỷ lệ trả lời đúng ở các câu hỏi............................................................ 25
10 Độ khó dựa trên chuyên gia đánh giá ................................................ 26
11 Kết quả sinh đề thi ............................................................................. 28
12 So sánh bằng Pearson ý kiến chuyên gia giữa các đề thi ................... 28
13 So sánh bằng Pearson ý kiến cộng đồng giữa các đề thi ................... 28

Trang vi


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Nội dung

Tóm tắt................................................................................................................. 1
Chương 1: Đặt vấn đề .......................................................................................... 2
1. Tính cấp thiết của nghiên cứu ................................................................... 2
2. Mục tiêu và phạm vi nghiên cứu ............................................................... 3
3. Bố cục của nghiên cứu: ............................................................................. 4
Chương 2: Các nghiên cứu liên quan .................................................................. 5
Chương 3: Phương pháp thực hiện .................................................................... 11
1. Dữ liệu đầu vào ....................................................................................... 11
2. Biểu diễn phân cụm ................................................................................. 12
3. Phân bố câu hỏi sau phân cụm ................................................................ 18
4. Kiến trúc trộn đề đề xuất ......................................................................... 19
Chương 4: Thực nghiệm và kết quả .................................................................. 22
1. Sự tương đồng trong độ khó giữa các đề thi ........................................... 22
2. Thực nghiệm............................................................................................ 23
3. Đánh giá các phương pháp thực hiện: ..................................................... 29
Chương 5: Kết luận ........................................................................................... 32
Tài liệu tham khảo ............................................................................................. 33

Trang vii


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Tóm tắt
Nghiên cứu này nhằm áp dụng một số phương pháp trong tin học để
biểu diễn kiến trúc đề thi; nghiên cứu cũng đề xuất cách thức khai thác kết quả
thi nhằm chuẩn hóa, đánh giá lại ngân hàng đề thi; ứng dụng trong công tác
khảo thí và chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM.
Công tác ra đề thi hiện nay phụ thuộc hoàn toàn vào ý chí chủ quan của

cá nhân giảng viên hoặc hội đồng ra đề thi. Tuy nhiên, kết quả thực tế từ thí
sinh có thể phản ánh đúng hoặc không đúng qua điểm và nhận xét trước đó của
người ra đề thi. Nghiên cứu áp dụng cả ý kiến chuyên gia (phản hồi nhận xét từ
giảng viên) và ý kiến của cộng đồng (người dự thi) nhằm đưa ra một cách giải
quyết việc trộn đề thi từ cách phân bố ngẫu nhiên chuyển sang phân bố đề thi
ngẫu nhiên có chủ đích nhằm đạt đến mục tiêu: một là, phân bố ngẫu nhiên
đảm bảo theo điều kiện cho trước như phân bố theo đúng trật tự, số câu hỏi,
chương/mục/phần thỏa mãn tính bao quát của đề thi; hai là, phân bố câu hỏi
đảm bảo độ khó của nó được phân bố đều các đề thi, nghĩa là hai đề bất kỳ
trong bộ đề mà sẽ mang cho thí sinh dự thi có độ khó tương đương nhau.
Cách thức trộn đề thi được đề cập trên bắt đầu với dữ liệu chuyên gia (vì
chưa có dữ liệu từ cộng đồng) và dần dần bị dữ liệu từ cộng đồng chi phối.
Nghĩa là, có sự kết hợp giữa ý kiến chủ quan của người ra đề và ý kiến khách
quan của người dự thi qua nhiều lần. Người ra đề có thể tham khảo kết quả
phân tích, có thể thay đổi quan điểm của mình.
Nghiên cứu này giả định rằng đề thi được bảo mật và có thể sử dụng
nhiều lần trên các đối tượng khác nhau. Các yếu tố như đề thi thi nhiều lần sẽ
bị lộ, người dự thi hầu như biết trước kết quả trả lời, hoặc các yếu tố khác
ngoài nội dung câu hỏi làm ảnh hưởng đến tính phân loại độ khó của đề thi bị
loại bỏ.

Trang 1


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Chương 1: Đặt vấn đề
1. Tính cấp thiết của nghiên cứu
Hiện nay cách thức biểu diễn đề thi chủ yếu phụ thuộc vào phân cấp theo

cây, tại mỗi node lá chứa nhiều câu hỏi. Mỗi node lá tượng trưng cho một
nhóm câu hỏi, khi trộn đề người giảng viên chia tỷ lệ chọn lựa câu hỏi trong
mỗi nhóm để có một đề thi. Quá trình này được lặp đi lặp lại thành ra nhiều đề
thi. Ưu điểm của cách trộn như trên một đề thi luôn giữ được cấu trúc định
nghĩa trước về số lượng câu hỏi trong mỗi node lá (phần/chương/mục).
Tuy nhiên với cách truyền thống này, việc chọn câu hỏi trong từng node lá
mang tính chất ngẫu nhiên, vì vậy:
 Không thể hiện được độ khó tương đương của đề thi với nhau
 Sự trùng lắp nhiều câu hỏi trong các đề thi có thể xảy ra do cách
chọn ngẫu nhiên
Một số cách thức xây dựng ngân hàng câu hỏi có sự phân loại theo mức độ
“khó”, “dễ”, “trung bình”; hoăc sự phân loại theo nhóm câu hỏi thuộc về “phân
tích”, “kiến thức” hay “kỹ năng” như tồn tại trong một số sách của nhà xuất
bản Pearson tương tự như cách đề cập như trên nghĩa là chia nhỏ số lượng node
lá và làm cho người giảng viên vất vả hơn trong quá trình xác định số lượng
câu hỏi phân hóa trong đề thi.
Nghiên cứu nhằm đưa ra một cách tiếp cận kết hợp giữa cách phân nhóm
câu hỏi, đưa ý kiến chuyên gia vào câu hỏi cùng với ý kiến thụ động của đại đa
số người dự thi nhằm tự động phân loại và điều chỉnh cách thức chọn câu hỏi
nhằm đạt đến mục tiêu giảm thiểu sự trùng lắp câu hỏi giữa các đề thi nhưng
đảm bảo độ khó tương đương giữa các đề thi với nhau.
Ứng dụng tại Trường Đại học Kinh tế TP.HCM, phương pháp vừa được đề
cập ở trên là cách thức hiện nay đang sử dụng tại Trường. Ngoài ra, hệ thống
thi trắc nghiệm trực tuyến được Phòng Công nghệ thông tin sử dụng có khả
năng chọn lọc và lưu trữ liệu lịch sử thi đủ thông tin để quá trình khai thác kết
quả thi (mining) có thể sử dụng để hiện thực hóa nghiên cứu trên.
Hơn nữa, việc khai thác kết quả thi cung cấp cho giảng viên một cái nhìn lại
về cách đánh giá của mình qua ngân hàng đề thi. Tính chủ quan có thể đúng
hoặc sai, việc nhìn nhận trên dữ liệu thật trên các đối tượng dự thi khác nhau


Trang 2


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

giúp người ra đề nhiều hơn thông tin để quyết định trong các lần sau, những
quyết định có sự hỗ trợ của máy móc ra những báo cáo cho người ra quyết định.

2. Mục tiêu và phạm vi nghiên cứu
Mục tiêu của nghiên cứu nhằm đưa ra một cách thức trộn đề thi từ cách
thức khai thác kết quả thi từ hai nguồn dữ liệu:
 Ý kiến chuyên gia (người ra đề/hội đồng ra đề)
 Ý kiến thụ động của người dự thi
Mô hình được áp dụng, nghiên cứu nhằm đạt đến mục tiêu phân bố ngẫu
nhiên đảm bảo theo điều kiện cho trước như phân bố theo đúng trật tự, số câu
hỏi, chương/mục/phần thỏa mãn tính bao quát của đề thi; và phân bố câu hỏi
đảm bảo độ khó của nó được phân bố đều các đề thi, nghĩa là hai đề bất kỳ
trong bộ đề mà sẽ mang cho thí sinh dự thi có độ khó tương đương nhau.
Nghiên cứu bị giới hạn bởi các yếu tố:
 Thiếu ý kiến chuyên gia: việc đánh giá độ khó của câu hỏi
phụ thuộc vào một vài chuyên gia, kết quả có thể chính xác
hơn nếu có nhiều chuyên gia cùng thực hiện đánh giá câu hỏi.
Việc này làm phát sinh chi phí nhiều hơn.
 Ý kiến nhiễu từ người dự thi: nghiên cứu giả định rằng người
dự thi đã được đào tạo từ môn học hoặc lĩnh vực dự thi và cố
gắng làm bài hết khả năng có thể. Các mẫu nghiên cứu như
làm bài thi bằng cách chọn ngẫu nhiên đáp án là rất nhỏ và
không đáng kể.
 Các yếu tố khác ngoài nội dung câu hỏi như dấu hiệu nhận

biết câu trả lời câu hỏi được loại bỏ.
 Ngân hàng đề thi được bảo mật và có thể sử dụng nhiều lần
trên các đối tượng người dự thi khác nhau.
 Nghiên cứu nhằm đạt mục tiêu về độ khó tương đương giữa
các đề thi, chưa quan tâm đến vấn đề làm rõ ràng thang điểm
“đạt” cho một người dự thi. Nghĩa là, mục tiêu của bài thi
được định nghĩa trước; đề thi tạo ra nhằm đáp ứng thế nào thì
một thí sinh đạt được điểm đạt của đề thi đó (có thể đáp ứng
tối thiểu mục tiêu bài thi). Mức điểm này do ý kiến chuyên

Trang 3


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

gia quyết định. Ví dụ: đề thi đại học được hội đồng Bộ Giáo
dục và đào tạo quyết định điểm sàn sau khi đã có kết quả thi.
Mô hình được kiểm chứng bởi thực nghiệm được tổ chức lấy ý kiến chuyên
gia và cho dữ liệu dự thi thật. Kết quả được thể hiện trong chương 4 của nghiên
cứu này.

3. Bố cục của nghiên cứu:
Nghiên cứu được chia thành 5 chương: chương 1 nói về tổng quan nghiên
cứu; chương 2 trình bày các nghiên cứu liên quan; chương 3 diễn tả phương
pháp thực hiện; thực nghiệm và kết quả được trình bày ở chương 4; chương 5
tổng kết nghiên cứu, những hạn chế và hướng phát triển của đề tài.

Trang 4



Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Chương 2: Các nghiên cứu liên quan
Các kết luận đưa ra dựa trên tiêu chuẩn (standard) thử nghiệm quy mô
lớn dựa vào sự tin cậy của các ngưỡng được sử dụng để cho thấy trình độ của
một sinh viên có đạt được mức tiêu chuẩn hay không. Các ngưỡng này, hay còn
gọi là các tiêu chuẩn về trình độ, được đánh giá trong một quá trình thiết lập
tiêu chuẩn và được định nghĩa như các vị trí trên thang điểm (cut-scores). Ví dụ
điểm 5/10 là điểm đạt của rất nhiều môn học. Không có tiêu chuẩn đánh giá
trình độ nào là đúng, khách quan hay “vàng” (Kane, 1998a), và những tiêu
chuẩn về trình độ chỉ có thể được coi như là một cách xét tính tin cậy nhiều hay
ít mà thôi. Để đạt được các tiêu chuẩn trình độ đáng tin cậy, người ta đã đề xuất
một số phương pháp.
Nghiên cứu liên quan đến các tiêu chuẩn về trình độ, có thể được xem
như là mục đích của quá trình học tập dựa trên việc đánh giá đối tượng có đạt
được đủ trình độ kiến thức hoặc kỹ năng hay không (Hambleton & Pitoniak,
2006). Các tiêu chuẩn trình độ bao gồm cấp độ, mô tả và thang điểm (Hansche,
1998). Các cấp độ về trình độ như là dưới cơ bản, cơ bản, thành thạo và nâng
cao – Chương trình đánh giá giáo dục quốc gia (Kane, 1998a) và rớt, qua, qua
với mức ưu tú và qua với mức đặc biệt ưu tú – Chương trình thi quốc gia tại
Thuỵ Điển (Skolverket, 2005). Mô tả trình độ là những mô tả tường thuật lại
các đối tượng nên làm gì ở mỗi cấp độ trình độ (Hansche, 1998). Thang điểm là
một mức điểm trên phạm vi điểm cho một bài kiểm tra thông thường để đánh
giá một cấp độ (Kane, 2001) và chia các đối tượng thành hai loại trình độ dựa
trên đánh giá thông thường (Cizek & Bunch, 2007).
Phương pháp thiết lập tiêu chuẩn
Số lượng lớn các phương pháp thiết lập tiêu chuẩn về trình độ mô tả
trong tài liệu (xem tài liệu Cizek & Bunch, 2007) nói chung đều được mô tả

dưới dạng lấy đối tượng làm trung tâm, lấy bài kiểm tra làm trung tâm hay sự
kết hợp của cả hai phương pháp này (Jaeger, 1989). Phương pháp nào được
chọn đều phụ thuộc vào những thuận lợi và bất lợi của những phương pháp
khác nhau trong các bối cảnh khác nhau. Kane (1994) đề xuất ba loại bằng
chứng để bảo vệ các tiêu chuẩn về trình độ mà sử dụng phương pháp được
chọn.
Phương pháp lấy đối tượng làm trung tâm
Phương pháp lấy đối tượng làm trung tâm dựa trên những đánh giá về
các đối tượng. Phương pháp này phân loại đối tượng theo cấp độ - Practical
Assessment, Research & Evaluation, Vol 13, No 9,Näsström & Nyström,

Trang 5


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Setting Performance Standards – (ví dụ như: không có khả năng, có khả năng,
giới hạn) dựa trên một số tiêu chí bên ngoài khác với điểm bài kiểm tra (Giraud,
Impara & Buckendahl, 1999/2000). Thông thường, bài kiểm tra được quản lý
để phân loại đối tượng và thang điểm được thiết lập dựa trên kết quả bài kiểm
tra của họ (Cizek, 2006). Hai phương pháp lấy đối tượng làm trung tâm thông
thường nhất là phương pháp nhóm giới hạn và phương pháp nhóm đối lập (xem
ví dụ Hambleton & Pitoniak, 2006). Phương pháp nhóm giới hạn được chọn
làm phương pháp lấy đối tượng làm trung tâm trong bài nghiên cứu này, đơn
giản chỉ bởi vì nó được coi là khái niệm đơn giản (Jaeger, 1989; Hambleton &
Pitoniak, 2006) và được đề nghị cho những bài kiểm tra mang tính tổng thể và
trả lời theo cấu trúc.
Trong phương pháp nhóm giới hạn, những người đánh giá được yêu cầu
định nghĩa đặc điểm của những đối tượng giới hạn và xác định đối tượng cụ thể

phù hợp với những đặc điểm này (Livingstone & Zieky, 1982). Sau đó bài đánh
giá được quản lý, cho điểm và phân tích, và điểm trung bình của các đối tượng
giới hạn được sử dụng như là mốc điểm (Cizek, 2006). Nếu có nhiều hơn một
mốc điểm, người ta sẽ thiết lập một nhóm giới hạn cho mỗi mốc điểm (Cohen,
Kane & Crook, 1999). Theo Hambleton, Jaeger, Plake & Mills (2000), phương
pháp nhóm giới hạn bị phụ thuộc, có nghĩa là nếu mẫu đối tượng và người đánh
giá khác nhau thì độ tin cậy của thang điểm cũng cần phải đặt câu hỏi. Tuy
nhiên, việc xác định đối tượng giới hạn “chính xác” quan trọng hơn việc chọn
mẫu đại diện. (Lvingstone and Zieky, 1982).
Ưu của phương pháp nhóm giới hạn là sự đơn giản trong nội dung.
(Hambleton & Pitoniak, 2006), và thực tế những người đánh giá chỉ phải giải
quyết những đối tượng tương tự nhau (Livingstone & Zieky, 1982). Nhược
điểm của phương pháp này là tốn thời gian (Kane, 1998b), và yêu cầu phải có
một nhóm lớn những người đánh giá (Hambleton & Pitoniak, 2006) và một
nhóm mẫu lớn đối tượng (Cizek, 2006). Cũng có những người đánh giá có có
xu hướng đưa ra những yếu tố và trình độ không có trong bài đánh giá phân
loại đối tượng (Hambleton, 2000) and xác định những đối tượng giới hạn khi
không chắc chắn về trình độ của họ (Jaeger, 1989; Hambleton & Pitoniak,
2006). Có một vấn đề trong phương pháp nhóm giới hạn đó là thang điểm được
cho bởi giảng viên có sinh viên có trình độ cao có xu hướng cao hơn giảng viên

Trang 6


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

có sinh viên trình độ thấp (Livingstone & Zieky, 1989).
Phương pháp lấy bài kiểm tra làm trung tâm
Phương pháp lấy bài kiểm tra làm trung tâm dựa trên sự đánh giá về các

mẫu trong việc đánh giá cụ thể. Trong quá trình xem xét các mẫu đánh giá,
người đánh giá sẽ quyết định cấp độ trình độ cần thiết để đáp ứng với từng tiêu
chuẩn trình độ (Kane, 1998a). Việc này được thực hiện bởi những đánh giá về,
trình độ mong muốn trên các đối tượng giả thiết là vừa đáp ứng các yêu cầu
cho một tiêu chuẩn trình độ cụ thể (Hambleton & Pitoniak, 2006). Phương
pháp Angoff, thủ tục của Ebel, phương pháp của Jaeger, thủ tục Nedelsky và
phương pháp Bookmark là những ví dụ nổi tiếng của phương pháp lấy bài kiểm
tra làm trung tâm, những phương pháp đó được mở rộng và sửa đổi theo nhiều
cách (Kane, 1998b; Hambleton & Pitoniak, 2006). Phương pháp Angoff được
chọn để đại diện cho các phương pháp lấy bài kiểm tra làm trung tâm bởi vì
trong phiên bản ban đầu hay trong phiên bản được sửa đổi và mở rộng, nó là
thủ tục được sử dụng rộng rãi nhất để thiết lập tiêu chuẩn (Hurtz & Auerbach,
2003). Ngoài ra, phiên bản mở rộng của phương pháp Angoff được sử dụng
thường xuyên như là thủ tục thiết lập tiêu chuẩn của các kỳ thi toán quốc gia ở
Thuỵ Điển.
Khi phương pháp Angoff được áp dụng cho các bài kiểu tra với việc cho
điểm đánh giá chỉ là đúng hoặc sai, những người đánh giá sẽ lên nội dung cho
một các đối tượng chỉ vừa đủ tiêu chuẩn và ước tính tỷ trọng sẽ trả lời từng
mục trong bài kiểm tra một cách chính xác (Cizek, 2006). Đối với mỗi người
đánh giá, xác suất ước tính được tổng kết lại và tính trung bình để đề xuất ra
một thang điểm (Ferdous & Plake, 2007)
Ưu điểm của phương pháp Angoff là dễ quản lý, có thang điểm bù (tức
là một điểm số cao trên một mẫu cân bằng với điểm số thấp trên một mẫu khác
(Hambleton & Pitoniak, 2006), và phương pháp này có thể được thực hiện
trước khi làm bài kiểm tra (Kane, 1998a). Nhược điểm của phương pháp này là
tính chất phân tử (Hambleton, 2000), những người đánh giá gặp khó khăn
trong việc đánh giá trình độ cho từng cá nhân trong một nhóm đối tượng chỉ có
trình độ ở mức vừa đủ tiêu chuẩn, và có xu hướng đánh giá trình độ quá cao ở
những mẫu dễ và đánh giá trình độ quá thấp ở những mẫu khó (Hambleton &
Pitoniak, 2006).


Trang 7


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Nhận xét: Các phương pháp được đề cập ở trên đều xác định một mức
tiêu chuẩn và phân loại dựa trên đối tượng xét hoặc bài kiểm tra, kiến thức
đánh giá của chuyên gia còn quá nhiều, hoặc những phép toán thử nghiệm
thống kê còn đơn giản. Việc mô tả các mức (điểm thấp, cao, rất cao…) còn quá
chung chung và khó lượng hóa.
Đơn cử sau đây là một ví dụ về việc đề cập các mức lấy bài kiểm tra làm
trung tâm trong khung tiếng anh châu Âu (CEFR – Common European
Framework of Reference) [Tham khảo các tài liệu chuẩn tiếng anh]

Hình 1 Khung châu Âu CEFR

Nguồn ảnh hình 1: />Bảng mô tả khung châu Âu trong hình 1 được mô tả cụ thể theo bảng 1 sau đây
NGHE
NÓI
ĐỌC
VIẾT
A1 Có thể nhận ra Có thể hỏi đáp về Có thể hiểu những Có thể điền
những từ ngữ thật các chủ điểm chỉ dẫn, thông báo vào
các
quen thuộc liên quan quen thuộc như đơn giản liên quan phiếu,
biểu
đến bản thân, gia bản thân, gia đến các chủ điểm mẫu đơn giản
đình và môi trường đình, nhà trường. gần

gũi,
quen liên quan đến
xung quanh nếu
thuộc.
bản thân (tên,
nghe nói chậm và rõ.
tuổi, địa chỉ,
ngày, giờ…)
A2 Có thể hiểu các từ và
cụm từ thường gặp
nhất liên quan trực
tiếp đến bản thân
như thông tin cá
nhân căn bản, mua
sắm hằng ngày, khu
vực gần nhà, việc
làm.

Có thể bày tỏ ý
kiến, yêu cầu đơn
giản trong hoàn
cảnh gần gũi với
bản thân.

Có thể hiểu nội
dung chính những
bài đọc ngắn, đơn
giản, quen thuộc.

Có thể điền

vào các biểu
mẫu, phiếu,
bưu thiếp và
viết thư đơn
giản liên quan
đến bản thân,
gia đình, nhà
trường...

Có thể đoán được ý
chính của lời nhắn
hoặc thông báo ngắn
nếu được phát âm rõ
ràng.

Trang 8


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

B1 Nghe hiểu ý chính
các thông tin đơn
giản trong đời sống
xã hội thông thường.

Có thể bày tỏ ý
kiến một cách
đơn giản về các
vấn đề văn hoá,


hội
quen
thuộc.

Đọc hiểu nội dung
chính các tài liệu
phổ thông liên quan
đến các vấn đề văn
hoá, xã hội quen
thuộc.

Có thể viết
các
đoạn
vănngắn, đơn
giản về các
chủ đề quen
thuộc
phù
hợp với sự
hiểu biết của
người học.

B2 Có thể hiểu nội dung
chính các cuộc đối
thoại, độc thoại về
các vấn đề quen
thuộc trong đời
sống, văn hoá, xã

hội...

Có thể tham gia
đối thoại và trình
bày ý kiến, quan
điểm về các chủ
đề quen thuộc.

Đọc hiểu các thông
tin cần thiết và thâu
tóm được ý chính
các văn bản liên
quan đến chuyên
môn

nghề
nghiệp.

Có thể ghi
những
ý
chính
về
những điều
đã nghe hoặc
đọc được. Có
thể viết thư
giao
dịch
thông thường


C1 Nghe hiểu nội dung
chính các cuộc họp,
hội thảo trong lĩnh
vực chuyên môn và
hoạt động hàng ngày
.

Có thể tham gia
giao tiếp bằng
khả năng ngôn
ngữ tương đối trôi
chảy về những
vấn đề liên quan
đến chuyên môn
và hoạt động xã
hội thông thường.

Có thể đọc đủ
nhanh để nắm bắt
các thông tin cần
thiết
qua
các
phương tiện thông
tin đại chúng và tài
liệu phổ thông.

Có thể ghi
chép tương

đối chính xác
nội
dung
chính trong
các cuộc thảo
luận,
cuộc
họp…và có
thể viết các
báo cáo liên
quan
đến
chuyên môn.

C2 Có thể hiểu dễ dàng
nội dung các cuộc
giao tiếp hàng ngày
và hoạt động chuyên
môn.

Có thể nêu ý kiến
hoặc trò chuyện
về các vấn đề
tương đối phức
tạp.

Có thể hiểu các tài
liệu, thư tín, báo
cáo và hiểu nội
dung cốt yếu của

các văn bản phức
tạp.

Có thể viết về
các vấn đề
phục vụ nhu
cầu cá nhân
với cách diễn
đạt tốt, chính
xác.

Bảng 1 Bảng mô tả khung châu Âu CEFR

Tuy nhiên lại tồn tại rất nhiều thang đo khác nhau là những chứng chỉ
quy đổi lẫn nhau qua khung châu Âu. Như vậy những giá trị điểm (cut-scores)

Trang 9


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

được quy đổi bằng so sánh, thống kê, đối chiếu và ý kiến chuyên gia được thiết
kê như ví dụ sau (bảng 2):
CEFR TOEIC TOEIC TOEIC TOEFL TOEFL TOEFL TOEFL IELTS Cambridge
L&R

S&W

Bridge


iBT

CBT

PBT

ITP

A1C2
A1

10-950

0-400

10-180

0-120

0-300

310677

310677

120+

80+


92+

A2

225+

160+

134+

B1

550+

240+

170+

B2

785+

310+

87-109

C1

945+


400

110120

C2

ESOL
0-9.0

KETCPE

1.02.5

57-86

137+

220+

457+

560+

337+

3.0

KET

460+


3.54.5

PET

543+

5.06.0

FCE

627+

6.57.0

CAE

7.59.0

CPE

Bảng 2 Bảng so sánh các chứng chỉ tiếng Anh

Ơ mỗi bài thi các chứng chỉ trên (bảng 2), một khảo sát được thực hiện
trước khi bài thi xảy ra cho mỗi thí sinh nhằm nghiên cứu xem mức độ học
tiếng Anh của thí sinh và tự đánh giá năng lực trước khi có kết quả thi. Vấn đề
này có thể sử dụng tham khảo để đánh giá và tìm các yếu tố ảnh hưởng đến kết
quả thí sinh. Tuy nhiên phụ thuộc vào nhiễu hãng khảo sát khác nhau nên
những vấn đề này chưa được công bố đầy đủ.
Nghiên cứu này đưa ra một cách tiếp cận khác nhằm kết hợp kiến thức

chuyên gia và dữ liệu thi để đưa ra một cách trộn đề thi, từ đó hỗ trợ người thực
hiện ra quyết định cho mức điểm đạt (cut-score) hoặc đưa ra các phân loại về
kết quả xếp hạng bài thi (classification) như giỏi, khá, trung bình, yếu. Phương
pháp này được trình bày tiếp theo trong chương 3 của nghiên cứu này.

Trang 10


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Chương 3: Phương pháp thực hiện
1. Dữ liệu đầu vào
Bước 1: Xây dựng ngân hàng câu hỏi;
Bước 2: Phân nhóm câu hỏi theo các phần/ chương/ mục;
Bước 3: Giảng viên đánh giá mức độ khó/dễ (như ví dụ ở bảng 3) cho từng câu
hỏi trong ngân hàng trên thang điểm giá trị thập phân từ 0 đến 1 (tri thức
chuyên gia). Trong đó càng khó thì số càng nhỏ (gần 0), càng dễ thì số càng
cao (gần 10). Tất nhiên, không nên đánh giá 0 và 1 bởi lẽ, giảng viên đánh giá
câu hỏi rất khó không ai trả lời được, hay câu hỏi quá dễ chắc chắn ai cũng trả
lời được; thì câu hỏi có vấn đề về nội dung.
Mã câu hỏi

Câu hỏi

Nhóm

1
2


N

Nội dung câu 1
Nội dung câu 2

Nội dung câu n

Chương 1
Chương 2

Chương 7

Độ khó (chuyên
gia)
0.4
0.6

0.3

Bảng 3 Ví dụ về đánh giá độ khó câu hỏi

Dữ liệu sau quá trình thi, gồm có:
Mã câu hỏi
1
2
3
1
3
2
1



Lần kiểm tra
1
1
1
2
2
2
3

Trả lời
Đúng
Sai
Đúng
Đúng
Sai
Sai
Đúng


Bảng 4 Ví dụ dữ liệu quá trình thi

Mỗi câu hỏi được mang đi thi nhiều lần, thí sinh của một lần thi nào đó có thể
xảy ra 2 trường hợp: một là, đánh đúng; hai là, đánh sai. Tất cả lịch sử này
được lưu trữ lại (theo bảng 3 và 4)
Từ dữ liệu trên ta tính được:
- Tỷ lệ trả lời đúng câu hỏi i = Tổng số lần trả lời đúng câu i / Tổng số
lần trả lời (câu i)
- Giá trị này từ 0 đến 1


Trang 11


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Quá trình này gọi là quá trình học từ thực tiễn, kết quả ta có dạng như ví
dụ ở bảng 5:
Tỷ lệ đúng
60%
30%

25%

Mã câu hỏi
1
2

N
Bảng 5 Ví dụ về tỷ lệ trả lời đúng ở câu hỏi

2.

Biểu diễn phân cụm

Như vậy, mỗi câu hỏi ci được biểu diễn thành 1 vector mang 2 tác động (hình 2)
là ( ci(x,y) ), và là 1 điểm trong trục tọa độ Oxy
Tác động 1: Từ ý kiến chuyên gia
Tác động 2: Từ ý kiến của cộng đồng

1
ci

0

1

Hình 2 Biểu diễn câu hỏi dạng vector

Như vậy, n câu hỏi được mô tả thành các điểm giống như trên. Dữ liệu thích
hợp cho quá trình phân cụm (clustering) như hình 3.

Trang 12


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Hình 3 Các câu hỏi được học không có giám sát để phân tách cụm

Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm,
phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập
dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định.
Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự
nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một
cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không
tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không có
giám sát. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi
phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân
cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học

bằng ví dụ . . . Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một
bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và
mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm. Ví dụ về quá
trình phân cụm như hình 4.

Trang 13


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Hình 4 Ví dụ quá trình phân cụm

Trong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào
các dữ liệu đã cho; các tiêu chí “tương tự” để phân cụm trong trường hợp này
là khoảng cách: hai hoặc nhiều đối tượng thuộc nhóm của chúng được “đóng
gói” theo một khoảng cách nhất định. Điều này được gọi là phân cụm dựa trên
khoảng cách.
Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên
trong một bộ dữ liệu không có nhãn. Nhưng để có thể quyết định được cái gì
tạo thành một cụm tốt. Nhưng làm thế nào để quyết định cái gì đã tạo nên
một phân cụm dữ liệu tốt ? Nó có thể được hiển thị rằng không có tiêu chuẩn
tuyệt đối “tốt nhất” mà sẽ là độc lập với mục đích cuối cùng của phân cụm
dữ liệu. Do đó, mà người sử dụng phải cung cấp tiêu chuẩn, theo cách như
vậy mà kết quả của phân cụm dữ liệu sẽ phù hợp với nhu cầu của họ cần.
Ví dụ, chúng ta có thể quan tâm đến việc tìm kiếm đối tượng đại diện
cho các nhóm đồng nhất trong “các cụm tự nhiên” và mô tả thuộc tính không
biết của chúng trong việc tìm kiếm các nhóm hữu ích và phù hợp hoặc trong
việc tìm kiếm các đối tượng bất thường trong dữ liệu (cá biệt, ngoại lệ, nhiễu)


Trang 14


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Hình 5 Phân cụm sử dụng K-means

Thuật toán phân cụm K-means (hình 5): Thuật toán này dựa trên độ
đo khoảng cách của các đối tượng dữ liệu đến phần tử là trung tâm của cụm
chứa nó.
Thuật toán k-means lấy tham số đầu vào là k và phân chia một tập n
đối tượng vào trong k cụm để cho kết quả độ tương đồng trong cụm là cao
trong khi độ tương đồng ngoài cụm là thấp. Độ tương đồng cụm được đo khi
đánh giá giá trị trung bình của các đối tượng trong cụm, nó có thể được quan
sát như là “trọng tâm” của cụm.
Giải thuật xử lý như sau: trước tiên nó lựa chọn ngẫu nhiên k đối
tượng, mỗi đối tượng đại diện cho một trung bình cụm hay tâm cụm. Đối với
những đối tượng còn lại, mỗi đối tượng sẽ được ấn định vào một cụm mà nó
giống nhất dựa trên khoảng cách giữa đối tượng và trung bình cụm. Sau đó
sẽ tính lại trung bình cụm mới cho mỗi cụm. Xử lý này sẽ được lặp lại cho
tới khi hàm tiêu chuẩn hội tụ. Bình phương sai số thường dùng làm hàm tiêu
chuẩn hội tụ, định nghĩa như sau :

E = ∑𝒌𝒊=𝟏 ∑𝒙 ∈ 𝑪𝒊 |𝒙 − 𝒎𝒊 |𝟐 (công thức 1)

Trang 15


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm

chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Với k là số cụm, x là điểm trong không gian đại diện cho đối tượng
cho trước, mi là trung bình cụm Ci (cà x và mi đều là đa chiều). Tiêu chuẩn
này cố gắng cho kết quả k cụm càng đặc, càng riêng biệt càng tốt (công thức
1)
𝟐
Đầu vào : Số cụm k và hàm E : E = ∑𝒌
𝒊=𝟏 ∑𝒙 ∈ 𝑪𝒊 |𝒙 − 𝒎𝒊 |

Đầu ra: Các cụm C[i] ( 1 ≤ i ≤ k ) với hàm tiêu chuẩn E đạt
giá trị tối thiểu.
Thuật toán:
Bước 1 : Khởi tạo
Chọn ngẫu nhiên k tâm {𝑚𝑗 }𝑘𝑗=1 ban đầu trong không gian Rd ( d là

số chiều của dữ liệu). Mỗi cụm được đại diện bằng các tâm của cụm.
Bước 2: Tính toán khoảng cách
Đôi với mỗi điểm 𝑥𝑖 ( 1 ≤ i ≤ n ), tính toán khoảng cách của nó tới
mỗi trọng tâm mj ( 1 ≤ j ≤ k ). Sau đó tìm trọng tâm gần nhất đối với mỗi
điểm và nhóm chúng vào các nhóm gần nhất.
Bước 3 : Cập nhật lại trọng tâm
Đối với mỗi 1 ≤ j ≤ k, cập nhật trọng tâm cụm 𝑚𝑗 bằng cách xác
định trung bình cộng các vectơ đối tượng dữ liệu.
Bước 4 : Gán lại các điểm gần trung tâm nhóm mới
Nhóm các đối tượng vào nhóm gần nhất dựa trên trọng tâm của
nhóm .
Điều kiện dừng:
Lặp lại bước 2 và 3 cho đến khi các trọng tâm của cụm không thay
đổi.

End.
Thuật toán k-means được chứng minh là hội tụ và có độ phức tạp tính
toán là O(tkn) với t là số lần lặp, k là số cụm, n là số đối tượng của tập dữ
liệu vào. Thông thường k<cục bộ.
Mô tả cụ thể các bước qua hình 6 như sau:

Trang 16


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Hình 6 Các bước của quá trình phân cụm

Số cụm k được khởi tạo ban đầu và các điểm khởi đầu trong thuật
toán để giúp chạy nhanh hơn, được người chuyên gia (người thầy trộn đề thi)
xác định trước bằng cách chọn trực quan trên màn hình. Kết quả đến bước
này, các câu hỏi thuộc phâm về k cụm. Với ý nghĩa, mỗi cụm chứa nhiều câu
hỏi, có độ khó tương tự nhau. Thuật toán k-means được chạy độc lập trên
trên từng nhóm câu hỏi thi, và số lượng câu hỏi trong mỗi nhóm được quy
định trước để đảm bảo sự phân bố theo ý kiến chuyên gia của đề thi. Tuy
nhiên, cách chọn trên mỗi nhóm tùy thuộc vào sự phân cụm k-means.
Quá trình trên có thể được áp dụng như sau:
Đầu vào:

Trang 17


Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm

chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

N câu hỏi được phân làm M nhóm, cần sinh nhiều đề thi có C
câu hỏi, số câu hỏi trong M nhóm lần lượt ứng với từng nhóm là C1, C2,
C3, …, Cm, với Ci là số câu trong nhóm Mi
M nhóm, mỗi nhóm được phân cụm thành ki cụm bên trong
Như vậy đến lúc này, trong mỗi nhóm câu hỏi, cần tìm ra Ci câu hỏi.
Ci câu hỏi này có độ khó tương đương nhau, để đảm bảo mỗi đề thi sinh ra
đều có độ khó tương đương.
Giả sử trong 1 nhóm câu hỏi, ta cần tìm ra C câu hỏi trong N câu,
được phân làm k cụm.

3. Phân bố câu hỏi sau phân cụm
Phương pháp thực hiện:
- Gọi k là số cụm, trước tiên ta tìm tâm của k cụm
- Tìm tâm chung của C câu hỏi
- Sắp xếp k cụm thành thự tự có khoảng cách từ bé nhất đến lớn
nhất đến tâm chung của C câu hỏi
- Lần tìm kiếm đề thi thứ nhất, quá trình lặp qua các cụm, ứng với
mỗi cụm
o i=1;
o Xét cụm gần thứ i của tâm chung
o Chọn ngẫu nhiên 1 câu hỏi (không trùng câu hỏi đã chọn)
o Nếu i=k, gán i=1, các trường hợp khác i=i+1
o Kết thúc quá trình khi đã chọn được C câu hỏi cho 1 đề thi
- Lần tìm kiếm đề thi thứ 2: i=0
o Xét cụm gần thứ i của tâm chung
o Chọn câu hỏi gần nhất vừa câu hỏi vừa chọn ở lần 1 (*)
o Lặp lại quá trình (*) với mỗi cụm.
- Lần tìm kiếm thứ 3: i=0;

o Xét cụm gần thứ i của tâm chung
o Chọn câu hỏi có tổng khoảng cách đến điểm của 2 câu hỏi
ở lần 1 và 2 (**) bé nhất
o Lặp lại quá trình (**) với mỗi cụm
- Ở lần tìm kiếm thứ n: i=0;
o Xét cụm gần thứ i của tâm chung
o Chọn câu hỏi có tổng khoảng cách đến điểm của 2 câu hỏi
ở n-1 lần trước (**) bé nhất
o Lặp lại quá trình (***) với mỗi cụm

Trang 18


×