Tải bản đầy đủ (.doc) (24 trang)

TÓM TẮT LUẬN VĂN THẠC SĨ ĐÁNH GIÁ CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN QUÁ TRÌNH XÂY DỰNG CÁC BỘ ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN TẠI KHOA CÔNG NGHỆ THÔNG TIN - ĐH THÁI NGUYÊN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (188.18 KB, 24 trang )

MỞ ĐẦU
1. Lý do chọn đề tài
Để nâng cao chất lượng giảng dạy đại học, việc đánh giá chính xác
kết quả học tập của sinh viên là một vấn đề rất quan trọng. Trong thực
trạng giáo dục đại học còn nhiều tiêu cực và bất cập như hiện nay, việc áp
dụng hình thức thi, kiểm tra trắc nghiệm khách quan là một trong những
biện pháp có hiệu quả cho phép đánh giá tương đối chính xác kết quả học
tập của sinh viên. Khoa Công nghệ thông tin - Đại học Thái Nguyên cũng
như các trường đại học khác hiện đang tích cực áp dụng hình thức thi trắc
nghiệm khách quan cho khoảng 40% tổng số các môn học, coi đây là một
trong những biện pháp nhằm đổi mới phương pháp kiểm tra đánh giá, nâng
cao chất lượng giáo dục. Tuy nhiên một thực tế xảy ra là chất lượng các bộ
đề thi trắc nghiệm khách quan chưa được bảo đảm cả về độ giá trị cũng
như độ tin cậy. Do đó tơi đã lựa chọn đề tài “Đánh giá các yếu tố ảnh
hưởng đến chất lượng các bộ đề thi trắc nghiệm khách quan tại Khoa Công
nghệ thông tin - Đại học Thái Nguyên”
Thực tế hiện nay việc xây dựng các bộ đề thi trắc nghiệm khách quan
được giao cho các nhóm giáo viên phụ trách mơn học thực hiện. Các giáo
viên xây dựng bộ đề hầu hết đều theo kinh nghiệm chủ quan của mình,
chưa được trang bị đầy đủ về kiến thức và kỹ năng thiết kế đề thi trắc
nghiệm. Các đề thi do giáo viên soạn thảo được đưa vào ứng dụng trực
tiếp, khơng qua q trình thử nghiệm và đánh giá. Chính vì vậy phân bố
điểm thi khơng thể hiện tính chuẩn, do cịn có nhiều câu hỏi kém chất
lượng. Như chúng ta biết, hiện nay chưa có cơng trình nào nghiên cứu cụ
thể về vấn đề này. Vì vậy chưa có một kết luận chính xác về độ tin cậy, độ
giá trị của các bộ đề thi trắc nghiệm khách quan cũng như các yếu tố ảnh
hưởng đến chất lượng bộ đề trắc nghiệm.
Thực hiện đề tài này, chúng tôi mong muốn sẽ đánh giá được thực
chất về độ giá trị, độ tin cậy của các bộ đề thi trắc nghiệm khách quan của
Nhà trường cũng như các yếu tố ảnh hưởng đến chất lượng các bộ đề thi
trắc nghiệm, từ đó chỉ ra được các giải pháp khắc phục.


2. Mục đích nghiên cứu của đề tài
Nghiên cứu này hướng đến những mục tiêu như sau:
- Đánh giá độ tin cậy của bộ đề thi trắc nghiệm khách quan.
- Đánh giá độ giá trị của bộ đề thi trắc nghiệm khách quan.
- Nghiên cứu các yếu tố ảnh hưởng đến chất lượng bộ đề trắc nghiệm.
3. Giới hạn nghiên cứu của đề tài
Đề tài giới hạn trong việc nghiên cứu, đánh giá độ tin cậy, độ giá trị
của 50 bộ đề thi trắc nghiệm khách quan đã được sử dụng tại Khoa CNTT
- ĐHTN. Nghiên cứu các yếu tố ảnh hưởng đến việc xây dựng đề thi trắc
1


nghiệm của 50 giáo viên thông qua xử lý phiếu điều tra ý kiến kết hợp xử
lý số liệu kết quả thi của các môn học tương ứng.
4 . Phương pháp nghiên cứu
4.1. Câu hỏi nghiên cứu / giả thiết nghiên cứu
Câu hỏi nghiên cứu được đặt ra là:
“Những yếu tố nào ảnh hưởng đến chất lượng của các bộ đề trắc
nghiệm”.
Các giả thiết nghiên cứu được đặt ra là các yếu tố ảnh hưởng trực tiếp
đến chất lượng các bộ đề:
1- Yếu tố thời gian đầu tư cho công việc: Là thời gian thực tế giáo viên
dùng để nghiên cứu tài liệu và biên soạn đề thi, quỹ thời gian của nhà
trường dành cho việc này.
2- Động cơ của người thực hiện: Là các yếu tố như sự say mê, hứng
thú của cá nhân các giáo viên hay đơn giản là phải hoàn thành nhiệm vụ.
3- Mức độ người ra đề được trang bị kỹ thuật thiết kế đề trắc nghiệm:
Thể hiện ở mức độ được tập huấn, tự nghiên cứu về kỹ thuật xây dựng đề
thi trắc nghiệm.
4- Sự quan tâm của nhà trường: Thể hiện ở sự khuyến khích, động

viên bằng tinh thần hay vật chất cụ thể.
5- Tính chất các nhóm mơn học: Là đặc thù của nhóm mơn học đến
việc ra đề trắc nghiệm (phù hợp hay khó thực hiện).
4.2. Khách thể và đối tượng nghiên cứu
Khách thể nghiên cứu là số liệu kết quả thi của 50 bộ đề trắc nghiệm
khách quan tại Khoa CNTT và các giáo viên trực tiếp xây dựng các bộ đề
đó.
Đối tượng nghiên cứu là các yếu tố ảnh hưởng đến chất lượng các bộ
đề thi trắc nghiệm.
4.3. Phương pháp tiếp cận nghiên cứu
1. Phương pháp lý thuyết: Căn cứ vào quy định về triển khai thực hiện
việc thi trắc nghiệm và xây dựng ngân hàng thi trắc nghiệm của Bộ
GD&ĐT; Các lý thuyết về đo lường đánh giá trong giáo dục.
2. Phương pháp điều tra khảo sát: Thực hiện qua hai bước chính là
nghiên cứu sơ bộ và nghiên cứu chính thức.
- Nghiên cứu sơ bộ: Thực hiện thơng qua phương pháp định tính, sử
dụng kỹ thuật thảo luận nhóm để bổ sung mơ hình.
- Nghiên cứu chính thức: Thực hiện thông qua phương pháp nghiên
cứu định lượng, sử dụng kỹ thuật thu thập thông tin qua việc phỏng vấn,
lấy phiếu điều tra trên các đối tượng giáo viên. Mục đích nghiên cứu này là
để sàng lọc các biến quan sát, xác định thành phần cũng như giá trị độ tin
cậy của thang đo và kiểm định mô hình lý thuyết.

2


3. Phương pháp lấy ý kiến chuyên gia: Tham khảo ý kiến của các
chuyên gia có kinh nghiệm trong giáo dục đại học và đo lường đánh giá
trong giáo dục.
4. Phương pháp thống kê toán học: Thu thập và xử lý số liệu (gồm

kết quả các môn thi trắc nghiệm và phiếu điều tra đối với giáo viên ra
đề thi trắc nghiệm) trong quá trình nghiên cứu bằng các phần mềm
SPSS và QUEST.
5. Những đóng góp mới của luận văn
Về mặt lý luận
Kết quả nghiên cứu của luận văn góp phần làm phong phú thêm lý
luận về các phương pháp đánh giá kết quả học tập, kỹ thuật đánh giá chất
lượng đề thi trắc nghiệm khách quan và lý luận về thiết kế, đánh giá một
bộ công cụ đo trong lĩnh vực giáo dục đại học.
Về mặt thực tiễn
Luận văn đã đánh giá được thực trạng việc ra đề thi TNKQ tại trường
đại học, đánh giá chất lượng thực tế của 50 đề thi TNKQ tại Khoa Công
nghệ Thông tin - Đại học Thái Nguyên. Luận văn cũng đã đặt vấn đề
nghiên cứu các yếu tố ảnh hưởng đến chất lượng đề thi TNKQ mà chủ yếu
là các yếu tố tác động trực tiếp đến người ra đề. Trong phạm vi nghiên
cứu, luận văn đã xây dựng được bộ công cụ đo là mẫu phiếu hỏi để đánh
giá các yếu tố ảnh hưởng đến chất lượng đề TNKQ.
Luận văn đã đưa ra quy trình xây dựng và đánh giá chất lượng ngân
hàng đề thi TNKQ cũng như đề xuất các biện pháp nhằm làm tăng chất
lượng của các bộ đề thi TNKQ tại nhà trường.
Chương 1
CƠ SỞ LÝ LUẬN VÀ TỔNG QUAN
1.1. Các khái niệm về chất lượng bộ đề thi trắc nghiệm
1.1.1. Các công cụ đo lường kết quả học tập
1.1.1.1. Phương pháp quan sát
Quan sát giúp xác định cử chỉ, thái độ, hành vi, sự phản ứng, thao tác
thực hành, kĩ năng thực hành và một số kĩ năng về nhận thức khác của
người được kiểm tra. Phương pháp này chủ yếu mang tính chất định tính
nên thường dùng trong đánh giá kết quả thực hành.
1.1.1.2. Phương pháp vấn đáp

Vấn đáp (hỏi và trả lời) có thể dùng lời hoặc không dùng lời. Đối với
trắc nghiệm không dùng lời thì người hỏi dùng điệu bộ, phim, tranh ảnh..,
người trả lời có thể dùng lời hoặc khơng. Phương pháp dùng lời được phổ
biến hơn mà chúng ta hay gọi là kiểm tra vấn đáp. Phương pháp này vừa
định tính vừa định lượng, độ chính xác tương đối cao, có giá trị nhiều mặt.
Nó thích hợp với cả người dạy và người học, đặc biệt có lợi trong kiểm tra
xử lí tình huống, rèn phản ứng nhanh nhạy cho HS. Tuy nhiên phương
3


pháp này khơng thích hợp cho việc đánh giá một phổ rộng với khối lượng
lớn kiến thức, trên nhiều HS trong một thời gian ngắn. Câu hỏi để HS trả
lời đa số chỉ nằm trong một nội dung hẹp nào đó.
1.1.1.3. Phương pháp kiểm tra viết
Đây là hình thức được dùng phổ biến trong dạy học. Kiểm tra theo
kiểu này có những ưu điểm sau:
- Cho phép kiểm tra nhiều HS một lần.
- Cung cấp một bản ghi rõ ràng các câu trả lời của thí sinh dùng cho
việc chấm điểm.
- Cho phép thí sinh cân nhắc trước khi trả lời các câu hỏi, do đó kiểm
tra được sự phát triển trí tuệ ở mức cao hơn.
- Dễ quản lí vì bản thân người chấm khơng tham gia trực tiếp trong
thời gian kiểm tra.
1.1.2. Trắc nghiệm và những vấn đề liên quan
1.1.2.1. Khái niệm về trắc nghiệm
Trắc nghiệm “test” trong tiếng Anh có nghĩa là “sự khảo sát hoặc thử
các phẩm chất của một người hoặc vật”; còn trong tiếng Hán thì “trắc” có
nghĩa là “đo lường”, “nghiệm” có nghĩa là “suy xét, chứng thực”.
1.1.2.2. Trắc nghiệm tự luận và trắc nghiệm khách quan
Trắc nghiệm viết bao gồm hai loại: trắc nghiệm tự luận và trắc nghiệm

khách quan
- Trắc nghiệm tự luận (Essay test).
Trắc nghiệm tự luận bao gồm nhiều dạng khác nhau nhưng nhìn
chung HS có thể diễn đạt tư tưởng, câu văn nhờ kiến thức và kinh nghiệm
học tập đã có. Phương pháp này có thể đo được khả năng suy luận cũng
như phát huy được óc sáng tạo, khéo léo khi giải quyết vấn đề của HS,
khuyến khích HS thói quen suy diễn, phân tích, tổng hợp, khái quát hoá,
tạo điều kiện cho HS luyện cách diễn đạt, sử dụng từ ngữ. Việc soạn các
câu hỏi dạng này khơng mấy khó khăn. Tuy nhiên, nhược điểm của
phương pháp này là khó chấm điểm, tính khách quan khơng cao nên độ
tin cậy thấp. Mặt khác, trong một đề thi chỉ kiểm tra được ít nội dung
kiến thức.
- Trắc nghiệm khách quan (Objective test).
Trắc nghiệm khách quan là dạng trắc nghiệm trong đó mỗi câu hỏi có
kèm theo những câu trả lời sẵn. Loại câu hỏi này cung cấp cho HS một
phần hay tất cả thông tin cần thiết và đòi hỏi HS phải chọn một câu để trả
lời hoặc chỉ cần thêm một vài từ. Đây là một phương pháp có khả năng
đánh giá được các mức độ nhận thức. Gọi là khách quan vì hệ thống cho
điểm là khách quan. Kết qủa của bài trắc nghiệm không phụ thuộc vào
việc ai chấm bài trắc nghiệm đó.

4


1.1.2.3. Những nguyên tắc chung của trắc nghiệm
Trắc nghiệm chỉ thực hiện một cách có hiệu quả khi dựa trên một số
nguyên tắc sau:
- Xác định rõ mục tiêu đo lường.
- Làm rõ nội dung cần phải đo lường.
- Lựa chọn kĩ thuật trắc nghiệm phải dựa trên mục đích đánh giá.

Khơng nên lựa chọn trắc nghiệm chỉ vì nó thuận tiện, dễ sử dụng, quen
thuộc với nhiều người. Điều quan trọng nhất trong việc lựa chọn một kĩ
thuật trắc nghiệm giáo dục là liệu nó có đo được một cách hiệu quả nhất
những gì cần đo hay khơng.
- Việc đánh giá tổng quát đòi hỏi phải sử dụng nhiều kĩ thuật và
phương pháp đánh giá khác nhau vì khơng có một phương pháp đánh giá
nào có thể thực hiện được toàn bộ những yêu cầu đánh giá.
- Muốn sử dụng một cách thích hợp và hiệu quả hình thức trắc nghiệm
thì phải hiểu được những ưu điểm cũng như hạn chế của nó. Trắc nghiệm
cũng như các phương pháp đánh giá khác ln có những sai số cho nên
khơng thể gắn cho những kết quả trắc nghiệm giá trị tuyệt đối được.
- Trắc nghiệm chỉ là một phương tiện được sử dụng để thu thập thơng
tin trong q trình dạy học. Không nên quan niệm là chỉ cần thông qua trắc
nghiệm mà chất lượng dạy và học đương nhiên được cải thiện.
1.1.3. Độ tin cậy của bộ câu hỏi trắc nghiệm
Xem xét mơ hình lý thuyết về độ tin cậy
Để xác định độ tin cậy của một phép đo, ta phải xuất phát từ một tiền
đề có tính giả thiết rằng phép đo sẽ đo lường một đặc tính tương đối ổn
định và bản thân phép đo phải có tính ổn định tương đối, ít hoặc khơng
thay đổi giữa các lần đo khác nhau. Bởi vì sẽ khơng có một phương pháp
đo đạc nào có giá trị nếu khơng đo một cái gì đó có tính ổn định tương đối
và bản thân phép đo phải có tính ổn định, ít hoặc không thay đổi giữa các
lần đo khác nhau. Như vậy, một thang đo có độ tin cậy tốt được xác định
như là một phép đo trên đó mọi người đạt số điểm tương tự ở những lần đo
khác nhau.
Các lý thuyết về trắc nghiệm đều cho rằng điểm số của trắc nghiệm đo
lường một đặc tính, phẩm chất hay năng lực nào đó ở một cá nhân bằng
điểm thực của cá nhân đó cộng với điểm sai số của sự đo lường.
X=T+E
X: Điểm trắc nghiệm

T: Điểm thực
E: Điểm sai số của phép đo
Điểm thực được xác định như là điểm trung bình của vơ số những lần
đo của trắc nghiệm trên một cá nhân. Còn điểm sai số của phép đo là sự
khác biệt ở mỗi lần đo do các yếu tố cá nhân (động cơ, xúc cảm, tâm lý...)
do các yếu tố tình huống, hồn cảnh ảnh hưởng (môi trường, tiếng ồn, lời
5


hướng dẫn...), nhưng chúng ta chưa bao giờ đo được điểm thực ở cá nhân
một cách thực chính xác. Như vậy, để phân tích độ tin cậy của trắc nghiệm
người ta phải dựa vào kết quả làm trắc nghiệm của một nhóm người (điểm
trắc nghiệm của mẫu) nhằm nhận diện tỷ lệ thành phần của điểm thực và
điểm sai số trong kết quả điểm trắc nghiệm của cả nhóm. Nói cách khác,
phân tích độ tin cậy là tìm cách xác định mức độ trên đó sự khác biệt điểm
số trắc nghiệm phản ánh sự khác biệt điểm thực ở nhóm người làm trắc
nghiệm. Do vậy để đánh giá độ tin cậy của trắc nghiệm, người ta phải giả
thiết rằng phương sai của những điểm số đo được bằng trắc nghiệm ở một
nhóm đối tượng (mẫu) phải bằng phương sai của những điểm số thực cộng
với phương sai của những điểm sai số của mỗi lần đo theo công thức
σ2X = σ2T + σ2E
σ2X: Giá trị phương sai của điểm trắc nghiệm
σ2T : Giá trị phương sai của điểm thực
σ2E : Giá trị phương sai điểm sai số của phép đo
Khi đó độ tin cậy của trắc nghiệm được xác định như là hệ số tương
quan (RXX) biểu thị tỷ lệ hay phần trăm giữa phương sai của điểm trắc
nghiệm theo công thức
R XX =

2

σT
σ2
= 2 T 2
2
σ X σT +σ E

Một trắc nghiệm có độ tin cậy phải có một tỷ lệ lớn hơn của phương
sai điểm trắc nghiệm thuộc về sự khác biệt ở điểm thực (ngược laị, một
trắc nghiệm khơng có độ tin cậy sẽ có một tỷ lệ lớn hơn của phương sai
điểm trắc nghiệm thuộc về sự khác biệt ở điểm sai số của phép đo) [4].
Các phương pháp đánh giá độ tin cậy của phép đo
Theo lý thuyết đánh giá, có bốn phương pháp cơ bản để đánh giá độ
tin cậy của phép đo.
- Nhóm phương pháp đánh giá mức độ kiên định về điểm số giữa hai
lần đo (test-retest methods).
- Nhóm phương pháp sử dụng form thay thế tương đương (alternate
form methods).
- Nhóm phương pháp phân đơi số item của trắc nghiệm (split-half
methods).
- Nhóm phương pháp đánh giá độ phù hợp của từng item (internal
consistency methods).
Đối với nhóm phương pháp thứ nhất: Để đánh giá độ tin cậy của trắc
nghiệm người ta thường so sánh tương quan điểm giữa hai lần đo của cùng
một trắc nghiệm trên cùng một đối tượng (test-retest correlation). Một trắc
nghiệm có độ tin cậy phải có tính ổn định, tức là có sự tương quan chặt
giữa hai lần đo. Nếu trắc nghiệm được thiết kế theo thang định khoảng hay
thang tỷ lệ và mối quan hệ điểm số trắc nghiệm giữa hai lần đo là quan hệ
tuyến tính, thì áp dụng tương quan Pearson (Pearson correelation
6



coeficient) để đánh giá hệ số tin cậy của trắc nghiệm. Nếu trắc nghiệm
được thiết kế theo thang định hạng hoặc mối quan hệ điểm số trắc nghiệm
giữa hai lần đo khơng tuyến tính thì ta dùng tương quan Spearman
(Spearman rank correlation coefficent) để đánh giá hệ số tin cậy của trắc
nghiệm.
Đối với nhóm phương pháp thứ hai: Trong cùng một trắc nghiêm, sử
dụng hai form tương đương có hình thức, câu chữ khác nhau nhưng có nội
dung giống nhau hoặc tương đương và có những đặc tính thống kê như
nhau hoặc tương đương. Tương quan điểm số giữa lần đo thứ nhất (ứng
với form A) và lần đo thứ hai (ứng với form B) được xem là hệ số tin cậy
của trắc nghiệm. Phương pháp này rất tốn kém và khó thiết kế một trắc
nghiệm có nhiều form hồn tồn tương đương.
Nhóm phương pháp thứ ba: Thường dùng để đánh giá độ tin cậy của
một trắc nghiệm khi ta khơng có điều kiện đo trắc nghiệm hai lần trên
cùng một đối tượng và cũng không thiết kế được các trắc nghiệm tương
đương, là phương pháp phân đôi số item của trắc nghiệm thành hai phần
(thường chia theo số chẵn và số lẻ) rồi so sánh tương quan điểm giữa hai
nửa trắc nhiệm. Đây gọi là phương pháp tính độ tin cậy phân đôi trắc
nghiệm (split-half reliablity). Về lý thuyết, hai nửa trắc nghiệm có thể
được xem là hai form tương đương của cùng một trắc nghiệm. Do vậy
tương quan điểm số của hai nửa này được xem là hệ số tin cậy của trắc
nghiệm. Cơng thức tính như sau.
R XOXE =

( )( )

(ΣXOXE) - XO X E
(σ XO )(σ XE )


XO: Các item số lẻ
XE: Các item số chẵn
Tất nhiên khi sử dụng công thức này hệ số tin cậy sẽ giảm đi so với hệ
số tin cậy thật của trắc nghiệm vì trắc nghiệm vốn có số item gấp hai lần
(trắc nghiệm càng có nhiều item thì độ tin cậy càng cao). Ta có thể sử
dụng cơng thức chuyển hệ số độ tin cậy phân đôi thành hệ số độ tin cậy
của tồn trắc nghiệm gọi là cơng thức Spearman - Brown prophesy.
R=

( N )( R XX )
1 + ( N − 1)( R XX )

N=2
R: Hệ số tin cậy mới (đã được điều chỉnh)
RXX Hệ số tin cậy hiện tại (hệ số tin cậy phân nửa trắc nghiệm, chưa
điều chỉnh)
Nhóm phương pháp thứ tư: Thường dùng để đánh giá độ tin cậy của
trắc nghiệm là các phương pháp đánh giá độ phù hợp của từng item
(internal consistency methods) sử dụng mơ hình hệ số tương quan alpha
7


(Cronbach’s Coeficient Alpha). Mơ hình này đánh giá độ tin cậy của phép
đo dựa trên sự tính tốn phương sai của từng item trong tồn phép đo và
tính tương quan điểm của từng item với điểm của tổng các item cịn lại của
phép đo. Phương pháp này thích hợp với các loại trắc nghiệm được thiết kế
với điểm số theo thang định khoảng hay thang tỷ lệ. Công thức được tính

R XX = α =


Σσ 2
K
(1 − 2i )
K −1
σX

RXX Hệ số tương quan α
K - Số các item của trắc nghiệm
σ2i - Giá trị của phương sai của từng item cụ thể của trắc nghiệm
σ2X - Giá trị của phương sai của toàn bộ trắc nghiệm
Σσ2i -Tổng các giá trị phương sai của tất cả các item của trắc nghiệm.
1.1.4. Độ giá trị (hiệu lực) của bộ câu hỏi trắc nghiệm
Độ giá trị là một trong những đặc trưng quan trọng nhất khi đánh giá
một trắc nghiệm. Mỗi trắc nghiệm khơng chỉ có một độ giá trị duy nhất mà
có nhiều kiểu giá trị (hiệu lực) khác nhau. vì vậy độ giá trị được hiểu như
là những dữ liệu điều tra một cách khoa học về ý nghĩa của trắc nghiệm
khi đo lường.
Các phương pháp cơ bản để đánh giá độ giá trị của một trắc nghiệm
Mặc dù độ giá trị nội dung và độ giá trị cấu trúc đều nói lên mức độ
hiệu lực của phép đo lường nhưng việc đánh giá một trắc nghiệm có độ giá
trị nội dung tốt hay không người ta lại xem xét nội dung của trắc nghiệm,
phân tích q trình thiết kế các item và hiệu lực hoá các item của trắc
nghiệm. Trong khi đó, để đánh giá độ giá trị cấu trúc người ta phân tích
mối quan hệ giữa các cấu trúc thành phần của trắc nghiệm với cấu trúc của
cái nó được thiết kế để đo và xem xét mối quan hệ giữa điểm trắc nghiệm
với điểm của các phép đo khác.
- Độ giá trị nội dung của một trắc nghiệm chính là tính hiệu lực và tính
đại diện của các item (các item có nội dung phù hợp với nội dung cụ thể
cần đo của một chỉ số cụ thể, thuộc một miền đo cụ thể).
- Độ giá trị cấu trúc của một trắc nghiệm liên quan tới mức độ qua đó

trắc nghiệm được đánh giá là một phép đo về mặt cấu trúc (phép đo có cấu
trúc trùng với cấu trúc của cái định đo).
Những yếu tố ảnh hưởng đến độ giá trị của trắc nghịêm
Đánh giá độ giá trị của một trắc nghiệm thực chất là trả lời câu hỏi
“Liệu trắc nghiệm có đo được đúng cái cần đo hay khơng”? Trên cơ sở đó
ta thấy độ giá trị phụ thuộc vào các yếu tố sau:
- Trước hết là độ tin cậy của trắc nghiệm ảnh hưởng đến độ giá trị, độ
tin cậy thấp sẽ hạn chế độ giá trị. Bất cứ yếu tố nào ảnh hưởng đến độ tin
cậy đều ảnh hưởng đến độ giá trị.
8


- Độ khó của item, độ phân biệt của item gián tiếp ảnh hưởng đến độ
giá trị. Tính đồng nhất của các item ảnh hưởng đến độ giá trị.
- Những đặc tính của mẫu (quy mơ mẫu, tính đại diện của mẫu ...) ảnh
hưởng đến độ giá trị của trắc nghiệm.
- Độ tin cậy và độ giá trị của phép đo chuẩn (dùng trong đánh giá độ
giá trị tiêu chuẩn của trắc nghiệm).
1.2. Quy trình xây dựng bộ đề thi trắc nghiệm khách quan
Về mặt nguyên tắc lý thuyết, có thể xây dựng bộ đề thi TNKQ theo rất
nhiều kiểu (ghép đôi, điền khuyết, nhiều lựa chọn…). Tuy nhiên khi đặt
vấn đề xây dựng một ngân hàng các câu hỏi TNKQ thì các chuyên gia
trong lĩnh vực này đều cho rằng nên chọn hình thức câu hỏi TNKQ đa lựa
chọn (với bốn hoặc năm lựa chọn). Trong phạm vi nghiên cứu của luận
văn, tôi cũng giới hạn việc nghiên cứu với đối tượng là các ngân hàng câu
hỏi TNKQ dạng đa lựa chọn.
1.2.1 Các quy tắc viết các câu hỏi trắc nghiệm nhiều lựa chọn
Đây là loại câu hỏi TNKQ được ưa chuộng nhất hiện nay. Một câu hỏi
loại này gồm một phần phát biểu chính, thường gọi là phần dẫn, hay câu
hỏi và bốn đến năm phương án trả lời sẵn để thí sinh chọn ra câu trả lời

đúng nhất, hay hợp lý nhất. Ngoài một câu đúng, các câu trả lời khác trong
phương án chọn phải có vẻ hợp lý đối với thí sinh. Khi soạn thảo câu hỏi
TNKQ cần tuân thủ các nguyên tắc sau:
- Phần chính, hay câu dẫn của câu hỏi phải diễn đạt rõ ràng một vấn
đề. Các câu trả lời để chọn phải là những câu khả dĩ thích hợp với vấn đề
đã nêu. Nên tránh dùng những câu có vẻ như câu hỏi loại “Đúng - Sai”
không liên hệ nhau được sắp chung một chỗ.
- Phần chính, hay câu dẫn của câu hỏi nên mang trọn ý nghĩa là một
câu hỏi và phần câu trả lời để chọn nên ngắn gọn. Muốn tiết kiệm
khoảng in câu hỏi và thời gian cho học sinh đọc câu hỏi, các chi tiết
cần thiết nên được sắp đặt vào phần chính hay câu dẫn, để các câu trả
lời lựa chọn được ngắn.
- Nên bỏ bớt các chi tiết khơng cần thiết. Khi mục đích câu hỏi khơng
phải trắc nghiệm khả năng nhận biết sự kiện chính trong một đoạn văn, ta
nên loại bỏ những chữ nào không cần thiết để diễn đạt ý nghĩa câu hỏi.
- Nên tránh dùng hai thể phủ định liên tiếp như hai chữ “Không “ trong
cùng một câu hỏi.
- Các câu trả lời để chọn lựa phải có vẻ hợp lý. Nếu một phương án
chọn lựa sai, thí sinh sẽ dễ dàng loại bỏ.
- Phải chắc chắn chỉ có một câu trả lời đúng. Khi viết câu hỏi nên mời
các giáo viên trong cùng nhóm mơn học góp ý sửa chữa các điểm sai hay
những chỗ tối nghĩa.

9


- Khi một câu hỏi đề cập đến một vấn đề gây nhiều tranh luận, ý
nêu trong câu hỏi phải xác định được về nguồn gốc, hay định rõ chuẩn
để xét đoán.
- Độ dài của câu trả lời trong các đáp án để chọn phải gần bằng nhau.

Không nên để các câu có khuynh hướng ngắn hơn hay dài hơn các phương
án trả lời khác.
- Các câu trả lời trong các phương án phải đồng nhất với nhau. Tính từ
đồng nhất có thể dựa trên căn bản ý nghĩa, âm thanh, độ dài, hoặc cùng là
động từ, tính từ hay danh từ.
- Không nên đặt những vấn đề không xảy ra trong thực tế trong nội
dung các câu hỏi
- Các câu hỏi nhằm đo sự hiểu biết, suy luận, hay khả năng áp dụng
các nguyên lý vào vào những trường hợp mới nên được trình bày dưới
hình thức mới. Nếu nội dung các câu hỏi giống hay tương tự các thí dụ trong
sách giáo khoa, hoặc đã trình bày ở lớp, câu trả lời đúng có thể nhờ vận dụng
trí nhớ hơn là nhờ các khả năng tư duy khác mà ta cần thẩm định.
- Lưu ý các điểm liên hệ về văn phạm giúp học sinh có thể nhận biết
cách trả lời.
- Cẩn thận khi dùng hai câu trả lời trong hai phương án có sẵn có hình
thức hay ý nghĩa trái nhau, nếu một trong hai câu là câu trả lời đúng nhất.
Khi chỉ có hai câu trái nhau trong số các phương án cho sẵn để chọn, thí
sinh sẽ nghĩ khơng lẽ cả hai câu đều sai, nên chỉ tập trung vào một trong
hai câu này, câu hỏi trở nên có dạng hai phương án để chọn. Do đó nếu
thích, chúng ta có thể đưa ra bốn câu có ý nghĩa trái nhau từng đơi một.
- Cẩn thận khi dùng các cụm từ “ Không câu nào trên đây đúng” hoặc
“Tất cả các phương án đều đúng” như là một trong những phương án để
chọn, vì về mặt văn phạm các mệnh đề này thường không ăn khớp với các
câu hỏi.
- Câu trả lời đúng nhất hay hợp lý nhất phải được đặt ở các vị trí khác
nhau một số lần tương đương nhau.
- Tránh dùng các thể phủ định trong các câu hỏi. Người ta thường nên
nhấn mạnh khía cạnh xác định hơn khía cạnh phủ định trong kiến thức.
Khi bắt buộc phải dùng những từ này, nên gạch dưới hay in đậm để học
sinh chú ý hơn.

1.2.2. Xây dựng bảng trọng số của môn học
Để đề thi có thể đánh giá đúng mục tiêu của môn học, cấu trúc đề thi
phải được xây dựng phù hợp với cấu trúc của môn học và các yêu cầu khối
lượng kiến thức tương ứng. Mỗi đề thi được xây dựng phục vụ cho những
mục đích nhất định. Tuỳ theo mục đích thi người viết đề thi phải thiết kế
số câu hỏi và thể loại câu hỏi phù hợp tương ứng. Vì thế trước khi xây
dựng đề thi chúng ta cần xác định mục đích cụ thể của đề thi. Mục đích
của đề thi phải định ra được những nội dung kiến thức và cấp độ kiến thức
10


cần kiểm tra (cấp độ kiến thức tương ứng với thang bậc về năng lực nhận
thức). Tất cả những yêu cầu này được thể hiện trong bảng trọng số đề thi.
Về mặt nguyên tắc, đề thi TNKQ hết học phần bao phủ hết nội dung kiến
thức môn học, cho nên bảng trọng số của đề thi tương ứng với bảng trọng
số kiến thức của môn học.
1.2.3. Xây dựng ngân hàng đề thi trắc nghiệm cho môn học
Để thực hiện việc triển khai thi TNKQ một cách rộng rãi đòi hỏi phải
có một ngân hàng câu hỏi TNKQ. Đây là cơ sở dữ liệu để xây dựng các đề
thi một cách độc lập, có độ tin cậy, độ bao phủ kiến thức đồng đều cho các
lần thi. Vừa là nguồn dữ liệu cho sinh viên và cả giáo viên học tập. Việc
tiến hành xây dựng ngân hàng câu hỏi thi phải theo đúng những quy trình
và nguyên tắc kiểm tra đánh giá đã trình bày ở trên. Cụ thể phải tiến hành
theo các bước sau:
1. Xác định rõ mục tiêu đào tạo của từng giai đoạn cần kiểm tra
đánh giá.
2. Các chuyên gia chuyên ngành kết hợp cùng chuyên gia kiểm tra
đánh giá xây dựng cấu trúc đề thi, bảng trọng số, hình thức và thể loại thi
riêng phù hợp cho từng chuyên ngành theo yêu cầu của từng giai đoạn.
3. Hội thảo để lấy ý kiến về các cấu trúc đề thi, bảng trọng số, hình

thức và thể loại thi vừa được xây dựng và thẩm định, công nhận các sản
phẩm đó.
4. Các chuyên gia chuyên ngành soạn thảo các câu hỏi thi theo bảng
trọng số và cấu trúc thi đã được xây dựng và thông qua.
5. Nghiệm thu các câu hỏi thô.
6. Loại bỏ các câu hỏi không đạt chuẩn quy định chung. Sửa lại một số
câu cho phù hợp, viết bổ sung một số câu hỏi mới.
7. Thử nghiệm để lấy kết quả đánh giá và hoàn thiện hơn các câu
hỏi thi.
8. Lưu trữ các câu hỏi thi theo lĩnh vực kiến thức và các độ dễ khó
khác nhau trong ngân hàng dữ liệu.
9. Trước khi tổ chức thi các chuyên gia căn cứ theo yêu cầu và mục
tiêu đào tạo của từng đợt thi tổ hợp đề thi theo đúng yêu cầu về độ khó của
câu hỏi thi và các yêu cầu về kiến thức sinh viên cần đạt được.
10. Sau khi thi, kết quả thi phải được phân tích xử lý và đánh giá để có
các thơng tin phản hồi như đã nêu trong quy trình và nguyên tắc kiểm tra
đánh giá.
11. Sau khi có các kết quả xử lý phân tích, các câu hỏi thi được hồn
thiện lại.
12. Hàng năm có tổ chức viết thêm các câu hỏi thi để bổ sung ngân
hàng dữ liệu và đồng thời loại bỏ các câu hỏi khơng cịn phù hợp với phát
triển của mục tiêu đào tạo và năng lực thực sự của sinh viên trong từng
giai đoạn.
11


Chương 2
PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Những định hướng, trọng tâm nghiên cứu
2.1.1. Chuyên đề nghiên cứu thứ nhất

Để đánh giá các yếu tố ảnh hưởng đến chất lượng bộ đề thi TNKQ,
luận văn phải xuất phát từ việc đánh giá chất lượng của các bộ đề thực tế
đã sử dụng tại nhà trường qua xử lý số liệu kết quả thi của các môn học
(50 môn học). Từ kết quả thi đã được xử lý và lý thuyết về đo lường đánh
giá có thể cho phép kết luận sơ bộ về chất lượng các bộ đề này (về độ tin
cậy, độ giá trị…). Nghiên cứu này được thực hiện bằng phương pháp
thống kê phân tích, xử lý số liệu trên phần mềm SPSS, QUEST, kết hợp
với phương pháp chuyên gia qua việc thẩm định độ giá trị nội dung, độ gía
trị cấu trúc… của các bộ đề thi.
2.1.2. Chuyên đề nghiên cứu thứ hai
Xuất phát từ thực tế là các bộ đề thi TNKQ trong nhà trường có chất
lượng khơng giống nhau. Câu hỏi đặt ra là “Vậy thì những yếu tố nào ảnh
hưởng đến chất lượng của các bộ đề thi TNKQ”? Có thể bỏ qua các yếu tố
như điều kiện bên ngoài, ta nhận thấy yếu tố ảnh hưởng lớn nhất chính là
từ phía những người xây dựng bộ đề thi này. Bằng kinh nghiệm thực tiễn
công tác cũng như tham khảo ý kiến của các chuyên gia trong lĩnh vực đo
lường đánh giá giáo dục, tác giả mạnh dạn đề xuất một bộ công cụ đo các
yếu tố ảnh hưởng đến chất lượng bộ đề thi TNKQ thực hiện trên nhóm
mẫu là giáo viên tham gia xây dựng đề thi. Chất lượng một bộ đề thi nói
chung phụ thuộc nhiều yếu tố nhưng chủ yếu và trực tiếp là các yếu tố tác
động đến chính bản thân người ra đề. Trong điều kiện giảng dạy hiện nay,
có thể khái quát thành 5 nhóm yếu tố giả thuyết có ảnh hưởng đến người ra
đề, đó là:
- Thời gian đầu tư cho công việc thiết kế trắc nghiệm.
- Động cơ của người thiết kế trắc nghiệm.
- Mức độ người ra đề được trang bị kỹ thuật thiết kế trắc nghiệm.
- Sự quan tâm của nhà trường.
- Tính chất, đặc điểm của các nhóm mơn học.
Từ 5 nhóm yếu tố tác động trên, luận văn sẽ xây dựng một mẫu phiếu
hỏi, lấy thơng tin từ nhóm giáo viên xây dựng đề. Lưu ý là các phiếu này

sẽ được đánh dấu tương ứng với chất lượng đề thi của cá nhân đó. Với kết
quả xử lý 50 mẫu phiếu điều tra sẽ chỉ ra được các yếu tố có tương quan
chặt trong nhóm 5 yếu tố được thăm dị.
2.1.3. Chun đề nghiên cứu thứ ba
Trên cơ sở kết quả của hai nghiên cứu nói trên, ta sẽ tiến hành đánh
giá tương quan được lượng hoá thành số giữa các mẫu phiếu đánh giá và
chất lượng đề thi trong nhóm mẫu kết quả thi. Từ đó sẽ cho các kết luận cụ
12


thể về mối quan hệ giữa các nhóm yếu tố ảnh hưởng và chất lượng đề thi.
Những đánh giá này được thực hiện trên bảng trụ xoay (crosstab) kết hợp
với phương pháp chuyên gia.
Với những phân tích ở trên, sau khi thực hiện xong ba chuyên đề
nghiên cứu, đặc biệt là chuyên đề nghiên cứu thứ ba, luận văn sẽ chỉ ra
được các yếu tố ảnh hưởng thực sự tới chất lượng xây dựng đề thi TNKQ,
từ đó có những đề xuất giải pháp nhằm cải thiện chất lượng xây dựng đề
thi của nhà trường.
2.2. Thiết kế mẫu phiếu điều tra đối với giáo viên
Để thuận tiện trong việc lượng hố các item trong phiếu hỏi, chúng tơi
sử dụng thang bậc đánh giá theo 5 mức độ đồng ý với 27 item của phiếu
hỏi là các phát biểu thuận chiều, 03 phát biểu là phát biểu nghịch chiều
(khi xử lý phải đổi điểm ngược lại) và 03 phát biểu mở (cung cấp thông tin
khi đánh giá bằng phương pháp chuyên gia).
Trong bảng hỏi, 5 nhóm yếu tố đã kể trên sẽ được chia thành 30 item
theo cấu trúc sau:
- Thời gian đầu tư cho công việc: 03 item
- Động cơ của người thực hiện: 05 item
- Mức độ được trang bị kỹ thuật : 16 item
- Sự quan tâm của nhà trường: 03 item

- Tính chất các nhóm mơn học: 03 item
Qua phân bố các item trong cấu trúc trên, dễ nhận thấy yếu tố thứ 3
“Mức độ nắm vững kỹ thuật ra đề TNKQ của giảng viên” có trọng số lớn
hơn cả. Điều này không phải là một nhận định quá chủ quan mà nó được
xây dựng trên kinh nghiệm cá nhân, thăm dị dư luận đám đơng và ý kiến
của các chuyên gia có kinh nghiệm về đo lường đánh giá trong giáo dục.
Chương 3
XỬ LÝ SỐ LIỆU THI VÀ KẾT QUẢ PHIẾU ĐIỀU TRA
3.1. Xử lý số liệu kết quả thi TNKQ
3.1.1. Phân tích độ khó của item
Độ khó của item được dùng để tạo ra sự phân biệt giữa những người
làm trắc nghiệm. Mức độ khó của item được định nghĩa dựa trên tỷ lệ
người trả lời đúng item đó. Phân tích độ khó của item chỉ phù hợp cho
những trắc nghiệm đánh giá thành tích hay năng khiếu, những trắc nghiệm
cho phép bộc lộ tối đa năng lực của người làm trắc nghiệm. Phân tích độ
khó khơng phù hợp cho những trắc nghiệm đánh giá nhân cách hay quan
điểm thái độ.
Độ khó của từng item trực tiếp ảnh hưởng đến độ tin cậy và độ giá trị
(hiệu lực) của trắc nghiệm. Ví dụ, một trắc nghiệm có 50 item nhưng có
20 item quá khó (tất cả sinh viên đều nhận điểm 0 trên các item này). Như
13


vậy, phân bố điểm của trắc nghiệm gồm 50 item này cũng giống như phân
bố điểm của trắc nghiệm chỉ gồm 30 item. Khi đó, độ khó của các item đã
thực sự làm giảm độ dài của trắc nghiệm. Về mặt lý thuyết, độ dài của trắc
nghiệm giảm sẽ làm giảm độ tin cậy của trắc nghiệm và cũng làm giảm độ
hiệu lực của trắc nghiệm [4].
Cơng thức tính độ khó của item:
P = (Số người trả lời đúng trên item) / N

P: Độ khó của item
N: Tổng số người trả lời item
P có gía trị từ 0,0 đến 1,0. Giá trị của P càng gần 0,0 thì độ khó của
item càng tăng. Ngược lại, giá trị của P càng gần 1,0 thì độ khó càng giảm.
Độ khó của item khơng phải chỉ có một giá trị cố định mà ngược lại mỗi
khi trắc nghiệm được làm với một mẫu nào đó, ta lại có một giá trị xác
định. Độ khó có thể thay đổi tuỳ thuộc vào trình độ, năng lực của người
làm trắc nghiệm. Một item có độ khó phù hợp nhất khi P nằm xung quanh
0,5. Tuy nhiên, để đánh giá được độ khó của item phù hợp nhất cho trắc
nghiệm cần căn cứ vào mục đích của trắc nghiệm và kiểu item.
Những item quá dễ sẽ làm mọi người đều có điểm trên item đó, do đó
sự khác nhau giữa những người đạt điểm cao nhất (được xem là có năng
lực tốt nhất) và những người có điểm thấp nhất (được xem là có năng lực
tồi nhất) có điểm ngang nhau ở những item này do vậy độ phân biệt
sẽ có giá trị gần bằng 0. Điều này sẽ ảnh hưởng đến độ hiệu lực của
trắc nghiệm.
3.1.2. Phân tích độ phân biệt của item
Phân tích độ phân biệt là chỉ ra mức độ khác biệt trong cách trả lời
item ở những mẫu người khác nhau. Không giống như phân tích độ khó,
phân tích độ phân biệt thích hợp cho hầu hết các kiểu trắc nghiệm.
Một item có độ phân biệt tốt là khi trả lời item đó, hầu hết những
người có điểm trắc nghiệm cao trả lời đúng, đồng thời những người có
điểm trắc nghiệm thấp trả lời sai.
Có nhiều kỹ thuật đánh giá độ phân biệt của item, tuy nhiên có thể
xem có hai cách thường được sử dụng nhất:
- Đánh giá chỉ số phân biệt của item (item discrimination index)
- Đánh giá tương quan điểm item với điểm trắc nghiệm (item – total
correlation)
Độ phân biệt được xác định từ kết quả so sánh điểm trắc nghiệm của
hai nhóm người có điểm số cao và thấp rút ra từ hai mẫu riêng rẽ hoặc từ

một mẫu. Nếu lấy từ một mẫu hãy chọn (khoảng 1/3 hay 1/4 ) số người
làm trắc nghiệm có điểm cao nhất và số người làm trắc nghiệm có điểm
thấp nhất. Sau khi xác định được hai nhóm có điểm cao và điểm thấp, hãy
tính tỷ lệ % số người trả lời đúng trên từng item cho mỗi nhóm. Chỉ số
phân biệt của item được tính theo cơng thức sau:
14


Số người trả lời đúng
Số người trả lời đúng
ở nhóm điểm cao
ở nhóm điểm thấp
D = ---------------------------- - --------------------------Tổng số người trả lời
Tổng số người trả lời
ở nhóm điểm cao
ở nhóm điểm thấp
D: Độ phân biệt của item
Với các trắc nghiệm đánh giá năng lực, ta có thể giải thích sự thay đổi
các giá trị của D như sau: Nếu item có câu trả lời khó cho những người ở
nhóm điểm thấp mà dễ cho những người ở nhóm điểm cao, thì khi đó chỉ
số D là tiếp cận 1,0 (item có độ phân biệt lý tưởng). Nếu item có câu trả
lời khó ngang bằng cho cả hai nhóm thì chỉ số D tiếp cận 0,0 (item khơng
có độ phân biệt hay độ phân biệt kém). Nếu item có câu trả lời dễ cho
những người ở nhóm điểm thấp mà lại khó cho nhóm người điểm cao thì
chỉ số phân biệt D tiếp cận – 1,0, khi đó item vẫn có độ phân biệt lý tưởng
nhưng khơng giống như mong đợi.
Theo các chuyên gia trong lĩnh vực này thì chỉ số phân biệt của từng
item, được coi là thích hợp khi D lớn hơn hoặc bằng 0,3. Những item có
chỉ số phân biệt nhỏ hơn hoặc bằng 0,2 nên được viết lại.
Phương pháp đánh giá độ phân biệt bằng cách đánh giá tương quan

giữa item và toàn bộ trắc nghiệm
Nếu trắc nghiệm và item cùng đo một đặc tính hay một cấu trúc thì
điểm trả lời trên item sẽ tương quan với tổng số điểm của trắc nghiệm.
Cũng vậy, nếu các item cùng đo một đặc tính hay một cấu trúc thì chúng
sẽ tương quan với nhau. Cơng thức tính tương quan điểm item và điểm
của trắc nghiệm như sau:
R XY =

(∑ XY / N ) − ( X )(Y )
(σ X )(σ Y )

X: Điểm của item được phân tích
Y: Điểm tổng của các item cịn lại (điểm trắc nghiệm)
X : Điểm trung bình của item được phân tích
Y : Điểm trung bình của trắc nghiệm
σX : Độ lệchchuẩn của điểm trên item được phân tích
σY : Độ lệch chuẩn của điểm trắc nghiệm
Giá trị của hệ số tương quan càng tiệm cận 1,0 càng chứng tỏ item và
trắc nghiệm có tính đồng nhất cao, tức là cùng đo một đặc tính. Với các
trắc nghiệm đánh giá năng lực, giá trị tương quan càng gần 1,0 sẽ cho biết
càng có nhiều người có điểm trắc nghiệm cao trả lời đúng item đó. Ngược
lại giá trị tương quan càng gần -1,0 sẽ cho biết càng có nhiều người có
điểm trắc nghiệm thấp trả lời đúng item đó.
15


3.1.3. Đánh giá độ tin cậy của bài trắc nghiệm
Việc phân tích độ khó, độ phân biệt của các item trong bài trắc
nghiệm như đã chỉ ra ở trên chỉ có tính chất đánh giá cục bộ, đơn lẻ trên
các item. Những kết quả đó chưa phản ánh hết tồn bộ độ tin cậy của toàn

bộ bài trắc nghiệm. Để có kết luận một cách tồn diện về độ tin cậy của cả
bài trắc nghiệm người ta thường dùng phương pháp đánh giá dựa trên mơ
hình tương quan Alpha của Cronbach (Cronbach’s coefficent alpha).
Các thông tin về độ tin cậy của toàn bài trắc nghiệm được cho trong
bảng sau
Hệ số tin cậy
Cronbach's Alpha

Hệ số tin cậy trên các item
chuẩn
Cronbach's Alpha Based on
Standardized Items

Số lượng item
N of Items

.805

.819

60

Bảng 2.2: Các thông số về độ tin cậy (Reliability Statistics)
Qua phân tích số liệu trên bảng Output ta thấy đề thi trên dù cịn có
một số câu hỏi (item) chưa được tốt song độ tin cậy của toàn bộ trắc
nghiệm là khá cao. Kết quả phân tích cho hệ số tin cậy của tồn trắc
nghiệm α = 0,805 có nghĩa là 80,5% phương sai của điểm trắc nghiệm là
phương sai của điểm số thực và chỉ có 15,5% phương sai của điểm là do
sai số ngẫu nhiên của phép đo. Cũng bằng phép phân tích này, nhìn vào
bảng 1 ta thấy, những item có tương quan với các item cịn lại là thấp (α i <

0.30) thì cần phải xem lại, những item có tương quan qúa thấp (α i < 0) thì
nên loại bỏ.
3.1.4. Xử lý số liệu đề thi trên mô hình QUEST
Phần trên chúng tơi đã dùng phần mềm SPSS để xử lý số liệu kết
quả thi, tương tự ta cũng có thể sử dụng mơ hình RASCH trên phần
mềm chuyên dụng QUEST để phân tích, đánh giá kết quả các bài thi
trắc nghiệm.
Ví dụ xử lý số liệu cho đề thi của môn Thông tin quang (ký hiệu Môn 1).

16


-------------------------------------------------------------------------------------------Item all
on mon01 (N = 54 L = 60 Probability Level= .50)
3.0
|
|
NăNG LỰC CAO
|
ĐỘ KHó CAO
X
|
|
XX
|
XX
|
44
2.0
|

15
37
48
XXXX
|
8
XX
|
45
X
|
23
X
|
|
|
XXXXXXXXX
|
30
53
1.0
XXX
|
XXX
|
3
32
40
X
|

XXX
|
14
22
26
35
XXXXXX
|
24
XXX
|
6
|
21
50
54
|
49
57
|
20
36
.0
X
|
4
11
25
31
39

55
59
X
|
13
|
XX
|
17
43
|
51
58
|
33
41
|
5
52
56
|
9
16
19
46
60
|
X
|
7

-1.0
|
|
18
28
29
34
38
47
|
|
1
12
42
|
|
27
|
|
|
10
-2.0
|
|
|
|
2
|
NăNG LỰC THấP
|

Độ KHó THấP
|
|
-3.0
|
Each X represents
1 students

Bảng 2.4: Phân bố tương quan giữa độ khó của đề và năng lực học sinh.
Ta cũng thấy đây là một đề có độ khó thấp (đề tương đối dễ). Phân bố
kết quả thi gần với phân bố chuẩn. Các item có độ khó cao nhất (item 15,
27, 44, 48) cũng chưa vượt quá năng lực cao nhất của sinh viên tham gia
trắc nghiệm. Các item có độ khó quá thấp (item 2, 10, 27) nên loại bỏ vì
khơng phân biệt được năng lực của sinh viên.
Để thấy rõ hơn các thông số đo lường của từng item, ta phân tích bảng
Results for Observed Responses trong file mon1.itn

17


QUEST: The Interactive Test Analysis System
.....................................................................
......................
Item

6: item 6

Categories
Count
Percent (%)

Pt-Biserial
p-value
Mean Ability

Infit MNSQ = 1.05
Disc = .22
0
19
36.5
-.22
.058
.85

Step Labels

1

missing

33
63.5
.22
.058
1.24

0

NA

1


Thresholds
.49
Error
.30
.....................................................................
......................
Item
7: item 7
Infit MNSQ = .97
Disc = .31
Categories
Count
Percent (%)
Pt-Biserial
p-value
Mean Ability

0
7
13.5
-.31
.013
.54

Step Labels

1

missing


45
86.5
.31
.013
1.18

0

NA

1

Thresholds
-.92
Error
.42
.....................................................................
......................
Item

8: item 8

Categories
Count
Percent (%)
Pt-Biserial
p-value
Mean Ability
Step Labels

Thresholds
Error

Infit MNSQ = 1.40
Disc = -.28
0
35
67.3
.28
.023
1.24

1

missing

17
32.7
-.28
.023
.79

0

NA

1
1.88
.31


18


Bảng 2.6: Các thông số đo lường của từng item trong file mon1.ctn
Trong Bảng 2.6 (minh hoạ các tham số của 3 item: 6; 7; 8), ta thấy các
item 6; 7 có độ phân biệt tương ứng là Disc = 0,22; 0,31 đều nằm trong
khoảng cho phép. Riêng item 8 có độ phân biệt Disc = - 0,8 (D < 0),
chứng tỏ đây là câu có vấn đề, cần loại bỏ.
3.1.5. Kết luận về độ giá trị của các bộ đề
Việc đánh giá độ giá trị của các bộ đề trên cả bốn góc độ: “Độ giá
trị nội dung”; “Độ giá trị cấu trúc”; “Độ giá trị tiêu chuẩn” và “Độ giá trị
dự báo” là một bài toán quá phức tạp. Trong phạm vi nghiên cứu của luận
văn, chúng tôi chỉ đề cập đến yếu tố “Độ giá trị nội dung” và “Độ giá trị
cấu trúc”.
- Có thể nói nội dung và cấu trúc của các bộ đề đã được đánh giá sơ
bộ (một cách định tính) bằng phương pháp chuyên gia qua sự thẩm định
của chính người ra đề cũng như nhóm mơn học.
- Bằng các kỹ thuật phân tích trên phần mềm SPSS hay QUEST,
chúng tơi đã chỉ ra các yếu tố (mang tính định lượng) quyết định đến độ
giá trị của bộ đề, đó là:
+ “Độ tin cậy” của bộ đề qua hệ số Cronbach’s alpha.
+ Hệ số tương quan của mỗi item đối với toàn bộ các item còn lại.
+ Ma trận tương quan giữa các item trong cùng một trắc nghiệm.
+ Sự phù hợp giữa độ khó của trắc nghiệm đối với năng lực của sinh
viên tham gia làm trắc nghiệm.
+ Tính đồng nhất của các item trong cùng một trắc nghiệm.
Cả 5 thông số trên đều phản ánh độ giá trị của trắc nghiệm, trong đó
hệ số tin cậy Cronbach’s coefficent alpha có thể coi là trội hơn cả và dễ
được định lượng nhất (càng lớn càng tốt). Do đó trong tính tốn, phân tích
kỹ thuật, chúng tơi cũng lấy đây là thơng số chính để đánh giá chất lượng

của trắc nghiệm.
3.2. Xử lý số liệu mẫu phiếu phỏng vấn (phiếu hỏi) trong giảng viên
3.2.1. Đánh giá độ tin cậy của công cụ đo (mẫu phiếu hỏi)
Trên cơ sở mẫu phiếu đánh giá các yếu tố ảnh hưởng đến chất lượng
các bộ đề thi TNKQ đã nêu ở trên, chúng tôi đã tiến hành phỏng vấn và
lấy phiếu đối với 50 giáo viên trực tiếp soạn thảo 50 bộ đề của 50 môn học
áp dụng thi TNKQ hết học phần. Kết quả cụ thể như sau.
Nếu ta quy đổi thang bậc các mức đồng ý của các phiếu hỏi thành
điểm số tương ứng với 5 mức điểm từ 0 đến 4 (chú ý các item với phát
biểu ngược chiều lấy giá trị điểm ngược lại), ta sẽ có bảng các điểm số của
phiếu hỏi. Về mặt ý nghĩa đo lường, các phiếu hỏi cho điểm số tổng cộng
cao sẽ tương ứng với các cá nhân có các yếu tố thuận lợi cho việc xây
dựng đề trắc nghiệm, ngược lại các phiếu hỏi có điểm số tổng cộng thấp sẽ
tương ứng với các cá nhân có các yếu tố kém thuận lợi cho việc xây dựng
19


đề trắc nghiệm. Các phiếu có phân bố điểm tổng cộng từ 43 đến 94 điểm
(điểm tối đa có thể là 120 điểm) cho thấy phân bố điểm rất rộng chứng tỏ
các cá nhân tham gia xây dựng đề trắc nghiệm trong các điều kiện rất khác
nhau và nhận thức quan điểm cũng rất khác nhau.
Tiến hành xử lý số liệu trên phần mềm SPSS ta nhận thấy:
Đánh giá độ tin cậy của trắc nghiệm bằng phương pháp đánh giá độ
phù hợp của từng item (internal consistency methods) sử dụng mơ hình
Cronbach’s Coefficent Alpha. Mơ hình này đánh giá độ tin cậy của phép
đo dựa trên sự tính tốn phương sai của từng item trong tồn phép đo và
tính tương quan điểm của từng item với với điểm tổng của các item cịn lại
của phép đo. Phương pháp này thích hợp cho việc xác định độ tin cậy của
các loại trắc nghiệm có các item nhiều mức độ tính theo điểm số (kiểu
thang định khoảng hay thang định tỷ lệ).

Công thức tính như sau:
K
∑σ i
α =
(1 − 2 )
K −1
σx
2

Rxx =

. Trong đó

Rxx : Hệ số tương quan
K : Số các item của trắc nghiệm
σ2i : Giá trị phương sai của từng item cụ thể của trắc nghiệm
σ2x : Giá trị phương sai của toàn trắc nghiệm
∑ σ2i : Tổng các giá trị phương sai của tất cả các item của trắc nghiệm
Thực hiện: Sử dụng mơ hình Cronbach’s Coefficent Alpha đánh giá
độ tin cậy của phép đo các yếu tố ảnh hưởng đến chất lượng bộ đề trắc
nghiệm khách quan. Mơ hình này địi hỏi phép đo phải có phân bố chuẩn
(hoặc gần chuẩn), có các item được tính theo thang định khoảng.
Hầu hết tương quan giữa các item (30 item từ tg1 đến mh3) đều có trị
số lớn hơn 30%. Điều đó chứng tỏ các item trong phiếu trắc nghiệm có
tương quan chặt với nhau và đây là một cơng cụ đo có độ tin cậy đảm bảo
cho phép đánh giá các điều kiện thuận lợi cho một giáo viên khi xây dựng
bộ đề thi trắc nghiệm.
Có thể đánh giá độ tin cậy và phân tích mẫu các phiếu hỏi bằng mơ
hình RASCH trên phần mềm QUEST. Trong phạm vi này chúng tơi chỉ
nghiên cứu trên nhóm các item trong thang đo hẹp, cụ thể là phân tích các

item trong thang đo thứ ba: “Mức độ nắm vững kỹ thuật ra đề trắc nghiệm
của giảng viên”.
Để thấy rõ hơn, ta phân tích Bảng 2.10.

20


-----------------------------------------------------------------------------------------------all on phieu (N = 52 L = 16 Probability Level= .50)
MNSQ .63
.67
.71
.77
.83
.91 1.00
1.10
1.20
1.30
1.40
1.50 1.60
----------+---------+---------+---------+---------+---------+---------+---------+--------+---------+---------+---------+
1 item 1
.
*
|
.
2 item 2
.
*
|
.

3 item 3
.
*
.
4 item 4
.
* |
.
5 item 5
.
*
|
.
6 item 6
.
|
.*
7 item 7
.
*
|
.
8 item 8
.
|
*.
9 item 9
.
*
|

.
10 item 10
.
*
.
11 item 11
.
*|
.
12 item 12
.
|*
.
13 item 13
.
|
*
.
14 item 14
.
|
.
*
15 item 15
.
*
|
.
16 item 16
.

*
|
.
========================================================

Bảng 2.10: Phân bố của các item trong phiếu hỏi
trong khoảng cho phép (infit mean square)
Nhìn vào bảng ta thấy, hầu hết các item trong tiểu thang đo “Mức độ
được trang bị kỹ thuật ra đề TN” đều nằm trong khoảng cho phép (infit
mean square). Duy chỉ có hai item 6 và 14 là nằm ở ngồi khoảng (chứng
tỏ có vấn đề). Theo chúng tơi, đây là hai câu hỏi có đề cập đến các khái
niệm kỹ thuật cao nên một số người được hỏi chưa nắm được bản chất vấn
đề được hỏi.
3.2.2. Đánh giá về độ giá trị của công cụ đo và sự phù hợp của mơ
hình các yếu tố ảnh hưởng đến chất lượng bộ đề thi TNKQ qua xử lý
phiếu hỏi
Tương tự như xem xét độ giá trị của các bộ đề trắc nghiệm [trong
phần 3.1.5], độ giá trị của mẫu phiếu hỏi cũng được đánh giá qua các
yếu tố:
+ “Độ tin cậy” của phiếu hỏi qua hệ số Cronbach’s Alpha.
+ Hệ số tương quan của mỗi item đối với tồn bộ các item cịn lại
trong phiếu hỏi.
+ Ma trận tương quan giữa các item trong cùng một phiếu hỏi.
21


+ Sự phù hợp giữa mức độ đánh giá cao của trắc nghiệm đối với sự
nhất trí của giáo viên tham gia làm trắc nghiệm.
+ Tính đồng nhất của các item trong cùng một phiếu hỏi.
Với những kết quả đã phân tích trong mục [3.2.1], có thể kết luận

mẫu phiếu hỏi sử dụng trong nghiên cứu có độ giá trị tốt (độ tin cậy
cao và phù hợp với mơ hình đo là các yếu tố ảnh hưởng đến chất
lượng bộ đề thi TNKQ).
3.3. Kết luận về các yếu tố ảnh hưởng đến chất lượng bộ đề thi
TNKQ
Nhìn vào Bảng chéo Crosstabs ta có thể kết luận:
- Trong 50 mẫu phiếu hỏi có 10 mẫu phiếu cho điểm số thấp, chiếm
20%, trong đó:
+ 03 phiếu ứng với người có đề chất lương kém, chiếm 30% của
nhóm.
+ 03 phiếu ứng với người có đề chất lượng vừa, chiếm 30% của
nhóm.
+ 04 phiếu ứng với người có chất lượng đề cao, chiếm 40% của
nhóm.
- Trong 50 mẫu phiếu có 30 mẫu cho điểm số trung bình, chiếm 60%
tổng số mẫu, trong đó:
+ 05 phiếu ứng với người có chất lượng đề kém, chiếm 16,7%
của nhóm
+ 21 phiếu ứng với người có chất lượng đề trung bình, chiếm
70% của nhóm
+ 04 phiếu ứng với người có chất lượng đề cao, chiếm 13,3%
của nhóm
- Trong 50 mẫu phiếu hỏi có 10 mẫu cho điểm số cao, chiếm 20% của
nhóm mẫu, trong đó:
+ 07 phiếu ứng với người có chất lượng đề trung bình, chiếm
70% của nhóm.
+ 03 phiếu ứng với người có chất lượng đề tốt, chiếm 30% của
nhóm.
Kết kuận:
- Bảng chéo Crosstabs cho ta thấy mối quan hệ tương đối giữa các

nhóm của hai mẫu biến “chl.de.nhom” và “diem.ptn.nhom”.
- Các phân tích trên chỉ ra rằng về cơ bản thì đây là tương quan thuận
giữa hai biến “chl.de” và “diem.ptn”.
- Một số phân bố không theo quy luật như “điểm phiếu trắc nghiệm
thấp lại là của người có đề chất lượng cao”. Điều này có thể giải thích là
do số lượng mẫu nghiên cứu là chưa đủ lớn (50 mẫu), hoặc có những
người trả lời phiếu trắc nghiệm khơng trung thực (điều này có thể xảy ra
trong thực tế) do những yếu tố chủ quan hoặc khách quan.
22


KẾT LUẬN VÀ ĐỀ NGHỊ

A. KẾT LUẬN
Với những nghiên cứu và phân tích ở trên, chúng tơi có thể kết luận.
- Chất lượng của một đề thi TNKQ được đánh giá trên nhiều yếu tố và
theo nhiều góc độ xem xét khác nhau. Tuy nhiên, yếu tố mang tính định
lượng và có ý nghĩa đặc trưng nhất có thể dùng để đánh giá chất lượng của
trắc nghiệm là “độ tin cậy” được tính bằng hệ số Cronbach’s Alpha. Các
trắc nghiệm cho hệ số tin cậy Cronbach’s Alpha lớn thì có chất lượng tốt
và ngược lại.
- Mơ hình các yếu tố ảnh hưởng đến chất lượng các bộ đề trắc nghiệm
mà luận văn đưa ra trong mẫu phiếu hỏi đối với giáo viên là phù hợp. Trắc
nghiệm cho độ tin cậy chung khá cao và tương quan giữa các item trong
phiếu hỏi cũng ở mức đáng tin cậy.
- Điểm lượng hoá của phiếu hỏi (sau khi đã Recode) đặc trưng cho sự
thuận lợi của các yếu tố ảnh hưởng đến người ra đề. Qua phân tích, ta thấy
điểm phiếu hỏi cao tương ứng với giáo viên có các yếu tố thuận lợi cho
việc ra đề thi TNKQ và ngược lại, điểm phiếu hỏi thấp ứng với giáo viên
có các yếu tố kém thuận lợi cho việc ra đề.

- Có sự tương quan chặt chẽ giữa điểm số của phiếu hỏi với chất lượng
đề thi của chính nghiệm thể đó (trừ số ít trường hợp ngoại lệ). Điều đó cho
thấy qua phân tích phiếu hỏi có thể dự đốn khá chính xác chất lượng đề
thi mà cá nhân đó chịu trách nhiệm biên soạn.
- Qua đánh giá các yếu tố ảnh hưởng đến chất lượng đề thi TNKQ, có
thể thấy yếu tố ảnh hưởng lớn nhất đến chất lượng đề thi là việc trang bị
kỹ thuật ra đề thi TNKQ cho giáo viên (16 item / tổng số 30 item của
phiếu hỏi).
B. ĐỀ NGHỊ
Từ các nghiên cứu và phân tích ở trên chúng tôi mạnh dạn đề xuất một
số giải pháp nhằm nâng cao chất lượng các bộ đề thi TNKQ như sau.
- Đầu tư thời gian, kinh phí tập huấn cho đội ngũ giáo viên tại các Bộ
môn lý thuyết về đo lường, đánh giá kết quả học tập, trong đó chú trọng
đến các kỹ thuật soạn thảo câu hỏi TNKQ.
- Triển khai xây dựng ngân hàng câu hỏi TNKQ theo đúng quy trình
đã được thống nhất trong tồn trường, có sự quản lý giám sát của bộ phận
chuyên trách.
- Tăng cường cơng tác khảo thí, xây dựng đội ngũ cán bộ khảo thí có
chun mơn vững làm nhiệm vụ tư vấn trong xây dựng cũng như đánh giá
trực tiếp chất lượng ngân hàng đề thi TNKQ của nhà trường.

23


- Nhanh chóng áp dụng các phần mềm ra đề thi tự động, phần mềm thi
TNKQ trực tiếp trên máy tính. Áp dụng các kỹ thuật xử lý số liệu có trợ
giúp của máy tính trong phân tích, đánh giá chất lượng đề thi.
- Xây dựng một môi trường tương tác làm việc (trên mạmg iternet)
giữa bộ phận khảo thí với các giáo viên bộ môn sao cho giáo viên có thể
dễ dàng đánh giá đề thi của mình cũng như cập nhật sửa đổi ngân hàng câu

hỏi thi TNKQ có sự quản lý của trung tâm khảo thí.
- Nhà trường cần có sự quan tâm thích đáng về vật chất và tinh thần
đối với giáo viên có áp dụng thi TNKQ, coi việc đổi mới phương pháp
kiểm tra đánh giá là một trong những khâu nhằm đổi mới phương pháp
giảng dạy, nâng cao chất lượng đào tạo.

24



×