Tải bản đầy đủ (.pdf) (34 trang)

Nghiên cứu mức độ đáp ứng của học sinh các nước không thuộc khối OECD và học sinh Việt Nam với chương trình đánh giá Quốc tế PISA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (895 KB, 34 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN ĐẢM BẢO CHẤT LƯỢNG GIÁO DỤC






Lê Thị Hoàng Hà







NGHIÊN CỨU MỨC ĐỘ ĐÁP ỨNG CỦA HỌC SINH CÁC NƯỚC KHÔNG
THUỘC KHỐI OECD VÀ HỌC SINH VIỆT NAM VỚI CHƯƠNG TRÌNH
ĐÁNH GIÁ QUỐC TẾ PISA






Chuyên ngành: Đo lường và đánh giá trong giáo dục
(Chuyên ngành đào tạo thí điểm)

LUẬN VĂN THẠC SĨ






Người hướng dẫn khoa học: TS. Phạm Xuân Thanh







Hà Nội – Năm 2012

Thank you for evaluating AnyBizSoft PDF Splitter.
A watermark is added at the end of each output PDF file.
To remove the watermark, you need to purchase the software from
/>3

MỤC LỤC

LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC CHỮ VIẾT TẮT 5
DANH MỤC CÁC BẢNG BIỂU 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7
MỞ ĐẦU 8
1. Lý do chọn đề tài 8
2. Mục đích nghiên cứu của đề tài 10
3. Giới hạn nghiên cứu của đề tài 11

4. Câu hỏi nghiên cứu 12
5. Khách thể và đối tượng nghiên cứu 13
6. Phương pháp tiếp cận nghiên cứu 13
7. Phạm vi nghiên cứu 14
8. CẤU TRÚC CỦA LUẬN VĂN 14
Chương I: TỔNG QUAN NGHIÊN CỨU 16
1.1. Các chương trình đánh giá quốc tế 16
1.1.1. TIMSS và PIRLS 16
1.1.2. Chương trình đánh giá học sinh quốc tế PISA 17
1.2. Tổng quan các nghiên cứu liên quan 23
Chương II: LÝ THUYẾT ĐÁNH GIÁ 30
Mở đầu 30
2.1. Khái niệm đánh giá trong giáo dục 31
2.2. Các dạng thức đánh giá 35
2.2.1. Đánh giá tổng kết và đánh giá quá trình 35
4

2.2.2. Đánh giá tham chiếu tiêu chí và đánh giá tham chiếu nhóm chuẩn
37
2.2.3. Đánh giá dựa trên chương trình và Đánh giá dựa trên năng lực 39
2.2.4. Hệ thống đánh giá và vai trò, vị trí của khảo sát/đánh giá năng lực
trên diện rộng 41
2.3. Lý thuyết khảo thí cổ điển và Lý thuyết trả lời câu hỏi 43
2.3.1. Lý thuyết khảo thí cổ điển 44
2.3.2. Lý thuyết trả lời câu hỏi và Mô hình RASCH 46
2.4. Ứng dụng Lý thuyết trả lời câu hỏi trong thiết kế công cụ khảo thí 50
2.5. Độ giá trị của đề thi và tính thiên kiến của câu hỏi thi 53
2.5.1. Độ giá trị 53
2.5.2. Tính thiên kiến của câu hỏi thi và phát hiện câu hỏi thiên kiến 54
Chương III. KẾT QUẢ NGHIÊN CỨU VÀ BÀN LUẬN 59

3.1. Mô tả phương pháp và quy trình nghiên cứu 59
3.1.1. Mô tả các bộ số liệu 59
3.1.2. Quy trình nghiên cứu và các thủ tục xử lý số liệu 61
3.2. Kết quả nghiên cứu và bàn luận 64
3.2.1. Bộ dữ liệu PISA quốc tế 2006 64
3.2.2. Bộ dữ liệu thi thử PISA ở Việt Nam năm 2010 72
KẾT LUẬN 77
Tài liệu tham khảo 80
Phụ lục 1: Cơ cấu quốc gia/vùng lãnh thổ tham gia PISA 2006 84
Phụ lục 2: Cú pháp phân tích DIF, sử dụng phần mềm CONQUEST 87
Phụ lục 3: Kết quả phân tích DIF 92
Phụ lục 4: Cấu trúc đề thi thử PISA tháng 5/2010 ở Việt Nam và mã hóa 104



Thank you for evaluating AnyBizSoft PDF Splitter.
A watermark is added at the end of each output PDF file.
To remove the watermark, you need to purchase the software from
/>MỞ ĐẦU
1. Lý do chọn đề tài
PISA lần đầu tiên tổ chức (năm 2000) có 43 nước tham gia, trong đó có
14 nước không thuộc khối OECD. Qua 3 lần tổ chức, kỳ thi năm 2009 có 75
nước/nền kinh tế tham gia trong đó có 38 nước không thuộc khối OECD. Sự gia
tăng nhanh số quốc gia/nền kinh tế tham gia Chương trình PISA chứng tỏ mục
đích, ý nghĩa của kỳ thi ngày càng được nhận thức đúng đắn bởi các quốc gia.
Việt Nam chính thức đăng ký tham gia Chương trình PISA 2012. Từ lúc
đăng ký và được OECD chính thức đồng ý để Việt Nam tham gia PISA 2012
đến khi kỳ thi chính thức diễn ra (tháng 4/2012) là cả một giai đoạn chuẩn bị
đầy căng thẳng với hàng chục đầu công việc đã được lên kế hoạch chặt chẽ,
nằm trong kế hoạch chung và kiểm soát chất lượng của Ban điều hành PISA

của OECD. Một trong những khâu chuẩn bị quan trọng và nhiều thử thách nhất,
có thời gian chuẩn bị trải dài nhất là công tác dịch thuật và thích nghi hóa đề thi
và các bảng hỏi thu thập dữ liệu. Kinh nghiệm các nước cho thấy, mặc dù quy
trình dịch thuật và thích nghi hóa tài liệu thi đã được OECD quy định, hướng
dẫn và kiểm soát chặt chẽ, thực tế vẫn không tránh khỏi sai sót mà hậu quả của
nó là gây nên một số câu hỏi trong đề thi có thiên kiến ở một số nhóm đối tượng
thí sinh nhất định.
Việc phát hiện những thiên kiến có thể có của câu hỏi thi PISA trên các
nhóm học sinh quốc tế chia theo khu vực địa lý và trên đối tượng học sinh Việt
Nam sẽ làm tiền đề cho việc nghiên cứu tìm hiểu nguyên nhân của hiện tượng
sai biệt này, là cơ sở cho những giải pháp mà Việt Nam và các nước tham gia
có thể thực hiện trong quá trình tham gia dịch thuật và thích nghi hóa đề thi để
đề thi PISA đạt được độ tin cậy và độ giá trị cao nhất với học sinh tất cả các
nước, không phân biệt điều kiện địa lý hay những vấn đề về chính trị, tôn giáo,
ngôn ngữ
2. Mục đích nghiên cứu của đề tài
Dựa trên kết quả thi PISA, đề tài sẽ đi tìm những câu hỏi có nguy cơ gây
thiên kiến cho các nhóm học sinh các nước ngoài khối OECD và nhóm học sinh
quốc tế có điều kiện kinh tế - văn hóa – xã hội tương đối tương đồng với Việt
Nam, làm tiền đề cho việc tiên lượng tính đáp ứng của học sinh Việt Nam với
câu hỏi thi PISA. Đề tài cũng đi tìm sự khác biệt về sự đáp ứng của các nhóm
học sinh Việt Nam với điều kiện kinh tế - văn hóa – xã hội khác nhau, với câu
hỏi thi PISA, để từ đó có những nhận định về khả năng các yếu tố ngôn ngữ,
văn hóa có thể làm cho câu hỏi PISA thiên kiến.
Thực hiện nghiên cứu này cũng giúp học viên hiểu biết sâu sắc về những
lý thuyết đánh giá liên quan đến câu hỏi thực hiện chức năng khác biệt
(differential item functioning – DIF) và quy trình phân tích phát hiện DIF (điều
kiện cần để kết luận câu hỏi thiên kiến), một quy trình quan trọng trong xây
dựng và phát triển đề thi chuẩn hóa.
3. Giới hạn nghiên cứu của đề tài

Đề tài tập trung phân tích kết quả thi PISA quốc tế năm 2006 – số liệu do
OECD công bố, tập trung phát hiện các dấu hiệu câu hỏi thực hiện chức năng
khác biệt (differential item functioning – DIF: điều kiện cần để kết luận câu hỏi
thiên kiến), so sánh giữa:
- nhóm học sinh các nước thuộc khối OECD và nhóm học sinh các nước
ngoài khối OECD;
- nhóm học sinh các nước có chỉ số phát triển con người (HDI) cao và
nhóm học sinh các nước có chỉ số HDI trung bình;
- nhóm học sinh các nước thuộc khối OECD với nhóm học sinh các nước
không thuộc khối OECD và có chỉ số HDI trung bình;
- nhóm học sinh các nước thuộc khối OECD với nhóm học sinh các nước
không thuộc khối OECD, có chỉ số HDI trung bình, và thuộc châu Á;
Với đối tượng học sinh Việt Nam, đề tài sử dụng số liệu kết quả thi thử
PISA năm 2010. Kỳ thi do Văn phòng PISA Việt Nam tổ chức, sử dụng đề thi
của kỳ đánh giá PISA chính thức năm 2009. Nghiên cứu sẽ tập trung phát hiện
nguy cơ thiên kiến có thể có giữa:
- Nhóm học sinh miền Bắc và nhóm học sinh khu vực Tây Nguyên và miền
Nam;
- Nhóm học sinh đồng bằng – duyên hải và nhóm học sinh miền núi – cao
nguyên;
Ở phạm vi một đề tài luận văn thạc sĩ, các phân tích tìm kiếm DIF chủ yếu
tập trung vào nhóm câu hỏi nhiều lựa chọn, với cách cho điểm đúng và sai.
4. Câu hỏi nghiên cứu và giả thuyết nghiên cứu
Câu hỏi nghiên cứu 1: Học sinh các nước không thuộc khối OECD tham gia kỳ thi
PISA 2006 đáp ứng câu hỏi thi PISA như thế nào? Câu hỏi thi có tiềm ẩn nguy cơ
gây bất lợi hoặc tạo ưu thế cho học sinh các nước không thuộc khối OECD không?
Mức độ của nguy cơ?
Câu hỏi nghiên cứu 2: Học sinh ở các nước có đặc điểm kinh tế - văn hóa – xã hội
tương đồng với Việt Nam đáp ứng câu hỏi thi PISA 2006 như thế nào? Tìm kiếm
nguy cơ câu hỏi thiên kiến đối với nhóm học sinh này và tiên lượng mức độ ảnh

hưởng của nguy cơ câu hỏi thiên kiến đối với học sinh Việt Nam khi tham gia
PISA?
Câu hỏi nghiên cứu 3: Điều kiện địa lý, văn hóa, ngôn ngữ vùng miền ở Việt Nam
có thể là yếu tố làm xuất hiện nguy cơ thiên kiến của câu hỏi thi PISA không? Mức
độ của các nguy cơ thiên kiến này?
5. Khách thể và đối tượng nghiên cứu
 Khách thể nghiên cứu:
- Câu hỏi thi PISA.
 Đối tượng nghiên cứu:
- Tính chất thực hiện chức năng khác biệt của câu hỏi thi (differential
item functioning – DIF).
6. Phương pháp tiếp cận nghiên cứu
Đề tài sử dụng tiếp cận nghiên cứu định lượng. Kết quả thi PISA năm
2006 của các nước và thi thử PISA ở Việt Nam năm 2010, sử dụng đề thi năm
2009 đã được dịch sang tiếng Việt sẽ được phân tích định lượng để xác định
mức độ đáp ứng của học sinh tham dự kỳ thi đối với câu hỏi thi, so sánh giữa
các nhóm học sinh theo các tiêu chí phân tầng khác nhau. Phân tích sẽ sử dụng
các phần mềm phân tích số liệu SPSS và CONQUEST.
Dữ liệu thu thập được bao gồm:
 Cơ sở dữ liệu về chương trình đánh giá quốc tế PISA (sự ra đời và phát
triển, cơ sở khoa học xây dựng đề thi, phân tích và sử dụng kết quả đánh
giá…); sử dụng phương pháp hồi cứu tài liệu;
 Các cơ sở lý thuyết liên quan: Lý thuyết về đánh giá và xây dựng đề thi
chuẩn hóa, Lý thuyết hồi đáp và mô hình Rasch, Lý thuyết về phân tích
DIF (Differential Item Functioning) như một cơ sở để phát hiện thiên kiến
của công cụ đo lường tâm lý; sử dụng phương pháp tổng quan tài liệu;
 Tổng quan các nghiên cứu về câu hỏi/đề thi thiên kiến, công cụ khảo sát
đánh giá thiên kiến trong các chương trình khảo sát/đánh giá năng lực
trên diện rộng (như PISA, TIMSS, PIRLS, SAT…); thu thập bằng
phương pháp tổng quan tài liệu;

 Dữ liệu kết quả thi PISA năm 2006 lấy từ website My PISA của ACER,
Australia;
 Dữ liệu kết quả thi thử PISA trên mẫu đại diện từ 10 tỉnh/thành phố, tổ
chức tháng 5/2010, sử dụng bộ câu hỏi thi của kỳ thi PISA năm 2009. Dữ
liệu do Văn phòng PISA Việt Nam cung cấp.
7. Phạm vi nghiên cứu
Học sinh tất cả các quốc gia và vùng lãnh thổ tham gia kỳ đánh giá PISA
chính thức năm 2006; Học sinh 10 tỉnh/thành phố của Việt Nam tham gia kỳ thi
thử PISA do Văn phòng PISA Việt Nam tổ chức tháng 5/2012, sử dụng đề thi
PISA chính thức năm 2009.
8. CẤU TRÚC CỦA LUẬN VĂN
Cấu trúc các phần nội dung chính của luận văn bao gồm 3 chương:
Chương I. TỔNG QUAN NGHIÊN CỨU
1.1. Các chương trình đánh giá học sinh quốc tế
1.1.1. TIMSS và PIRLS
1.1.2. Chương trình đánh giá học sinh quốc tế PISA
1.2. Tổng quan các nghiên cứu liên quan
Chương II. LÝ THUYẾT ĐÁNH GIÁ
2.1. Khái niệm đánh giá trong giáo dục
2.2. Các dạng thức đánh giá
2.3. Lý thuyết khảo thí cổ điển và Lý thuyết trả lời câu hỏi
2.4. Ứng dụng lý thuyết trả lời câu hỏi trong thiết kế công cụ khảo thí
2.5. Độ giá trị của đề thi và tính thiên kiến của câu hỏi thi
Chương III. KẾT QUẢ NGHIÊN CỨU VÀ BÀN LUẬN
3.1. Mô tả phương pháp và quy trình nghiên cứu
3.2. Kết quả nghiên cứu và bàn luận
KẾT LUẬN

Chương I: TỔNG QUAN NGHIÊN CỨU
1.1. Các chương trình đánh giá quốc tế

1.1.1. TIMSS và PIRLS
TIMSS và PIRLS là hai chương trình nghiên cứu đánh giá học sinh quốc
tế với nhiều nét tương đồng. TIMSS (Trends in International Mathematics and
Science Study) tập trung nghiên cứu năng lực toán học và khoa học của học sinh
quốc tế hai khối lớp 4 và lớp 8; trong khi PIRLS (Progress in International
Reading Literacy Study) đánh giá năng lực đọc hiểu của học sinh khối lớp 4.
TIMSS và PIRLS là các cuộc đánh giá trên diện rộng, được thiết kế nhằm
mang lại một bức tranh toàn cảnh về giảng dạy và học tập các môn toán học,
khoa học và đọc hiểu, cung cấp những thông tin hữu ích phục vụ hoạch định
chính sách giáo dục và xây dựng, triển khai các chương trình giáo dục. Để đạt
được mục đích này, bên cạnh những thông tin về thành tích giáo dục trên các
lĩnh vực toán, khoa học và đọc hiểu, trong các kỳ thi TIMSS và PIRLS, các
thông tin liên quan về đất nước, trường học, chương trình giảng dạy, môi
trường học tập có khả năng ảnh hưởng đến sự phát triển năng lực và thành tích
học tập của học sinh cũng được thu thập.
1.1.2. Chương trình đánh giá học sinh quốc tế PISA
a. OECD và Chương trình đánh giá học sinh quốc tế PISA
Chương trình đánh giá học sinh quốc tế PISA là một sản phẩm do các
nước thành viên OECD hợp tác xây dựng và phát triển, dưới sự điều phối của
Ban Giáo dục - OECD (Directorate of Education). Mục tiêu của Chương trình
PISA là đánh giá mức độ tiếp thu kiến thức và kỹ năng cần thiết cho việc gia
nhập xã hội tri thức của học sinh độ tuổi chuẩn bị kết thúc giáo dục bắt buộc.
1

Chương trình PISA đánh giá sự thể hiện năng lực của học sinh ở 3 lĩnh
vực trọng yếu là Toán học, Các môn khoa học và Đọc hiểu. Bên cạnh bài thi,
thông qua bảng hỏi và một số câu hỏi đánh giá thái độ trong đề thi, PISA còn
khảo sát động cơ học tập của học sinh, những quan điểm, nhận thức của học
sinh về bản thân mình cũng như những chiến lược học tập của các em. Số liệu
kết quả thi PISA có thể cho ta biết sự khác biệt về năng lực giữa hai giới, hay

giữa những nhóm kinh tế - xã hội khác nhau, đồng thời, việc phân tích tương
quan giữa dữ liệu thu thập từ bảng hỏi và kết quả thi PISA còn phát hiện những
yếu tố tác động đến quá trình học tập, tích lũy và rèn luyện kiến thức, kỹ năng
của học sinh. Những phân tích này rất có ý nghĩa đối với công tác hoạch định
chính sách của mỗi quốc gia/vùng lãnh thổ hay nhóm kinh tế - xã hội.


1
OECD PISA 2006 Brochure: Retrieved from www.oecd.org
b. Thiết kế và xây dựng công cụ đánh giá nhận thức – đề thi PISA
Công việc thiết kế đề thi PISA được đặc trưng bởi sự hợp tác của tất cả
các nước tham gia (thành viên và không phải thành viên OECD). Sự hợp tác thể
hiện đầu tiên ở việc các nước cùng tham gia thảo luận và đi đến thống nhất về
khung thiết kế đề thi của mỗi lĩnh vực. Thứ hai, các nước tự nguyện viết câu
hỏi, đóng góp cho nguồn dữ liệu câu hỏi thi PISA của OECD theo tiêu chí do tổ
chức này đặt ra. Đồng thời, tất cả các nước tham gia được kêu gọi rà soát các
câu hỏi thi do một tổ chức chuyên nghiệp nằm trong liên danh nhà thầu thay
OECD tổ chức chương trình PISA, chịu trách nhiệm phần xây dựng đề thi gửi
đến.
Mỗi lĩnh vực trong đề thi PISA được xây dựng dựa trên một khung thiết
kế đã được thảo luận và thống nhất giữa các nước tham gia. Khung thiết kế cho
chúng ta biết những năng lực nào sẽ được đánh giá, giúp những người tham gia
viết câu hỏi thi xác định các cấu trúc ẩn sau mỗi phần đánh giá. Sau khi đã
thống nhất khung thiết kế đề thi, nhóm chuyên gia bộ môn ở mỗi nước sẽ biên
soạn câu hỏi thi gửi liên danh nhà thầu. Nhóm chuyên gia bộ môn của từng
quốc gia cũng được yêu cầu tham gia rà soát, đóng góp ý kiến cho các câu hỏi
thi. Đóng góp của các nước cho việc xây dựng câu hỏi thi được các chuyên gia
xây dựng đề thi của liên danh nhà thầu sử dụng, thông qua những quy trình kỹ
thuật đặc biệt: quy trình thí nghiệm nhận thức (cognitive laboratory
procedure)

2
. Dạng thức câu hỏi trong đề thi PISA cũng rất đa dạng, không dừng
lại ở những câu trắc nghiệm khách quan mà còn có cả những câu hỏi mở với kỹ
thuật cho điểm từng phần. Câu hỏi của đề thi PISA chính thức là kết quả của cả
sự rà soát bằng phương pháp chuyên gia (đóng góp ý kiến về nội dung, cấu trúc
câu hỏi, những vấn đề tiềm ẩn liên quan đến dịch thuật hay văn hóa …), và
đánh giá chất lượng câu hỏi thi thông qua thử nghiệm, sẽ đảm bảo thu thập
thông tin khá chính xác về năng lực của học sinh.
c. Chọn mẫu trong Chương trình đánh giá PISA
Học sinh dự thi PISA là một mẫu ngẫu nhiên trong toàn bộ học sinh đủ
điều kiện dự thi PISA của một nước. Chương trình PISA sử dụng phương pháp
chọn mẫu hai giai đoạn: giai đoạn 1 là chọn trường và giai đoạn 2 là chọn học
sinh trong từng trường đã được chọn. Ở giai đoạn 1, tất cả các trường có học
sinh đủ điều kiện dự thi PISA (15 tuổi, từ lớp 7 trở lên) được chọn theo xác suất
lựa chọn tỷ lệ với tổng số học sinh đủ điều kiện dự thi trong trường. Khoảng
150 trường sẽ được chọn trong một quốc gia. Giai đoạn 2 là lựa chọn ngẫu
nhiên khoảng 30 học sinh từ mỗi trường đã chọn ở giai đoạn 1.
d. Phân tích số liệu kết quả thi PISA và sử dụng kết quả phân tích
Turner (2009) mô tả vắn tắt bản chất của việc phân tích số liệu kết quả thi
PISA như sau:


2
Turner, R. (2009) PISA: An introduction and overview. In R. Bybee & B. McCrae (Eds), PISA Science 2006: Implications for
Science Teachers and Teaching, pp. 3-14. Arlington, VA: NSTA Press.
Kỹ thuật đưa dữ liệu lên một thang đo đóng vai trò quan trọng hàng đầu,
làm nòng cốt cho hầu hết các phân tích sử dụng dữ liệu kết quả thi PISA. Sử
dụng kỹ thuật này, người ta đặt một số giả thiết sau: mỗi năng lực mà chúng ta
cần đánh giá thể hiện dưới một số nét năng lực cụ thể đã được xác định trong
khung thiết kế đề thi; những mức độ khác nhau của mỗi nét năng lực nằm trên

một đường liên tục, hay hình thành một thang đo. Ta có thể thiết kế câu hỏi thi
gắn với mỗi nét năng lực này, đòi hỏi học sinh phải sử dụng nét năng lực đó để
trả lời các câu hỏi mà ta đã ngụ ý khi thiết kế. Và như vậy, ta có thể phán đoán
mức độ năng lực của một học sinh dựa trên mức độ thành công khi trả lời các
câu hỏi ngụ ý đo năng lực đó.
PISA sử dụng mô hình Rasch để đưa dữ liệu về từng học sinh lên thang
đo, từ đó có thể thực hiện nhiều phép so sánh. Mô hình này sử dụng kết quả trả
lời câu hỏi của học sinh để dự đoán độ khó của các câu hỏi và năng lực của học
sinh có câu trả lời cho các câu hỏi đó. Như vậy, cả câu hỏi và học sinh đều gắn
với một thang đo trung gian được xác định bởi nét năng lực mà ta cần đánh giá.
1.2. Tổng quan các nghiên cứu liên quan
Với sự phát triển của khoa học đo lường đánh giá, các cuộc đánh giá năng
lực trên diện rộng ngày càng được quan tâm phát triển như một hệ quả tất yếu
của tiến trình toàn cầu hóa. Sự xuất hiện của Lý thuyết khảo thí hiện đại và các
mô hình thống kê của nó mang lại những ứng dụng hữu ích, đảm bảo xây dựng
được những công cụ đánh giá đáp ứng cao nhất mục đích các cuộc đánh giá đặt
ra. Những quy trình xây dựng công cụ đánh giá ngày càng được chuẩn hóa, độ
giá trị, độ tin cậy của đề thi và từng câu hỏi thi được đặc biệt quan tâm. Một
trong những yêu cầu kỹ thuật như thế là vấn đề không cho phép câu hỏi thi
mang lại kết quả đánh giá khác nhau một cách có hệ thống giữa các nhóm đối
tượng được dự báo có mức năng lực tương đương nhau.
Tuy ở hầu hết các cuộc đánh giá trên diện rộng, vấn đề câu hỏi thiên kiến
đã được đặt ra và giảm thiểu trong giai đoạn xây dựng công cụ khảo thí, nhiều
nhà nghiên cứu vẫn rất quan tâm đến vấn đề này và tìm kiếm câu trả lời thông
qua các nghiên cứu độc lập.
Grisay và Monseur (2007)
3
đã tiến hành những phân tích thống kê trên
kết quả thi PISA năm 2000 – lĩnh vực đọc hiểu nhằm đo lường sự tương đương
giữa 47 phiên bản (theo 47 ngôn ngữ) của đề thi. Theo tác giả, sự tương đồng

của các câu hỏi thi giữa các phiên bản có thể bị ảnh hưởng nặng nề từ công tác
dịch thuật. Khi đó, một câu hỏi có thể là khó hơn hoặc dễ hơn với một nhóm thí
sinh này hay nhóm thí sinh khác, trong khi cấp độ năng lực đọc hiểu giữa các
nước đó có thể không chênh nhau. Khi có quá nhiều trường hợp như thế xuất
hiện trong một chương trình đánh giá quốc tế, các quốc gia sẽ gánh hậu quả
nặng nề khi sử dụng những kết quả đánh giá không chính xác, độ khó của câu


3
Grisay, A. & Monseur, C. (2007). Measuring equivalence of item difficulties in the various versions of an
international test. Studies in Educational Evaluation, 33(1), 69-86.
hỏi lúc này không phản ánh chính xác năng lực đọc hiểu của thí sinh trên thang
năng lực.
Sử dụng các phép phân tích hồi quy logit của Lý thuyết trả lời câu hỏi
(Item Response Theory – IRT) để đánh giá độ khó của câu hỏi, dựa trên số liệu
kết quả thi PISA, Grisay và Monseur (2007) đã chỉ ra một tỉ lệ nhất định các
câu hỏi có tính chất DIF (câu hỏi thực hiện chức năng khác biệt) tồn tại giữa
các quốc gia/nhóm quốc gia (phân chia theo tiêu chí của tác giả).
Từ những kết quả nghiên cứu, nhóm tác giả đưa ra một số đề xuất nhằm
cải thiện, nâng cao tính tương đương của đề thi trong những kỳ thi tới, đặc biệt
lưu ý tới công tác tổ chức dịch thuật và thích nghi hóa đề thi ở các quốc gia sử
dụng chung một ngôn ngữ.
Bên cạnh tác động của công tác dịch thuật, những nhân tố về văn hóa và
thói quen sử dụng ngôn ngữ (một cách diễn đạt quen thuộc ở ngôn ngữ này
nhưng lại không quen thuộc ở ngôn ngữ khác) cũng đã được phát hiện có thể là
nguyên nhân làm cho câu hỏi thi PISA có độ khó khác nhau giữa một số quốc
gia tham gia. Wu (2009)
4
trong một nghiên cứu nhằm so sánh mối tương đồng
về mặt nội dung của các bài thi toán giữa hai chương trình PISA và TIMSS

(Chương trình đánh giá quốc tế năng lực toán học và khoa học), đã chỉ ra những
ví dụ cụ thể. Quay trở lại phân tích ngôn ngữ sử dụng trong câu hỏi thi, tác giả
đã phát hiện, sở dĩ có kết quả trên là do sự chuyển tải ngôn ngữ từ tiếng Anh
sang tiếng Trung Quốc của một cụm từ trong câu hỏi. Việc dịch thuật hoàn toàn
sát nghĩa, tuy nhiên cách diễn đạt đó không quen thuộc trong tiếng Trung Quốc.
Tiến hành phân tích tương tự với hai nhóm quốc gia: phương Tây (bao
gồm Úc, Anh, Mỹ) và phương Đông (bao gồm Hong Kong, Nhật Bản, Hàn
Quốc), tác giả cũng tìm thấy một số câu hỏi có độ khó và độ phân biệt khác
nhau giữa hai nhóm nước này. Hơn nữa, độ phân biệt của câu hỏi này với học
sinh ba nước phương Tây cũng thấp hơn học sinh ba nước phương Đông. Trở
lại với bối cảnh câu hỏi, tác giả bình luận: liệu bối cảnh có ảnh hưởng đến sự
khác biệt về độ khó câu hỏi giữa hai nhóm học sinh này; phải chăng học sinh
phương Tây làm đúng câu hỏi này không phải do kiến thức học được ở trường
mà do chủ đề này quen thuộc trong cuộc sống hàng ngày của chúng, còn với
nhóm học sinh ba nước phương Đông thì ngược lại.
Mở rộng nghiên cứu năm 2007 của mình, năm 2009, Grisay và Monseur
đã cùng với Gonzalez đánh giá sự tương đương về độ khó của các câu hỏi thi
lĩnh vực đọc hiểu thuộc hai chương trình đánh giá quốc tế PIRLS và PISA, giữa
các phiên bản dịch của các nước tham gia
5
. Lặp lại các bước phân tích với kết


4
Wu, M. (2009). A critical comparison of the contents of PISA and TIMSS mathematics assessments. Downloaded
from the webite: www.edinformatics.com/timss/TIMSS_PISA_test.htm
5
Grisay, A. Gonzalez, E. & Monseur, C. (2009). Equivalence of item difficulties across national versions of the PIRLS
and PISA reading assessment. IERI monograph series: Issues and methodologies in large-scale assessment, Vol.2, 63-
83.

quả thi PIRLS
6
, các tác giả đã chỉ ra một kết quả tương tự như các câu hỏi thi
đọc hiểu thuộc chương trình PISA: độ khó câu hỏi giữa các phiên bản không
khác biệt nhau nhiều. Tỷ lệ khác biệt còn lại gắn liền với ngôn ngữ sử dụng cho
công cụ khảo sát. Từ các lý giải liên quan đến ngôn ngữ và văn hóa được cho là
nguyên nhân dẫn đến độ khó câu hỏi khác nhau giữa các nhóm quốc gia, các tác
giả cho rằng các công cụ đánh giá trong các cuộc khảo sát trên diện rộng mang
tầm quốc tế như PIRLS hay PISA vẫn cần tiếp tục hoàn thiện về phương diện
nhạy cảm văn hóa và quy trình dịch thuật, đặc biệt đối với các phiên bản thuộc
các nhóm ngôn ngữ khác biệt hoàn toàn so với ngôn ngữ gốc của công cụ đánh
giá.
Tại Hội đồng nghiên cứu giáo dục Úc – tổ chức chịu trách nhiệm xây
dựng đề thi và phân tích kết quả đánh giá trong liên danh các nhà thầu quốc tế
thực hiện Chương trình đánh giá quốc tế PISA, nhà nghiên cứu, TS. Luc T. Le
đã có những nghiên cứu và công bố khoa học quan trọng về câu hỏi thực hiện
chức năng khác biệt - nguy cơ tiềm ẩn câu hỏi thi thiên kiến đối với một nhóm
đối tượng nhất định, và tạo thuận lợi ghi điểm cho nhóm đối tượng khác. Một
trong số đó là nghiên cứu phát hiện câu hỏi trong lĩnh vực khoa học thực hiện
chức năng khác biệt giữa hai giới ở một số nước và một số ngôn ngữ đánh giá
7
.
Tác giả tính toán giá trị DIF giữa các hai nhóm nam và nữ của từng quốc
gia và từng ngôn ngữ, tìm kiếm các câu hỏi có giá trị DIF đủ lớn và so sánh tỷ
lệ các câu hỏi có DIF đủ lớn giữa các nhóm ngôn ngữ và nhóm quốc gia. Với
các nhóm ngôn ngữ, nghiên cứu chỉ ra rằng: trung bình có 5,6% số câu hỏi khoa
học ưu ái nhóm học sinh nam và 2,8% câu hỏi ưu ái nhóm học sinh nữ. Đi vào
từng ngôn ngữ, tỷ lệ câu hỏi ưu ái nhóm học sinh nam hơn, hoặc ưu ái nhóm
học sinh nữ hơn càng tăng cao, cá biệt có những nhóm ngôn ngữ tỷ lệ này lên
đến 49%. Chỉ có khoảng 7% số câu hỏi hoàn toàn không bị ảnh hưởng bởi yếu

tố ngôn ngữ. Tóm lại, ngôn ngữ sử dụng để đánh giá thực sự là một vấn đề cần
lưu tâm đối với các chương trình đánh giá trên diện rộng để đảm bảo độ tin cậy
và độ giá trị của công cụ đánh giá năng lực.
Chúng ta đã biết, trong các chương trình đánh giá quốc tế như PISA,
TIMSS, PIRLS, bên cạnh bộ công cụ đánh giá năng lực học sinh, thông tin về
phong cách học tập, thái độ làm bài thi của học sinh cũng được thu thập nhằm
mang lại những kết luận đánh giá xác thực nhất về năng lực của học sinh. Cũng
giống như đề thi, những công cụ thu thập thông tin khảo sát này luôn được các
tổ chức khảo thí nghiên cứu xây dựng công phu để đảm bảo độ giá trị của công
cụ, giảm thiểu những thiên kiến của học sinh khi trả lời câu hỏi.


6
PIRLS – Progress in International Reading Literacy Studies: Chương trình đánh giá kỹ năng đọc hiểu quốc tế, đối
tượng khảo sát là học sinh lớp 4.
7
Le, Luc T. (2009). Investigating Gender Differential Item Functioning Across Countries and Test Languages for PISA
Science Items. International Journal of Testing, 9:2, 122 – 133.
Sử dụng mô hình Rasch và dữ liệu từ kỳ thi thử PISA 2006, Walker
(2007)
8
đã chỉ ra: tồn tại một mối tương quan giữa văn hóa và xu hướng trả lời
các câu hỏi khảo sát thiết kế theo thang Likert ở học sinh dự thi PISA. Một câu
hỏi khảo sát về sự yêu thích các môn khoa học của học sinh, với thang đo từ
hoàn toàn không đồng ý, không đồng ý, phân vân, đồng ý, hoàn toàn đồng ý, thì
việc lựa chọn câu trả lời không hoàn toàn bị chi phối bởi niềm yêu thích môn
khoa học của học sinh mà có phần nào từ yếu tố văn hóa nền của học sinh đó.
Tóm lại, cho dù đã được xây dựng công phu, các công cụ đánh giá chuẩn
hóa dùng trong các chương trình đánh giá năng lực học sinh quốc tế như
TIMSS, PIRLS, PISA vẫn không thể không tránh khỏi nguy cơ gây nên hiện

tượng thiên kiến, có thể dẫn tới kết quả đánh giá không phản ánh hoàn toàn
chính xác năng lực của học sinh. Hiện tượng này đặc biệt dễ xảy ra với các
chương trình đánh giá quốc tế bởi sự tham gia của nhiều nước, nhiều vùng lãnh
thổ, có các điều kiện kinh tế, chính trị, xã hội, văn hóa rất khác nhau, và hơn cả
là bởi công cụ đo được dịch thuật từ ngôn ngữ gốc sang các ngôn ngữ giảng dạy
ở các nước.
Việt Nam năm 2012 lần đầu tiên tham gia Chương trình đánh giá học sinh
quốc tế PISA. Là một nước đang phát triển có chỉ số phát triển con người ở
mức trung bình (theo số liệu thống kê của Chương trình phát triển Liên hợp
quốc – UNDP), không thuộc khối OECD, và có nền văn hóa với nhiều đặc
trưng khác biệt so với các nước phương Tây, một vấn đề cần quan tâm liên
quan đến việc Việt Nam tham gia Chương trình PISA là liệu câu hỏi thi PISA
có tiềm ẩn những nguy cơ thiên kiến với các nhóm nước có điều kiện kinh tế -
xã hội, văn hóa, ngôn ngữ tương đồng với Việt Nam.
Ở phạm vi thực hiện luận văn tốt nghiệp chương trình đào tạo Thạc sĩ
chuyên ngành Đo lường và Đánh giá trong Giáo dục, Đề tài có tên “Nghiên
cứu mức độ đáp ứng của học sinh các nước không thuộc khối OECD và
học sinh Việt Nam với Chương trình đánh giá quốc tế PISA” sẽ bước đầu
chỉ ra những dẫn chứng thống kê, chứng minh cho khả năng tồn tại hoặc không
tồn tại những nguy cơ tiềm ẩn gây nên tính thiên kiến của các câu hỏi thi PISA
với học sinh Việt Nam. Kết quả nghiên cứu sẽ là cơ sở cho những nghiên cứu
sâu và rộng hơn về tình trạng thiên kiến, nguyên nhân và giải pháp khắc phục,
đặc biệt trong giai đoạn dịch thuật và thích nghi hóa tài liệu thi PISA.

Chương II: LÝ THUYẾT ĐÁNH GIÁ
2.1. Khái niệm đánh giá trong giáo dục
Theo Griffin (1993)
9
, đánh giá là một sự mô tả, bao gồm các hoạt động
thu thập thông tin minh chứng về thành quả học tập của học sinh và diễn giải ý

nghĩa thông tin minh chứng đó, MÔ TẢ thành quả học tập của học sinh dựa


8
Walker, M. (2007). Amelioting culturally based extreme response tendencies to attitude items. Journal of Applied
Measurement, 8(3), 267-278.
9
Griffin, P. (1993). Program Development and Evaluation. Assessment Research Centre. RMIT Coburg. Australia.
trên sự diễn giải. Định nghĩa này nói lên bản chất của hoạt động đánh giá mà
không đề cập mục đích của hoạt động.
Với tác giả Đỗ Công Tuất (2000)
10
thì “đánh giá là quá trình hình thành
những nhận định, phân đoán về kết quả của công việc, dựa vào sự phân tích
những thông tin thu được, đối chiếu với những mục tiêu, tiêu chuẩn đã đề ra,
nhằm đề xuất những quyết định thích hợp để cải tạo thực trạng, điều chỉnh nâng
cao chất lượng và hiệu quả công việc”. Định nghĩa này có lẽ đã nghiêng về khái
niệm đánh giá – evaluation, với bản chất nổi bật là nhận định và phán đoán.
Tác giả cũng đã đề cập mục tiêu cuối cùng của hoạt động đánh giá là điều chỉnh
nâng cao chất lượng và hiệu quả.
Chương trình hiệu quả dạy học thuộc Trung tâm dạy và học, Đại học
Oregon
11
, Canada lại đưa ra định nghĩa: “đánh giá là quá trình thu thập và thảo
luận về thông tin từ nhiều nguồn khác nhau nhằm có được một sự hiểu biết sâu
sắc về những điều người học biết, hiểu và có thể làm với kiến thức của mình,
như là kết quả của quá trình học tập của học; đỉnh điểm của quá trình đánh giá
là kết quả đánh giá được sử dụng để nâng cao chất lượng hoạt động học sẽ diễn
ra tiếp theo”. Định nghĩa không đề cập bản chất của quá trình đánh giá là xử lý
thông tin thu thập được, nhưng đã cho một khái niệm cụ thể, theo đó mục tiêu

cuối cùng, cao nhất của hoạt động đánh giá đã được nêu rõ: nâng cao chất
lượng học tập.
Định nghĩa sau được cho là khá hoàn chỉnh khi đề cập tương đối đầy đủ
những ý nghĩa trên của hoạt động đánh giá:
Đánh giá trong giáo dục được định nghĩa là quá trình thu thập thông tin để đưa ra
những quyết định giáo dục liên quan tới học sinh, để phản hồi cho học sinh về sự
tiến bộ, những điểm mạnh và điểm tồn tại trong học tập của chúng, để đưa ra
phán quyết về hiệu quả của công tác giảng dạy và sự phù hợp của chương trình
đào tạo, và cuối cùng là để cung cấp thông tin xây dựng chính sách. (AFT,
NCME, NEA, 1990: 1)
12

2.2. Các dạng thức đánh giá
2.2.1. Đánh giá tổng kết và đánh giá quá trình
Michael Scriven (1967) đưa ra các khái niệm đánh giá quá trình
(formative assessment) và đánh giá tổng kết (summative assessment). Từ kinh
nghiệm nghiên cứu về tâm lý học, Scriven nhận thấy cốt lõi của hoạt động đánh
giá đúng là đo lường, nhận xét về giá trị của một con người, một sự kiện, hiện
tượng … Tuy nhiên, cách người ta sử dụng kết quả đánh giá thì hoàn toàn
không giống nhau. Gắn với hoạt động đánh giá trong dạy học, sau này nhiều
nhà nghiên cứu khác như Reedy (1995)
13
; Raths and Lyman (2003)
14
; Stiggins


10
Đỗ Công Tuất. (2000). Giáo trình Đánh giá trong giáo dục. Trường Đại học An Giang.
11

.
12
AFT (Liên đoàn giáo viên Hoa Kỳ), NCME (Hội đồng quốc gia về đo lường trong giáo dục), NEA (Hiệp hội giáo dục quốc gia).
(1990). Teacher Competence in Educational Assessment of Students. USA
13
Reedy, R. (1995). Formative and Summative Assessment: A Possible Alternative to the Grading - Reporting Dilemma. NASSP
Bullentin. 79: 47 - 51.
(2005)
15
; Chappuis & Chappuis (2007; 2008)
16
; Taras (2008)
17
đều thống nhất
rằng đánh giá quá trình hay đánh giá tổng kết, tên gọi của nó không phụ thuộc
bản thân hoạt động đánh giá mà phụ thuộc cách người ta sử dụng kết quả đánh
giá. Một cách khái quát, có thể hiểu:
- Đánh giá tổng kết là khi kết quả đánh giá được sử dụng để đi đến một
nhận định mang tính đo lường, chẳng hạn như cho điểm người học, đo
lường hiệu quả của chương trình đào tạo, hay mức độ thành công của nhà
trường;
- Đánh giá quá trình diễn ra ngay trong quá trình đào tạo, cung cấp thông
tin cho người học và người dạy nhằm cải tiến, điều chỉnh hoạt động dạy
và học của họ cho phù hợp hơn.
Một cách diễn đạt đơn giản hơn, đánh giá quá trình là đánh giá CHO hoạt
động học (assessment FOR learning), còn đánh giá tổng kết là đánh giá CHÍNH
hoạt động học (assessment OF learning).
2.2.2. Đánh giá tham chiếu tiêu chí và đánh giá tham chiếu nhóm chuẩn
Lịch sử ngành khoa học đánh giá chứng kiến một cách phân loại các bài
kiểm tra/thi đánh giá năng lực người học dựa trên sự tham chiếu nội dung khi

thiết kế đề thi/kiểm tra, đó là: đề thi/kiểm tra tham chiếu nhóm chuẩn (norm-
referenced tests) và đề thi/kiểm tra tham chiếu tiêu chí (criterion-referenced
tests).
Theo Kubiszyn & Borich (2003)
18
, một bài thi tham chiếu nhóm chuẩn sẽ
cung cấp cho ta thông tin về vị trí của một thí sinh so với các thí sinh khác, tức
là cho ta thông tin về thứ hạng của thí sinh.
Với bài thi tham chiếu theo tiêu chí, kết quả đánh giá sẽ cho ta thông tin
về cấp độ một thí sinh làm chủ những kiến thức, kỹ năng nhất định mà cuộc
đánh giá quan tâm. Ở đây, năng lực của thí sinh không được so sánh với mức
độ trung bình của mẫu đánh giá mà so sánh với một chuẩn đã xác định – gọi là
tiêu chí.
2.2.3. Đánh giá dựa trên chương trình và Đánh giá dựa trên năng lực
Đánh giá dựa trên chương trình (CBA – Curriculum Based Assessment),
theo Deno (1987) là “một tập hợp các quy trình đo lường, trong đó hoạt động
học tập của học sinh trong một chương trình đào tạo được trực tiếp quan sát và
ghi chép lại, và được sử dụng làm cơ sở để giáo viên đưa ra những quyết định
trong quá trình dạy học” (in Hall & Mengel, 2002)
19
. Đánh giá dựa trên chương


14
Raths, J. & Lyman, F. (2003). Summative Evaluation of Student Teachers: An Enduring Problem. Journal of Teacher Education.
54: 206-216.
15
Stiggins, R. (December 2005). From Formative Assessment to Assessment FOR Learning: A Path to Success in Standards- Bases
Schools. Phi Delta Kappan. 87(4): 324-328.
16

Chappuis, A. & Chappuis, J. (December 2007-January 2008). The Best Value in Formative Assessment. Educational Leadership.
Informative Assessment. 65(4): 14 - 19.
17
Taras, M. (2008). Summative and Formative Assessment: Perceptions and realities. Active Learning in Higher Education. 9(2):
172 - 192.
18
Kubiszyn, T. & Borich, G. (2003). Educational Testing and Measurement: Classroom Application and Practice. John Wiley &
Sons, Inc. Singapore.
19
Hall, T. & Mengel, M. (June 2002). Curriculum-Based Evaluations. NCAC Effective Classroom Practices. NCAC. USA
downloaded from NCAC website on 11 July 2010.
trình là một hình thức đánh giá liên tục, trong đó hoạt động hàng ngày của học
sinh liên quan đến nội dung giảng dạy được theo dõi định kỳ.
Đánh giá dựa trên năng lực (Competence – based assessment), theo Grant
et al (1979) “là loại hình đánh giá được xây dựng dựa trên một bảng trọng số
các kết quả đầu ra; các kết quả đầu ra mong đợi, khái quát và cụ thể được đề
cập rõ ràng, giúp người đánh giá, học sinh và các đối tượng quan tâm đưa ra
những phán quyết tương đối khách quan về việc học sinh đạt được hay không
đạt được kết quả đầu ra mong muốn; đồng thời chứng nhận sự tiến bộ của học
sinh thông qua việc học sinh thể hiện được đến đâu những kết quả mong đợi
này.
2.2.4. Hệ thống đánh giá và vai trò, vị trí của khảo sát/đánh giá trên diện
rộng
Hệ thống đánh giá đã được TS. Anil Kanjee
20
khái quát bao gồm 4 cấu
phần: Đánh giá trong lớp học, các kỳ thi nội bộ, các kỳ thi bên ngoài, và các
cuộc khảo sát/đánh giá trên diện rộng. Các hoạt động đánh giá thuộc cả 4 cấu
phần đều lấy việc thu thập và sử dụng thông tin minh chứng làm trung tâm.
Đánh giá trên diện rộng không tập trung tìm kiếm thông tin về năng lực

của từng thí sinh mà dựa trên kết quả đánh giá của toàn thể thí sinh trong mẫu
đại diện, cuộc đánh giá cung cấp thông tin về trình độ năng lực hay kết quả học
tập của cả một hệ thống (hay một bộ phận của hệ thống) giáo dục. Kết quả
những cuộc khảo sát/ đánh giá trên diện rộng như PISA, TIMSS, PIRLS,
FASEC, SACMEQ
21
là cơ sở quan trọng để chính phủ xem xét điều chỉnh,
hoạch định chính sách giáo dục cho phù hợp.
2.3. Lý thuyết khảo thí cổ điển và Lý thuyết trả lời câu hỏi
2.3.1. Lý thuyết khảo thí cổ điển
Lý thuyết khảo thí cổ điển giới thiệu ba khái niệm cơ bản: điểm đánh giá
(là điểm số thu được căn cứ trên kết quả làm bài thi của một cá nhân), điểm
thực (là điểm phản ánh năng lực của cá nhân) và điểm sai số (là một giá trị sai
số ngẫu nhiên, không liên quan đến năng lực của cá nhân). Với ba khái niệm về
điểm số như trên, những mô hình lý thuyết khác nhau đã được phát triển, trong
đó có một mô hình phổ biến nhất, vẫn thường được gọi là “mô hình khảo thí cổ
điển”. Mô hình này giả định: điểm đánh giá (điểm thô, điểm mà ta quan sát
được, ký hiệu X) bao gồm hai cấu phần: điểm thực (ký hiệu T) và điểm sai số
(ký hiệu E):
X = T + E (II.3-1)
Như vậy, với mỗi thí sinh, điểm thực (T) và điểm sai số (E) là các thành
phần không thể xác định. Để xác định T và E, người ta đặt ra ba giả thiết quan
trọng:
- Điểm thực và điểm sai số không tương quan với nhau;


20
TS. Anil Kanjee, chuyên gia đánh giá thuộc nhóm tư vấn kỹ thuật Chương trình READ. Báo cáo tại cuộc họp READ toàn cầu năm
2009.
21

PASEC: Program on the Analysis of Education Systems; SACMEG: Southern and Eastern African Consortium for Monitoring
Educational Quality.
- Với một tập hợp mẫu thí sinh dự thi, giá trị trung bình của điểm sai số của
các thí sinh bằng không;
- Điểm sai số trên các bài thi tương đương không tương quan với nhau.
2.3.2. Lý thuyết trả lời câu hỏi và Mô hình RASCH
Lý thuyết trả lời câu hỏi
Lý thuyết trả lời câu hỏi, theo cách định nghĩa của Hambleton & Jones
(1993), là một lý thuyết thống kê tổng quát về kết quả làm bài của một cá nhân
ở cấp độ bài thi và cấp độ câu hỏi, và mối liên hệ giữa kết quả làm bài với các
nét năng lực đang được đo lường của người dự thi. Nói cách khác, Lý thuyết trả
lời câu hỏi đã mô hình hóa mối quan hệ giữa một biến ta không thể quan sát
(thường được khái niệm hóa là năng lực của người dự thi) và xác suất mà tại đó
thí sinh trả lời đúng một câu hỏi (Harris, 1989)
22
. Đơn giản hơn, như được đề
cập trong Wu & Adams (2007)
23
, nội dung chính của Lý thuyết trả lời câu hỏi là
sử dụng mô hình toán học để dự đoán xác suất trả lời đúng một câu hỏi, dựa
trên chỉ số về năng lực của người trả lời và độ khó của câu hỏi. Xác suất trả lời
đúng một câu hỏi của các đối tượng trả lời khác nhau được biểu diễn dưới một
đường cong gọi là đường cong đặc tính câu hỏi (Item Characteristic Curve –
ICC).
Có ba mô hình Lý thuyết trả lời câu hỏi đang được sử dụng phổ biến: Mô
hình 1 thông số, mô hình 2 thông số, và mô hình 3 thông số. Cả ba mô hình là
các hàm số cho phép tính toán xác suất P để một thí sinh có năng lực β trả lời
đúng một câu hỏi có độ khó δ. Với mô hình 2 thông số, xác suất P(β) có thêm
sự can thiệp của chỉ số về độ phân biệt của câu hỏi. Thông số thứ ba trong mô
hình 3 thông số, có ảnh hưởng đến xác suất trả lời đúng P(β) là một chỉ số cho

phép những thí sinh thậm chí với năng lực thấp vẫn có cơ hội trả lời đúng
những câu hỏi có độ khó trung bình trở lên (chẳng hạn: có dấu hiệu gợi ý hoặc
khuyến khích đoán mò).
Mô hình Lý thuyết trả lời câu hỏi 1 thông số mà ta nhắc đến trên đây
được Georg Rasch giới thiệu năm 1960, và cũng được gọi là Mô hình Rasch.
Mô hình Rasch
Mô hình Rasch biểu diễn dưới hình thức một hàm số toán học có dạng
như sau:
Với một cá nhân v có năng lực , tham gia trả lời câu hỏi i có độ khó
và là một câu hỏi có kiểu cho điểm đúng hoặc sai, thì xác suất để cá nhân v trả
lời đúng câu hỏi i là:





22
Harris, D. (1989). Comparison of 1-, 2-, and 3-paramater ITR models. A module in NCME Series of Instructional Topics in
Educational Measurement. NCME Journal of Educational Measurement: Issues and Practices. p.35-41.
23
Wu, M. & Adams, R. (2007). Applying the Rasch Model to Psycho-social Measurement: A Practical Approach. Tài liệu tập huấn
Thiết kế công cụ đánh giá do Ngân hàng thế giới phối hợp với ACER tổ chức năm 2007-2008 tại Việt Nam.
II.3-2

Công thức II.3-2 cho thấy xác suất trả lời đúng một câu hỏi về bản chất
phụ thuộc sự khác biệt giữa năng lực của thí sinh và độ khó của câu hỏi. Khi
năng lực của thí sinh trùng với độ khó của câu hỏi, thì xác suất trả lời đúng là
0.5.
2.4. Ứng dụng Lý thuyết trả lời câu hỏi trong thiết kế công cụ khảo thí
Trong bối cảnh các cuộc khảo sát đánh giá trên diện rộng ngày càng phát

triển như hiện nay, chúng ta càng thấy rõ ý nghĩa to lớn của việc ứng dụng các
mô hình khảo thí hiện đại bởi các công cụ khảo thí chuẩn hóa được xem là công
cụ tối ưu cho việc thu thập thông tin đánh giá trong các kỳ khảo sát trên diện
rộng này.
Đề thi chuẩn hóa (đánh giá kết quả học tập) là các các đề thi được xây
dựng bởi các chuyên gia khảo thí, có sự tham gia trợ giúp của các chuyên gia về
chương trình/lĩnh vực chuyên môn, giáo viên và các nhà quản lý giáo dục,
nhằm đo lường cấp độ năng lực của người học, tham chiếu năng lực của những
học sinh khác càng lứa tuổi, cùng khối lớp, hoặc tham chiếu những tiêu chuẩn,
tiêu chí nhất định về năng lực (Kubiszyn & Borich, 2003). Những đề thi như
trên thường mất cả năm để xây dựng, chuẩn hóa không những về nội dung, các
yêu cầu về thông số kỹ thuật của từng câu hỏi và tổng thể đề thi mà còn chuẩn
hóa cả về cách thức tổ chức thi, tổ chức chấm điểm, sao cho các quy trình tổ
chức thi và tổ chức chấm điểm cụ thể và đồng nhất ở tất cả các điểm thi. Nhờ sự
chuẩn hóa và nhất quán như trên, sai số đo lường do khâu tổ chức thi và chấm
điểm sẽ giảm đáng kể. Nghiên cứu quy trình xây dựng công cụ đánh giá, quy
trình dịch thuật đề thi, quy trěnh tổ chức thi, tổ chức chấm điểm của Chương
trình PISA, có thể thấy đây là một điển hình của cuộc đánh giá trên diện rộng sử
dụng công cụ khảo thí chuẩn hóa.
Các mô hình của Lý thuyết hồi đáp làm thay đổi về cơ bản kỹ thuật thực
hiện các bước xây dựng đề thi có liên quan trực tiếp đến việc đưa ra một đề thi
có chất lượng: đảm bảo độ giá trị về nội dung, độ khó, và độ phân biệt ; và sử
dụng kết quả đánh giá: định chuẩn, giải nghĩa năng lực của học sinh, so sánh
giữa các nhóm xã hội
Trong bước thử nghiệm câu hỏi, mô hình Rasch được ứng dụng trong hai
phân tích cơ bản: một là xác định những đặc tính/thông số kỹ thuật của từng
câu, và hai là sử dụng đặc điểm về sự phù hợp mô hình để loại bỏ những câu
hỏi không phù hợp (không thuộc cấu trúc cần đánh giá). Sở dĩ có ứng dụng thứ
nhất là nhờ ưu thế không phụ thuộc mẫu của mô hình Rasch. Tuy nhiên, cũng
cần lưu ý mẫu thử nghiệm phải đủ lớn và tương đối đồng nhất để đảm bảo

mang lại những thông số kỹ thuật tin cậy về từng câu hỏi.
2.5. Độ giá trị của đề thi và tính thiên kiến của câu hỏi thi
2.5.1. Độ giá trị
Độ giá trị của đề thi, theo Wiersma & Jurs (1990) là đặc tính cho phép đề
thi đo được những nét năng lực ẩn mà ta dự định đo và đáp ứng hiệu quả mục
đích đã đề ra của cuộc đánh giá. Chẳng hạn, từ kết quả thi ta có thể đọc
được/mô tả được kỹ năng của người dự thi, hoặc dự đoán được những thành tựu
trong tương lai của người dự thi.
Theo một cách phân loại độ giá trị đã được chấp nhận rộng rãi từ 1974
của Hiệp hội Tâm lý Hoa Kỳ, có 3 loại độ giá trị của công cụ đo lường: giá trị
nội dung (mức độ đại diện của nội dung đề thi cho một khối kiến thức/kỹ năng),
giá trị theo tiêu chí (khả năng dự đoán năng lực trong tương lai của thí sinh
hoặc giải thích những năng lực khác có liên quan ở thời điểm hiện tại của thí
sinh), và giá trị cấu trúc (các câu hỏi dự định để đo cùng một nét năng lực thì
cần đảm bảo những đặc tính tâm lý học nhất định) (Gronlund, 1982)
24
.
2.5.2. Tính thiên kiến của câu hỏi thi và phát hiện câu hỏi thiên kiến
Trước hết, cần làm rõ một số khái niệm liên quan khi phân tích tìm kiếm
tính thiên kiến câu hỏi thi: tính thiên kiến của câu hỏi (item bias), câu hỏi thực
hiện chức năng khác biệt (differential item functioning – DIF), tác động của
câu hỏi (item impact). Những khái niệm này được tổng hợp từ Zumbo (1999),
Clauser và Mazor (1998), Pedrajita và Talisayon (2009)
25
.
- Tính thiên kiến của câu hỏi: xảy ra khi một nhóm thí sinh này ít khả năng
trả lời đúng câu hỏi hơn một nhóm thí sinh khác bởi vì câu hỏi hoặc điều
kiện tổ chức thi có một đặc điểm nào đó không phù hợp với mục đích của
bài thi.
- Câu hỏi thực hiện chức năng khác biệt (DIF): DIF là hiện tượng thí sinh

với cùng một cấp độ năng lực, thuộc các nhóm khác nhau có xác suất trả
lời đúng một câu hỏi khác nhau, dưới cùng một sự kiểm soát điều kiện
thi.
- Tác động của câu hỏi: là dấu hiệu cho thấy thí sinh thuộc các nhóm khác
nhau có xác suất trả lời đúng một câu hỏi khác nhau bởi vì thực sự giữa
các nhóm có sự khác biệt về năng lực cần đo;
Trong nhiều thập niên qua, đặc biệt với sự xuất hiện của Lý thuyết hồi
đáp, DIF đã được phổ biến sử dụng là phép thống kê phát hiện khả năng câu hỏi
thi thiên kiến. Tất nhiên, ngoài kết quả phân tích thống kê, cần có những sự rà
soát, đánh giá khác để kết luận về câu hỏi thiên kiến. Nhưng, kết quả DIF là
điều kiện cần thiết. Câu hỏi mang tính chất DIF có thể là câu hỏi thiên kiến, và
câu hỏi không mang tính chất DIF chắc chắn không thiên kiến.
Tại sao phân tích DIF bằng các mô hình Lý thuyết trả lời câu hỏi lại được
sử dụng rộng rãi. Bởi vì, với việc sử dụng các thông số đặc trưng của câu hỏi
trong các mô hình thống kê, lý thuyết hồi đáp đã mang lại một khung thống kê
toàn diện và đơn giản, dễ dàng đồ thị hóa.
Ta đã biết, một đường đặc trưng câu hỏi (ICC) được quy định bởi ba
thông số cơ bản của câu hỏi, không phụ thuộc mẫu khảo sát: độ phân biệt, độ
khó và yếu tố gây gợi ý/đoán mò (thường được ký hiệu lần lượt là a, b, c). Một


24
Gronlund, E.N. (1982). Constructing Achivement Test. USA: Prentice-Hall, Inc.
25
Pedrajita, Q.J. & Talisayon, M.V. (2009). Identifying Biased Test Items by Differential Item Functioning Analysis Using
Contingency Table Approaches: A Comparative Study. Education Quarterly, 67(1), 21-43. U.P. College of Education. University of
Philippines, Duliman.
câu hỏi, nếu đảm bảo được sự công bằng giữa hai nhóm đối tượng khác nhau,
thì đường ICC của hai nhóm phải hoàn toàn trùng nhau (về mặt lý thuyết).
Những kết quả khác biệt giữa hai nhóm, chỉ một trong ba thông số trên (hoặc

2/3, hoặc cả 3) đều dẫn đến hai đường ICC của hai nhóm không còn trùng nhau.
Như vậy, phân tích sử dụng các mô hình lý thuyết hồi đáp (hay trong một
số tài liệu khác: phân tích hồi quy logit) đã dễ dàng sơ đồ hóa các đường ICC,
giúp các nhà nghiên cứu dễ dàng phát hiện một câu hỏi có tính chất DIF hay
không. Đây cũng là lý thuyết trọng tâm mà đề tài sử dụng để phát hiện hiện
tượng DIF của câu hỏi thi PISA giữa các nhóm thí sinh, phân theo chủ đích
nhằm hướng tới, làm tiền đề cho việc nghiên cứu sự phù hợp của Chương trình
PISA với học sinh Việt Nam.
Chương III. KẾT QUẢ NGHIÊN CỨU VÀ BÀN LUẬN
3.1. Mô tả phương pháp và các quy trình, thủ tục nghiên cứu
3.1.1. Mô tả các bộ số liệu
Kỳ thi PISA năm 2006 có 57 nước/vùng lãnh thổ tham gia, trong đó 30
nước/vùng lãnh thổ thuộc khối OECD; 44 quốc gia/vùng lãnh thổ có chỉ số phát
triển con người (Human Development Index – HDI) cao và 9 quốc gia có HDI
trung bình, không có quốc gia nào có HDI thuộc nhóm thấp (thống kê năm
2005)
26
. Một điều cần đặc biệt lưu ý là tất cả các nước thuộc khối OECD đều có
HDI cao. Cũng trong 57 thành viên tham gia PISA 2006 có 13 quốc gia/vùng
lãnh thổ đến từ châu Á, tuy nhiên 3/13 không có thống kê HDI.
Lĩnh vực khảo sát chỉnh của kỳ thi PISA 2006 là khoa học. Đề thi có tổng
cộng 341 câu hỏi cho cả 3 lĩnh vực: khoa học, toán và đọc hiểu. Các hình thức
câu hỏi phổ biến là câu hỏi trả lời Đúng/Sai, lựa chọn trả lời đúng, lựa chọn trả
lời đúng phức hợp (ghép đôi), câu hỏi yêu cầu viết câu trả lời ngắn. Bên cạnh
bộ dữ liệu là bảng mã hóa để chấm điểm. Tất cả các kiểu trả lời của thí sinh đều
được số hóa khi nhập vào file dữ liệu. Tổng số trường hợp trên file dữ liệu gốc
là 398.750 và số biến là 337.
Bộ số liệu thi thử PISA ở Việt Nam năm 2010 bao gồm 1866 trường hợp
đến từ 10 tỉnh: Lạng Sơn, Hải Phòng, Hải Dương, Lâm Đồng, Đồng Nai, An
Giang, Đắc Nông, Gia Lai, Thanh Hóa, Yên Bái. Đề thi bao gồm 18 bài, 87 câu

hỏi.
3.1.2. Quy trình nghiên cứu và các thủ tục xử lý số liệu
Để phù hợp với nội dung chương trình đào tạo, đề tài lựa chọn phương
pháp ứng dụng mô hình Rasch (một mô hình trong Lý thuyết trả lời câu hỏi) với
sự hỗ trợ của phần mềm CONQUEST để tiến hành các phân tích tìm kiếm câu
hỏi mang tính chất DIF.
Với từng cặp so sánh, phần mềm CONQUEST sẽ tính toán các giá trị cơ
bản bao gồm:
(1) Tính toán độ khó câu hỏi trên từng nhóm đối tượng trong cặp so sánh;


26
Theo Báo cáo Phát triển con người 2007/2008 (Human Development Report 2007/2008) của Chương trình phát triển Liên hợp
quốc (United Nations Development Programme – UNDP); Chỉ số phát triển con người (Human Development Index – HDI) lớn hơn
hoặc bằng 0,8 là cao; lớn hơn 0,5 và nhỏ hơn 0.8 là trung bình.
(2) Cho biết khoảng giá trị giữa hai giá trị độ khó của câu hỏi trên hai nhóm
đối tượng (gọi là giá trị DIF). Giá trị DIF đủ lớn (lớn hơn 0.25 logit, theo
Luc T. Le, 2009) sẽ cho biết câu hỏi câu hỏi có tiềm ẩn nguy cơ thiên
kiến hay không.
Kiểm định Chi bình phương được sử dụng để kiểm định tính độc lập giữa
nhóm học sinh và câu hỏi hay sự tồn tại của tính chất DIF trên câu hỏi.
Vấn đề chọn mẫu:
Sau khi phân chia thành các nhóm so sánh, vì bộ số liệu PISA quốc tế có
số trường hợp rất lớn, nên các nhóm đã được chọn mẫu để phân tích với độ tin
cậy chọn mẫu 99%, khoảng tin cậy là 5. Kết quả chọn mẫu như sau (Bảng 4.3):
Nhóm
Mẫu tổng thể
Mẫu
chọn
Ghi chú

Khối OECD
251.278
664

Không thuộc khối OECD
147.472
663

Chỉ số HDI cao
323.087
664
Không bao gồm các
trường hợp không có
thống kê HDI
Chỉ số HDI trung bình
52.835
657
Không thuộc khối OECD
và chỉ số HDI trung bình
47.893
657

Không thuộc khối OECD,
chỉ số HDI trung bình và
thuộc châu Á
34.436
653

Bảng 3.2. Kết quả chọn mẫu (độ tin cậy chọn mẫu 99%, khoảng tin cậy 5)
Với tổng thể gần 1.900 trường hợp, bộ số liệu thi thử PISA Việt Nam

được sử dụng toàn bộ để đưa vào phân tích.
3.2. Kết quả nghiên cứu và bàn luận
3.2.1. Bộ dữ liệu PISA quốc tế 2006
Sử dụng phần mềm CONQUEST, phân tích tìm kiếm DIF của 12 câu hỏi nhiều lựa
chọn lĩnh vực toán học của đề thi PISA 2006, ta nhận được kết quả phân tích như sau:
Giữa nhóm học sinh thuộc khối OECD và không thuộc khối OECD
==========================================================================
DIF_1 between OECD and nonOECD Sun Jul 29 10:16 2012
TABLES OF RESPONSE MODEL PARAMETER ESTIMATES
==========================================================================
TERM 3: item*OECD

VARIABLES UNWEIGHTED FIT WEIGHTED FIT

item oecd ESTIMATE ERROR MNSQ CI T MNSQ CI T

1 1 1 0 0.064 0.073
2 2 1 0 0.083 0.077
3 3 1 0 0.087 0.087
4 4 1 0 -0.160 0.091
5 5 1 0 0.123 0.070
6 6 1 0 -0.143 0.076
7 7 1 0 -0.199 0.075
8 8 1 0 -0.057 0.084
9 9 1 0 0.039 0.080
10 10 1 0 0.252 0.086
11 11 1 0 0.200 0.103
12 12 1 0 -0.290*
1 1 2 1 -0.064*
2 2 2 1 -0.083*

3 3 2 1 -0.087*
4 4 2 1 0.160*
5 5 2 1 -0.123*
6 6 2 1 0.143*
7 7 2 1 0.199*
8 8 2 1 0.057*
9 9 2 1 -0.039*
10 10 2 1 -0.252*
11 11 2 1 -0.200*
12 12 2 1 0.290*

An asterisk next to a parameter estimate indicates that it is constrained
Separation Reliability = 0.690
Chi-square test of parameter equality = 32.62, df = 11, Sig Level = 0.001
Bảng 3.4: So sánh năng lực học sinh giữa hai nhóm OECD và ngoài OECD thể hiện qua 12
câu hỏi MC thuộc lĩnh vực toán học
Bảng 3.5 cho thấy các câu hỏi 4, 5, 6, 7, 10, 11, 12 có sự chênh lệch đáng
kể về độ khó qua thể hiện của hai nhóm học sinh. Nói cách khác, vấn đề cùng
khối hay ngoài khối OECD có thể có ảnh hưởng đến sự thể hiện của học sinh ở
các câu hỏi này. Với các câu hỏi 5, 10 và 11, học sinh thuộc khối OECD thể
hiện tốt hơn học sinh ngoài khối OECD. Tuy nhiên, với các câu hỏi 4, 6, 7 và
12, học sinh ngoài khối OECD lại thấy dễ hơn học sinh các nước thuộc khối
OECD. Các câu hỏi còn lại có sự khác biệt không quá lớn, hay học sinh ở cả hai
khối cảm nhận như nhau về độ khó của câu hỏi (khoảng cách độ khó chỉ
khoảng 0.08 đến 0.17 giá trị logit). Hệ số Chi bình phương (32.62, với số bậc tự
do là 11, p-value = 0.001) cũng cho thấy giữa hai biến càng khẳng định có sự
tồn tại của câu hỏi mang tính chất DIF (nhóm học sinh và câu hỏi không hoàn
toàn độc lập với nhau.
Với các cặp so sánh còn lại, ta có kết quả như sau:
Giữa nhóm học sinh các nước có chỉ số HDI cao và nhóm học sinh các nước có chỉ số

HDI trung bình
================================================================================
DIF_2 between High HDI and Medium HDI Sun Jul 29 11:11 2012
TABLES OF RESPONSE MODEL PARAMETER ESTIMATES
================================================================================
TERM 3: item*HDI

VARIABLES UNWEIGHTED FIT WEIGHTED FIT

item hdi ESTIMATE ERROR MNSQ CI T MNSQ CI T

1 1 1 0 -0.038 0.076
2 2 1 0 0.015 0.083
3 3 1 0 0.017 0.093
4 4 1 0 0.037 0.105
5 5 1 0 -0.165 0.071
6 6 1 0 0.091 0.078
7 7 1 0 -0.063 0.078
8 8 1 0 -0.016 0.088
9 9 1 0 -0.155 0.088
10 10 1 0 -0.055 0.090
11 11 1 0 0.527 0.142
12 12 1 0 -0.195*
1 1 2 1 0.038*
2 2 2 1 -0.015*
3 3 2 1 -0.017*
4 4 2 1 -0.037*
5 5 2 1 0.165*
6 6 2 1 -0.091*
7 7 2 1 0.063*

8 8 2 1 0.016*
9 9 2 1 0.155*
10 10 2 1 0.055*
11 11 2 1 -0.527*
12 12 2 1 0.195*

An asterisk next to a parameter estimate indicates that it is constrained
Separation Reliability = 0.755
Chi-square test of parameter equality = 25.22, df = 11, Sig Level = 0.008
===============================================================================
Bảng 4.5. So sánh năng lực học sinh giữa hai nhóm HDI cao và HDI trung bình, thể hiện
qua 12 câu hỏi MC thuộc lĩnh vực toán học
Chỉ số HDI của quốc gia có thể ảnh hưởng đến năng lực của học sinh thể
hiện qua các câu hỏi số 5, 9, 11 và 12. Học sinh các nước có chỉ số HDI cao sẽ
thấy câu các câu 5, 9 và 12 dễ hơn, trong khi học sinh đến từ các nước có chỉ số
HDI trung bình lại làm tốt câu 11 hơn. Khoảng khác biệt giữa hai nhóm ở câu
hỏi 11 là rất lớn, hơn 1 giá trị logit. Vì vậy, rất cần lật lại câu hỏi để tìm hiểu
nguyên nhân của giá trị DIF này. Xem đồ thị minh họa bên dưới đây để thấy rõ
hơn: Câu 11 với khoảng khác biệt xấp xỉ 1.5 giá trị logit.
Hình 4.1. DIF ở câu hỏi 11, giữa hai nhóm HDI cao và HDI trung bình

Với đường cong đậm thể hiện kết quả làm bài của học sinh các nước có
chỉ số HDI trung bình, và đường cong nhạt – học sinh các nước có chỉ số HDI
cao, Hình 4.1 cho ta thấy, tại hầu hết các giá trị năng lực, xác suất để học sinh
các nước có chỉ số HDI cao trả lời đúng câu hỏi luôn thấp hơn xác suất để học
sinh các nước có HDI trung bình trả lời đúng câu hỏi.
Chỉ số Chi bình phương (25.22, số bậc tự do 11, p-value = 0.008) càng
khẳng định hai biến nhóm học sinh chia theo HDI và câu hỏi không độc lập với
nhau, độ tin cậy của khẳng định này là 99%.
Như vậy, chỉ qua hai cách phân nhóm quốc gia: OECD – ngoài OECD;

HDI cao – HDI trung bình, ta đã nhận thấy điều kiện kinh tế - xã hội – giáo dục
có khả năng gây tác động đáng kể đến kết quả làm bài các câu hỏi toán học của
học sinh. Sự tác động này là thực sự tác động vào quá trình phát triển năng lực
của học sinh, làm cho học sinh thuộc hai nhóm nước thực sự có khoảng cách về
năng lực, hay bị tác động bởi yếu tố khác, gây thiên kiến trong câu hỏi? Rất cần
những nghiên cứu định tính và định lượng sâu hơn để làm sáng tỏ vấn đề. Hơn
nữa, việc học sinh các nước có chỉ số HDI cao lại có kết quả thấp hơn hẳn học
sinh các nước có chỉ số HDI trung bình là một sự khác lạ so với logic suy luận
thông thường: học sinh các nước phát triển với nền giáo dục phát triển thường
có năng lực cao hơn các học sinh các nước đang phát triển. Phát hiện thú vị ở
câu hỏi 11 rất đáng để chúng ta quan tâm, tìm hiểu.
Nhóm hai biến học sinh ngoài khối OECD và có chỉ số HDI trung bình
với nhau, ta có kết quả phân tích DIF của các câu hỏi như dưới đây:
Giữa nhóm học sinh các nước OECD và nhóm học sinh các nước không
thuộc khối OECD, có chỉ số HDI trung bình
================================================================================
DIF_3 between OECD and nonOECD_Med.HDI Sun Jul 29 12:00 2012
TABLES OF RESPONSE MODEL PARAMETER ESTIMATES
================================================================================
TERM 3: item*OECD

VARIABLES UNWEIGHTED FIT WEIGHTED FIT

item oecd ESTIMATE ERROR MNSQ CI T MNSQ CI T

1 1 1 0 0.001 0.076
2 2 1 0 0.102 0.083
3 3 1 0 0.066 0.093
4 4 1 0 0.015 0.105
5 5 1 0 0.000 0.072

6 6 1 0 -0.131 0.081
7 7 1 0 -0.221 0.079
8 8 1 0 -0.069 0.090
9 9 1 0 0.016 0.085
10 10 1 0 0.082 0.087
11 11 1 0 0.555 0.138
12 12 1 0 -0.416*
1 1 2 1 -0.001*
2 2 2 1 -0.102*
3 3 2 1 -0.066*
4 4 2 1 -0.015*
5 5 2 1 -0.000*
6 6 2 1 0.131*
7 7 2 1 0.221*
8 8 2 1 0.069*
9 9 2 1 -0.016*
10 10 2 1 -0.082*
11 11 2 1 -0.555*
12 12 2 1 0.416*

×