Tải bản đầy đủ (.pdf) (108 trang)

Nghiên cứu mức độ đáp ứng của học sinh các nước không thuộc khối oecd và học sinh việt nam với chương trình đánh giá quốc tế pisa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 108 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN ĐẢM BẢO CHẤT LƯỢNG GIÁO DỤC

Lê Thị Hoàng Hà

NGHIÊN CỨU MỨC ĐỘ ĐÁP ỨNG CỦA HỌC SINH CÁC NƯỚC KHÔNG
THUỘC KHỐI OECD VÀ HỌC SINH VIỆT NAM VỚI CHƯƠNG TRÌNH
ĐÁNH GIÁ QUỐC TẾ PISA

Chuyên ngành: Đo lường và đánh giá trong giáo dục
(Chuyên ngành đào tạo thí điểm)
LUẬN VĂN THẠC SĨ

Người hướng dẫn khoa học: TS. Phạm Xuân Thanh

Hà Nội – Năm 2012


MỤC LỤC

LỜI CAM ĐOAN .............................................................................................. 1
LỜI CẢM ƠN .................................................................................................... 2
MỤC LỤC .......................................................................................................... 3
DANH MỤC CÁC CHỮ VIẾT TẮT ................................................................ 5
DANH MỤC CÁC BẢNG BIỂU ...................................................................... 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................ 7
MỞ ĐẦU ............................................................................................................ 8
1. Lý do chọn đề tài ........................................................................................ 8
2. Mục đích nghiên cứu của đề tài ................................................................ 10
3. Giới hạn nghiên cứu của đề tài ................................................................. 11
4. Câu hỏi nghiên cứu ................................................................................... 12


5. Khách thể và đối tượng nghiên cứu .......................................................... 13
6. Phương pháp tiếp cận nghiên cứu ............................................................. 13
7. Phạm vi nghiên cứu .................................................................................. 14
8. CẤU TRÚC CỦA LUẬN VĂN ............................................................... 14
Chương I: TỔNG QUAN NGHIÊN CỨU ....................................................... 16
1.1.

Các chương trình đánh giá quốc tế ..................................................... 16

1.1.1.

TIMSS và PIRLS ......................................................................... 16

1.1.2.

Chương trình đánh giá học sinh quốc tế PISA ............................ 17

1.2.

Tổng quan các nghiên cứu liên quan .................................................. 23

Chương II: LÝ THUYẾT ĐÁNH GIÁ ............................................................ 30
Mở đầu .......................................................................................................... 30
2.1.

Khái niệm đánh giá trong giáo dục .................................................... 31

2.2.

Các dạng thức đánh giá ...................................................................... 35


2.2.1.

Đánh giá tổng kết và đánh giá quá trình ...................................... 35

3


2.2.2.

Đánh giá tham chiếu tiêu chí và đánh giá tham chiếu nhóm chuẩn
...................................................................................................... 37

2.2.3.

Đánh giá dựa trên chương trình và Đánh giá dựa trên năng lực.. 39

2.2.4. Hệ thống đánh giá và vai trị, vị trí của khảo sát/đánh giá năng lực
trên diện rộng............................................................................................. 41
2.3.

Lý thuyết khảo thí cổ điển và Lý thuyết trả lời câu hỏi ..................... 43

2.3.1.

Lý thuyết khảo thí cổ điển ........................................................... 44

2.3.2.

Lý thuyết trả lời câu hỏi và Mơ hình RASCH ............................. 46


2.4.

Ứng dụng Lý thuyết trả lời câu hỏi trong thiết kế công cụ khảo thí .. 50

2.5.

Độ giá trị của đề thi và tính thiên kiến của câu hỏi thi ....................... 53

2.5.1.

Độ giá trị ...................................................................................... 53

2.5.2.

Tính thiên kiến của câu hỏi thi và phát hiện câu hỏi thiên kiến .. 54

Chương III. KẾT QUẢ NGHIÊN CỨU VÀ BÀN LUẬN .............................. 59
3.1.

Mô tả phương pháp và quy trình nghiên cứu ..................................... 59

3.1.1.

Mơ tả các bộ số liệu ..................................................................... 59

3.1.2.

Quy trình nghiên cứu và các thủ tục xử lý số liệu ....................... 61


3.2.

Kết quả nghiên cứu và bàn luận ......................................................... 64

3.2.1.

Bộ dữ liệu PISA quốc tế 2006 ..................................................... 64

3.2.2.

Bộ dữ liệu thi thử PISA ở Việt Nam năm 2010 ........................... 72

KẾT LUẬN ...................................................................................................... 77
Tài liệu tham khảo ............................................................................................ 80
Phụ lục 1: Cơ cấu quốc gia/vùng lãnh thổ tham gia PISA 2006 ...................... 84
Phụ lục 2: Cú pháp phân tích DIF, sử dụng phần mềm CONQUEST ............. 87
Phụ lục 3: Kết quả phân tích DIF ..................................................................... 92
Phụ lục 4: Cấu trúc đề thi thử PISA tháng 5/2010 ở Việt Nam và mã hóa ... 104

4


DANH MỤC CÁC CHỮ VIẾT TẮT

DIF

Differential Item Functioning
(Câu hỏi thực hiện chức năng khác biệt)

HDI


Human Developement Index
Chỉ số phát triển con người

ICC

Item Characteristic Curve
Đường cong đặc tính câu hỏi

IRT

Item Response Theory
Lý thuyết trả lời câu hỏi

MC

Multiple-choice
(Câu hỏi) nhiều lựa chọn

OECD

Organization of Economics Co-operation and
Development
Tổ chức Hợp tác kinh tế và phát triển

PIRLS

Progress in International Reading Literary Studies
Chương trình đánh giá năng lực đọc hiểu quốc tế


PISA

Program on International Student Assessment
Chương trình đánh giá học sinh quốc tế

TIMSS

Trends in International Mathematics and Science Studies
Chương trình đánh giá năng lực tốn và khoa học quốc tế

UNDP

United Nation Development Programme
Chương trình phát triển liên hợp quốc

5


DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1: Tình hình tham gia Chương trình PISA của các nước/vùng lãnh thổ
Bảng 3.1. Cơ cấu địa phương tham gia kỳ thi thử PISA 2010
Bảng 3.2. Kết quả chọn mẫu (độ tin cậy chọn mẫu 99%, khoảng tin cậy bằng 5)
Bảng 3.3. Độ khó của 12 câu trắc nghiệm nhiều lựa chọn – lĩnh vực toán học
Bảng 3.4. So sánh năng lực học sinh giữa hai nhóm OECD và ngồi OECD
thể hiện qua 12 câu hỏi MC thuộc lĩnh vực toán học
Bảng 3.5. So sánh năng lực học sinh giữa hai nhóm HDI cao và HDI trung
bình, thể hiện qua 12 câu hỏi MC thuộc lĩnh vực toán học
Bảng 3.6. So sánh năng lực học sinh giữa hai nhóm trong khối OECD và
ngồi khối OECD, HDI trung bình, thể hiện qua 12 câu hỏi MC thuộc lĩnh vực

toán học
Bảng 3.7. So sánh năng lực học sinh giữa hai nhóm: OECD và ngồi OECD,
HDI trung bình, thuộc châu Á thể hiện qua 12 câu hỏi MC thuộc lĩnh vực tốn
học
Bảng 3.8. Kết quả phân tích DIF của 24 câu trắc nghiệm lĩnh vực đọc hiểu
Bảng 3.9. Kết quả phân tích DIF của 28 câu trắc nghiệm lĩnh vực khoa học

6


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Ví dụ về thang năng lực PISA
Hình 2.1. Đường cong đặc tính câu hỏi (ICC)
Hình 2.2. Đồ thị biểu diễn đường cong năng lực theo mơ hình Rasch
Hình 2.3. Mơ hình một thơng số (b: độ khó câu hỏi)
Hình 2.4. Mơ hình hai thơng số (a: độ phân biệt của câu hỏi)
Hình 2.5. Mơ hình ba thơng số (c: yếu tố gợi ý/đốn mị)
Hình 3.1. DIF ở câu hỏi 11, giữa hai nhóm HDI cao và HDI trung bình
Hình 3.2. Câu hỏi 2 với khoảng khác biệt rất nhỏ giữa hai nhóm học sinh
Hình 3.3. DIF ở câu hỏi 11, giữa hai nhóm OECD và ngồi OECD, có HDI
trung bình
Hình 3.4. DIF ở câu hỏi 10, giữa hai nhóm OECD và ngồi OECD, HDI
trung bình, thuộc châu Á

7


MỞ ĐẦU
1. Lý do chọn đề tài

Giáo dục có chất lượng là tài sản quý giá nhất đối với các thế hệ hiện tại và
tương lai. Để có một nền giáo dục có chất lượng địi hỏi sự cam kết mạnh mẽ
từ tất cả mọi thành viên trong xã hội, từ chính phủ đến giáo viên, gia đình và
chính học sinh. Tổ chức hợp tác và phát triển kinh tế (OECD) đang đóng góp
cho mục tiêu này thơng qua Chương trình đánh giá học sinh quốc tế PISA, một
chương trình giám sát kết quả giáo dục bằng một khung thống nhất, cho phép
mang lại những so sánh giá trị mang tính quốc tế. Bằng việc chỉ ra một số quốc
gia đã thành công trong việc mang lại kết quả học tập công bằng và chất lượng
cao, PISA đã đặt ra mục tiêu cần phấn đấu cho những quốc gia khác.

Trên đây là phát biểu của Ngài Angel Gurría, Tổng thư ký Tổ chức hợp tác
và phát triển kinh tế OECD (Organization of Economic Co-operation and
Development) trong tài liệu giới thiệu về Chương trình đánh giá học sinh quốc tế
PISA (OECD Program for International Student Assessment).
Là một chương trình đánh giá học sinh mang tính quốc tế, PISA được triển
khai nhằm kiểm tra, đánh giá trình độ học sinh trong độ tuổi 15, giai đoạn chuẩn bị
kết thúc thời gian học tập bắt buộc. PISA đánh giá những kiến thức và kỹ năng
không chỉ cần thiết cho mỗi cá nhân trong cuộc sống mà còn quan trọng cho sự phát
triển của mỗi quốc gia về mặt chính trị, kinh tế, xã hội. Kỳ thi PISA được định kỳ tổ
chức 3 năm một lần, bắt đầu từ năm 2000, tập trung vào 4 mảng năng lực chính:
Tốn học, Khoa học tự nhiên, Đọc hiểu và Kỹ năng giải quyết vấn đề (Kỹ năng giải
quyết vấn đề được đưa vào đề thi từ năm 2006), mỗi kỳ thi lấy một mảng năng lực
làm nội dung chính (main domain).
Bởi là một kỳ thi được tổ chức trên diện rộng (mỗi nước tham gia có từ 4.500
đến 10.000 thí sinh dự thi, đại diện cho học sinh thuộc lứa tuổi 15 trên cả nước), kết
quả đánh giá có thể được các nước sử dụng như một công cụ theo dõi liên tục công
tác tổ chức và quản lý hệ thống giáo dục. PISA không chỉ ra cho các nước cách thức
cụ thể quản lý trường học nhưng những dữ liệu có quy mơ lớn và độ tin cậy cao thu
8



thập được từ kỳ thi PISA có thể chỉ ra thành công của nền giáo dục một số nước,
cũng như những hạn chế trong quản lý giáo dục mà nhiều quốc gia mắc phải.
Những kết quả này giúp các quốc gia được coi là chưa thành công trong giáo dục có
những phép phân tích, so sánh nhằm rút ra những bài học quý giá để cải tiến nền
giáo dục của mình. Đó cũng chính là mục đích chính xun suốt quá trình hình
thành và phát triển của kỳ thi này.
PISA lần đầu tiên tổ chức (năm 2000) có 43 nước tham gia, trong đó có 14
nước khơng thuộc khối OECD. Qua 3 lần tổ chức, kỳ thi năm 2009 có 75 nước/nền
kinh tế tham gia trong đó có 38 nước không thuộc khối OECD. Sự gia tăng nhanh
số quốc gia/nền kinh tế tham gia Chương trình PISA chứng tỏ mục đích, ý nghĩa
của kỳ thi ngày càng được nhận thức đúng đắn bởi các quốc gia.
Trước xu hướng quốc tế hóa, tồn cầu hóa các hoạt động kinh tế, xã hội, nền
giáo dục các nước, đặc biệt là các nước đang phát triển đứng trước nhiều thách thức
và cơ hội. Người ta dễ dàng nhận thấy việc tham gia các chương trình đánh giá quốc
tế như PISA là một cơ hội rất tốt để các quốc gia có những kết luận giá trị và tin cậy
về các khía cạnh khác nhau liên quan đến hiệu quả và chất lượng của nền giáo dục
của mình, từ đó có những định hướng cho việc cải tiến, nâng cao chất lượng giáo
dục theo hướng phù hợp xu hướng phát triển chung của thế giới. Tuy nhiên, với các
nước đang phát triển như Việt Nam, đây cũng là một thách thức lớn, đòi hỏi sự cân
nhắc và tính tốn để việc tham gia này thực sự mang lại hiệu quả như mục đích mà
các chương trình đánh giá đã đặt ra.
Việt Nam chính thức đăng ký tham gia Chương trình PISA 2012, cùng với
hơn 60 quốc gia/nền kinh tế khác trên toàn thế giới. Ban chỉ đạo quốc gia Chương
trình PISA đã được thành lập. Chịu trách nhiệm điều phối, tổ chức toàn bộ các hoạt
động khi tham gia Chương trình PISA, từ những khâu chuẩn bị đầu tiên để Việt
Nam được tham gia kỳ thi cho đến việc tổ chức kỳ thi chính thức là Văn phòng
PISA Việt Nam thuộc Trung tâm Đánh giá chất lượng giáo dục, Cục Khảo thí và
Kiểm định chất lượng giáo dục, Bộ Giáo dục và Đào tạo.


9


Từ lúc đăng ký và được OECD chính thức đồng ý để Việt Nam tham gia
PISA 2012 đến khi kỳ thi chính thức diễn ra (tháng 4/2012) là cả một giai đoạn
chuẩn bị đầy căng thẳng với hàng chục đầu công việc đã được lên kế hoạch chặt
chẽ, nằm trong kế hoạch chung và kiểm soát chất lượng của Ban điều hành PISA
của OECD. Một trong những khâu chuẩn bị quan trọng và nhiều thử thách nhất, có
thời gian chuẩn bị trải dài nhất là công tác dịch thuật và thích nghi hóa đề thi và các
bảng hỏi thu thập dữ liệu. Kinh nghiệm các nước cho thấy, mặc dù quy trình dịch
thuật và thích nghi hóa tài liệu thi đã được OECD quy định, hướng dẫn và kiểm soát
chặt chẽ, thực tế vẫn khơng tránh khỏi sai sót mà hậu quả của nó là gây nên một số
câu hỏi trong đề thi có thiên kiến ở một số nhóm đối tượng thí sinh nhất định.
Việc phát hiện những thiên kiến có thể có của câu hỏi thi PISA trên các
nhóm học sinh quốc tế chia theo khu vực địa lý và điều kiện kinh tế - xã hội; trên
nhóm học sinh Việt Nam sẽ làm tiền đề cho việc nghiên cứu tìm hiểu nguyên nhân
của hiện tượng thực hiện chức năng sai khác này, là cơ sở cho những giải pháp mà
Việt Nam và các nước tham gia có thể thực hiện trong quá trình tham gia dịch thuật
và thích nghi hóa đề thi để đề thi PISA đạt được độ tin cậy và độ giá trị cao nhất với
học sinh tất cả các nước, không phụ thuộc điều kiện địa lý hay những điều kiện
chính trị, tơn giáo, ngơn ngữ...
2. Mục đích nghiên cứu của đề tài
Như đã đề cập ở trên, câu hỏi thi thiên kiến là một vấn đề không mong muốn
nhưng vẫn thường và dễ dàng xảy ra trong hoạt động khảo thí, đặc biệt là ở các kỳ
đánh giá trên diện rộng, khi một cơng cụ đánh giá chuẩn hóa được sử dụng để đo
lường năng lực của các đối tượng được đánh giá đến từ các vùng, miền và điều kiện
kinh tế - chính trị - xã hội – tơn giáo khác nhau.
Dựa trên kết quả thi PISA, đề tài sẽ đi tìm những câu hỏi có nguy cơ gây
thiên kiến cho các nhóm học sinh các nước ngồi khối OECD và nhóm học sinh
quốc tế có điều kiện kinh tế - văn hóa – xã hội tương đối tương đồng với Việt Nam,

làm tiền đề cho việc tiên lượng tính đáp ứng của học sinh Việt Nam với câu hỏi thi

10


PISA. Đề tài cũng đi tìm sự khác biệt về sự đáp ứng của các nhóm học sinh Việt
Nam với điều kiện kinh tế - văn hóa – xã hội khác nhau, với câu hỏi thi PISA, để từ
đó có những nhận định về khả năng các yếu tố ngôn ngữ, văn hóa có thể làm cho
câu hỏi PISA thiên kiến.
Thực hiện nghiên cứu này cũng giúp học viên hiểu biết sâu sắc về những lý
thuyết đánh giá liên quan đến câu hỏi thực hiện chức năng khác biệt (differential
item functioning – DIF) và quy trình phân tích phát hiện DIF (điều kiện cần để kết
luận câu hỏi thiên kiến), một quy trình quan trọng trong xây dựng và phát triển đề
thi chuẩn hóa.
3. Giới hạn nghiên cứu của đề tài
Đề tài tập trung phân tích kết quả thi PISA quốc tế năm 2006 – số liệu do
OECD công bố, tập trung phát hiện các dấu hiệu câu hỏi thực hiện chức năng khác
biệt (differential item functioning – DIF: điều kiện cần để kết luận câu hỏi thiên
kiến), so sánh giữa các cặp:
-

nhóm học sinh các nước thuộc khối OECD và nhóm học sinh các nước ngồi
khối OECD;

-

nhóm học sinh các nước có chỉ số phát triển con người (HDI) cao và nhóm
học sinh các nước có chỉ số HDI trung bình và thấp;

-


nhóm học sinh các nước thuộc khối OECD với nhóm học sinh các nước
khơng thuộc khối OECD và có chỉ số HDI trung bình và thấp;

-

nhóm học sinh các nước thuộc khối OECD với nhóm học sinh các nước
khơng thuộc khối OECD, có chỉ số HDI trung bình và thấp, và thuộc châu Á;
Sở dĩ có sự phân cặp so sánh như trên là do số liệu thi PISA 2006 khơng có

học sinh Việt Nam; trong một kỳ thi trên diện rộng, nguy cơ câu hỏi thiên kiến
thường bắt nguồn từ nguyên nhân: giới tính, đặc điểm ngơn ngữ, văn hóa... Vì vậy,
để đi tìm nguy cơ câu hỏi thiên kiến với học sinh Việt Nam, ta đi tìm câu hỏi có
nguy cơ thiên kiến với nhóm học sinh quốc tế có điều kiện kinh tế - văn hóa – xã

11


hội tương đối tương đồng với Việt Nam: đó là các nước nằm ngồi khối OECD, có
chỉ số HDI tương đương với Việt Nam (theo báo cáo của UNDP), và thuộc châu Á.
Với đối tượng học sinh Việt Nam, đề tài sử dụng số liệu kết quả thi thử PISA
năm 2010. Kỳ thi do Văn phòng PISA Việt Nam tổ chức, sử dụng đề thi của kỳ
đánh giá PISA chính thức năm 2009. Nghiên cứu sẽ tập trung phát hiện nguy cơ
thiên kiến có thể có giữa các cặp so sánh:
-

Nhóm học sinh miền Bắc và nhóm học sinh khu vực Tây Nguyên và miền Nam;

-


Nhóm học sinh đồng bằng - duyên hải và nhóm học sinh miền núi - cao nguyên;
Sự phân cặp so sánh như trên nhằm tìm kiếm sự khác biệt về hiện tượng câu

hỏi DIF giữa hai lần phân tích. Ở Việt Nam, cặp so sánh thứ nhất tạo nên sự khác
biệt rõ nét về yếu tố ngơn ngữ và văn hóa vùng miền giữa hai nhóm, trong khi cặp
so sánh thứ hai khơng tạo nên sự khác biệt này. So sánh kết quả của hai lần phân
tích (lần 1 với cặp thứ nhất, lần 2 với cặp thứ hai) sẽ có thể giúp đưa ra những nhận
định về sự ảnh hưởng hoặc không ảnh hưởng của yếu tố văn hóa – ngơn ngữ vùng
miền đến sự đáp ứng câu hỏi của học sinh, hay nguy cơ thiên kiến của câu hỏi.
Ở phạm vi một đề tài luận văn thạc sĩ, các phân tích tìm kiếm DIF chủ yếu tập
trung vào nhóm câu hỏi nhiều lựa chọn, với cách cho điểm đúng và sai.
4. Câu hỏi nghiên cứu
Câu hỏi nghiên cứu 1: Học sinh các nước không thuộc khối OECD tham gia kỳ thi
PISA 2006 đáp ứng câu hỏi thi PISA như thế nào? Câu hỏi thi có tiềm ẩn nguy cơ
gây bất lợi hoặc tạo ưu thế cho học sinh các nước không thuộc khối OECD không?
Mức độ của nguy cơ?
Câu hỏi nghiên cứu 2: Học sinh ở các nước có đặc điểm kinh tế - văn hóa – xã hội
tương đồng với Việt Nam đáp ứng câu hỏi thi PISA 2006 như thế nào? Tìm kiếm
nguy cơ câu hỏi thiên kiến đối với nhóm học sinh này và tiên lượng mức độ ảnh
hưởng của nguy cơ câu hỏi thiên kiến đối với học sinh Việt Nam khi tham gia PISA?

12


Câu hỏi nghiên cứu 3: Điều kiện địa lý, văn hóa, ngơn ngữ vùng miền ở Việt Nam
có thể là yếu tố làm xuất hiện nguy cơ thiên kiến của câu hỏi thi PISA không? Mức
độ của các nguy cơ thiên kiến này?
5. Khách thể và đối tượng nghiên cứu
 Khách thể nghiên cứu:
-


Câu hỏi thi PISA.

 Đối tượng nghiên cứu:
-

Tính chất thực hiện chức năng khác biệt của câu hỏi thi (differential item
functioning – DIF).

6. Phương pháp tiếp cận nghiên cứu
Đề tài sử dụng tiếp cận nghiên cứu định lượng. Kết quả thi PISA năm 2006
của các nước và thi thử PISA ở Việt Nam năm 2010, sử dụng đề thi năm 2009 đã
được dịch sang tiếng Việt sẽ được phân tích định lượng để xác định mức độ đáp
ứng của học sinh tham dự kỳ thi đối với câu hỏi thi, so sánh giữa các nhóm học sinh
theo các tiêu chí phân tầng khác nhau. Phân tích sẽ sử dụng các phần mềm phân tích
số liệu SPSS và CONQUEST.
Dữ liệu thu thập được bao gồm:
 Cơ sở dữ liệu về chương trình đánh giá quốc tế PISA (sự ra đời và phát triển,
cơ sở khoa học xây dựng đề thi, phân tích và sử dụng kết quả đánh giá…); sử
dụng phương pháp hồi cứu tài liệu;
 Các cơ sở lý thuyết liên quan: Lý thuyết về đánh giá và xây dựng đề thi
chuẩn hóa, Lý thuyết hồi đáp và mơ hình Rasch, Lý thuyết về phân tích DIF
(Differential Item Functioning) như một cơ sở để phát hiện thiên kiến của
công cụ đo lường tâm lý; sử dụng phương pháp tổng quan tài liệu;
 Tổng quan các nghiên cứu về câu hỏi/đề thi thiên kiến, công cụ khảo sát
đánh giá thiên kiến trong các chương trình khảo sát/đánh giá năng lực trên

13



diện rộng (như PISA, TIMSS, PIRLS, SAT…); thu thập bằng phương pháp
tổng quan tài liệu;
 Dữ liệu kết quả thi PISA năm 2006 lấy từ website My PISA của ACER,
Australia;
 Dữ liệu kết quả thi thử PISA trên mẫu đại diện từ 10 tỉnh/thành phố, tổ chức
tháng 5/2010, sử dụng bộ câu hỏi thi của kỳ thi PISA năm 2009. Dữ liệu do
Văn phòng PISA Việt Nam cung cấp.
7. Phạm vi nghiên cứu
Học sinh tất cả các quốc gia và vùng lãnh thổ tham gia kỳ đánh giá PISA
chính thức năm 2006; Học sinh 10 tỉnh/thành phố của Việt Nam tham gia kỳ thi thử
PISA do Văn phòng PISA Việt Nam tổ chức tháng 5/2012, sử dụng đề thi PISA
chính thức năm 2009.
8. CẤU TRÚC CỦA LUẬN VĂN
Cấu trúc các phần nội dung chính của luận văn bao gồm 3 chương:
Chương I. TỔNG QUAN NGHIÊN CỨU
1.1.

Các chương trình đánh giá học sinh quốc tế
1.1.1. TIMSS và PIRLS
1.1.2. Chương trình đánh giá học sinh quốc tế PISA

1.2.

Tổng quan các nghiên cứu liên quan

Chương II. LÝ THUYẾT ĐÁNH GIÁ
2.1.

Khái niệm đánh giá trong giáo dục


2.2.

Các dạng thức đánh giá

2.3.

Lý thuyết khảo thí cổ điển và Lý thuyết trả lời câu hỏi

2.4.

Ứng dụng lý thuyết trả lời câu hỏi trong thiết kế công cụ khảo thí

2.5.

Độ giá trị của đề thi và tính thiên kiến của câu hỏi thi

Chương III. KẾT QUẢ NGHIÊN CỨU VÀ BÀN LUẬN
3.1.

Mơ tả phương pháp và quy trình nghiên cứu

14


3.2.

Kết quả nghiên cứu và bàn luận

KẾT LUẬN


15


Chương I: TỔNG QUAN NGHIÊN CỨU
1.1.

Các chương trình đánh giá quốc tế

1.1.1. TIMSS và PIRLS
TIMSS và PIRLS là hai chương trình nghiên cứu đánh giá học sinh quốc tế
với nhiều nét tương đồng. TIMSS (Trends in International Mathematics and
Science Study) tập trung nghiên cứu năng lực toán học và khoa học của học sinh
quốc tế hai khối lớp 4 và lớp 8; trong khi PIRLS (Progress in International Reading
Literacy Study) đánh giá năng lực đọc hiểu của học sinh khối lớp 4.
TIMSS và PIRLS nằm trong những dự án của Hiệp hội đánh giá thành tích
giáo dục quốc tế (IEA – International Association for Evaluation of Educational
Achievement), hướng tới đánh giá thành tích học tập của học sinh trên phạm vi tồn
cầu vì mục đích tối thượng là cải tiến, nâng cao chất lượng giảng dạy và học tập.
Trung tâm TIMSS & PIRLS quốc tế hiện đặt tại Trường Giáo dục Lynch, Đại học
Boston, Hoa Kỳ, nơi chịu trách nhiệm điều hành toàn bộ các hoạt động đánh giá
thuộc hai chương trình, phối hợp với các cơ quan, tổ chức ở các nước tham gia để
triển khai các kỳ đánh giá.
TIMSS và PIRLS là các cuộc đánh giá trên diện rộng, được thiết kế nhằm
mang lại một bức tranh toàn cảnh về giảng dạy và học tập các mơn tốn học, khoa
học và đọc hiểu, cung cấp những thông tin hữu ích phục vụ hoạch định chính sách
giáo dục và xây dựng, triển khai các chương trình giáo dục. Để đạt được mục đích
này, bên cạnh những thơng tin về thành tích giáo dục trên các lĩnh vực tốn, khoa
học và đọc hiểu, trong các kỳ thi TIMSS và PIRLS, các thông tin liên quan về đất
nước, trường học, chương trình giảng dạy, mơi trường học tập có khả năng ảnh
hưởng đến sự phát triển năng lực và thành tích học tập của học sinh cũng được thu

thập.
TIMSS lần đầu tổ chức năm 1995 với 45 nước tham gia. Định kỳ tổ chức 4
năm một lần, kỳ đánh giá năm 2011 đã có 63 nước đăng ký tham gia TIMSS. Ở lĩnh
vực đọc hiểu, PIRLS ra đời năm 2001 và được định kỳ tổ chức 4 năm một lần. Từ
16


con số quốc gia tham gia lần đầu năm 2001 là 35, đến kỳ đánh giá thứ 3 năm 2011,
đã có 49 nước tham gia. Hầu hết các nước tham gia kỳ đánh giá PIRLS cũng tham
gia TIMSS, đặc biệt là năm 2011, khi cả hai chương trình cùng đến kỳ đánh giá.
Nhờ đó, nhiều nước đã thu được thơng tin đồng bộ về năng lực học sinh lớp 4 ở cả
ba lĩnh vực quan trọng: toán, khoa học và đọc hiểu.
TIMSS và PIRLS sử dụng chung một quy trình tổ chức và triển khai, từ khâu
thiết kế khung đánh giá, viết câu hỏi, dịch thuật tài liệu đánh giá, thử nghiệm, chọn
mẫu đến phân tích và báo cáo kết quả đánh giá. Với phương pháp chọn mẫu ngẫu
nhiên hai giai đoạn (chọn mẫu trường ở giai đoạn 1 và chọn mẫu lớp học trong mỗi
trường ở giai đoạn 2) được thực hiện nghiêm ngặt đã đảm bảo số học sinh tham gia
ở mỗi nước mang tính đại diện cho tổng thể đối tượng học sinh của nước tham gia.
Thông qua kết quả của mẫu học sinh tham gia có thể dự đốn tương đối chính xác
thành tích của học sinh trên tồn quốc.
1.1.2. Chương trình đánh giá học sinh quốc tế PISA
a. OECD và Chương trình đánh giá học sinh quốc tế PISA
Chương trình đánh giá học sinh quốc tế PISA là một sản phẩm do các nước
thành viên OECD hợp tác xây dựng và phát triển, dưới sự điều phối của Ban Giáo
dục - OECD (Directorate of Education). Mục tiêu của Chương trình PISA là đánh
giá mức độ tiếp thu kiến thức và kỹ năng cần thiết cho việc gia nhập xã hội tri thức
của học sinh độ tuổi chuẩn bị kết thúc giáo dục bắt buộc.1
Kỳ thi PISA chính thức đầu tiên được tổ chức năm 2000, với sự tham gia của
43 quốc gia/vùng lãnh thổ, trong đó có 14 quốc gia/vùng lãnh thổ khơng thuộc khối
OECD. Được tổ chức định kỳ 3 năm một lần, kỳ thi năm 2009 đã có 67 quốc

gia/vùng lãnh thổ tham gia, trong đó 34 nước khơng thuộc khối OECD. Theo tính
tốn của OECD thì các quốc gia/vùng lãnh thổ tham gia kỳ thi PISA năm 2006 (57
nước) chiếm tới 90% nền kinh tế thế giới.

1

OECD PISA 2006 Brochure: Retrieved from www.oecd.org

17


Kỳ thi PISA

Số quốc gia/ vùng

Số quốc gia/ vùng

Số quốc gia/ vùng

lãnh thổ tham gia

lãnh thổ thuộc

lãnh thổ không

khối OECD

thuộc khối OECD

Năm 2000


43

29

14

Năm 2003

41

32

9

Năm 2006

57

30

27

Năm 2009

75

37

38


Bảng 1.1: Tình hình tham gia Chương trình PISA của các nước/vùng lãnh thổ
Nguồn: OECD website: www.oecd.org
Chương trình PISA đánh giá sự thể hiện năng lực của học sinh ở 3 lĩnh vực
trọng yếu là Tốn học, Các mơn khoa học và Đọc hiểu. Bên cạnh bài thi, thông qua
bảng hỏi và một số câu hỏi đánh giá thái độ trong đề thi, PISA còn khảo sát động cơ
học tập của học sinh, những quan điểm, nhận thức của học sinh về bản thân mình
cũng như những chiến lược học tập của các em. Số liệu kết quả thi PISA có thể cho
ta biết sự khác biệt về năng lực giữa hai giới, hay giữa những nhóm kinh tế - xã hội
khác nhau, đồng thời, việc phân tích tương quan giữa dữ liệu thu thập từ bảng hỏi
và kết quả thi PISA còn phát hiện những yếu tố tác động đến quá trình học tập, tích
lũy và rèn luyện kiến thức, kỹ năng của học sinh. Những phân tích này rất có ý
nghĩa đối với cơng tác hoạch định chính sách của mỗi quốc gia/vùng lãnh thổ hay
nhóm kinh tế - xã hội. Có ý nghĩa hơn cả là thông qua kết quả thi PISA, ta có thể có
những so sánh về năng lực học sinh và điều kiện/đầu tư cho giáo dục giữa các quốc
gia, từ đó có thể kết luận về hiệu quả đầu tư cho giáo dục của từng quốc gia/vùng
lãnh thổ khi so sánh với các nền kinh tế có điều kiện tương tự; hay kết luận về việc
học sinh trong một quốc gia có nhận được cơ hội học tập một cách công bằng hay
không.

18


Có thể tóm tắt một số đặc trưng nổi bật của Chương trình PISA như sau2:
 Mục đích tối cao của chương trình là cải thiện mơi trường chính sách, vì vậy
thiết kế đề thi và phương pháp báo cáo kết quả thi được xác định theo nhu
cầu của các chính phủ cần thơng tin để làm cơ sở xây dựng chính sách;
 Chương trình giới thiệu một khái niệm mới “literacy”, là khả năng áp dụng
kiến thức và kỹ năng của học sinh và khả năng phân tích, lý giải, giao tiếp
hiệu quả khi phải đương đầu với những vấn đề xuất hiện trong nhiều tình

huống khác nhau của cuộc sống;
 Chương trình phù hợp với học tập suốt đời, không giới hạn ở việc đánh giá
năng lực học sinh theo chương trình giáo dục hay giao thoa các chương trình
giáo dục; ngồi ra chương trình cịn thu thập thông tin về động cơ và chiến
lược học tập, nhận thức về bản thân.
 Được tổ chức định kỳ 3 năm một lần, các nước tham gia có cơ hội theo dõi
quá trình thực hiện những mục tiêu giáo dục quan trọng của quốc gia;
 Chương trình bao phủ một dải địa lý rộng lớn; phương thức tổ chức mang
bản chất hợp tác với hơn 60 nước tham gia cho đến nay (chiếm khoảng 90%
nền kinh tế thế giới), trong đó tất cả nước thuộc khối OECD đều tham gia.
b. Thiết kế và xây dựng công cụ đánh giá nhận thức – đề thi PISA
Như trên đã đề cập, Chương trình PISA tập trung đánh giá năng lực của học
sinh thể hiện ở 3 lĩnh vực chính là Tốn học, Khoa học và Kỹ năng đọc hiểu. Mỗi
kỳ thi sẽ lần lượt lấy một lĩnh vực làm nội dung chính (main domain), chiếm một tỷ
trọng lớn câu hỏi thi trong đề thi. Trong các kỳ thi 2000, 2003, 2006, 2009, 2012
lĩnh vực đánh giá chính lần lượt là Đọc hiểu, Tốn học, Khoa học, Đọc hiểu, Tốn
học.
Cơng việc thiết kế công cụ đánh giá nhận thức – đề thi PISA được đặc trưng
bởi sự hợp tác của tất cả các nước tham gia (thành viên và không phải thành viên
2

OECD PISA Brochure: Retrieved from OECD website www.oecd.org

19


OECD). Sự hợp tác thể hiện đầu tiên ở việc các nước cùng tham gia thảo luận và đi
đến thống nhất về khung thiết kế đề thi của mỗi lĩnh vực. Thứ hai, các nước tự
nguyện viết câu hỏi, đóng góp cho nguồn dữ liệu câu hỏi thi PISA của OECD theo
tiêu chí do tổ chức này đặt ra. Đồng thời, tất cả các nước tham gia được kêu gọi rà

soát các câu hỏi thi do một tổ chức chuyên nghiệp nằm trong liên danh nhà thầu
thay OECD tổ chức chương trình PISA, chịu trách nhiệm phần xây dựng đề thi gửi
đến.
Mỗi lĩnh vực trong đề thi PISA được xây dựng dựa trên một khung thiết kế
đã được thảo luận và thống nhất giữa các nước tham gia. Khung thiết kế cho chúng
ta biết những năng lực nào sẽ được đánh giá, giúp những người tham gia viết câu
hỏi thi xác định các cấu trúc ẩn sau mỗi phần đánh giá. Sau khi đã thống nhất khung
thiết kế đề thi, nhóm chun gia bộ mơn ở mỗi nước sẽ biên soạn câu hỏi thi gửi
liên danh nhà thầu. Trải qua 4 kỳ thi đầu tiên, Trung tâm Nghiên cứu giáo dục Úc
(Australian Center for Education Research – ACER) giữ trọng trách điều phối công
việc thiết kế xây dựng đề thi. Nhóm chun gia bộ mơn của từng quốc gia cũng
được u cầu tham gia rà sốt, đóng góp ý kiến cho các câu hỏi thi. Đóng góp của
các nước cho việc xây dựng câu hỏi thi được các chuyên gia xây dựng đề thi của
liên danh nhà thầu sử dụng, thơng qua những quy trình kỹ thuật đặc biệt: quy trình
thí nghiệm nhận thức (cognitive laboratory procedure)3. Dạng thức câu hỏi trong đề
thi PISA cũng rất đa dạng, không dừng lại ở những câu trắc nghiệm khách quan mà
cịn có cả những câu hỏi mở với kỹ thuật cho điểm từng phần.
Trước năm diễn ra khảo sát chính thức, các nước đã đăng ký tham gia PISA
đều trải qua một kỳ thi thử. Ngồi mục đích mang lại cơ hội để các nước diễn tập
công tác tổ chức thi, các câu hỏi có thể được lựa chọn cho kỳ thi chính thức sẽ được
thử nghiệm trong kỳ thi này. Như vậy, câu hỏi của đề thi PISA chính thức là kết quả
của cả sự rà soát bằng phương pháp chuyên gia (đóng góp ý kiến về nội dung, cấu
trúc câu hỏi, những vấn đề tiềm ẩn liên quan đến dịch thuật hay văn hóa …), và
3

Turner, R. (2009) PISA: An introduction and overview. In R. Bybee & B. McCrae (Eds), PISA Science 2006:
Implications for Science Teachers and Teaching, pp. 3-14. Arlington, VA: NSTA Press.

20



đánh giá chất lượng câu hỏi thi thông qua thử nghiệm, sẽ đảm bảo thu thập thơng tin
khá chính xác về năng lực của học sinh.
c. Chọn mẫu trong Chương trình đánh giá PISA
Học sinh dự thi PISA là một mẫu ngẫu nhiên trong toàn bộ học sinh đủ điều
kiện dự thi PISA của một nước. Chương trình PISA sử dụng phương pháp chọn
mẫu hai giai đoạn: giai đoạn 1 là chọn trường và giai đoạn 2 là chọn học sinh trong
từng trường đã được chọn. Ở giai đoạn 1, tất cả các trường có học sinh đủ điều kiện
dự thi PISA (15 tuổi, từ lớp 7 trở lên) được chọn theo xác suất lựa chọn tỷ lệ với
tổng số học sinh đủ điều kiện dự thi trong trường. Khoảng 150 trường sẽ được chọn
trong một quốc gia. Giai đoạn 2 là lựa chọn ngẫu nhiên khoảng 30 học sinh từ mỗi
trường đã chọn ở giai đoạn 1. Như vậy, mỗi nước sẽ có khoảng 4.500 học sinh được
lựa chọn dự thi PISA. Việc lựa chọn trường ở giai đoạn 1 là do liên danh nhà thầu
tổ chức thi PISA thực hiện, các nước tham gia chỉ cung cấp thông tin dữ liệu theo
yêu cầu về tất cả các trường có học sinh thuộc độ tuổi dự thi PISA trên cả nước.
Công việc chọn mẫu học sinh ở giai đoạn 2 là do từng nước thực hiện, sử dụng phần
mềm chọn mẫu KeyQuest của ACER.
d. Phân tích số liệu kết quả thi PISA và sử dụng kết quả phân tích
Turner (2009) mô tả vắn tắt bản chất của việc phân tích số liệu kết quả thi
PISA như sau:
Kỹ thuật đưa dữ liệu lên một thang đo đóng vai trị quan trọng hàng đầu, làm
nòng cốt cho hầu hết các phân tích sử dụng dữ liệu kết quả thi PISA. Sử dụng kỹ
thuật này, người ta đặt một số giả thiết sau: mỗi năng lực mà chúng ta cần đánh giá
thể hiện dưới một số nét năng lực cụ thể đã được xác định trong khung thiết kế đề
thi; những mức độ khác nhau của mỗi nét năng lực nằm trên một đường liên tục,
hay hình thành một thang đo. Ta có thể thiết kế câu hỏi thi gắn với mỗi nét năng lực
này, đòi hỏi học sinh phải sử dụng nét năng lực đó để trả lời các câu hỏi mà ta đã
ngụ ý khi thiết kế. Và như vậy, ta có thể phán đốn mức độ năng lực của một học
sinh dựa trên mức độ thành công khi trả lời các câu hỏi ngụ ý đo năng lực đó.


21


PISA sử dụng mơ hình Rasch để đưa dữ liệu về từng học sinh lên thang đo,
từ đó có thể thực hiện nhiều phép so sánh. Mơ hình này sử dụng kết quả trả lời câu
hỏi của học sinh để dự đốn độ khó của các câu hỏi và năng lực của học sinh có câu
trả lời cho các câu hỏi đó. Như vậy, cả câu hỏi và học sinh đều gắn với một thang
đo trung gian được xác định bởi nét năng lực mà ta cần đánh giá.
Hình 1.1: Ví dụ về thang năng lực PISA

Nguồn: Turner, R. (2009)
Nhờ sử dụng mơ hình Rasch và phương pháp quy kết quả về một thang đo,
người ta có thể quan sát bằng trực quan kết quả làm bài của học sinh, hay cụ thể hơn
là quan sát được các phép đo năng lực học sinh thông qua kết quả làm bài thi của
học sinh. Không những thế, năng lực học sinh xác định thơng qua các phép đo của
đề thi cịn được kết nối với những biến thông tin cơ sở về học sinh, chẳng hạn như

22


giới tính hay các điều kiện kinh tế xã hội của gia đình học sinh, của địa phương nơi
các em đang theo học. Phân tích thống kê các tương quan này sẽ cho phép chúng ta
thực hiện các phép so sánh dự đốn sự khác biệt giữa các nhóm đối tượng học sinh
trong độ tuổi dự thi PISA khác nhau. Những so sánh kết nối giữa sự thể hiện năng
lực của học sinh thông qua bài thi và các biến thơng tin cơ sở như trên rất có ý nghĩa
với những cơng việc nghiên cứu hoạch định chính sách, giúp các nhà nghiên cứu và
hoạch định chính sách xác định các nhân tố ảnh hưởng đến sự thể hiện năng lực của
học sinh cũng như mức độ ảnh hưởng của chúng. Bên cạnh đó, tính kế thừa khi thiết
kế đề thi và các bảng hỏi khảo sát còn cho phép ta theo dõi những thay đổi về năng
lực và thông tin cơ sở của học sinh cũng như mối quan hệ giữa các biến này. Theo

dõi được những thay đổi này sẽ giúp các chính phủ đánh giá kết quả thực hiện chiến
lược, lộ trình phát triển giáo dục của quốc gia.
1.2.

Tổng quan các nghiên cứu liên quan
Với sự phát triển của khoa học đo lường đánh giá, các cuộc đánh giá năng

lực trên diện rộng ngày càng được quan tâm phát triển như một hệ quả tất yếu của
tiến trình tồn cầu hóa. Sự xuất hiện của Lý thuyết khảo thí hiện đại và các mơ hình
thống kê của nó mang lại những ứng dụng hữu ích khơng ngờ để đảm bảo xây dựng
được những công cụ đánh giá – các đề thi chuẩn đáp ứng ở mức cao nhất có thể
mục đích mà các cuộc khảo sát/đánh giá năng lực trên diện rộng đã đặt ra.
Những quy trình xây dựng công cụ đánh giá ngày càng được chuẩn hóa, độ
giá trị, độ tin cậy của đề thi và từng câu hỏi thi được đặc biệt quan tâm. Một trong
những yêu cầu kỹ thuật như thế là vấn đề không cho phép câu hỏi thi mang lại kết
quả đánh giá khác nhau một cách có hệ thống giữa các nhóm đối tượng được dự báo
có mức năng lực tương đương nhau.
Tuy ở hầu hết các cuộc đánh giá trên diện rộng, đặc biệt là các chương trình
đánh giá mang tính quốc tế, có sự điều phối, tham gia của những tổ chức khảo thí
hàng đầu, vấn đề câu hỏi thiên kiến đã được đặt ra và loại trừ trong giai đoạn xây

23


dựng cơng cụ khảo thí, nhiều nhà nghiên cứu vẫn rất quan tâm đến vấn đề này và
tìm kiếm câu trả lời thông qua các nghiên cứu độc lập.
Băn khoăn về những tác động của công tác dịch thuật tới độ khó của câu hỏi
thi mơn đọc hiểu thuộc chương trình đánh giá học sinh quốc tế PISA, Grisay và
Monseur (2007)4 đã tiến hành những phân tích thống kê trên kết quả thi PISA năm
2000 – lĩnh vực đọc hiểu nhằm đo lường sự tương đương giữa 47 phiên bản (theo

47 ngôn ngữ) của đề thi. Theo biện luận của tác giả, sự tương đồng của các câu hỏi
thi giữa các phiên bản có thể bị ảnh hưởng nặng nề từ công tác dịch thuật, chẳng
hạn học sinh giữa các ngơn ngữ khác nhau thì mức độ quen thuộc với nội dung câu
hỏi hoặc tình huống câu hỏi cũng khác nhau. Khi đó, một câu hỏi có thể là khó hơn
hoặc dễ hơn với một nhóm thí sinh này hay nhóm thí sinh khác, trong khi cấp độ
năng lực đọc hiểu giữa các nước đó có thể khơng chênh nhau. Khi có quá nhiều
trường hợp như thế xuất hiện trong một chương trình đánh giá quốc tế, các quốc gia
sẽ gánh hậu quả nặng nề khi sử dụng những kết quả đánh giá khơng chính xác, độ
khó của câu hỏi lúc này khơng phản ánh chính xác năng lực đọc hiểu của thí sinh
trên thang năng lực.
Sử dụng các phép phân tích hồi quy logit của Lý thuyết trả lời câu hỏi (Item
Response Theory – IRT) để đánh giá độ khó của câu hỏi, dựa trên số liệu kết quả thi
PISA, Grisay và Monseur (2007) đã chỉ ra một tỉ lệ nhất định các câu hỏi có tính
chất DIF (câu hỏi thực hiện chức năng khác biệt) tồn tại giữa các quốc gia/nhóm
quốc gia (phân chia theo tiêu chí của tác giả).
Nhìn chung, xuyên suốt 47 phiên bản với 47 ngôn ngữ của đề thi PISA 2000
lĩnh vực đọc hiểu, độ khó của các câu hỏi giữa các phiên bản tương đối đồng đều
nhau. Tuy nhiên, cũng tồn tại một số khác biệt về độ khó giữa một số nước tham
gia, mà sự xuất hiện của chúng hồn tồn khơng phải là ngẫu nhiên, đòi hỏi được
đầu tư xứng đáng để nghiên cứu tìm ra nguyên nhân và giải pháp loại bỏ. Đó là,
cơng tác dịch thuật đề thi ln có ảnh hưởng đến tính tương đương của đề thi; một
số đặc điểm về địa lý, kinh tế - xã hội cũng ảnh hưởng đến thành tích đọc hiểu của
4

Grisay, A. & Monseur, C. (2007). Measuring equivalence of item difficulties in the various versions of an
international test. Studies in Educational Evaluation, 33(1), 69-86.

24



học sinh; kiểu câu hỏi thi (câu hỏi trắc nghiệm khách quan nhiều lựa chọn và câu
hỏi mở) cũng ít nhiều ảnh hưởng đến độ khó câu hỏi giữa một số quốc gia, có thể lý
giải do đặc điểm ngơn ngữ hoặc phong cách giảng dạy kỹ năng viết ở từng quốc gia.
Từ những kết quả nghiên cứu, nhóm tác giả đưa ra một số đề xuất nhằm cải
thiện, nâng cao tính tương đương của đề thi trong những kỳ thi tới, đặc biệt lưu ý tới
công tác tổ chức dịch thuật và thích nghi hóa đề thi ở các quốc gia sử dụng chung
một ngôn ngữ.
Bên cạnh tác động của công tác dịch thuật, những nhân tố về văn hóa và thói
quen sử dụng ngơn ngữ (một cách diễn đạt quen thuộc ở ngôn ngữ này nhưng lại
không quen thuộc ở ngôn ngữ khác) cũng đã được phát hiện có thể là nguyên nhân
làm cho câu hỏi thi PISA có độ khó khác nhau giữa một số quốc gia tham gia. Wu
(2009)5 trong một nghiên cứu nhằm so sánh mối tương đồng về mặt nội dung của
các bài thi tốn giữa hai chương trình PISA và TIMSS (Chương trình đánh giá quốc
tế năng lực toán học và khoa học), đã chỉ ra những ví dụ cụ thể (câu hỏi cụ thể)
thuộc đề thi TIMSS 2003 dành cho học sinh lớp 8 có độ khó rất khác biệt giữa
Hong Kong và Úc (giá trị độ khó logit lần lượt là -0.42 và 2.36). Quay trở lại phân
tích ngơn ngữ sử dụng trong câu hỏi thi, tác giả đã phát hiện, sở dĩ có kết quả trên là
do sự chuyển tải ngôn ngữ từ tiếng Anh sang tiếng Trung Quốc của một cụm từ
trong câu hỏi. Việc dịch thuật hoàn toàn sát nghĩa, tuy nhiên cách diễn đạt đó khơng
quen thuộc trong tiếng Trung Quốc. Độ phân biệt của câu hỏi là 0.18 đối với học
sinh Hong Kong và 0.41 đối với học sinh Úc càng làm cho tác giả tin rằng cách diễn
đạt của câu hỏi đã gây khó hiểu cho học sinh Hong Kong.
Tiến hành phân tích tương tự với hai nhóm quốc gia: phương Tây (bao gồm
Úc, Anh, Mỹ) và phương Đông (bao gồm Hong Kong, Nhật Bản, Hàn Quốc), tác
giả cũng tìm thấy một số câu hỏi có độ khó và độ phân biệt khác nhau giữa hai
nhóm nước này. Chẳng hạn, với câu hỏi số 90 (mang mã số M032699) trên đề thi
TIMSS 2003, học sinh ba nước phương Tây cảm nhận câu hỏi dễ hơn học sinh ba
nước phương Đơng (so sánh độ khó – giá trị logit). Hơn nữa, độ phân biệt của câu
5


Wu, M. (2009). A critical comparison of the contents of PISA and TIMSS mathematics assessments.
Downloaded from the webite: www.edinformatics.com/timss/TIMSS_PISA_test.htm

25


hỏi này với học sinh ba nước phương Tây cũng thấp hơn học sinh ba nước phương
Đông. Trở lại với bối cảnh câu hỏi: đơn vị đo lường nào thường được sử dụng để đo
diện tích của một sân bóng, tác giả bình luận: liệu bối cảnh “sân bóng” có ảnh
hưởng đến sự khác biệt về độ khó câu hỏi giữa hai nhóm học sinh này; phải chăng
học sinh phương Tây làm đúng câu hỏi này không phải do kiến thức học được ở
trường mà do chủ đề này quen thuộc trong cuộc sống hàng ngày của chúng, cịn với
nhóm học sinh ba nước phương Đơng thì ngược lại.
Những kết quả phân tích như trên rất có ý nghĩa đối với những người làm
chính sách và xây dựng chương trình giáo dục phổ thông ở các nước. Các kỳ thi
quốc tế như PISA hay TIMSS đã thực sự mang ý nghĩa góp phần làm thay đổi
chương trình giáo dục các nước theo hướng gần với đời sống hiện thực hơn, để giáo
dục phổ thông ngày càng làm tốt chức năng của mình là chuẩn bị những kiến thức
và kỹ năng cuộc sống cần thiết cho học sinh trước khi bước vào đời.
Mở rộng nghiên cứu năm 2007 của mình, năm 2009, Grisay và Monseur đã
cùng với Gonzalez đánh giá sự tương đương về độ khó của các câu hỏi thi lĩnh vực
đọc hiểu thuộc hai chương trình đánh giá quốc tế PIRLS và PISA, giữa các phiên
bản dịch của các nước tham gia6. Lặp lại các bước phân tích với kết quả thi PIRLS7,
các tác giả đã chỉ ra một kết quả tương tự như các câu hỏi thi đọc hiểu thuộc chương
trình PISA: độ khó câu hỏi giữa các phiên bản không khác biệt nhau nhiều. Tỷ lệ
khác biệt cịn lại gắn liền với ngơn ngữ sử dụng cho công cụ khảo sát. Từ các lý giải
liên quan đến ngơn ngữ và văn hóa được cho là ngun nhân dẫn đến độ khó câu
hỏi khác nhau giữa các nhóm quốc gia, các tác giả cho rằng các công cụ đánh giá
trong các cuộc khảo sát trên diện rộng mang tầm quốc tế như PIRLS hay PISA vẫn
cần tiếp tục hồn thiện về phương diện nhạy cảm văn hóa và quy trình dịch thuật,

đặc biệt đối với các phiên bản thuộc các nhóm ngơn ngữ khác biệt hồn tồn so với
ngôn ngữ gốc của công cụ đánh giá.
6

Grisay, A. Gonzalez, E. & Monseur, C. (2009). Equivalence of item difficulties across national versions of
the PIRLS and PISA reading assessment. IERI monograph series: Issues and methodologies in large-scale
assessment, Vol.2, 63-83.
7
PIRLS – Progress in International Reading Literacy Studies: Chương trình đánh giá kỹ năng đọc hiểu quốc
tế, đối tượng khảo sát là học sinh lớp 4.

26


×