Tải bản đầy đủ (.pdf) (36 trang)

Xếp hạng các trường đại học dựa trên đo độ web và áp dụng vào bài toán xếp hạng các trường Đại học của Việt Nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (628.06 KB, 36 trang )



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


BÁO CÁO CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC
SINH VIÊN NĂM 2009

Đề tài:
XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC DỰA TRÊN ĐỘ ĐO WEB VÀ
ÁP DỤNG VÀO BÀI TOÁN XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC
VIỆT NAM


Người thực hiện:
Trần Nam Khánh – K50HTTT
Phùng Văn Huy – K50HTTT
Nguyễn Tiến Thanh – K51CA

Giáo viên hướng dẫn:
PGS.TS Hà Quang Thụy
Cử nhân Nguyễn Thu Trang






Hà Nội, 2009
1



Tóm tắt nội dung
Xếp hạng các trường đại học (university ranking) nhận được rất nhiều sự quan
tâm của các tổ chức xã hội và tổ chức giáo dục trên thế giới. Hiện nay, nhiều hệ thống
xếp hạng dựa trên các phương pháp định tính cũng như định lượng đã được công bố.
Trong đó, xếp hạng trường đại học dựa trên độ đo web được khởi xướng bởi phòng
nghiên cứu Cybermetrics thuộc trung tâm nghiên cứu CSIC - trung tâm nghiên cứu
lớn nhất của Tây Ban Nha - công bố vào tháng 1 và thang 7 hàng năm. Báo cáo đưa
ra mô hình thực nghiệm áp dụng phương pháp “xếp hạng dựa trên độ đo web” vào
bài toán xếp hạng các trường đại học Việt Nam. Thực nghiệm ban đầu cho kết quả khả
quan của mô hình.























2

Mục lục

1. Giới thiệu 4
2. Khái quát về Webometrics 5
2.1. Xếp hạng trang web 5
2.2. Xếp hạng các thực thể trên web 7
2.3. Khái quát về Webometrics 10
3. Một số hệ thống xếp hạng trường đại học điển hình 13
3.1. Phương pháp chung 13
3.1.1. Thu thập dữ liệu 13
3.1.2. Xác định các tiêu chí đánh giá, tính điểm và đánh trọng số cho từng tiêu
chí. 13

3.1.3. Tổng hợp và công bố kết quả 15
3.2. Các hệ thống xếp hạng quốc gia 15
3.2.1. Mỹ - US News and World Report (USNWR) 15
3.2.2. Anh - Times Higher Education Supplement (THES) 15
3.2.3. Australia - Good Universities Giude (GUG) 16
3.2.4. Canada - Macleans Raking 16
3.3. Các hệ thống xếp hạng quốc tế 17
3.3.1. Hệ thống xếp hạng học thuật các trường đại học trên thế giới của trường
đại học Giao Thông Thượng Hải (Shanghai Jiao Tong University – SJTU) 17

3.3.2. Hệ thống xếp hạng các trường đại học quốc tế của Times Higher
Education Supplemen (THES) 18


4. Hệ thống xếp hạng trường đại học dựa trên độ đo Web 19
4.1. Giới thiệu 19
4.2. Phương pháp luận 20
4.2.1. Thu thập dữ liệu 20
4.2.2. Chuẩn hóa chỉ số và xác định trọng số cho các chỉ số 21
5. Mô hình thực nghiệm phương pháp dựa độ đo web trong xếp hạng các trường đại
học Việt Nam 22

5.1. Xác định các chỉ số 23
5.1.1. Chỉ số nhận diện (V – Visibility) 23
5.1.2. Chỉ số kích thước (Size – S) 26
5.1.3. Chỉ số phong phú tài liệu (Rich files - R) 26
5.1.4. Chỉ số bài báo khoa học (Scholar – Sc) 26
5.2. Xác định trọng số cho các chỉ số 27
6. Bảng xếp hạng - Phân tích đánh giá 28
7. Kết luận và định hướng nghiên cứu 30





3

Danh sách hình vẽ
Hình 1. Đồ thị biểu diễn liên kết web
Hình 2. Mô hình chung của tìm kiếm thực thể
Hình 3. Một thuật toán xếp hạng thực thể.
Hình 4. Mô hình thực nghiệm chung
Hình 5. Đồ thị web các trường đại học

Hình 6. Sử dụng máy tìm kiếm để xác định liên kết đến (inlinks)
Hình 7. Mô hình mở rộng phương pháp 2
Danh sách bảng biểu
Bảng 1.Các tiêu chí và trọng số trong xếp hạng của SJTU
Bảng 2. Bảng xếp hạng 5 trường hàng đầu theo TJTU (2008)
Bảng 3. Bảng xếp hạng 5 trường hàng đầu theo THES (2008)
Bảng 4: So sánh về độ bao phủ của Webometrics với ARWU và THES
Bảng 5: Bảng xếp hạng 10 trường hàng đầu thế giới theo Webometrics
Bảng 6: Các câu truy vấn trong xác định chỉ số V
Bảng 7. Các câu truy vấn xác định chỉ số S
Bảng 8: Câu truy vấn xác định chỉ số R
Bảng 9: Trọng số cho các chỉ số S, V, R, Sc
Bảng 10. Bảng xếp hạng các trường đại học Việt Nam
Bảng 11. Danh sách các trường Việt Nam được Webometrics xếp hạng
Danh sách biểu đồ
Biểu đồ 1: Mối quan hệ giữa các độ đo
Biểu đồ 2. So sánh kết quả kết quả thực nghiệm và webometrics






4

1. Giới thiệu
Chất lượng giáo dục được coi là đòn bẩy quan trọng bậc nhất để thúc đẩy sự
phát triển của một quốc gia, và là nguồn đầu tư mang lại lợi nhuận lớn nhất đối với
từng cá nhân. Xuất phát với mục tiêu ban đầu của việc xếp hạng các trường đại học là
đáp ứng các nhu cầu thông tin về các trường đại học của cha mẹ học sinh, sinh viên và

các nhà tuyển dụng lao động thì ngày nay nó đã trở thành một yếu tố chuẩn mực tại đa
số các quốc gia có hệ thống giáo dục đại học lớn, môt hiện tượng toàn cầu và là mối
quan tâm chung của tất cả các cộng đồng trong các quốc gia của tất cả các châu lục
trên thế giới.
Bắt đầu từ năm 1983, US News and World Report lần đầu tiên xếp hạng các
trường đại học tại Hoa Kỳ. Tiếp sau đó là Tuần Báo Canada Macleeans (1991), rồi
Tuần Báo Đức Stern (1998), Thời báo chủ nhật – Sunday Times (2001) cũng lần lượt
đưa ra bảng xếp hạng cho các trường đại học nước mình. Sau đó, vào cuối thế kỉ 20,
các bảng xếp hạng các trường đại học tốt nhất trong khu vực và toàn cầu cũng xuất
hiện, tiêu biểu là bảng xếp hạng các trường đại học trên thế giới của trường đại học
Giao thông Thượng Hải (2003), Times Higher Education Supplement của Vương
Quốc Anh (2004) và của Webometrics (2004).
Trong lúc đó, Việt Nam chưa có một hệ thống xếp hạng các trường đại học
chính thức. Theo GS. TSKH Bành Tiến Long, Thứ trưởng Bộ Giáo dục và Đào tạo
Việt Nam, Đại học Quốc gia Hà Nội (ĐHQGHN) được xếp hạng 54 khu vực và 2850
thế giới, trong đó Trường Đại học Công nghệ thuộc ĐHQGHN được xếp hạng 90 khu
vực và 4217 thế giới [Long98]. Chưa hề có một công trình nghiên cứu nào thử xác
định xem, nếu dùng bộ tiêu chí xếp hạng của Tin tức Hoa Kỳ, hoặc Thời báo Luân
Đôn, hoặc Tuần san Châu Á, hoặc tổ chức nào khác để đánh giá các trường đại học
Việt Nam. Trong hội thảo quốc tế “Xếp hạng các trường đại học: Xu thế toàn cầu và
quan điểm” tại Đại học Quốc gia Hà Nội, PGS.TS Nguyễn Phương Nga đã trình bày
báo cáo “Phương pháp và các tiêu chí xếp hạng của các trường đại học Việt Nam” với
mong muốn trong năm 2009 đưa ra một bảng xếp hạng chính thức cho các trường đại
học tại Việt Nam [Nga08].
Báo cáo này tập trung vào việc nghiên cứu phương pháp sử dụng độ đo web
trong xếp hạng các trường đại học trên thế giới, được Phòng nghiên cứu Cybermetrics
thuộc trung tâm nghiên cứu CSIC (Tây Ban Nha) khởi xướng. Cuối cùng là áp dụng
phương pháp trên để xây dựng mô hình thực nghiệm cho việc xếp hạng các trường đại
học Việt Nam. Dữ liệu về website các trường đại học Việt Nam được lấy về từ trang
chủ của Bộ Giáo dục và Đào tạo Việt Nam (có bổ sung sửa đổi).

Phần còn lại của báo cáo sẽ được chức thành năm mục. Mục đầu sẽ trình bày
khái quát về Webometrics. Mục thứ hai sẽ giới thiệu về phương pháp chung thực hiện
trong xếp hạng trường đại học và các hệ thống xếp hạng quốc gia, quốc tế. Tiếp theo
5

báo cáo trình bày phương pháp xếp hạng trường đại học dựa trên độ đo web -
webometrics. Mục thứ tư sẽ trình bày mô hình thực nghiệm áp dụng phương pháp
trong xếp hạng các trường đại học tại Việt Nam. Mục cuối cùng sẽ đưa ra kết quả -
bảng xếp hạng- phân tích đánh giá kết quả và định hướng nghiên cứu
2. Khái quát về Webometrics
2.1. Xếp hạng trang web
Ngày nay với sự phát triển của Internet, người dùng đã có được một nguồn tài
nguyên tri thức phong phú, đa dạng. Tuy nhiên, do số lượng các trang web quá lớn,
con người không có đủ thời gian cũng như kiên nhẫn để mà có thể ghé thăm qua từng
trang cho tới khi tìm ra thông tin mình mong muốn. Chính vì lý do đó máy tìm kiếm ra
đời với cách thức hoạt động khá đơn giản và thân thiện: người dùng đưa ra từ khóa về
thông tin mong muốn, máy sẽ liệt kê ra các trang liên quan. Song thực sự thì lượng kết
quả máy cho là phù hợp với truy vấn của người dùng cũng không hề nhỏ! Do đó, đặt
ra yêu cầu xếp hạng các trang để máy hiển thị kết quả trả về tốt hơn cho người dùng.
Các trang web trên Internet được xây dựng và liên kết với nhau. Nếu coi mỗi
trang web là một điểm, và mỗi liên kết từ một trang web này tới một trang web khác là
một tia, thì ta có thể biểu diễn được tập hợp các trang web, mối quan hệ giữa chúng
bằng một đồ thị G - gọi là đồ thị Web. Đồ thị G là đồ thị có hướng. Mỗi đỉnh p
i
của G
tương ứng với một trang. Cung p
i
-> p
j
cho biết rằng trang ứng với đỉnh p

i
có liên kết
tới trang ứng với đỉnh p
j
.
Kí hiệu N(p) là số liên kết vào p. B(p) là số liên kết ra từ p. Trong tính toán, G
được biểu diễn bằng ma trận. Có hai dạng ma trận thường được sử dụng đó là ma trận
kề A và ma trận chuyển P. Dưới đây là một ví dụ của đồ thị G để minh họa, làm rõ
cách biểu diễn G bằng ma trận


Hình 1. Đồ thị biểu diễn liên kết web
P
P
P P
6

Ma trận kề A: a
ij
= 1 nếu trang i có liên kết tới j, bằng 0 trong các trường hợp khác (ko
tính tự liên kết, tức a
ii
= 0 với mọi i)
11 12 13 14
21 22 23 24
31 32 33 34
41 42 43 44
0 1 0 1
1 0 0 1
0 0 0 0

0 0 0 0
a a a a
a a a a
a a a a
a a a a
 
 
 
 
 
 
=
 
 
 
 
 
 

Ma trận chuyển P: p
ij
= 1/B(i) nếu trang i có liên kết trỏ tới j, bằng 0 trong các trường
hợp khác
1 1
2 2
11 12 13 14
1 1
2 2
21 22 23 24
31 32 33 34

41 42 43 44
0 0
0 0
0 0 0 0
0 0 0 0
p p p p
p p p p
p p p p
p p p p
 
 
 
 
 
 
=
 
 
 
 
 
 

Do tính chất đặc thù có khả năng liên kết giữa các trang web, nên sự xếp hạng
các trang web ở mức toàn cục luôn có việc phân tích liên kết trên đồ thị web. Nội dung
dưới đây sẽ trình bày khái quát về 2 phương pháp xếp hạng dựa trên liên kết phổ biến
PageRank và HITS
Phương pháp PageRank
Là phương pháp tính hạng được phát triển tại đại học Stanford bởi Lary Page
(cũng bởi vậy mà có tên PageRank) và tiếp đó bởi cùng Sergey Brin. Sau này trở thành

thương hiệu của Google [PBMW98].
Ý tưởng: Độ quan trọng của một trang thừa hưởng một phần độ quan trọng từ
trang liên kết đến nó.
Công thức tính hạng trang p
i


Trong đó: N là tổng số trang, d là hệ số hãm (qua thực nghiệm, tác giả công bố
chọn 0.85), M(p
i
) là tập các trang liên kết tới pi, L(p
j
) là số trang p
j
liên kết đến.
Ưu điểm của PageRank: đơn giản, tính toán nhanh, đáng tin; không phụ thuộc
vào truy vấn của người dùng, nội dung của trang web; có thể tính toán ngoại tuyến với
đầu vào là cấu trúc đồ thị web. Dĩ nhiên trên thực tế Google không chỉ sử dụng nguyên
PageRank “cổ điển” để xếp hạng trang.
Phương pháp HITS (Hyperlink-Induced Topic Search – KleinBerg)
Ý tưởng: Độ quan trọng của một trang web được xác định dựa trên 2 trọng số
authority và hub. Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt
7

là trang có nhiều liên kết tới. 2 trọng số này có quan hệ qua lại với nhau: trang trỏ tới
trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hub
cao trỏ tới thì trọng số authority càng cao.
Quá trình tính toán: Từ câu truy vấn, xác định tập nhân, mở rộng thành tập cơ
sở S gồm n trang. Ban đầu khởi tạo trọng số hub và authority cho mỗi trang bằng 1.
a

i
=h
i
=1. Sau đó tiến hành tính a
i
và h
i
theo công thức

( )
i j
j B i
a h

=


( )
i j
j N i
h a

=


Ưu điểm: Áp dụng với tập nhỏ, tính toán trực tuyến
Minh họa áp dụng PageRank vào xếp hạng các blog ở Việt Nam
Bài toán: Blog ngày càng phát triển và trở nên phổ biến đối với mọi người. Xếp
hạng các blogger để đánh giá sự “nổi tiếng”, “đóng góp” của họ với cộng đồng, ưu tiên
hiển thị các bài viết mới “chất lượng” của họ trên máy tìm kiếm blog.

Nhận xét: Mạng blog là một loại của mạng xã hội. Chúng ta có thể mô hình hóa
bằng đồ thị G có hướng. Mỗi đỉnh ứng với một blogger. Cung AB chỉ ra rằng blogger
A có lời bình - nhận xét cho bài viết của B, và được đánh trọng số là tổng số lời bình,
nhận xét của A cho các bài viết của B. Khi đó dễ dang nhận thấy “liên kết thông qua
comment” giữa các blogger khá giống “liên kết” giữa các trang web. Vì thế chúng ta
có thể áp dụng PageRank sửa đổi để tính toán phục vụ việc xếp hạng. Sự sửa đổi ở đây
chính là ở trọng số lời bình - nhận xét.
Công thức áp dụng tính hạng cho blogger i
PR(i) =

Trong đó: N là tổng số blogger, α là hệ số hãm (0.85), N
j,i
là số lời bình - nhận
xét của j cho i, N
j
là số lời bình – nhận xét của j cho tất cả các blogger
2.2. Xếp hạng các thực thể trên web
Các máy tìm kiếm hiện nay: Google, Yahoo hay Live Search đều tâp trung tìm
kiếm dựa từ khóa mà không quan tâm đến dữ liệu. Cụ thể hơn thì các máy tìm kiếm
hiện nay có 2 hạn chế chính:
 Indirect Input and Output. Người dùng không thể miêu tả chính
xác những gì họ cần do đó khi tìm kiếm người dùng có thể tìm vào
những trang web mà không có thông tin họ mong muốn. Tiếp đó,
người dùng không thể trực tiếp lấy những gì họ muốn. Vì họ phải
chọn lọc qua một danh sách các trang để tìm kết quả.
 Singular Matching Mechanism. Máy tìm kiếm hiện nay tìm mỗi
trang một cách rất đơn giản chỉ bằng cách so sánh văn bản (text)
8

trên từng trang. Mặc dù thực thể kết quả có thể chứa trong nhiều

trang khác nhau.
Do đó, tìm kiếm thực thể được đưa ra để giải quyết các giới hạn trên:
 Input: Người dùng có thể đưa ra một cách rõ ràng loại dữ liệu nào
mà họ đang tìm kiếm. Họ chỉ đơn giản chỉ rõ thực thể đích là gì
và từ khóa nào xuất hiện trong ngữ cảnh đó. Eg:
o Q1: (amazon customer service #phone)
o Q2: (#professor #university
#research=’database’)
o Q3 ow (sigmod 2006 #pdf_file #ppt_file)
o Q4 (title=’hamlet’ #image #price)
Có 2 phần chính trong câu truy vấn:
o Context pattern (Mẫu ngữ cảnh)– thực thể đích xuất hiện
như thế nào? Q1: #phone sẽ xuất hiện trong các từ khóa với pattern
mặc định. Chúng ta cũng có thể chỉ rõ ra các mẫu như Q3 sử dụng
ow (order window)- từ khóa phải xuất hiện trước #pdf_file #ppt_file.
o Content restriction (Giới hạn về nội dung). Chúng ta có thể
giới hạn domain cho vùng tìm kiếm như Q2 chỉ nghiên cứu trong lĩnh
vực database (sử dụng “=” hoặc “contain”)
Output: Người dùng nhận được kết quả như họ mong đợi.












Hình 2. Mô hình chung của tìm kiếm thực thể
9

Xếp hạng thực thể là cốt lõi của máy tìm kiếm thực thể. Do đó, xếp hạng thực
thể đang nhận được sự quan tâm nghiên cứu của các nhà khoa học. Các nhân tố chung
ảnh hưởng đến việc xếp hạng:
- R-Contextual: Xác suất (từ khóa, thể hiện) sẽ khác nhau trong các ngữ cảnh
khác nhau.Chúng phụ thuộc vào các yếu tố:
o Pattern: Từ khóa và các thể hiện sẽ có một quan hệ thông thường
nhât định. Ví dụ: Tên công ty thường xuất hiện trước số điện thoại.
o Proximity: (Từ khóa và thể hiện) sẽ có xác suất không giống nhau
trong trang web. Sự kết hợp sẽ mạnh hơn khi chúng ở gần nhau hơn.
Ví dụ hình trên hiển nhiên thể hiện e
1
sẽ là thích hợp hơn với từ khóa
Amazon so với thể hiện e
6

- R-Holistic: Một thể hiện có thể xuất hiện cùng với từ khóa nhiều lần trong
một trang. Tất cả việc matchings sẽ được tổng hợp lại cho việc đánh giá xác
suất sự thích hợp của chúng
- R-Uncertainty: Việc trích chọn thực thể luôn luôn là không hoàn hảo. Do đó
luôn phải có một xác suất cho chúng.
- R-Associative: Chúng ta phải cẩn thận để phân biệt giữa việc kết hợp đúng
(từ khóa, thể hiện) và sự ngẫu nhiên. Do đó chúng ta cũng cần phải kiểm tra
lại tính hợp lệ của các kết hợp
R-Discriminative: Các thể hiện match trên trang phổ biến hơn sẽ được đánh
giá cao hơn so với các thể hiện trên trang ít phổ biến hơn.
Giả sử chúng ta có tập tài liệu D = {d
1

, d
2
,…,d
n
} và câu truy vấn q(t). T là
khoảng thời gian quan sát và nghiên cứu câu truy vấn q(t) trong tập tài liệu. Chúng ta
có công thức xác định xác suất tính độ phù hợp của q(t) trong D:


Dựa vào Score(q(t)) chúng ta đưa ra xếp hạng cho kết quả trả về. Tao Cheng,
Xifeng Yan, Kevin Chen-Chuan Chang [TXK07] đã đưa ra mô hình Impression để xác
định công thức (1) và đưa ra thuật toán cho việc xác định xếp hạng thực thể
10


Hình 3. Một thuật toán xếp hạng thực thể.
2.3. Khái quát về Webometrics
Bắt đầu từ một mạng tài liệu toàn cầu phục vụ cho các mục đích học thuật, ngày
nay Web đã trở thành một lĩnh vực nghiên cứu quan trọng của bibiometrics,
scientometrics và infometrics.

Biểu đồ 1: Mối quan hệ giữa các độ đo
Webometrics và Cybermetrics hiện tại là hai thuật ngữ được sử dụng rộng rãi
nhất trong trong lĩnh vực nghiên cứu khoa học thư viện và thông tin (LIS). Mối quan
hệ giữa chúng được thể thiện trên Biểu đồ 1 nhưng thường được sử dụng với nghĩa
tương đương nhau. Cần phân biệt giữa nghiên cứu về Web và nghiên cứu về tất cả
những ứng dụng Web.
Theo đó, thuật ngữ “webometrics” được định nghĩa bởi Björneborn and
Ingwersen [BI04] là “Nghiên cứu các thống kê định lượng của việc xây dựng và sử
11


dụng các tài nguyên thông tin, cấu trúc và công nghệ trên Web trên cơ sở của phương
pháp bibliometric và informetrics” (nguyên văn tiếng Anh "The study of the
quantitative aspects of the construction and use of information resources, structures
and technologies on the Web drawing on bibliometric and informetric approaches").
Định nghĩa này vì vậy bao trùm tất các các thống kê định lượng cả về mặt xây
dựng (construction side) và mặt sử dụng (usage side) của Web bao gồm 4 lĩnh vực
chính của các nghiên cứu webometric hiện tại: (1) Phân tích nội dung trang Web; (2)
Phân tích cấu trúc liên kết Web; (3) Phân tích sử dụng Web (bao gồm các file log các
hành vi tìm kiếm và truy cập trang web của người sử dụng); (4) Phân tích công nghệ
Web (bao gồm hiệu năng, hoạt động của các máy tìm kiếm).
Định nghĩa trên đây đặt webometrics như là một thuật ngữ LIS đặc trưng song
song với bibliometrics và informetrics [BI04]. Điều này được nhấn mạnh bởi công
thức “Web drawing on bibliometric and informetric approaches” bởi “drawing on” chỉ
rõ một sự kế thừa không giới hạn sự phát triển bất cứ một phương pháp Web đặc biệt
nào, bao gồm sự hợp nhất các phương pháp nghiên cứu về Web trong khoa học máy
tính, phân tích mạng xã hội (social netwwork analysis), nghiên cứu siêu văn bản, đa
phương tiện và hơn thế nữa.
Trong [BI04], hai ông cũng đề xuất định nghĩa cho cybermetrics là một thuật
ngữ dùng để chỉ: “Nghiên cứu các thống kê định lượng của việc khởi tạo và sử dụng
các tài nguyên, cấu trúc và công nghệ thông tin trên toàn bộ Internet theo hướng tiếp
cận bibliometric và informetric” (nguyên văn tiếng Anh "The study of the quantitative
aspects of the construction and use of information resources, structures and
technologies on the whole Internet drawing on bibliometric and informetric
approaches").
Theo [BI04, Payn08, Rous08], cybermetrics vì vậy bao gồm các phương pháp
nghiên cứu thông kê của một nhóm thảo luận, danh sách địa chỉ email và các giao tiếp
máy tính gián tiếp khác trên mạng bao gồm cả Web. Bên cạnh việc bao phủ tất cả các
phương tiện giao tiếp gián tiếp khác sử dụng các ứng dụng Internet, định nghĩa này
cũng bao trùm cả các đo lường định lượng đối với công nghệ đường truyền Internet

(Internet backbone technology), topology, và lưu lượng.
Các nghiên cứu [Ailr05, Ailr06, BI04, Rous08, Payn08] khẳng định rằng mức
độ bao phủ của cybermetrics và webometrics chồng lên các phương pháp khoa học
máy tính cơ sở với một sự gia tăng nhanh chóng trong các phân tích nội dung Web,
cấu trúc liên kết, sử dụng Web và công nghệ Web. Một loạt các phương pháp nổi lên
trong giữa những năm 1990 như cyber geography và cyber cartography, Web ecology,
Web mining, Web graph analysis, Web dynamics, và Web intelligence.
Có một vài khác biệt về mặt khái niệm trong informetrics, bilbiometrics và
scientometrics. Theo định nghĩa được thừa nhận rộng rãi của, ví dụ, Brookes (1990),
12

Egghe và Rouseau (1990), Tague-Sutcliffe (1992), lĩnh vực informetrics bao trùm các
lĩnh vực của bibliometrics và scientometrics
Theo Tague-Sutcliffe, “informetrics là nghiên cứu các thống kê định lượng của
thông tin ở bất cứ một dạng nào, không chỉ các bản ghi hay sách, và trong bất cứ một
nhóm xã hội nào, không chỉ nhóm các nhà khoa học ” (nguyên văn tiếng Anh "the
study of the quantitative aspects of information in any form, not just records or
bibliographies, and in any social group, not just scientists").

Còn bibliometrics được định nghĩa là “nghiên cứu các thống kê định lượng về
sự sản xuât, sự phổ biến và sử dụng các thông tin đã được mã hóa” (nguyên văn tiếng
Anh "the study of the quantitative aspects of the production, dissemination and use of
recorded information").

Và, scientometrics là “nghiên cứu các thống kê định lượng của khoa học như là
một ngành hay hoạt động kinh tế” (nguyên văn tiếng Anh "the study of the
quantitative aspects of science as a discipline or economic activity")

Theo các thống kê thuộc kinh tế - chính trị thì scientometrics và bibliometrics
có phần giao nhau như minh họa trên biểu đồ 1.

Tuy nhiên, hiện nay, sau khi Pritchard và Nalimov, Mulchenko đưa ra các định
nghĩa của mình về bibliometrics và sciencometrics, hai khái niệm này đã được dùng
đồng nhất với một ý nghĩa là “sử dụng các phương pháp toán học và thống kê cho việc
phân tích các dữ liệu khoa học bao gồm sách và các dữ liệu khác” [Payn08, Rous08].
Biểu đồ 1 hơn nữa chỉ rõ, webometrics hoàn toàn nằm trong bibliometrics, bởi
vì các văn bản Web, cho dù là dạng văn bản hay đa phương tiện, đều là các thông tin
đã được mã hóa (theo như định nghĩa) lưu trữ trên các Web server. Các bản ghi này có
thể chỉ lưu trữ tạm thời, chỉ đơn giản vì không phải tất cả các bản ghi được lưu trữ.
Webometrics có một phần giao với scientometrics, vì rất nhiều các hoạt động học
thuật ngày nay diễn ra trên Web, trong khi đó, lại có các hoạt động khác thậm chí vượt
ra ngoài bibliometrics, ví dụ, những thứ không được ghi lại, chảng hạn các giao tiếp
giữa người với người. Hơn nữa, webometrics hoàn toàn nằm trong cybermetrics như
theo định nghĩa.
Trong biểu đồ 1, lĩnh vực cybermetrics nằm ngoài bibliometrics bởi vì một vài
hoạt động trong vùng của cybermetrics thông thường không được lưu trữ nhưng đúng
hơn là được giao tiếp đồng thời, chẳng hạn trong phòng chat. Cybermetrics nghiên cứu
các hoạc động mà nó vẫn nằm trong lĩnh vực thông thưởng của infometrics như là sự
nghiên cứu thống kê định lượng của thông tin ở bất cứ dạng nào và bất cứ nhóm xã hội
nào.
Một cách tự nhiên, ý tưởng lấy bibliometrics, scientometrics và informetrics là
điểm bắt đầu của việc phân tích trên web đã mở rộng lĩnh vực bibliometrics. Trên cơ
sở coi web như là một thư viện số, các công cụ và thủ thuật sử dụng trong phân tích
13

các cấu trúc tri thức trong thư viện giấy truyền thống được sử dụng trong môi trường
mới này. Các trang web được nhóm thành các miền (domain) có cùng thuộc tính cần
khảo sát, mỗi một miền được coi như là một node của hệ thống mạng và sau đó, sử
dụng các máy tìm kiếm phân tích các trích dẫn, liên kết (links) giữa các node rồi từ đó
sử dụng các phương pháp xác suất thống kê để tạo nên các độ đo giữa các node
domain này. Chính nhờ việc nhóm thành các domain mà webometrics trở thành một

phần quan trọng trong các bài toán về tìm kiếm và xếp hạng các đối tượng trên web.
Như vậy, webometrics là độ đo về hạng các đối tượng trên web mà trường đại
học là một đối tượng trong đó.
3. Một số hệ thống xếp hạng trường đại học điển hình
3.1. Phương pháp chung
Vấn đề xếp hạng khá đa dạng về cách tiếp cần nhưng đều có một quy trình
chung, gồm 4 bước:
 Thu thập dữ liệu về các trường
 Xác định và tiêu chuẩn hóa các tiêu chí đánh giá
 Phân tích và tính trọng số cho từng tiêu chí trên dữ liệu thu về
 Tổng hợp và công bố bảng xếp hạng
Tùy thuộc vào cách thực hiện các bước khác nhau mà ta có các bảng xếp hạng
khác nhau
3.1.1. Thu thập dữ liệu
Có nhiều phương pháp thu thập dữ liệu, trong đó có 3 dạng chính: Thu thập
dữ liệu theo phương pháp khảo sát, sử dụng các bảng hỏi (Bản tin thế giới và tin tức
Hoa Kỳ - USNWR; Xếp hạng các trường đại học Canada – Maclean; Xếp hạng các
trường đại học trên thế giới của AsiaWeek…). Thu thập dữ liệu từ tổ chức chính phủ
hay tổ chức có chức năng thích hợp (Xếp hạng trường đại học của Vương Quốc Anh).
Thu thập dữ liệu từ các nguồn trên Internet (Xếp hạng webometrics). Hay thu thập dữ
liệu kết hợp giữa khảo sát và số liệu quốc gia.

3.1.2. Xác định các tiêu chí đánh giá, tính điểm và đánh trọng số cho từng tiêu
chí.
Việc xác định, lựa chọn và đánh trọng số các tiêu chi đánh giá thể hiện quan
điểm (phương pháp luận) của các bảng xếp hạng cũng như mục tiêu mà nó hướng tới.
Có những bảng xếp hạng sử nhiều chỉ số tập trung vào một phạm trù nào đó và có
những loại nhiều chỉ số dàn trải trên các phạm trù khác nhau . Các loại chỉ số thường
được dùng nhiều nhất gồm có 7 loại (phạm trù):
14


 Các đặc điểm bắt đầu (đại diện cho các đặc điểm, phẩm chất và năng lực
của sinh viên khi họ bắt đầu nhập học)
 Đầu vào của việc học – nguồn lực tài chính, cơ sở vật chấtvà nhân viên
 Môi trường học tập;
 Sản phẩm của việc học tập (kỹ năng hoặc phẩm chất khác của sinh viên
có được sau khi tốt nghiệp)
 Các kết quả cuối cùng (mục đích cuối cùng mà hệ thống giáo dục đóng
góp)
 Nghiên cứu
 Danh tiếng
Chẳng hạn bảng xếp hạng các trường đại học nghiên cứu của Hoa Kì (ĐH
Florida) cho rằng “không một chỉ số hay con số đơn lẻ nào có thể mô tả một cánh
chính xác một trường đại học đã đạt được những gì, có thê làm gì và sẽ làm gì” mà cần
có “một tập các chỉ số gôp chung lại có thể phản ánh rõ nét nhất những kết quả, năng
lực và điểm mạnh của trường”. Họ cho rằng, nghiên cứu là yếu tố quan trọng nhất để
chứng minh đại học nào là đại học tốt nhất và họ đã lựa chọn các chỉ số liên quan tới
nghiên cứu khoa học như tổng chi cho nghiên cứu và phát triển khoa học, tổng kinh
phí từ chính phủ liên bang cho các đề tài nghiên cứu, các giảng viên (số lượng viện sỹ,
tiến sĩ, giáo sư…), sinh viên, và thêm một vài chỉ số khác cho các nguồn lực khác hay
bảng xếp hạng Iberoamericano – Toàn bộ các nước thuộc Tây Ban Nha và Bồ Đào
Nha chỉ sử dụng một trọng số duy nhất: nghiên cứu.
Cũng có những bảng xếp hạng quan tâm tới yếu tố đầu vào như các đặc điểm
bắt đầu; đầu vào của việc học: nhân viên, nguồn lực…(như các bảng xếp hạng của
Hoa Kỳ, Anh Quốc, bảng xếp hạng của đại học Ukranian, La repubblica,
Rzezcspospolita, Exellencia, the Times, Maclean’s,….) Trong khi đó các bảng xếp
hạng quan tâm nhiều tới đóng góp cho lĩnh vực nghiên cứu (bảng xếp hạng của ĐH
Giao thông Thượng Hải dành tới 90% cho lĩnh vực nghiên cứu với các trọng số có
được từ việc đếm các trích dẫn trong hệ đo sách và dành rất ít trọng số cho các nguồn
lực đầu vào).

Có những bảng xếp hạng quan tâm tới danh tiếng của trường xếp hạng, coi đó
là một trọng số quan trọng (chẳng hạnTHES dành 50% trọng số cho điều này) trong
khi đó các bảng xếp hạng ở Anh lại tránh sử dụng chỉ số này. Nếu chỉ số này thường ít
được sử dụng, nhưng nếu được dùng thì lại có trọng số rất cao
Có những bảng lại quan tâm tuyệt đối tới yếu tố đầu ra như bảng xếp hạng của
Chile dành 100% cho chỉ số các kết quả cuối cùng
Có những bảng dành mối quan tâm đặc biệt tới môi trường học tập (như bảng
xếp hạng của Hà Lan hay của Viện Khoa học Quản lý Quảng Đông)
15

Tuy có nhiều điểm khác biệt, nhưng có một chỉ số luôn được đánh giá cao
tại hầu hết trong tất cả các bảng đó là chỉ số về thực hiện nghiên cứu và kết quả nghiên
cứu (trung bình chiếm trong số > 1/3 trên tổng số)

3.1.3. Tổng hợp và công bố kết quả
Việc tổng hợp và công bố các bảng xếp hạng cũng diễn ra với nhiều hình thức
khác nhau, trong đó, có 2 hình thức chính:
 Dữ liệu được tổng hợp và trình bày dưới dạng một chỉ số duy nhất. Kết quả của
nó là một sự sắp xếp thứ tự từ cao xuống thấp cho các trường đại học, xuất hiện
các trường đại học hàng đầu (top)
 Sử dụng sự tương tác trên trang web, cho phép người dùng xếp hạng các trường
đại học dựa trên sự lựa chọn các chỉ số của chính mình. Kết quả là không có
trường đại học “tốt nhất”, chỉ có kết quả của các chỉ số được trình bày©
3.2. Các hệ thống xếp hạng quốc gia
3.2.1. Mỹ - US News and World Report (USNWR)
Hệ thống xếp hạng các trường đại học ở Mỹ được nhắc đến nhiều nhất là ấn
phẩm tờ thời báo Tin Tức nước Mỹ và thế giới (US News and World Report –
USNWR). Xuất hiện lần đầu tiên năm 1983 tại Mỹ, thông tin xếp hạng thường niên
của tờ báo này là một nguồn tham khảo quan trọng không chỉ dành riêng cho người
học mà còn cho cả các giới hàn lâm, cũng như quản lý các trường đại học. Việc xếp

hạng được phân theo các ngành học – Kinh doanh, Luật, Y, Giáo dục, Kỹ thuật, Thư
viện học, và các chương trình đào tạo Tiến sĩ. Các chỉ tiêu (indicators) được USNWR
sử dụng để xếp hạng bao gồm 6 loại chính là danh tiếng học thuật, chọn lọc sinh viên,
nguồn lực đội ngũ, nguồn lực tài chính, tỷ lệ tốt nghiệp, và sự hài lòng của cựu sinh
viên. Việc “chấm điểm” của hệ thống USNWR chủ yếu dựa trên hai nguồn thông tin
chính: ý kiến của các học sinh tốt nghiệp trung học, những người thường đã cân nhắc
rất nhiều trước khi quyết định chọn học tại một trường cụ thể nào đó, và ý kiến đánh
giá của các nhà quản lý các trường đại học khác (không phải là trường được xếp hạng).
US News and World Report khẳng định rằng: mục đích của họ là giúp cho
sinh viên và phụ huynh xác định trường nào là phù hợp với họ về mặt học thuật, xã hội
và tài chính.
3.2.2. Anh - Times Higher Education Supplement (THES)
Hệ thống xếp hạng trường đại học phổ biến nhất ở Anh được thực hiện bởi báo
Times qua ấn phẩm phụ trương giáo dục đại học (Times Higher Education Supplement
– THES) bắt đầu năm 2001. HES sử dụng các nguồn dữ liệu được công bố chính thức
để thực hiện việc xếp hạng bao gồm:
16

* Cơ quan thống kê giáo dục đại học (Higher Education Statistics Agency)
* Hội đồng Ngân sách giáo dục đại học (Higher Education Funding Council)
* Cơ quan Đảm bảo chất lượng (Quality Assurance Agency)
* Cục Tiêu chuẩn giáo dục (Office for Standards in Education)
* Kết quả khảo sát riêng đối với một số trường đại học
Những tiêu chí được THES sử dụng để xếp hạng trường đại học bao gồm 10
loại như sau: điểm thi đầu vào, tỷ lệ giảng viên và sinh viên, dịch vụ nhà ở cho sinh
viên, tỷ lệ tốt nghiệp, số lượng sinh viên đạt điểm A, giá trị tăng thêm của nhà trường,
chi tiêu cho thư viện, số lượng sinh viên sau đại học, và việc làm của sinh viên sau khi
ra trường. So với các chỉ tiêu của USNWR, có thể thấy THES chú trọng nhiều hơn đến
quá trình đào tạo của nhà trường, và vì vậy có thể là một nguồn tham khảo đầy đủ hơn
cho người học so với hệ thống của USNWR.

3.2.3. Australia - Good Universities Giude (GUG)
Cẩm nang các trường đại học đạt chất lượng (Good Universities Guide - GUG)
do tờ nhật báo The Australian thực hiện là hệ thống xếp hạng phổ biến được biết đến ở
Austrailia. GUG sử dụng các thông tin chính thức từ 5 nguồn cung cấp sau đây:
* Bộ Giáo dục, Khoa học và Đào tạo (Department of Education, Science and
Training)
* Ấn phẩm “Nghề nghiệp của sinh viên tốt nghiệp” (Graduate Careers Australia)
* Trung tâm tuyển sinh đại học ở từng tiểu bang (tertiary admissions centres in
each state)
* Các bộ dữ liệu quốc gia khác
* Kết quả khảo sát riêng với các trường đại học
Các chỉ tiêu được GUG sử dụng để xếp hạng gồm 16 loại, trong đó có uy thế và
vị trí của nhà trường, các hoạt động hợp tác quốc tế, giảng dạy và các khóa học, việc
làm sau tốt nghiệp, và đặc điểm của sinh viên. Những chỉ tiêu này cũng phản ánh quan
điểm chú trọng đến người học và quá trình học tập tại nhà trường hơn hệ thống xếp
hạng của USNWR.
3.2.4. Canada - Macleans Raking
Một sản phẩm khác của giới truyền thông là việc xếp hạng các trường do tạp
chí phổ thông của Canada mang tên Macleans thực hiện. Kết quả xếp hạng do
Macleans thực hiện được công bố lần đầu tiên vào năm 1991. Macleans thu thập 22
chỉ tiêu về chất lượng trường đại học bằng cách gửi các phiếu hỏi đến các trường đề
nghị cung cấp thông tin. Các chỉ tiêu dùng để xếp hạng gồm có sinh viên, lớp học,
giảng viên, tài chính, thư viện, và danh tiếng của nhà trường. Những chỉ tiêu này cho
17

thấy ảnh hưởng khá lớn của USNWR đối với Macleans, hay có thể nói cách khác là
phản ánh khuynh hướng xếp hạng trường đại học của các nước Bắc Mỹ (Mỹ và
Canada) so với các nước Anh và Australia.
3.3. Các hệ thống xếp hạng quốc tế
3.3.1. Hệ thống xếp hạng học thuật các trường đại học trên thế giới của trường

đại học Giao Thông Thượng Hải (Shanghai Jiao Tong University – SJTU)
Theo N.C. Liu, and Y. Cheng [LC06], SJTU sử dụng 4 tiêu chí cho việc xếp
hạng bao gồm chất lượng cựu sinh viên (tính bằng số lượng cựu sinh viên đoạt các giải
thưởng và huy chương đặc biệt như giải Nobel), chất lượng giảng viên (tính theo cùng
phương pháp đo lường chất lượng cựu sinh viên), kết quả nghiên cứu (tính bằng số bài
báo đăng trên các tạp chí khoa học), tầm cỡ của nhà trường (tính bằng kết quả hoạt
động so với quy mô của nhà trường).
Tham số Tiêu chí Trọng số
Chất lượng giáo
dục
Số lượng cựu sinh viên đoạt các giải thưởng Nobel
và Fields
10%
Chất lượng giảng
viên
Số các nhà nghiên cứu giành giải Nobel từ 1911
đến 2007
Số các nhà nghiên cứu có nhiều trích dẫn trong các
ngành khoa học tự nhiên và xã hội
20 %

20%
Kết quả nghiên
cứu
Số các bài báo được công bố tại Nature and
Science từ 2003 – 2007
Số các bài báo được liệt kê trong Thomson
Scientific’s Science Citation Index Expanded
20%


20%
Tầm cỡ nhà
trường
Điểm trọng số của 2 tiêu chí trên chia cho số giảng
viên biên chế
10%
Bảng 1.Các tiêu chí và trọng số trong xếp hạng của SJTU

Với các chỉ tiêu vừa nêu, có thể thấy rõ đây là một hệ thống xếp hạng nghiêng
về đại học nghiên cứu, chú trọng các thành tích nghiên cứu của cựu sinh viên và giảng
viên của nhà trường nhưng không quan tâm đến các yếu tố khác như sự hài lòng của
sinh viên, hoặc chương trình giáo dục. Đây là một đặc điểm thường xuyên bị chỉ trích
của ARWU, vì như đã nêu ở phần mở đầu, nhiệm vụ của một trường đại học trước hết
là cung cấp các chương trình giảng dạy cho người học.
18

Mặc dù vẫn còn những nhược điểm, bảng xếp hạng ARWU của SJTU vẫn là
một trong những hệ thống xếp hạng trường đại học có tầm ảnh hưởng lớn đến công
chúng cũng như những nhà lãnh đạo các quốc gia cũng như các nhà quản lý các trường
đại học, và kết quả xếp hạng ARWU hàng năm vẫn được các đối tượng có liên quan
nóng lòng chờ đợi
Xếp hạng Tên trường Quốc gia
1 Harvard University Americas
2 Stanford University Americas
3 University California – Berkeley Americas
4 Cambridge University Europe
5 Massachusetts Institution Technology Americas
Bảng 2. Bảng xếp hạng 5 trường hàng đầu theo TJTU (2008)
3.3.2. Hệ thống xếp hạng các trường đại học quốc tế của Times Higher
Education Supplemen (THES)

Các chỉ tiêu được THES sử dụng cho việc xếp hạng bao gồm 5 loại: kết quả
khảo sát đồng nghiệp (các giảng viên, nhà khoa học) (40%), đánh giá của nhà tuyển
dụng (10%), sự hiện diện của giảng viên/ nhà khoa học quốc tế (5%), sự hiện diện của
sinh viên quốc tế (5%), tỷ lệ giảng viên trên sinh viên (20%), và tỷ lệ bài báo khoa học
trên giảng viên (20%).
So với ARWU vốn rất chú trọng đến các yếu tố bên ngoài trường đại học (các
bài báo, các công trình nghiên cứu, các giải thưởng, vv) THES chú trọng nhiều hơn
đến chính cộng đồng giảng viên và sinh viên và vì vậy được xem là một hệ thống bổ
sung rất tốt cho ARWU








19

Xếp hạng Tên trường Quốc gia
1 Harvard University Americas
2 Yale University Americas
3 Cambridge University Europe
4 Oxford University Europe
5 California Institution of Technology Americas
Bảng 3. Bảng xếp hạng 5 trường hàng đầu theo THES (2008)
4. Hệ thống xếp hạng trường đại học dựa trên độ đo Web
4.1. Giới thiệu
Năm 2004, “Webometrics Ranking of World Universities”, một sáng kiến của
phòng thí nghiệm Cybermetrics, một trung tâm nghiên cứu thuộc Consejo Superior de

Investigaciones Científicas (CSIC) (Tây Ban Nha) đã cung cấp các thông tin về hơn
4000 trường đại học trên toàn thế giới được xếp hạng theo thứ tự các chỉ số Web. Từ
năm 2006, bảng xếp hạng được cập nhật và công bố trên trang web
o vào tháng 1 và tháng 7 hàng năm.
Mục tiêu ban đầu của việc xếp hạng là khuyến khích việc xuất bản trên Web
chứ không phải là việc xếp hạng các học viện, trường đại học. Sáng kiến hỗ trợ truy
cập mở, cho phép truy cập điện tử tới các công bố khoa học và các tài nguyên học
thuật khác là mục tiêu ban đầu. Tuy nhiên, các chỉ số web rất hữu dụng trong mục đích
xếp hạng vì chúng không biểu diễn dựa trên số lần truy cập hay kiểu thiết kế của trang
web mà dựa trên các kết quả tổng thể và khả năng nhận diện của một trường đại học.
Các bảng xếp hạng khác, tập trung chủ yếu vào một vài các lĩnh vực có liên
quan, đặc biệt là các kết quả nghiên cứu, thì các nhân tố web (web indicators) là cơ sở
của các xếp hạng sẽ phản ánh tốt hơn bức tranh toàn cảnh của một trường đại học, bởi
rất nhiều các hoạt động của các giáo sư và những nhà nghiên cứu được chỉ ra bởi sự
hiện diện trên web của họ. Web không chỉ bao trùm các trao đổi học thuật chính thức
(formal) (như báo điện tử, tạp chí) mà còn chứa đựng các trao đổi không chính thức
nữa. Hơn nữa, việc xuất bản Web thì rẻ hơn, giúp cho việc duy trì một chuẩn cao chất
lượng các hoạt động phê bình. Ngoài ra, các xuất bản web có thể tiếp cận tới nhiều độc
giả tiềm năng, cung cấp khả năng truy cập các tri thức khoa học cho các nhà nghiên
cứu, các cơ sở giáo dục ở các nước đang phát triển hay các bên thứ ba (về kinh tế,
công nghiệp, chính trị, văn hóa…).
20

Xếp hạng Webometrics có độ bao phủ trung bình lớn hơn các bảng xếp hạng
khác cùng loại. Việc xếp hạng không chỉ tập trung vào các kết quả nghiên cứu mà còn
ở các lĩnh vực khác phản ánh chất lượng tổng thể của một trường, hay học viện tốt
hơn.
Tiêu chí Webometrics ARWU (Shanghai) THES (Times/QS)
Số trường được đưa
vào phân tích

13,000 2,000 520+
Số trường thực sự
được xếp hạng
4,000 500 200 (520)
Bảng 4: So sánh về độ bao phủ của Webometrics với ARWU và THES
Mục tiêu chính của bảng xếp hạng dựa trên độ đo web là khuyến khích các
trường – học viện có một “biểu diễn web” phản ánh tương đối đầy đủ và chính xác
hoạt động của mình. Nếu kết quả biểu diễn web của một trường – học viện nằm
dưới vị trí được mong đợi về chất lượng thì các nhà quản lý của đơn vị đó nên quan
tâm tới chính sách của họ về “biểu diễn web” của trường mình nhằm tăng số lượng
và chất lượng các xuất bản điện tử.
4.2. Phương pháp luận
Xếp hạng Webometrics sử dụng các dữ liệu thu thập trên web và dựa vào 4 chỉ
số (độ đo) để xếp hạng:
• S - (Size - kích cỡ trang web):Số lượng các trang web xuất hiện dưới
cùng một tên miền (domain) trên 4 công cụ tìm kiếm: Google, Yahoo,
Live Search, Exalead
• V - (Visibility - Khả năng nhận diện): Số các đường dẫn từ bên ngoài
liên kết đến các kết nối bên trong trên một tên miền được xác định dựa
trên 3 máy tìm kiếm: Yahoo, Live Search, Exalead.
• R - (Rich file): Số lượng các loại file Microsoft Word (doc), Adobe
Acrobat (pdf), Microsoft Powerpoint (ppt), Adobe PostScript (ps) được
xác định dựa trên máy tìm kiếm Google.
• Sc (Scholar - Các công bố nghiên cứu trên mạng): Số lượng các bài báo
khoa học, cùng các trích dẫn trên một tên miền trường qua công cụ
Google Scholar.
Xếp hạng dựa trên độ đo web có mối tương quan rất tốt đối với chất lượng giáo
dục và uy tín của trường
4.2.1. Thu thập dữ liệu
21


Đơn vị cho việc phân tích là các domain của các trường hoặc học viện. Vì vậy,
chỉ có các trường đại học, học viện và các trung tâm nghiên cứu với một web domain
độc lập mới được xếp hạng. Nếu một đơn vị có nhiều hơn một tên miền chính, hai
hoạc nhiều entries này sẽ được sử dụng như là các địa chỉ độc lập.
Sử dụng các máy tìm kiếm là phương tiện trung gian chính khi tra cứu. Sự hiện
diện của một tên miền trong cơ sở dữ liệu của chúng là một chỉ số về khả năng nhận
diện. Do bản thân các máy tìm kiếm cũng có các hạn chế như không nhất quán, các số
liệu bị làm tròn, thiên lệch về địa lý và phạm vi ngôn ngữ, có thay đổi thường xuyên
và không rõ ràng trong quy trình làm việc nên phải dùng phối hợp sử dụng một số
công cụ tìm kiếm. Trong đó, yêu cầu đối với máy tìm kiếm là: công cụ tìm kiếm độc
lập, có cơ sở dữ liệu lớn nên sử dụng 4 máy tìm kiếm: Google (và Google Sholar),
Yahoo Search, Live (không phải là Academic Live), Exalead và Alexa.
4.2.2. Chuẩn hóa chỉ số và xác định trọng số cho các chỉ số
Đầu tiên là chuẩn hóa các số liệu thu về từ máy tìm kiếm theo công thức sau:
log (n
a
+1)
N
a
=
log (max(n
i
)+1)
Trong đó:
N: search engine (Google, Yahoo, Live, Exalead)
a : web domain
Sau đó đi xác định các chỉ số
Size (S):
S

a
= ½ * ((G
a
+ Y
a
+ L
a
+E
a
) – max (G
a
,Y
a
,L
a
,E
a
) - min (G
a
,Y
a
,L
a
,E
a
))

Rich File:
R
a

= PDF
a
+ DOC
a
+ PPT
a
+ Ps
a
Xác định trọng số cho các chỉ số như sau
Chỉ số Trọng số
Kích thước - S 25%
Khả năng nhìn thấy được - V 50%
Độ phong phú tài liệu - R 12.5%
Các công bố nghiên cứu - Sc 12.5%
Kết quả xếp hạng được xác định như sau:
Ra  Rank(R)
Sa  Rank(S)
Va  Rank(V)
Sc
a
 Rank(Sc)

22

 Rank(vị trí) = 4 * V + 2 * S + 1 * R + 1 * Sc
Kết quả xếp hạng được Webometrics công bố vào tháng 1 và tháng 7 hàng
năm


trí

Tên trường Quốc gia

Size Visibility Rich files Scholar
1
Massachusetts Institute
of Technology
Mỹ 1 3 2 6
2
Stanford University
Mỹ 2 2 3 12
3
Harvard University
Mỹ 3 1 17 1
4
University of California
Berkeley
Mỹ 6 4 5 24
5
Cornell University
Mỹ 4 5 8 37
6
University of Texas
Austin
Mỹ 10 6 15 22
7
California Institute of
Technology
Mỹ 8 8 21 17
8
California Institute of

Technology
Mỹ 3 16 4 19
9
University of Illinois
Urbana Champaign
Mỹ 14 10 6 38
10

University of Texas
Austin
Mỹ 11 9 10 45

Bảng 5: Bảng xếp hạng 10 trường hàng đầu thế giới theo Webometrics

5. Mô hình thực nghiệm phương pháp dựa độ đo web trong xếp hạng các
trường đại học Việt Nam
Qua nghiên cứu phương pháp xếp hạng trường đại học thông qua độ đo web,
chúng tôi nhận thấy hoàn toàn có thể áp dụng phương pháp này với các trường đại học
Việt Nam. Mô hình chung của phương pháp được xác định như sau:

Tập các câu truy vấn
MÁY TÌM KIẾM
Các chỉ số
23

Hình 4. Mô hình thực nghiệm chung
Chúng tôi thực hiện thực nghiệm với danh sách 100 trường đại học Việt
Nam.cùng với 5 trường trong khu vực để so sánh. Danh sách các trường đại học Việt
Nam cùng website được thống kê từ trang web chính thức của Bộ Giáo dục và Đào tạo
(có bổ sung – Phụ lục 1). Sau đây chúng tôi xin trình bày chi tiết áp dụng phương pháp

trên vào bài toán xếp hạng trường đại học Việt Nam.
5.1. Xác định các chỉ số
5.1.1. Chỉ số nhận diện (V – Visibility)
Chỉ số đại diện cho khía cạnh ảnh hưởng giáo dục và sự nổi tiếng của trường đại
học. Ý tưởng chung cùa việc xác định chỉ số về khả năng nhìn thấy được dựa trên đồ
thị web với các link liên kết giữa các nút của đồ thị. Có hai phương pháp tiếp cận cho
việc thực thi ý tưởng trên áp dụng tại Việt Nam.
* Phương pháp tiếp cận thứ nhất
Xây dựng đồ thị web của các trường đại học Việt Nam. Trong đó các nút của đồ
thị là các website của các trường. Các link liên kết giữa các nút được xác định như sau:
Nút A link đến nút B nếu như có link liên kết từ trang web của trường A chỉ đến trang
web của trường B


Kết quả của việc xác định trên cho ta một đồ thị toàn cảnh liên kết giữa các
trường đại học








Hình 5. Đồ thị web các trường đại học
Sau khi xây dựng đồ thị web các trường đại học, chúng ta xác định xác link liên
kết đến (inlink) của từng trường ví dụ: inlink(A) = 0, inlink(B)=2, inlink(C)=1….Từ
đó xác định chỉ số V
A
B


A

B

E

C

D

F

24

Trong môi trường giáo dục tại Việt Nam, qua khảo sát thực tế có thể dễ dàng
nhận ra rằng: Việc liên kết giữa các trường đại học còn yếu, do đó các link liên kết đến
nhau cũng không nhiều. Hơn nữa, phương pháp tiếp cận thứ nhất bỏ qua sự ảnh hưởng
của các yếu tố bên ngoài: các trường đại học nước ngoài, các tổ chức giáo dục, các tổ
chức xã hội…. Vì vậy, chỉ số V xác định theo phương pháp này là không thực sự hiệu
quả như mong đợi.
* Phương pháp tiếp cận thứ hai
Ý tưởng cơ bản của phương pháp này dựa trên đồ thị web đã được xây dựng
trên các máy tìm kiếm: Google, Yahoo, Alta vista để xác định inlink đến các trang web
trong đó có các trang web của các trường đại học









Hình 6. Sử dụng máy tìm kiếm để xác định liên kết đến (inlinks)
Chúng tôi đưa ra tập các câu truy vấn thích hợp, cho qua máy tìm kiếm để xác
định số lượng các liên kết đến.
Dễ dàng nhận thấy ưu thế của phương pháp thứ 2: Đưa ra được ảnh hưởng của
các trường đại học với nhau, các trường đại học trong nước và ngoài nước, các tổ chức
giáo dục, các tổ chức xã hội trên cơ sở đồ thị web đã được xây dựng bởi máy tìm
kiếm. Tuy nhiên vấn đề đặt ra cho phương pháp thứ 2 đó là việc xác định câu truy vấn
như thế nào cho thích hợp với các máy tìm kiếm khác nhau, và việc chọn lựa máy tìm
kiếm nào cũng là một vấn đề cần xem xét kỹ lưỡng. Hiện tại, Google, Yahoo, Alta
vista là các máy tìm kiếm phổ biến nhất hiện nay, vì vậy chúng ta hoàn toàn có thể
chọn lựa các máy tìm kiếm trên để sử dụng trong phương pháp này. Với mỗi máy tìm
kiếm chúng ta xác định các tập câu truy vấn riêng
Việc đưa ra cách giải quyết cho vấn đề trên là hoàn toàn có thể chấp nhận được.
Tuy nhiên một vấn đề khác cũng được đưa ra: Trường đại học A có 100 website liên
kết đến trong đó có 70 website nói về giáo dục, 30 website nói về các lĩnh vực khác,
hoặc các báo tin tức. Trường đại học B có 100 website liên kết đến: 50 website nói về
giáo dục, 50 nói về các lĩnh vực khác. Như vậy có thể đánh giá theo khía cạnh giáo
Máy tìm kiếm
Câu truy vấn
Inlinks

×