Tải bản đầy đủ (.pdf) (167 trang)

ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.88 MB, 167 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN


KHOÁ LUẬN TỐT NGHIỆP


Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH,
TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC




















Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ

Sinh viên thực hiện:
TRẦN HƯNG NGHIỆP
MSSV: 07520245
Lớp: HTTT02
Khóa: 2007 – 2012
Tp. HCM, tháng 12 năm 2011
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN


KHOÁ LUẬN TỐT NGHIỆP


Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH,
TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC




















Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ

Sinh viên thực hiện:
TRẦN HƯNG NGHIỆP
MSSV: 07520245
Lớp: HTTT02
Khóa: 2007 – 2012
Tp. HCM, tháng 12 năm 2011

MỞ ĐẦU

Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài
báo khoa học ngày càng tăng lên. Việc quản lý và khai thác các bài báo khoa

học này một cách hiệu quả là một nhu cầu tất yếu cho sự phát triển bền vững
của khoa học với tinh thần “đứng trên vai những người khổng lồ”.
Hiện nay trên thế giới đã có nhiều hệ thống được xây dựng để thực hiện
việc này, chức năng chính của chúng là lưu trữ và tìm kiếm các bài báo phù
hợp với các tiêu chí nhất định.
Ở đề tài này chúng tôi khảo sát các hệ thống có sẵn này ở khía cạnh nội
dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng, sau đó
xây dựng mô hình ứng dụng các chỉ số xếp hạng trong việc đánh giá các cá
nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm
việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. Từ đó đề xuất xây
dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng
dụng các chỉ số này phục vụ người dùng ở Việt Nam.


LỜI CẢM ƠN

Lời đầu tiên em xin gửi lòng biết ơn chân thành đến thầy Huỳnh Ngọc Tín
và thầy đồng hướng dẫn Lương Phúc Hiệp. Hai thầy đã tận tình hướng dẫn,
góp ý, động viên em rất nhiều trong quá trình làm luận văn. Qua đó, em đã thật
sự học hỏi được rất nhiều và trưởng thành hơn trong tư duy và nhận thức.
Em xin gửi lời cảm ơn tất cả các thầy cô đã giảng dạy, truyền đạt kiến thức
và những kinh nghiệm quý báu cho em suốt những năm học vừa qua.
Em cảm ơn khoa Hệ thống Thông tin trường Đại học Công nghệ Thông tin
đã tạo điều kiện cho em thực hiện đề tài này.
Em cũng xin cảm ơn các bạn đã nhiệt tình giúp đỡ em trong suốt quá trình
thực hiện đề tài này.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình đã tạo mọi điều kiện thuận
lợi về vật chất và tinh thần, giúp em hoàn thành luận văn một cách tốt nhất.
Mặc dù em đã cố gắng để hoàn thành tốt đề tài, nhưng chắc chắn không
tránh khỏi những thiếu sót, em rất mong được sự tận tình chỉ bảo của quý thầy

cô.






Tp. Hồ Chí Minh, tháng 12 năm 2011
Sinh viên thực hiện
Trần Hưng Nghiệp

NHẬN XÉT
(Của giảng viên hướng dẫn)























NHẬN XÉT
(Của giảng viên phản biện)






















NHẬN XÉT

(Của hội đồng)






















MỤC LỤC
MỞ ĐẦU i
LỜI CẢM ƠN ii
MỤC LỤC vi
DANH MỤC CÁC BẢNG ix
DANH MỤC CÁC BIỂU ĐỒ xi
DANH MỤC CÁC HÌNH xii

DANH MỤC CÁC SƠ ĐỒ xiv
Chương 1: TỔNG QUAN VỀ ĐỀ TÀI 1
1.1 Đánh giá hiện trạng 1
1.2 Phát biểu bài toán 2
1.3 Mục tiêu đề tài 3
1.4 Cấu trúc báo cáo 3
Chương 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN 4
2.1 Giới thiệu 4
2.2 Web crawler 4
2.3 Các phương pháp xếp hạng phổ biến 5
2.3.1 Giới thiệu 5
2.3.2 PageRank 6
2.3.3 PopRank 13
2.4 Các chỉ số xếp hạng phổ biến 19
2.4.1 Giới thiệu 19
2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric
indicators) 19
2.4.3 H-type indexes 22
2.4.4 A-type indexes 29

2.5 Các hệ thống liên quan 33
2.5.1 Giới thiệu 33
2.5.2 IEEEXplore 33
2.5.3 Association for Computing Machinery (ACM) 36
2.5.4 SpringerLink 40
2.5.5 Microsoft Academic Search (MAS) 43
2.5.6 Google Scholar 49
2.5.7 CiteSeerX 52
Chương 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI 56
3.1 Mở đầu 56

3.2 Thảo luận về các chỉ số xếp hạng 56
3.3 Thảo luận về các phương pháp xếp hạng 57
3.4 Phân tích cải tiến các hệ thống thư viện điện tử 58
3.5 Cách tiếp cận của đề tài 60
Chương 4: HIỆN THỰC HỆ THỐNG 62
4.1 Mở đầu 62
4.2 Chương trình thu thập dữ liệu 62
4.2.1 Khảo sát hiện trạng 62
4.2.2 Phân tích thiết kế 63
4.2.3 Cài đặt 82
4.2.4 Kết quả 86
4.3 Chương trình tính toán các chỉ số xếp hạng 87
4.3.1 Khảo sát hiện trạng 87
4.3.2 Phân tích thiết kế 87
4.3.3 Cài đặt 96
4.3.4 Kết quả 97
4.4 Hệ thống thư viện điện tử 102
4.4.1 Khảo sát hiện trạng 102

4.4.2 Phân tích thiết kế 102
4.4.3 Cài đặt 104
4.4.4 Kết quả 107
Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 110
5.1 Mở đầu 110
5.2 Thu thập danh sách giảng viên 110
5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu 113
5.4 Chương trình thu thập dữ liệu chỉ mục 114
5.4.1 Khảo sát hiện trạng 114
5.4.2 Phân tích thiết kế 115
5.4.3 Cài đặt 122

5.4.4 Kết quả 124
5.5 Kiểm tra dữ liệu 125
5.6 Tính toán các chỉ số xếp hạng 127
5.6.1 Mở đầu 127
5.6.2 Phân tích thiết kế 127
5.6.3 Cài đặt 131
5.7 Đánh giá kết quả 131
5.7.1 Kết quả tính toán 131
5.7.2 Nhận xét và đề xuất một số cải tiến 143
Chương 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 146
6.1 Kết quả đạt được 146
6.2 Hạn chế và hướng phát triển 146
6.2.1 Hạn chế 146
6.2.2 Hướng phát triển 147
DANH MỤC TÀI LIỆU THAM KHẢO 148


DANH MỤC CÁC BẢNG
Bảng 2.1 – Thông tin chi tiết IEEEXplore. 34
Bảng 2.2 – Thông tin chi tiết ACM. 36
Bảng 2.3 – Thông tin chi tiết về SpringerLink. 40
Bảng 2.4 – Thông tin chi tiết về MAS. 43
Bảng 2.5 – Thông tin chi tiết về Google Scholar. 50
Bảng 2.6 – Thông tin chi tiết về CiteSeerX. 53
Bảng 3.1 – So sánh các hệ thống thư viện điện tử. 58
Bảng 4.1 – Các mẫu url được dùng trong crawler 66
Bảng 4.2 – Các mẫu dùng trong phân tích html để lấy dữ liệu. 67
Bảng 4.3 – Mã giả thuật giải của crawler cho trang MAS. 70
Bảng 4.4 – Mô tả các bảng trong cơ sở dữ liệu của crawler. 74
Bảng 4.5 – Kết quả thu thập dữ liệu đến ngày 27 tháng 01 năm 2012. 86

Bảng 4.6 – Các chỉ số được cài đặt cho các loại đối tượng. 87
Bảng 4.7 – Mô tả chi tiết các bảng lưu dữ liệu tính toán các chỉ số. 91
Bảng 4.8 – Dữ liệu mẫu 1 dùng để tính toán các chỉ số đánh giá. 97
Bảng 4.9 – Dữ liệu mẫu 2 dùng để tính toán các chỉ số đánh giá. 98
Bảng 4.10 – Cấu hình phần cứng 1 98
Bảng 4.11 – Cấu hình phần cứng 2 99
Bảng 4.12 – Kết quả thử nghiệm cài đặt các chỉ số. 99
Bảng 5.1 – Các tổ chức và nguồn dữ liệu danh sách giảng viên tương
ứng. 111
Bảng 5.2 – Thuật giải của quy trình thu thập dữ liệu. 117

Bảng 5.3 – Các mẫu url được dùng trong crawler 119
Bảng 5.4 – Các mẫu dùng trong phân tích html để lấy dữ liệu. 120
Bảng 5.5 – Kết quả thu thập dữ liệu chỉ mục. 125
Bảng 5.6 – Các chỉ số được cài đặt cho các loại đối tượng. 127
Bảng 5.7 – Kết quả tính toán số lượng giảng viên. 131
Bảng 5.8 – Kết quả tính toán số lượng bài báo. 132
Bảng 5.9 – Kết quả tính toán số lượng trích dẫn. 134
Bảng 5.10 – Kết quả tính toán số trích dẫn trung bình của một bài báo. 135
Bảng 5.11 – Kết quả tính toán chỉ số H-index. 137
Bảng 5.12 – Kết quả tính toán chỉ số G-index. 138
Bảng 5.13 – Tổng hợp kết quả tính toán. 140
Bảng 5.14 – Tổng hợp kết quả xếp hạng. 142




DANH MỤC CÁC BIỂU ĐỒ
Biểu đồ 4.1 – Biểu đồ thời gian tính toán các chỉ số. 101
Biểu đồ 5.1 – Biểu đồ số lượng giảng viên các tổ chức. 132

Biểu đồ 5.2 – Biểu đồ số lượng bài báo của các tổ chức 133
Biểu đồ 5.3 – Biểu đồ số lượng số lượng trích dẫn của các tổ chức. 135
Biểu đồ 5.4 – Biểu đồ số trích dẫn trung bình của một bài báo của các tổ
chức. 136
Biểu đồ 5.5 – Biểu đồ H-index các tổ chức. 138
Biểu đồ 5.6 – Biểu đồ G-index các tổ chức. 139
Biểu đồ 5.7 – Biểu đồ tổng hợp kết quả tính toán các tổ chức. 141
Biểu đồ 5.8 – Biểu đồ tổng hợp kết quả xếp hạng các tổ chức. 143


DANH MỤC CÁC HÌNH
Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn. 5
Hình 2.2 – Mô phỏng nguyên lý PageRank. 7
Hình 2.3 – Các loại liên kết với bài báo khoa học. 14
Hình 2.4 – Giải thuật SAFA. 17
Hình 2.5 – Giải thuật xác định khoảng cách k. 18
Hình 2.6 – Mô phỏng định nghĩa h-index. 23
Hình 2.7 – Trang chủ thư viện số IEEEXplore. 35
Hình 2.8 – Kết quả tìm kiếm IEEEXplore với từ khóa “data”. 36
Hình 2.9 – Trang chủ của thư viện số ACM. 38
Hình 2.10 – Tìm kiếm chi tiết của ACM. 39
Hình 2.11 – Kết quả trả về khi tìm kiếm ACM với từ khóa “data”. 40
Hình 2.12 – Trang chủ thư viện số SpringerLink. 42
Hình 2.13 – Chức năng tìm kiếm nâng cao SpringerLink. 42
Hình 2.14 – Kết quả tìm kiếm thư viện SpringerLink với từ khóa “data”. 43
Hình 2.15 – Khung tìm kiếm cơ bản của MAS. 45
Hình 2.16 – Tìm kiếm theo lĩnh vực ở MAS. 45
Hình 2.17 – Khung tìm kiếm nâng cao MAS. 45
Hình 2.18 – Chức năng cho người dùng chỉnh sửa thông tin MAS. 46
Hình 2.19 – Chức năng quản lý các “call for paper” MAS. 46

Hình 2.20 – Chức năng biểu diễn mối quan hệ các tác giả theo đồ thị
MAS. 47
Hình 2.21 – Xem nội dung trích dẫn MAS. 48

Hình 2.22 – Xem xu hướng nghiên cứu khoa học trong các lĩnh vực
MAS. 49
Hình 2.23 – Xem thông tin bổ sung về tổ chức của tác giả MAS. 49
Hình 2.24 – Khung tìm kiếm cơ bản của Google Scholar 51
Hình 2.25 – Khung tìm kiếm nâng cao của Google Scholar. 52
Hình 2.26 – Kết quả tìm kiếm các bài báo và bằng sáng chế với từ khóa
“data”. 52
Hình 2.27 – Khung tìm kiếm cơ bản của CiteSeerX. 54
Hình 2.28 – Khung tìm kiếm nâng cao của CiteSeerX. 55
Hình 2.29 – Kết quả tìm kiếm CiteSeerX với từ khóa “data”. 55
Hình 4.1 – Duyệt danh sách các đối tượng trên trang MAS. 63
Hình 4.2 – Màn hình chính của hệ thống PubGuru. 108
Hình 4.3 – Màn hình tìm kiếm nâng cao của hệ thống PubGuru. 108
Hình 4.4 – Kết quả tìm kiếm PubGuru với từ khóa “data”. 109
Hình 5.1 – Tìm kiếm tác giả trên MAS với từ khóa “Hoang Van Kiem”. 115
Hình 5.2 – Mô hình hoạt động của chương trình ở bước một. 118
Hình 5.3 – Mô hình hoạt động của chương trình ở bước ba. 118



DANH MỤC CÁC SƠ ĐỒ
Sơ đồ 4.1 – Mô hình hoạt động của crawler. 64
Sơ đồ 4.2 – Mô hình ERD cơ sở dữ liệu của chương trình. 73
Sơ đồ 4.3 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. 83
Sơ đồ 4.4 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. 90
Sơ đồ 4.5 – Sơ đồ cấu trúc hệ thống PubGuru. 103

Sơ đồ 4.6 – Kiến trúc MVC Model 2 của hệ thống. 105
Sơ đồ 5.1 – Mô hình ERD cơ sở dữ liệu của chương trình. 121
Sơ đồ 5.2 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. 123
Sơ đồ 5.3 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. 130


Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 1 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI
1.1 Đánh giá hiện trạng
Theo một nghiên cứu của tác giả Arif Jinha [Jin2010], tổng số lượng bài
báo khoa học đã xuất bản trên thế giới trong tất cả các lĩnh vực đến thời điểm
đầu năm 2010 là vào khoảng hơn 50 triệu, và ước lượng hiện nay vào tháng 12
năm 2011 là vào khoảng 54 triệu. Số lượng bài báo khoa học đang ngày càng
tăng, và tốc độ tăng cũng ngày càng nhanh. Vào năm 2008, có khoảng 1434352
bài báo khoa học được xuất bản, con số này vào năm 2009 là 1477383 bài. Tỉ
lệ tăng hằng năm số lượng công trình nghiên cứu trên toàn thế giới vào khoảng
3%. Scopus
1
, một cơ sở dữ liệu chứa các bài báo khoa học trên mọi lĩnh vực,
cho biết mình có khoảng 46 triệu chỉ mục (7/2011). ISI - Web of Knowledge
2
,
một cơ sở dữ liệu khác, chứa khoảng 49,4 triệu bài báo khoa học (2011).
Microsoft Academic Research (MAS)
3
chứa khoảng 36,7 triệu bài báo khoa
học với hơn 18,8 triệu tác giả (12/2011).
Trước sự tăng trưởng đáng kể về số lượng, việc lưu trữ và hỗ trợ tìm kiếm

bài báo khoa học trở thành một nhu cầu thiết yếu. Nhiều thư viện điện tử đã
được phát triển để phục vụ nhu cầu này. Một số thư viện lớn thương mại hóa có
thể kể đến như Institute of Electrical and Electronics Engineers (IEEE)
4
,
Association for Computing Machinery (ACM)
5
, SpringerLink
6
… Những thư
viện miễn phí gồm có Microsoft Academic Research (MAS), Google Scholar
7
,



1

2

3

4

5

6

7


Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 2 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
CiteSeer
8
… Mỗi thư viện này có các đặc trưng khác nhau về nội dung cũng
như các tính năng và sự hiệu quả khi sử dụng.
Sự đa dạng của các thư viện điện tử cung cấp nhiều khả năng lựa chọn cho
người dùng. Tuy nhiên, khi có quá nhiều lựa chọn, người dùng có thể bối rối và
khó đưa ra quyết định [Sch2003]. Quyết định lựa chọn thư viện điện tử nào
quan trọng vì nó ảnh hưởng đến thói quen làm việc của người dùng, cũng như
chất lượng công việc của họ. Việc sử dụng nhiều thư viện điện tử một lúc có
thể là một ý kiến hay, tuy nhiên nó sẽ khiến người dùng phải lặp lại các thao
tác với kết quả phần lớn giống nhau, và phải tự tổng hợp các kết quả này. Sự
lựa chọn còn có ý nghĩa kinh tế khi người dùng sử dụng các thư viện có trả phí.
1.2 Phát biểu bài toán
Sự lựa chọn thư viện điện tử nào phù hợp nhất phải dựa trên cơ sở so sánh
về nội dung và tính năng của chúng, một hệ thống thư viện điện tử muốn được
đánh giá cao còn phải đáp ứng được các yêu cầu đặc trưng cho một nhóm
người dùng nhất định. Mục đích của đề tài là thiết kế các tính năng cho một hệ
thống thư viện điện tử phục vụ người dùng Việt Nam.
Mỗi hệ thống đều xây dựng tính năng của nó dựa trên các nền tảng khác
nhau về dữ liệu, các thuật toán, các tiêu chí đánh giá và các chỉ số xếp hạng. Vì
vậy, việc lựa chọn hay cao hơn là xây dựng, hiệu chỉnh các chỉ số xếp hạng này
là một vấn đề hay và vẫn đang được quan tâm nghiên cứu.
Ở đề tài này chúng tôi sẽ khảo sát các hệ thống có sẵn này ở khía cạnh nội
dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng. Sau đó
chúng tôi sẽ thu thập một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ
thông tin, đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số xếp
hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử

nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở



8

Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 3 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực
tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở
Việt Nam.
1.3 Mục tiêu đề tài
Dựa trên ngữ cảnh bài toán, mục tiêu chính đề tài của chúng tôi là thu thập
và tổ chức một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin.
Đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số đánh giá xếp
hạng. Sau đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc
trưng cần thiết để phục vụ môi trường nghiên cứu ở Việt Nam.
Đề tài cũng sẽ tiến hành thực nghiệm các chỉ số trên dữ liệu chỉ mục về các
tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh.
1.4 Cấu trúc báo cáo
Cấu trúc báo cáo được mô tả theo trình tự sau. Ở chương I, chúng tôi giới
thiệu tổng quan về ngữ cảnh bài toán cũng như mục tiêu đề tài. Chương II,
chúng tôi khảo sát các nghiên cứu liên quan. Chương III nêu cách tiếp cận của
đề tài. Chương IV, chúng tôi trình bày về các chương trình được hiện thực và
đề xuất xây dựng hệ thống thư viện điện tử. Chương V sẽ trình bày một case
study về việc thực nghiệm đánh giá các tổ chức làm việc trong lĩnh vực công
nghệ thông tin ở Tp. Hồ Chí Minh và nêu một số đánh giá, đề xuất cải tiến.
Phần kết luận và một số hướng phát triển được trình bày trong chương V.


Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 4 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN
2.1 Giới thiệu
Trên thế giới hiện nay có khá nhiều thư viện điện tử phục vụ người dùng.
Nền tảng của việc tìm kiếm hiệu quả ở các thư viện điện tử này chính là các chỉ
số xếp hạng và các phương pháp xếp hạng. Các chỉ số này có thể là thô sơ như
số lượng các bài báo của một tác giả, số trích dẫn của một bài báo. Nó cũng có
thể phức tạp hơn một chút như H-Index, G-Index khi nó tính toán tổng thể các
số liệu thành phần của một tác giả hay một tổ chức để có một chỉ số đánh giá
tổng hợp. Các phương pháp xếp hạng phổ biến có thể kể đến như PageRank,
PopRank. Chương này tiến hành khảo sát đánh giá các phương pháp xếp hạng
và các chỉ số từ đơn giản đến phức tạp. Chương này cũng sẽ khảo sát một số
thư viện điện tử cụ thể trên các khía cạnh nội dung, tính năng, công nghệ, nền
tảng thuật toán, tiêu chí xếp hạng tìm kiếm bài báo khoa học. Để phục vụ cho
việc xây dựng dữ liệu chỉ mục, web crawler cũng sẽ được giới thiệu.
2.2 Web crawler
Theo định nghĩa trên Wikipedia [WikiWC] thì Web Crawler hay ant,
automatic indexer, bot, Web spider, Web robot, Web scutter, là một chương
trình hoặc đoạn mã có khả năng tự động duyệt các trang Web theo một phương
thức tự động được cài đặt trước. Web Crawler thường được sử dụng để thu
thập tài nguyên (như tin tức, hình ảnh, video …) trên Internet một cách cập
nhật [TC2011].
Quá trình thực hiện của Web Crawler là Web Crawling hay Web Spidering.
Hầu hết các công cụ tìm kiếm online hiện nay đều sử dụng quá trình này để thu
thập và cập nhập kho dữ liệu phục vụ nhu cầu tìm kiếm của người dùng. Web
Crawler bắt đầu từ danh sách các địa chỉ URL được cung cấp trước gọi là hạt
giống (seeds), đây là những địa chỉ Web mà người dùng muốn thu thập thông
tin. Hệ thống sẽ vào địa chỉ này, lọc thông tin rồi tìm ra các địa chỉ URL khác

theo một phương thức nhất định nào đó (dựa vào những liên kết có bên trong
các seeds). Sau đó thêm chúng vào danh sách các địa chỉ đã được duyệt qua gọi
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 5 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
là Crawl frontier. Hệ thống sẽ lặp lại quá trình trước đó để duyệt qua những
URL mới. Quá trình Crawling trên internet có thể sẽ qua rất nhiều địa chỉ
Website và thu thập rất nhiều nội dung khác nhau từ các địa chỉ đó. Hình sau
mô tả kiến trúc của một web crawler chuẩn [WikiWC]:

Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn.
Trong đề tài này, Web Crawler được xây dựng để thu thập dữ liệu các bài
báo từ thư viện số Microsoft Academic Search (MAS), sau đó xây dựng cơ sở
dữ liệu để xây dựng hệ thống thử nghiệm. Hệ thống crawler sẽ rút trích thông
tin chỉ mục của bài báo bằng cách sử dụng các trình phân tích kết hợp với các
luật đã được định nghĩa trước.
2.3 Các phương pháp xếp hạng phổ biến
2.3.1 Giới thiệu
Trong số các phương pháp xếp hạng dựa trên việc phân tích mạng thì nổi
tiếng nhất có lẽ là thuật toán PageRank của Google với ứng dụng trong máy
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 6 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
tìm kiếm Google Search. Chính PageRank đã giúp Google Search đánh bại các
đối thủ của nó trên thị trường tìm kiếm trên internet ngay khi mới ra đời và
giúp Google lớn mạnh như ngày nay. Sau này có một số thuật toán khác tương
tự PageRank được đề xuất và cũng khá thành công khi ứng dụng thực tế. Tuy
nhiên các thuật toán thuộc nhóm PageRank có một số nhược điểm nhất định
khi xếp hạng các đối tượng, sau này nhiều thuật toán khác đã ra đời để khắc
phục các điểm yếu này, nổi bật trong đó có PopRank. Phần này sẽ khảo sát hai

thuật toán là PageRank và PopRank.
2.3.2 PageRank
a) Giới thiệu thuật toán PageRank
PageRank là một phương pháp rất nổi tiếng để xếp hạng các đối tượng
trong một đồ thị các đối tượng liên kết với nhau. PageRank là một thuật toán
phân tích liên kết (link) được Lary Page và cộng sự phát triển tại trường đại
học Stanford (Mỹ) và được sử dụng lần đầu cho máy tìm kiếm Google để xếp
hạng các trang web. PageRank cũng có thể dùng để xếp hạng các đối tượng
khác như các bài báo khoa học (sẽ trình bày rõ hơn ở phần c) mục 2.2.1 này).
Một cách trực giác, chúng ta có thể thấy rằng trang chủ của Yahoo! thì quan
trọng hơn trang chủ của một cá nhân A nào đó. Điều này được phản ánh qua số
lượng các trang có liên kết đến trang chủ của Yahoo! nhiều hơn số trang có liên
kết tới trang chủ của cá nhân A. Do đó, ta có thể dùng số lượng các liên kết đến
một trang để tính độ quan trọng của trang đó. Tuy nhiên, cách này sẽ không
hoạt động tốt khi người ta có thể dễ dàng tạo ra các trang Web có liên kết đến
một trang Web nào đó và như vậy hạng của trang này sẽ trở nên cao hơn.
PageRank phát triển thêm vào ý tưởng cũ bằng cách chú ý đến độ quan
trọng của các trang Web liên kết đến trang Web mà ta đang xét. Phương pháp
này thừa nhận nếu có liên kết từ trang A tới trang B thì độ quan trọng của trang
A cũng ảnh hưởng tới độ quan trọng của trang B hay độ quan trọng của trang A
được san sẻ cho các trang mà nó liên kết tới. Theo đó, một trang có hạng cao
nếu tổng hạng của các liên kết tới nó cao [BP+1998].
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 7 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình sau mô tả nguyên lý của thuật toán PageRank, các trang web “bỏ
phiếu” cho các trang khác thông qua các siêu liên kết [WikiPR].

Hình 2.2 – Mô phỏng nguyên lý PageRank.
b) Định nghĩa

a. PageRank đơn giản
Gọi  là một đồ thị các trang Web. Đặt  với  là
tập  đỉnh của đồ thị  (mỗi đỉnh là một trang Web cần tính hạng trang) còn 
là tập các cạnh, .
Để đơn giản hóa vấn đề, chúng ta giả thiết rằng đồ thị trang Web là liên thông,
nghĩa là từ một trang bất kì có thể có đường liên kết tới một trang Web khác
trong đồ thị đó.
Cho một đồ thị trang Web  như trên. Với mỗi trang Web , ký hiệu 


số liên kết đi ra từ trang Web thứ  và 

là số các trang Web có liên kết đến
trang .
Khi đó hạng trang 

của trang Web  được định nghĩa như sau:










(1)
Hạng trang 


của một trang web là con số tương đối để so sánh độ quan
trọng của nó với các trang web khác. Tổng hạng trang 

của tất cả các trang
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 8 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
web trong đồ thị G bằng một. Với việc chia hạng của trang  cho 

, ta phân
phối hạng của nó cho các trang mà nó chỉ tới, thông qua các link đi ra từ nó.
Phương trình trên có tính đệ quy, để thuận tiện cho việc tính toán
PageRank, phương trình này có thể được viết lại dưới dạng:
  (2)
Với:
 




là vector PageRank, với 

là hạng của trang web  trong đồ
thị G.
 




là ma trận kề    với giá trị các phần tử được xác định

như sau:
o 

 nếu không có liên kết từ trang  đến trang .
o Và 

được chuẩn hóa để với mỗi  thì







Trong đồ thị G đang xét, ta có thể chọn giá trị sau:










Lưu ý rằng ma trận P có các phần tử đều không âm và tổng các phần tử
thuộc cùng một cột của ma trận P bằng một, do đó P là một ma trận ngẫu nhiên.
Vì vậy, thuật toán PageRank cũng chính là một biến thể của phương pháp độ
đo tính trung tâm với vector riêng (eigenvector centrality measure) được dùng
phổ biến trong phân tích mạng. Phương trình trên cho thấy vector PageRank 

chính là vector riêng của ma trận  tương ứng với trị riêng  [Aus2006].
Ta thấy phương trình trên có tính đệ quy, tuy nhiên nó có thể được tính với
vector hạng trang bất kì, và lặp lại cho đến khi hội tụ, Page và các cộng sự đã
chỉ ra việc hội tụ này là khá nhanh trong khoảng dưới 100 vòng lặp [BP+1998].
b. Tính toán vector PageRank đơn giản
Có nhiều phương pháp để tìm vector riêng của ma trận như phương pháp
lặp, phương pháp đại số, phương pháp lũy thừa… [WikiPR]. Tuy nhiên do kích
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 9 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
thước quá lớn của đồ thị web, ma trận  cũng có kích thước rất lớn, hàng chục
tỉ dòng [Aus2006], vì vậy việc tính toán có thể rất khó khăn. Tuy nhiên, ta cũng
lưu ý rằng hầu hết các phần tử của ma trận P bằng không, vì mỗi trang web
trung bình thường chỉ liên kết đến 10 trang khác. Vì vậy ta chọn phương pháp
lũy thừa để tìm vector .
Phương pháp lũy thừa
Ta bắt đầu bằng việc chọn vector 

là ứng viên cho vector hạng trang ,
sau đó ta tạo ra chuỗi vector 

với:


 

(3)
Chuỗi vector 

sẽ hội tụ về vector riêng .

Thuật toán tính  theo phương pháp lũy thừa
1. Chọn vector .
2. .
3. Nếu

 

, dừng lại,  là vector riêng cần tính.
4. Nếu không, , quay lại bước 2.
c. PageRank trong thực tế
PageRank đơn giản không thể dùng trong đồ thị web thực tế, vì khi đó
chuỗi vector 

có thể không hội tụ,  có thể phụ thuộc vào 

, và  có thể
không phản ánh được hạng trang web thực tế. Ta sẽ xét cụ thể từng trường hợp
và chỉnh sửa lại PageRank cho phù hợp.
Để thuận tiện, ta định nghĩa mô hình người duyệt web ngẫu nhiên:
Quá trình tính toán PageRank có thể được xem như hành động của một
người đang duyệt Web ngẫu nhiên. Ta tưởng tượng rằng có một người dùng
duyệt Web bằng cách đi theo các liên kết trên các trang Web mà họ viếng thăm
một cách ngẫu nhiên. Cách duyệt ngẫu nhiên này tương đương với việc di
chuyển ngẫu nhiên trên một đồ thị có hướng. Nó thể hiện rằng vector
PageRank tỉ lệ với phân phối xác suất dừng của một quá trình ngẫu nhiên. Nó

×