RÚT TRÍCH METADATA từ bài báo KHOA học máy TÍNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.69 MB, 124 trang )

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM – KHÓA 1
------------------------------------------

KHÓA LUẬN TỐT NGHIỆP
Đề tài:

RÚT TRÍCH METADATA
TỪ BÀI BÁO KHOA HỌC
MÁY TÍNH
METADATA EXTRACTION
FROM COMPUTER SCIENCE PAPERS

Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN
Sinh viên thực hiện: VÕ ĐINH DUY – 06520112
HUỲNH MINH ĐỨC – 06520087
Lớp: CNPM01
Khóa: 2006 - 2011

TP.Hồ Chí Minh, tháng 04 năm 2011.

Formatted: Font: Times New Roman

-- -- i --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

ABSTRACT

Formatted: Font: Times New Roman

In this report, we present the approach to the problem of metadata extraction
from computer science papers. We built a module to extract information from pdf
paper by combining the layout information of papers with rules which are defined by
using JAPE Grammar rules of GATE. Beside, we conducted experiments SVM
machine learning method and rule method to extract metadata. From experimental
results, we assess and review strengths and weaknesses of each method.

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman

Formatted: Font: Times New Roman

-- -- ii --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

LỜI MỞ ĐẦU.

Formatted: Font: Times New Roman

Cùng với sự đầu tƣ phát triển về khoa học kỹ thuật, số lƣợng kết quả công bố
các công trình nghiên cứu khoa học ngày càng nhiều, thông qua đó các bài báo cũng
tăng lên nhanh chóng. Việc tổ chức và sắp xếp các bài báo khoa học nhằm cho mục
đích hỗ trợ tìm kiếm tri thức, là một vấn đề đang đƣợc các nhà nghiên cứu quan tâm.
Từ nguyên nhân ấy, khóa luận này hƣớng đến việc rút trích thông tin metadata trong
các bài báo khoa học, để từ đó giúp cho việc sắp xếp tổ chức các bài báo đƣợc chặt chẽ
và thuận tiện hơn. Hiện nay có hai phƣơng pháp phổ biến đƣợc dùng để rút trích thông
tin, đó là phƣơng pháp máy học và sử dụng tập luật. Đề tài sẽ kiểm thử cả hai phƣơng
pháp trên cùng một tập thử nghiệm để có thể đƣa ra nhận xét, ƣu khuyết điểm của từng
phƣơng pháp. Ngoài ra, đề tài khóa luận còn xây dựng một mô-đun sử dụng tập luật để
rút trích thông tin metadata trong các bài báo khoa học có định dạng pdf. Khóa luận
này chỉ dừng lại ở mức độ kiểm thử, so sánh, từ đó đƣa ra đánh giá các phƣơng pháp,
nên không thể tránh khỏi các nhận định chƣa chính xác. Vì thế chúng em rất mong
đƣợc nhận sự góp ý từ quý thầy cô và các bạn để chúng em có thể hoàn thiện hơn đề tài
khóa luận này.

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman

Formatted: Font: Times New Roman

-- -- iii --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

LỜI CẢM ƠN.

Formatted: Font: Times New Roman

Đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến thầy ThS Huỳnh Ngọc
Tín đã giúp đỡ và giới thiệu chúng em đến với đề tài khóa luận này. Không những thế,
trong quá trình thực hiện khóa luận, thầy đã chỉ bảo và hƣớng dẫn tận tình cho chúng
em những kiến thức lý thuyết chuyên ngành thông qua các sách, bài báo, các buổi
thuyết trình, cũng nhƣ cách xây dựng bố cục, cách viết một khóa luận tốt nghiệp…
Thầy luôn là ngƣời truyền động lực trong chúng em, giúp chúng em hoàn thành tốt
khóa luận tốt nghiệp.
Chân thành cảm ơn đến các bạn trong nhóm TKORG đã hỗ trợ để chúng em có
thể hoàn thành tốt khóa luận.
Chúng em xin chân thành biết ơn sự tận tình dạy dỗ của tất cả các quý thầy cô
Khoa Công nghệ Phần mềm – Trƣờng Đại học Công Nghệ Thông Tin – Đại học Quốc
gia TPHCM.

Lời cảm ơn chân thành và sâu sắc, chúng em xin gửi đến gia đình, đã luôn sát
cánh và động viên chúng em trong những giai đoạn khó khăn nhất.
TP Hồ Chí Minh, ngày 15 tháng 03 năm 2011
Sinh viên
Võ Đinh Duy
Huỳnh Minh Đức

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman

-- -- iv ---

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

NHẬN XÉT
(Của giảng viên hƣớng dẫn)
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………

…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
GVHD:
ThS. Huỳnh Ngọc Tín
SVTH: Võ Đinh Duy & Huỳnh Minh Đức

…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

-- -- v ---

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

NHẬN XÉT
(Của giảng viên phản biện)
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………

…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
GVHD: ThS. Huỳnh Ngọc Tín
SVTH: Võ Đinh Duy & Huỳnh Minh Đức
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………

Formatted: Font: Times New Roman

-- -- vi --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

MỤC LỤC.
ABSTRACT. .................................................................................................................i
LỜI MỞ ĐẦU. ............................................................................................................ ii
LỜI CẢM ƠN. ........................................................................................................... iii
NHẬN XÉT ................................................................................................................ iv
NHẬN XÉT ................................................................................................................. v
MỤC LỤC. ................................................................................................................. vi
DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH .................................................................ix
CHƢƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI KHÓA LUẬN. ............................................ 1
1.1

Đặt vấn đề. ...................................................................................................... 1

1.2

Khảo sát các nghiên cứu liên quan. .................................................................. 2

1.2.1 Khái niệm Metadata. .................................................................................... 2

1.2.2 Chuẩn Dublin Core Metadata. ...................................................................... 3
1.2.3 Các nghiên cứu liên quan. ............................................................................ 5
1.3

Mục tiêu khóa luận. ....................................................................................... 16

1.4

Phạm vi khóa luận. ........................................................................................ 17

1.5

Nội dung thực hiện. ....................................................................................... 18

1.6

Kết quả dự kiến. ............................................................................................ 19

1.7

Bố cục báo cáo khóa luận. ............................................................................. 19

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman

-- -- vii --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

CHƢƠNG 2: CƠ SỞ LÝ THUYẾT. .......................................................................... 20
2.1.

Phƣơng pháp máy học SVM. ......................................................................... 20

2.1.1. Những khái niệm liên quan ........................................................................ 20
2.1.2. Giới thiệu SVM.......................................................................................... 23
2.1.3. Phân lớp với dữ liệu nhiễu, hàm nhân ........................................................ 29
2.1.4. Các giải pháp phân đa lớp .......................................................................... 31
2.2.

Phƣơng pháp sử dụng tập luật........................................................................ 34

2.2.1. Giới thiệu về GATE. .................................................................................. 34
2.2.2. ANNIE Plugin............................................................................................ 37
2.2.3. Luật ngữ pháp JAPE. ................................................................................. 39
CHƢƠNG 3: RÚT TRÍCH METADATA TỪ HEADER CỦA BÀI BÁO KHOA
HỌC. .......................................................................................................................... 53
3.1

Ứng dụng thuật toán SVM vào bài toán. ........................................................ 54

3.1.1. Xây dựng Vectơ đặc trƣng. ........................................................................ 57
3.1.2. Phân lớp dòng. ........................................................................................... 66
3.2.

Hiện thực các luật JAPE. ............................................................................... 67

3.2.1. Luật JAPE trong mô-đun rút trích từ tập tin pdf. ........................................ 67
3.2.2. Luật JAPE dùng cho mô-đun rút trích trong tập dữ liệu header. ................. 76
CHƢƠNG 4: HIỆN THỰC HỆ THỐNG. ............................................................... 80
Môi trƣờng, công cụ, ngôn ngữ phát triển................................................................ 80
4.1

Kiến trúc chƣơng trình. ................................................................................. 81

4.1.1. Kiến trúc phân lớp chƣơng trình. ................................................................ 82

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

Formatted: Font: Times New Roman

-- -- viii --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

4.1.2. Luồng xử lý chung. .................................................................................... 84
4.2.

Các mô-đun trong hệ thống. .......................................................................... 85

4.2.1. Mô-đun tƣơng tác với tập pdf: .................................................................... 85
4.2.2. Mô-đun tƣơng tác với tập dữ liệu header: ................................................... 87
CHƢƠNG 5: THỰC NGHIỆM, NHẬN XÉT VÀ ĐÁNH GIÁ. ................................. 91
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN................................................................... 95
DANH MỤC TÀI LIỆU THAM KHẢO .................................................................... 97
PHỤ LỤC A. ............................................................................................................ 100
PHỤ LỤC B. ............................................................................................................ 103

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

Formatted: Font: Times New Roman

-- -- ix --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH
BẢNG
Bảng 1.1: Các yếu tố cơ bản của chuẩn Dublin Core Metadata. .................................... 5
Bảng 1.2: Bảng kết quả thử nghiệm [1]. ..................................................................... 14
Bảng 1.3: Danh sách các thông tin metadata. .............................................................. 18
Bảng 2.1: Các đặc tính của một vài loại chú thích....................................................... 45
Bảng 2.2: Các toán tử trong vế trái của luật ngữ pháp JAPE. ...................................... 51
Bảng 3.1: Danh sách các bộ từ điển. ........................................................................... 58
Bảng 3.2: Các đặc trƣng từ. ........................................................................................ 63
Bảng 3.3: Các đặc trƣng dòng. .................................................................................... 64
Bảng 3.4: Những mẫu nhận dạng cho các lớp metadata .............................................. 78
Bảng 5.1: Kết quả phân lớp SVM. .............................................................................. 91
Bảng 5.2: Kết quả kiểm thử dùng luật......................................................................... 93
Bảng 5.3: Số liệu thống kê module rút trích trên PDF. ................................................ 94

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman

-- -- x --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

SƠ ĐỒ

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

Sơ đồ 3.1: Các bƣớc thực hiện rút trích đặc trƣng cho SVM ....................................... 55
Sơ đồ 3.2: Thực hiện huấn luyện và kiểm thử với LIBSVM ....................................... 57
Sơ đồ 3.3: Biểu diễn luồng tính toán đặc trƣng cho từng dòng. ................................... 60
Sơ đồ 3.4: Tổng quan về mô-đun tƣơng tác với tập tin pdf. ........................................ 67
Sơ đồ 3.5: Luồng xử lý dựa vào luật để phân lớp dòng. .............................................. 76
Sơ đồ 4.1: Kiến trúc chƣơng trình ............................................................................... 81
Sơ đồ 4.2: Luồng xử lý hệ thống. ................................................................................ 84

HÌNH
Hình 1.1: Tổng quan về mô-đun huấn luyện phân lớp dòng (nguồn hình vẽ [11]). ........ 8
Hình 1.2: Giao diện của công cụ Biblio (nguồn hình vẽ [5]). ...................................... 15

Hình 2.1: Vectơ toán học (nguồn hình vẽ [15]). .......................................................... 21
Hình 2.2: Không gian đặc trƣng (nguồn hình vẽ [15])................................................. 22
Hình 2.3: Độ lớn lề (Margin) ...................................................................................... 23
Hình 2.4: Siêu mặt phẳng và những ràng buộc (nguồn hình vẽ [3]). ........................... 25
Hình 2.5: Minh họa chức năng hàm nhân (nguồn hình vẽ [16]). ................................. 30
Hình 2.6: Ví dụ hàm nhân RBK (nguồn hình vẽ [14])................................................. 31
Hình 2.7: Ví dụ phân đa lớp với OVR.[10] ................................................................. 32
Hình 2.8: Những mặt phẳng gi.[10] ............................................................................ 33
Hình 2.9: Biểu diễn kỹ thuật phân lớp bắt cặp [10] ..................................................... 33

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman

-- -- xi --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

Hình 2.10: Thống kê kết quả phân lớp của các gi..[10] ................................................ 34

Formatted: Font: Times New Roman

Formatted: Font: Times New Roman

Hình 2.11: Mô hình kiến trúc của GATE (nguồn hình vẽ [18]). .................................. 36
Hình 2.12: Các tài nguyên xử lý cơ bản của ANNIE (nguồn hình vẽ [18]).................. 38
Hình 3.1: Ví dụ về cách rút vectơ đặc trƣng trong một dòng. ...................................... 65
Hình 3.2: Bộ phân lớp độc lập từng dòng. .................................................................. 66
Hình 3.3: Luật acsp_publish đƣợc thực thi trong GATE. ............................................ 70
Hình 3.4: Rút những thông tin: tác giả, tiêu đề, năm xuất bản của reference. ............. 71
Hình 4.1 : Mô hình phân lớp của mô-đun xử lý pdf. ................................................... 85
Hình 4.2 : Giao diện thêm, chọn tập tin pdf để thực hiện. ........................................... 86
Hình 4.3 : Giao diện thực hiện và trả về kết quả. ........................................................ 86
Hình 4.4 : Mô hình lớp của mô-đun sử dụng SVM. .................................................... 87
Hình 4.5 : Giao diện mô-đun sử dụng phƣơng pháp SVM. ......................................... 89
Hình 4.6 : Mô hình lớp cho mô-đun xử lý header sử dụng luật. .................................. 90
Hình 4.7 : Giao diện phƣơng pháp dùng luật. ............................................................. 91

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman

-- -- xii --

Formatted: Font: Times New Roman

--

Formatted: Font: Times New Roman

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

--1-

CHƢƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI KHÓA LUẬN.
1.1 Đặt vấn đề.
Bài báo khoa học (papers/publications) đƣợc công bố là kết quả của một quá trình
nghiên cứu. Nội dung bài báo đề cập đến vấn đề mà ngƣời, tập thể, nhóm nghiên cứu
quan tâm giải quyết, cũng nhƣ cách tiếp cận, phƣơng pháp giải quyết vấn đề đặt ra.
Chúng đƣợc công bố ở các tạp chí, hội nghị khoa học và sẽ là nguồn tài liệu tham khảo,
đánh giá cho các nghiên cứu về sau.
Cùng với sự đầu tƣ nghiên cứu về khoa học kỹ thuật, số lƣợng kết quả công bố các
công trình khoa học ngày càng nhiều, thông qua đó số lƣợng các bài báo cũng tăng lên
nhanh chóng. Sự gia tăng này gây khó khăn cho các nhà khoa học trong việc tìm kiếm
các khảo sát liên quan đến vấn đề họ nghiên cứu. Ngày nay với sự trợ giúp của những
công cụ tìm kiếm trực tuyến nhƣ Google1, Yahoo!2, Bing3 … nhà nghiên cứu có thể
tìm kiếm đƣợc khá đầy đủ và nhanh chóng những tài liệu họ cần. Tuy nhiên, số lƣợng
kết quả trả về của những công cụ này thƣờng khá lớn, độ chính xác phụ thuộc nhiều
vào mức độ cụ thể của từ khóa; điều đó phần nào gây khó khăn trong việc định hƣớng
tìm kiếm chính xác những tài liệu liên quan.
Chính khó khăn ấy, đã nảy sinh một vấn đề nghiên cứu cần đƣợc giải quyết là tổ
chức lại các bài báo khoa học thành một hệ thống nhằm hỗ trợ cho việc tìm kiếm chính

xác những tài liệu liên quan. Một phần quan trọng trong công việc này là chúng ta cần
phải rút trích những tri thức, thông tin metadata4 cần thiết từ các bài báo khoa học để
1

www.google.com/

2

www.yahoo.com/

3

/>
4

Metadata là dữ liệu về dữ liệu khác hay có thể nói ngắn gọn là dữ liệu về dữ liệu.

GVHD: ThS. Huỳnh Ngọc Tín

Formatted: Font: Times New Roman

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

Formatted: Font: Times New Roman

--2-

hỗ trợ quá trình xây dựng chỉ mục, định hƣớng tìm kiếm, tóm tắt nội dung, phân tích tri
thức cấu trúc, so sánh tƣơng đồng giữa hai bài báo …

1.2 Khảo sát các nghiên cứu liên quan.
1.2.1 Khái niệm Metadata.
Metadata hay còn gọi là “siêu dữ liệu” (tiêu đề, tên tác giả, nơi xuất bản, năm xuất
bản, …) đƣợc dùng phổ biến, rộng rãi trong các thƣ viện số nhằm để mô tả thông tin về
tài nguyên (sách, báo, tạp chí, tài liệu, luận văn, luận án, …). Metadata giúp phân loại,
tìm kiếm tài liệu một cách dễ dàng, có định hƣớng [2].
Trong các phạm vi cụ thể, những chuyên gia đƣa ra các quan điểm khác nhau về
metadata:


Theo Chris.Taylor, giám đốc dịch vụ truy cập thông tin thƣ viện thuộc trƣờng
đại học Queensland5 thì metadata là dữ liệu có cấu trúc đƣợc dùng để mô tả
những đặc điểm của tài nguyên. Một mẫu tin metadata bao gồm một số lƣợng
những phần tử đƣợc định nghĩa trƣớc gọi là elements dùng mô tả đặc tính, thông
tin tài nguyên. Mỗi elements có thể có một hay nhiều giá trị.



Theo tiến sĩ Warwick Cathro thuộc thƣ viện quốc gia Australia6 thì một phần tử
metadata hay còn gọi là metadata elements mô tả tài nguyên thông tin, hay hỗ
trợ truy cập đến một tài nguyên thông tin.

Tóm lại, ta có thể hiểu metadata là thông tin dùng để mô tả tài nguyên thông tin.
Formatted: Hyperlink, Font: Times New
Roman
Field Code Changed
Formatted: Font: Times New Roman
5

6

Field Code Changed

/>
Formatted: Hyperlink, Font: Times New
Roman

/>
Formatted: Font: Times New Roman

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

--3-

1.2.2 Chuẩn Dublin Core Metadata.
Dublin Core Metadata7 là một chuẩn metadata đƣợc nhiều ngƣời biết đến và đƣợc
dùng rộng rãi trong cộng đồng các nhà nghiên cứu, chuyên gia về thƣ viện số. Dublin
Core Metadata lần đầu tiên đƣợc xuất bản năm 1995 bởi Dublin Core Metadata
Element Initiative [2].
Theo [17], tháng 9/2001 bộ yếu tố siêu dữ liệu Dublin Core Metadata đƣợc ban
hành thành tiêu chuẩn Mỹ, gọi là tiêu chuẩn “The Dublin Core Metadata Element Set”
ANSI/NISO Z39.85-2001.
Dublin Core Metadata bao gồm 15 yếu tố cơ bản [17] đƣợc mô tả chi tiết trong
bảng bên dƣới:
STT Yếu tố

Mô tả

1

Title

Nhan đề hay tiêu đề của tài liệu

2

Creator

Tác giả của tài liệu, bao gồm cả tác giả cá nhân và tác giả tập
thể

3

Subject

Chủ đề tài liệu đề cập dùng để phân loại tài liệu. Có thể thể hiện
bằng từ, cụm từ/(Khung chủ đề), hoặc chỉ số phân loại/ (Khung
phân loại).

4

Description

Tóm tắt, mô tả nội dung tài liệu. Có thể bao gồm tóm tắt, chú
thích, mục lục, đoạn văn bản để làm rõ nội dung

5

Publisher

Nhà xuất bản, nơi ban hành tài liệu có thể là tên cá nhân, tên cơ
Formatted: Font: Times New Roman
Field Code Changed

7

Formatted: Hyperlink, Font: Times New
Roman

/>
Formatted: Font: Times New Roman

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

--4-

quan, tổ chức, dịch vụ...
6

Contributor

Tên những ngƣời cùng tham gia cộng tác đóng góp vào nội
dung tài liệu, có thể là cá nhân, tổ chức..

7

Date

Ngày, tháng ban hành tài liệu.

8

Type

Mô tả bản chất của tài liệu. Dùng các thuật ngữ mô tả phạm trù
kiểu: trang chủ, bài báo, báo cáo, từ điển...

9

Format

Mô tả sự trình bày vật lý của tài liệu, có thể bao gồm; vật mang
tin, kích cỡ độ dài, kiểu dữ liệu (.doc, .html, .jpg, xls, phần
mềm....)

10

Identifier

Các thông tin về định danh tài liệu, các nguồn tham chiếu đến,
hoặc chuỗi ký tự để định vị tài nguyên: URL (Uniform
Resource Locators) (bắt đầu bằng http://), URN (Uniform
Resource Name), ISBN (International Standard Book Number),
ISSN (International Standard Serial Number), SICI (Serial Item

& Contribution Identifier), ...

11

Source

Các thông tin về xuất xứ của tài liệu, tham chiếu đến nguồn mà
tài liệu hiện mô tả đƣợc trích ra/tạo ra, nguồn cũng có thể là:
đƣờng dẫn (URL), URN, ISBN, ISSN...

12

Language

Các thông tin về ngôn ngữ, mô tả ngôn ngữ chính của tài liệu

13

Relation

Mô tả các thông tin liên quan đến tài liệu khác. có thể dùng
đƣờng dẫn (URL), URN, ISBN, ISSN...

14

Coverage

Các thông tin liên quan đến phạm vi, quy mô hoặc mức độ bao

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

--5-

quát của tài liệu. Phạm vi đó có thể là địa điểm, không gian
hoặc thời gian, tọa độ...
15

Rights

Các thông tin liên quan đến bản quyền của tài liệu

Bảng 1.1: Các yếu tố cơ bản của chuẩn Dublin Core Metadata.
Theo [11], những yếu tố do chuẩn Dublin Core quy định không biểu diễn hết cũng
nhƣ dƣ thừa thông tin metadata trong một bài báo khoa học. Dữ liệu metadata cần phải
đƣợc mở rộng thông tin về tác giả (nhƣ nơi công tác, địa chỉ, email) và bài báo (nhƣ số
xuất bản) để có thể phục vụ tốt hơn quá trình xây dựng thƣ viện số. Vì thế, chúng em
đã tham khảo nghiên cứu [11] về sự kết hợp giữa các yếu tố quy định trong Dublin
Core và những thành phần mở rộng, để có thể đƣa ra bảng thông tin metadata (bảng
1.3) mà đề tài khóa luận sẽ thực hiện rút trích.
1.2.3 Các nghiên cứu liên quan.
1.2.3.1 Các bài toán liên quan.
Vấn đề rút trích thông tin metadata đƣợc thể hiện qua các bài toán:
 Rút trích thông tin từ phần đầu (header) của các bài báo khoa học. Phần đầu của
chúng thƣờng tập hợp những dữ liệu liên quan đến tác giả, những thông tin chi
tiết của bài báo (tiêu đề bài báo, phần tóm tắt …) Những thông tin quan trọng
này sẽ đƣợc rút trích tự động để cập nhật vào cơ sở dữ liệu.
 Rút trích thông tin tham khảo trong bài báo. Những thông tin tác giả, tiêu đề,

năm xuất bản trong phần tham khảo sẽ giúp ích cho chúng ta xây dựng các hệ
thống chỉ mục, tìm kiếm các bài báo khoa học.

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

--6-

 Rút trích những nội dung tri thức quan trọng trong bài báo nhƣ vấn đề trình bày
của bài báo là gì, đóng góp chính của bài báo, công việc sắp tới và mục tiêu.
Điều này giúp cho ngƣời dùng có thể dễ dàng nắm bắt những thông tin cần thiết
trong một bài báo.
Theo [1], hiện nay chúng ta có hai hƣớng tiếp cận chính trong vấn đề rút trích
thông tin đó là: tiếp cận máy học và những phƣơng pháp khác dựa trên luật kết hợp với
các tập từ điển và ontology.
1.2.3.2 Tiếp cận máy học.
Trong bài báo [11], các tác giả đề xuất phƣơng pháp dùng thuật toán phân lớp
Support Vector Machine (SVM) để rút trích thông tin metadata trong phần đầu
(headers) của các bài báo khoa học. Ý tƣởng chính của SVM là tìm một siêu phẳng
“tốt nhất” trong không gian n-chiều để phân chia các điểm dữ liệu thuộc hai lớp khác
nhau nằm ở hai phía của siêu phẳng [3]. Những thông tin metadata đƣợc rút ra từ bài
báo bao gồm 15 trƣờng: tên bài báo, tên tác giả, nơi công tác, địa chỉ, chú thích, thƣ
điện tử, ngày xuất bản, phần tóm tắt (nếu có), giới thiệu (nếu có), số điện thoại, từ khóa
chính, địa chỉ web, số trang, số xuất bản (nếu có). Chi tiết các bƣớc thực hiện nhƣ sau:
 Đầu tiên, tác giả thực hiện phân lớp dòng vào những lớp thông tin metadata.
Để làm đƣợc điều đó, họ tiến hành chọn và tính các đặc trƣng từ, đặc trƣng
dòng với sự trợ giúp của các bộ từ điển (nhƣ họ và tên ngƣời, tên các thành
phố, tiểu bang của Mỹ, tên các tỉnh của Canada, tên các quốc gia, tên tháng

và chữ viết tắt của nó), danh sách các từ (word list) đƣợc thống kê trong tập
huấn luyện. Bộ phân lớp đƣợc xây dựng theo nguyên tắc: một dòng đƣợc
gán nhãn là lớp C (thuộc một trong 15 lớp metadata) khi trong dòng có chứa
các từ thuộc lớp C. Trong giai đoạn này, một dòng có thể gán cho nhiều lớp.

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

--7-

 Sau đó, họ sử dụng kết quả của bƣớc phân lớp dòng để tiến hành phân lớp
theo ngữ cảnh. Đặc trƣng ngữ cảnh đƣợc sử dụng là tên nhãn của 5 dòng
trƣớc và 5 dòng sau dòng hiện tại. Những đặc trƣng ấy đƣợc dùng trong một
quy trình lặp nhằm liên tục gán nhãn các dòng cho đến khi phần trăm các
dòng đƣợc gán nhãn lại so với tổng các dòng trong quá trình phân lớp bé
hơn 0.7%.
 Tiếp theo, hệ thống thực hiện rút thông tin trong những dòng chứa nhiều lớp
metadata, cũng nhƣ rút tên các tác giả nằm tại nhiều dòng khác nhau.

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

--8-

Hình 1.1: Tổng quan về mô-đun huấn luyện phân lớp dòng (nguồn hình vẽ [11]).
Họ sử dụng cùng một tập huấn luyện và kiểm thử với phƣơng pháp Hidden Markov

Model (HMM) [14], nhằm để có thể so sánh tốt hơn về độ chính xác trong cách tiếp
cận này. Tập dữ liệu chứa 935 headers của các bài báo nghiên cứu về khoa học máy
tính, trong đó 500 headers thuộc tập huấn luyện, còn lại 435 headers thuộc tập kiểm
thử. Các headers này đƣợc tác giả xây dựng bằng tay từ tập tin pdf và ps. Độ chính xác
tổng quát (overall accuracy) tính trên trung bình tổng thể các lớp của phƣơng pháp
SVM đạt 92.9%, tốt hơn phƣơng pháp HMM đạt 90.1% [14]. Nghiên cứu đã thực hiện
việc rút thông tin metadata trong header của các bài báo khoa học với độ chính xác cao.
Vì thế nó là một tài liệu tham khảo quan trọng cho các nghiên cứu sau này. Tuy nhiên
hệ thống chƣa đề cập đến vấn đề rút trích thông tin tham khảo (references/citations),
những thông tin đóng vài trò quan trọng cho việc chỉ mục, kết nối các bài báo khoa
học.
Ngoài phƣơng pháp SVM, thuật toán máy học Conditional Random Fields (CRFs)
[4][8] cũng cho kết quả thực nghiệm khá tốt. CRFs là mô hình chuỗi các xác suất có
điều kiện, đƣợc huấn luyện để tối đa hóa xác suất điều kiện. Nó là một khung
(framework) cho phép xây dựng những mô hình xác suất để phân đoạn và gán nhãn
chuỗi dữ liệu [13]. Trong bài báo [8], các tác giả đã sử dụng CRFs để rút trích thông tin
metadata trong 2 tập dữ liệu: một tập chứa các headers và một tập thông tin tham khảo
(references) của các bài báo khoa học. Họ đã tiến hành thử nghiệm trên các thông số,
cũng nhƣ các đặc trƣng khác nhau về từ vựng, từ, trình bày (layout), để có thể nâng cao
độ chính xác của thuật toán CRFs. Qua thực nghiệm trên cùng tập header với các thuật
toán máy học khác, CRFs có kết quả độ chính xác tổng quát (overall accuracy) là
98.3%, cao hơn SVM (92.9%) [11] và HMM (90.1%) [14]. Điều này cũng tƣơng tự đối
với tập chứa nội dung tham khảo, CRFs có độ chính xác tổng quát 95.37%, trong khi
HMM là 85.1% [14].

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

--9-

Ngoài ra tác giả Jie Zou cùng các đồng sự [4] đã đề ra phƣơng pháp rút trích thông
tin tham khảo (reference) của các bài báo y khoa dưới định dạng HTML nhƣ: tên tác
giả, tên bài báo, tên tạp chí, ngày xuất bản và những thành phần khác. Họ dùng các
thuật toán máy học thống kê (statistical machine learning algorithm) để xác định vùng
tham khảo trong bài báo và sau đó sẽ phân tích để xác định các thành phần trong vùng
ấy. Chi tiết hai bƣớc xử lý trong phƣơng pháp của họ nhƣ sau:
 Bƣớc 1: Xác định vùng thông tin tham khảo (Reference locating). Giai đoạn này
sẽ xác định vùng tham khảo trong bài báo, sau đó phân tách nó thành những
dòng tham khảo riêng biệt. Các bƣớc thực hiện gồm:
o Biểu diễn bài báo dƣới dạng mã HTML, sau đó tạo cây HTML DOM
(Document Object Model).
o Tác giả phân các thẻ HTML thành 2 loại: thẻ Line-break (những thẻ đánh
dấu nhƣ <P>, <TABLE>, <DIV>, <H1>, <BR>) và thẻ Inline (những thẻ
không là Line-break). Họ gom nhóm những nút DOM là thẻ Inline liên
tiếp nhau để tạo thành vùng (zone tree). Mỗi vùng chứa các nút DOM
inline và một nút line-break. Sau khi đã xác định các vùng, tác giả tiến
hành loại bỏ các thẻ HTML.
o Tiến hành rút trích các đặc trƣng: bao gồm 59 đặc trƣng về hình học
(geometric) và từ (text). 9 đặc trƣng đầu tiên đƣợc tác giả xác định rõ
nhƣ: số lƣợng từ trong vùng đó, số lƣợng từ chỉ có 1 chữ cái và đƣợc viết
hoa, số lƣợng từ chỉ có 2 chữ cái và đƣợc viết hoa… 50 đặc trƣng còn lại
là các giá trị nhị phân, nhằm chỉ ra một từ nào đó có xuất hiện trong
vùng. Để xác định 50 từ này, tác giả dùng công thức độ đo GSS để tính
giá trị các từ, từ đó sắp xếp theo chiều giảm dần và lấy 50 từ có giá trị
cao nhất.

GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

- - 10 -

o Sau đó đƣa các đặc trƣng vào thƣ viện LIBSVM8 để phân thành 2 lớp:
vùng chứa thông tin tham khảo (Reference zone) và vùng không chứa
thông tin tham khảo (Non-reference zone).
 Bƣớc 2: Phân tích thông tin tham khảo (Reference parsing). Tác giả sử dụng cả
hai phƣơng pháp máy học CRFs và SVM để tiến hành phân tích thông tin tham
khảo.
o Dùng CRFs:
 Xây dựng bộ từ điển từ tập dữ liệu đƣợc thu thập trong vòng 10
năm của thƣ viện số MEDLINE9. Bao gồm: 236748 tên tác giả,
108484 tiêu đề bài báo, 6909 tiêu đề tạp chí.
 Rút trích đặc trƣng: bao gồm các đặc trƣng về tên tác giả, tên tiêu
đề bài báo, tên tạp chí, kiểu mẫu về đánh số trang, tên họ viết tắt,
số năm với bốn ký tự; khuôn mẫu về các từ “et”, “al”, “pp”, “p.”;
từ kết thúc với dấu “.”, từ viết hoa ký tự đầu tiên, từ chỉ chứa ký
tự, từ chỉ chứa số, từ chứa cả số và ký tự, từ chỉ chứa số và ký tự.

Formatted: Font: Times New Roman

Tất cả các đặc trƣng đều là giá trị nhị phân. Ba đặc trƣng đầu là

Formatted: Font: Times New Roman, English
(U.S.)

đặc trƣng về tên tác giả, tiêu đề bài báo, tiêu đề tạp chí đƣợc xác

Formatted: Font: Times New Roman

định thông qua tập từ điển đã đƣợc biên soạn ở trên.

Formatted: Font: Times New Roman, English
(U.S.)

 Dùng MALLET10 - thƣ viện máy học JAVA đƣợc phát triển bởi
McCallum và các đồng nghiệp, để hiện thực thuật toán phân tích

Formatted: English (U.S.)
Formatted: Font: Times New Roman, English
(U.S.)
Formatted: Font: Times New Roman

vùng tham khảo thông qua CRFs.

Formatted: Font: Times New Roman, English
(U.S.)
Formatted: Font: Times New Roman
Formatted: Font: Times New Roman, English
(U.S.)

8

(Phụ lục A)

9

/>

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman, English
(U.S.)
Formatted: Font: Times New Roman

10

/>
GVHD: ThS. Huỳnh Ngọc Tín

Formatted: Font: Times New Roman, English
(U.S.)

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

- - 11 -

o Dùng SVM: thuật toán sẽ thực hiện việc phân loại từng từ vào các lớp đã
đƣợc quy định. SVM sử dụng 15 đặc trƣng để thực hiện việc phân lớp. 14
đặc trƣng đầu giống với thuật toán CRFs, đặc trƣng thứ 15 là chuẩn hóa
vị trí (normalized position) đƣợc tính bằng tỷ số giữa vị trí từ đó với tổng
số từ trong dòng tham khảo. Sau khi thực hiện bƣớc này, tác giả sẽ kiểm
tra tính đúng đắn của việc gán nhãn cho từ thông qua một tập các luật
heuristic nhƣ: thực thể tác giả phải xuất hiện trƣớc tiêu đề bài báo và tiêu
đề tạp chí (nếu tồn tại), tiêu đề bài báo phải xuất hiện trƣớc tiêu đề tạp
chí (nếu tồn tại), tiêu đề tạp chí phải xuất hiện trƣớc chƣơng (Volume) và
trang (Pagination) (nếu tồn tại) …. Nếu việc gán nhãn ấy không phù hợp
với bất cứ luật nào, thì thuật toán tìm kiếm sẽ đƣợc sử dụng để tìm ra một
nhãn thích hợp nhất với xác suất cao nhất.

Tập dữ liệu họ sử dụng là các bài báo đƣợc lấy từ thƣ viện MEDLINE (của U.S
National Library of Medicine). Tác giả sử dụng các tập dữ liệu khác nhau cho hai bƣớc
xử lý trong phƣơng pháp của họ. Tập dữ liệu đƣợc dùng cho bƣớc xác định vùng thông
tin tham khảo gồm 1000 bài báo từ 100 tạp chí trong đó 500 bài đƣợc dùng cho huấn
luyện, 500 bài đƣợc dùng để kiểm thử. Kết quả là thuật toán gần nhƣ xác định chính
xác 22147 vùng tham khảo từ 500 bài báo kiểm thử, chỉ có 6 bài báo là tỷ lệ dƣơng sai
và 2 bài báo có tỷ lệ âm sai. Tập dữ liệu thứ hai gồm 2400 dòng tham khảo từ 1000 bài
báo trong đó 600 dòng tham khảo từ 500 bài báo đƣợc dùng cho huấn luyện, 1800
dòng tham khảo từ 500 bài báo đƣợc dùng cho kiểm thử thuật toán phân tích thông tin
tham khảo. Độ chính xác tổng quát đối với mức nhóm từ bằng thuật toán CRFs là
97.3%, trong đó với thuật toán SVM thì kết quả là 97.4%. Tuy nhiên các tác giả vẫn
chƣa xử lý vấn đề các định dạng khác nhau của một trích dẫn
Nhận xét: Khi dùng cách tiếp cận máy học thì chúng ta có ƣu thế về độ bao phủ
cao, có khả năng xử lý trên nhiều khuôn mẫu tài liệu khác nhau. Tuy nhiên sẽ mất khá
GVHD: ThS. Huỳnh Ngọc Tín

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

- - 12 -

nhiều chi phí thời gian và sức lao động để xây dựng nên tập huấn luyện vì độ chính xác
của phƣơng pháp tùy thuộc các dữ liệu trong tập ấy.
1.2.3.3 Tiếp cận luật.
Đối với phƣơng pháp sử dụng luật kết hợp với từ điển và ontology thì có nhiều
cách tiếp cận khác nhau. Nhƣ trong tài liệu [9], tác giả đã đƣa ra gợi ý về phƣơng pháp
rút trích thông tin luận lý (nhƣ tiêu đề, tác giả, các định nghĩa, bổ đề …) từ các bài báo
toán học, từ đó xây dựng một trình duyệt tri thức giúp ngƣời dùng dễ dàng theo dõi tài
liệu. Những thông tin metadata đƣợc rút ra bằng thuật toán rút trích luận lý, bao gồm
hai giai đoạn:

 Đầu tiên, từ một tài liệu toán học ban đầu (chƣa đƣợc số hóa), thông qua hệ
thống nhận dạng ký tự quang học (Optical Character Recognition OCR), nó
đƣợc chuyển thành các hình ảnh bitmap. Kết hợp với hệ thống INFTY11, các
ảnh này sẽ đƣợc chuyển sang các định dạng khác nhau nhƣ: XML (được gọi là
KML), HTML, LATEX, Mathematica. Tác giả tiến hành phân đoạn văn bản dựa
trên các dấu hiệu nhƣ: khoảng trắng, kiểu chữ, từ khóa… để xác định các các
vùng thông tin trên mỗi đầu và cuối trang của bài báo (heading, footnote), số
trang.
 Sau đó các nhãn metadata sẽ đƣợc gán nhãn một cách phù dựa trên cách trình
bày (layout), vị trí và thông tin kiểu chữ. Việc nhận dạng những thành phần trên
chủ yếu dựa vào kinh nghiệm quan sát cấu trúc trình bày các bài báo toán học.
Phƣơng pháp này đƣợc đánh giá trên tập dữ liệu gồm 29 bài báo toán học bằng
tiếng Anh (gồm 422 trang, 706297 ký tự), đƣợc xuất bản từ năm 1970 đến năm 2000.
Kết quả kiểm chứng trong cách tiếp cận này đạt tỷ lệ nhận dạng chính xác là 93,1%.

Formatted: Font: Times New Roman
Formatted: Font: Times New Roman, English
(U.S.)
Formatted: Font: Times New Roman

11

/>
GVHD: ThS. Huỳnh Ngọc Tín

Formatted: Font: Times New Roman, English
(U.S.)

SVTH: Võ Đinh Duy & Huỳnh Minh Đức

RÚT TRÍCH METADATA từ bài báo KHOA học máy TÍNH

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về