Tải bản đầy đủ (.pdf) (68 trang)

Trích chọn tự động quan hệ cố vấn - hướng dẫn khoa học dựa trên mô hình đồ thị xác suất phụ thuộc thời gian và thử nghiệm đánh giá

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.93 MB, 68 trang )






ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ



Phan Nguyên Cương


TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN –
HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH ĐỒ
THN XÁC SUẤT PHỤ THUỘC THỜI GIAN VÀ THỬ
NGHIỆM ĐÁNH GIÁ


KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin








HÀ NỘI – 2011












































ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Nguyên Cương

TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ CỐ VẤN –
HƯỚNG DẪN KHOA HỌC DỰA TRÊN MÔ HÌNH
ĐỒ THN XÁC SUẤT PHỤ THUỘC THỜI GIAN VÀ
THỬ NGHIỆM ĐÁNH GIÁ





KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin


Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy


Cán bộ đồng hướng dẫn: TS. Nguyễn Việt Cường






HÀ NỘI - 2011





LỜI CẢM ƠN
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến các thầy giáo PGS.TS Hà
Quang Thụy và TS.Nguyễn Việt Cường, những người đã tận tình hướng dẫn em suốt
quá trình nghiên cứu khoa học và thực hiện khóa luận tốt nghiệp.
Em xin chân thành cảm ơn các thầy, cô giáo đã giảng dạy em trong bốn năm học
qua, những kiến thức mà em nhận được trên giảng đường đại học sẽ là hành trang giúp
em vững bước trong tương lai.
Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí
nghiệm KT-Sislab đã cho em những lời khuyên bổ ích về chuyên môn trong quá trình
nghiên cứu. Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện
khóa luận. Em xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng
hộ khuyến khích em trong suốt quá trình học tập tại trường.
Cuối cùng, em muốn được gửi lời cảm ơn sâu sắc đến tất cả bạn bè, và đặc biệt là
ba mẹ và các chị - những người thân yêu luôn kịp thời động viện và giúp đỡ em vượt
qua những khó khăn trong học tập cũng như trong cuộc sống.


Hà Nội, ngày 19 tháng 05 năm 2011

Sinh viên
Phan Nguyên Cương











TÓM TẮT
Bài toán trích chọn quan hệ hướng dẫn – hướng dẫn khoa học (quan hệ giữa
người cố vấn – người được hướng dẫn) từ các công trình khoa học được công bố trên
DBLP là bài toán thời sự có ý nghĩa, đặc biệt trong hệ thống tìm kiếm các chuyên gia
khoa học, chẳng hạn như hệ thống Arnetminer của nhóm Knowledge Engineering
Tsinghua University, China [11], AI Genealogy Project [10]… Khóa luận này trình
bày và nghiên cứu về một phương pháp trích chọn quan hệ cố vấn – hướng dẫn dựa
trên cơ sở lý thuyết đồ thị và xác suất.
Trên cơ sở phân tích và tìm hiểu một số hướng tiếp cân bài toán về trích chọn
quan hệ trên mạng thông tin, khóa luận áp dụng phương pháp trích chọn quan hệ dựa
trên mô hình đồ thị xác suất phụ thuộc thời gian. Dữ liệu trích chọn được trên miền dữ
liệu DBLP, sẽ được lưu trữ trong cơ sở dữ liệu, tiến hành quá trình lọc và xử lý dữ
liệu, tìm ra các cặp người cố vấn – người được hướng dẫn “tiềm năng”, từ đó làm dữ
liệu đầu vào cho mô hình học dữ liệu để trích chọn ra được các cặp quan hệ. Khóa luận
đưa ra mô hình thử nghiệm dựa trên mô hình đồ thị xác suất phụ thuộc thời gian, tìm

được các cặp “tiềm năng”. Kết quả bước đầu cho thấy, mô hình là khả quan và có thể
tiếp tục thực nghiệm các pha xử lý tiếp theo.















LỜI CAM ĐOAN
Em xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng em,
dưới sự hướng dẫn của PTS.TS Hà Quang Thụy và TS. Nguyễn Việt Cường, không
sao chép từ các công trình nghiên cứu khác. Em đã trích dẫn đầy đủ các tài liệu tham
khảo, các công trình nghiên cứu liên quan ở trong nước và quốc tế. Nếu sai em xin
chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của ĐHQH Hà Nội và Nhà trường.

Hà Nội, ngày 19 tháng 5 năm 2011

Sinh viên

Phan Nguyên Cương




















MỤC LỤC

LỜI CẢM ƠN

TÓM TẮT

LỜI CAM ĐOAN

MỤC LỤC 6

Danh sách các bảng 8


Danh sách các hình vẽ 9

Danh sách các từ viết tắt 10

Mở đầu 1

Chương 1. Giới thiệu về quan hệ cố vấn – hướng dẫn khoa học 1

1.1.

Trích chọn thông tin từ cộng đồng Web 1

1.2.

Phát hiện cộng đồng 3

1.3.

Quan hệ cố vấn – hướng dẫn khoa học 4

1.3.1.

Động lực và mục đích 4

1.3.2.

Phát biểu bài toán trích chọn quan hệ cố vấn – hướng dẫn khoa học 6

Chương 2. Một số hướng tiếp cận bài toán trích chọn quan hệ cố vấn –
hướng dẫn khoa học 8


2.1.

Xếp hạng dựa trên phân tích chỉ dẫn khoa học 8

2.2.

Học tự động mối quan hệ tác giả từ cơ sở dữ liệu mục lục 11

2.3.

Dự báo mối quan hệ đồng tác giả 14

2.4.

Mô hình đồ thị xác suất phụ thuộc thời gian TPFG 16

2.4.1.

Một số định nghĩa và công thức 16

2.4.2.

Một số giả thiết ràng buộc 20

2.5.

Mô hình xử lý 22

2.6.


Học mô hình 27

Chương 3. Mô hình thực nghiệm 32





3.1.

Đặc trưng của DBLP Computer Science Bibliography Database 32

3.2.

Mô hình thực nghiệm dựa trên mô hình đồ thị xác suất phụ thuộc thời
gian 34

3.2.1.

Phát biểu bài toán 34

3.2.2.

Xây dựng tập dữ liệu học 35

3.2.3.

Mô hình thực nghiệm 36


Chương 4. Thực nghiệm và đánh giá kết quả 40

4.1.

Môi trường thực nghiệm 40

4.1.1.

Cấu hình phần cứng 40

4.1.2.

Công cụ phần mềm 40

4.2.

Dữ liệu thực nghiệm 41

4.3.

Thực nghiệm 41

4.4.

Đánh giá kết quả 52

4.5.

Nhận xét 53


Tài liệu tham khảo 55


















Danh sách các bảng
Bảng 2-1: Thuật toán suy diễn TPFG 31

Bảng 3-1: Cấu trúc một bản ghi trong dblp.xml 36

Bảng 4-1: Cấu hình phần cứng 40

Bảng 4-2: Công cụ phần mềm 40

Bảng 4-3 Phân tích bản ghi trong dblp.xml 42


Bảng 4-4: Bảng các thực thể 44

Bảng 4-6: Bảng kết quả 50

Bảng 4-7: Kết quả một số cặp quan hệ “tiềm năng” 52




















Danh sách các hình vẽ
Hình 1: Hệ thống Arnetminer 5

Hình 2: Mô tả bài toán 6


Hình 3: Kiến trúc hệ thống 9

Hình 4: Mô hình tổng quát 12

Hình 5: Ví dụ về đường liên kết giữa hai tác giả 15

Hình 6: Minh họa đồ thị chuyển đổi 19

Hình 7: Minh họa đồ thị xác suất phụ thuộc thời gian 26

Hình 8: Sơ đồ truyền thông điệp ở hai pha 28

Hình 10: Thông tin trên trang DBLP 33

Hình 11: Quá trình xây dựng tập dữ liệu học 35

Hình 12: Mô hình thực nghiệm 37

Hình 13: ParserDBLP Package 42

Hình 14: Sơ đồ biểu diễn mối quan hệ thực thể 47

Hình 15: Kết quả truy vấn 48

Hình 16: Kết quả thực thi con trỏ 49















Danh sách các từ viết tắt

Viết tắt Từ hoặc cụm từ
CRFs Conditional Random Fields
DAG Directed Acyclic Graph
DBLP Digital Bibliography & Library Project
EM Expectation Maximization
TPFG Time-constrained Probabilistic Factor Graph

















1

Mở đầu
Ngày nay, sự phát triển mạnh mẽ của Internet và các mạng xã hội đã dẫn đến sự
bùng nổ thông tin về nhiều mặt kể cả nội dung lẫn số lượng. Mạng xã hội chứa đựng
nhiều thông tin phong phú về mối quan hệ giữa người hoặc các thực thể với nhau. Tuy
nhiên, nhiều tri thức trong đó lại thường Nn giấu bên trong mạng. Trong tìm kiếm tri
thức, con người thường quan tâm tới cách thức mà người làm nghiên cứu có thể kết
nối đến với những người khác và làm thế nào mà nghiên cứu cộng đồng có thể được
hình thành từ nghiên cứu cá nhân? Khai phá mối quan hệ cố vấn – hướng dẫn giúp
chúng ta giải quyết những câu hỏi đó.
Khai phá quan hệ cố vấn – được hướng dẫn từ các công trình khoa học được
công bố trên DBLP là bài toán thời sự, có ý nghĩa. Tìm hiểu mối quan hệ này mang lai
nhiều lợi ích và nhiều ứng dụng như để tìm kiếm chuyên gia khoa học và khám phá
cộng đồng. Có nhiều dự án nghiên cứu được hình thành để duy trì và phát triển hướng
nghiên cứu này như hệ thống Arnetminer [11], The Mathematics Genealogy Project
[12], the Computer Engineering Academic Genealogy, the AI Genealogy Project [8],
the Software Engineering Academic Genealogy. Gần đây, Chi Wang và các cộng sự
(2010) [4] đề xuất mô hình trích chọn quan hệ cố vấn – được hướng dẫn dựa trên đồ
thị xác suất phụ thuộc thời gian trên miền dữ liệu DBLP. Kết quả thực nghiệm bước
đầu cho thấy mô hình là khả quan và có khả năng xây dựng và thực nghiệm các bước
xử lý tiếp theo.
Nội dung của khóa luận được bố cục gồm có 4 chương:
Chương 1: Giới thiệu khái quát về bài toán trích chọn quan hệ cố vấn – hướng
dẫn khoa học.
Chương 2: Giới thiệu các hướng tiếp cận giải quyết bài toán trích chọn quan hệ
giữa các thực thể trong mạng cộng tác. Chương này tập trung vào việc giới thiệu mô

hình đồ thị xác suất phụ thuộc thời gian do Chi Wang và cộng sự (2010) [4] đề xuất.
Đây là cơ sở phương pháp luận quan trọng để khóa luận đưa ra mô hình thực nghiệm
một phần mô hình hệ thống được các tác giả xây dựng.
Chương 3: Khóa luận xây dựng mô hình thực nghiệm, trích chọn quan hê dựa
vào nghiên cứu của Chi Wang và cộng sự (2010) [4] đồ thị xác suất phụ thuộc thời
gian để giải quyết bài toán này. Chúng tôi sẽ tiến hành xây dựng mô hình thực nghiệm
dựa trên phương pháp trích chọn quan hệ hướng dẫn – được hướng dẫn của các tác giả.


2

Chương 4: Tiến thành thực nghiệm một phần của mô hình, đánh giá kết quả.
Tiến hành thực nghiệm việc xây dựng tập dữ liệu học, đánh giá kết quả trích chọn
Phần kết luận và định hướng phát triển khóa luận: Tóm tắt những nội dung
chính đạt được của khóa luận đồng thời chỉ ra những điểm cần khắc phục và đưa ra
những định hướng nghiên cứu trong thời gian sắp tới.









1

Chương 1. Giới thiệu về quan hệ cố vấn – hướng dẫn
khoa học
1.1. Trích chọn thông tin từ cộng đồng Web

Nghiên cứu các tính chất và trích chọn những thông tin quan trọng từ các cộng đồng
trực tuyến như từ các diễn đàn (forums), blogs, mạng tin nhắn nhanh, mạng xã hội trực
tuyến (online social networks) là một trong những hướng thu hút được sự chú ý của cộng
đồng khai phá Web hiện nay [1]. Thông tin tiềm Nn từ các cộng đồng này rất đa dạng, có
sự phối hợp và góp sức của hàng ngàn, thậm chí hàng triệu thành viên, và do đó nếu nắm
bắt được những thông tin này, có thể hiểu được xu hướng, thị hiếu, quan điểm của người
dùng Web và theo đó sẽ có những điều chỉnh, cải tiến kịp thời để đáp ứng nhu cầu của
người dùng Web. Ví dụ, từ những nhận xét đánh giá các mặt hàng, các sản phNm mới của
người tiêu dùng được đăng tải trên một diễn đàn hay blog nào đó có thể giúp ta trích chọn
được những ý kiến, để từ đó biết được mức độ chấp nhận và thỏa mãn của khách hàng.
Những thông tin liên quan đến các cộng đồng người sử dụng trên diễn đàn, blogs,
mạng xã hội (Facebook, Twitter, MySpace,…) đều chứa một lượng hàm tri thức cộng
đồng cao. Trích chọn, tổng hợp và tìm ra được những thông tin hữu ích trên đó, giúp nắm
bắt được cả những thông tin, tri thức cụ thể và những xu hướng chung của thế giới trực
tuyến.
Mạng xã hội là mạng của một nhóm người hoạt động và các mối quan hệ gắn kết họ
với nhau. Những người hoạt động trong mạng có thể là những cá nhân hoặc tập thể.
Những người này trao đổi tài nguyên với nhau và chính điều đó gắn kết họ với nhau trọng
một mạng xã hội. Tài nguyên ở đây bao gồm dữ liệu, thông tin, sản phNm, các dịch vụ hỗ
trợ…. Mỗi tài nguyên đem trao đổi được xem như là mỗi liên kết trong mạng xã hội và
những cá nhân duy trì mối quan hệ này tương ứng với việc duy trì một cung. Sức bền của
cung này phụ thuộc vào mức độ trao đổi thường xuyên của các các nhân trong mạng xã
hội.



2

Các mối quan hệ trao đổi thường được tiến hành trong một số lượng người lựa chọn
nhất định. Nhừng nhà phân tích trong lĩnh vực mạng dựa vào các quan hệ giữa các thành

viên của một cộng đồng, các hàng xóm, một nhóm hoặc một lớp để hiểu cách thức các
mạng xác định tổng số người hay các nhóm nhỏ bên trong một mạng lớn. Cách thức mà
một người kết nối với một người khác thể hiện cấu trúc nền tảng của mạng, bao gồm
những người thuộc và không thuộc vào một mạng và trong các kiểu trao đổi nào để xác
định một mạng. Mạng này được duy trì bởi sự trao đổi của các tài nguyên đơn lẻ hay rất
nhiều tài nguyên lớn tương ứng với các nút mạnh hay yếu. Ví dụ, các nhà phân tích có thể
dò tìm sự trao đổi thông tin về công việc của những người quen biết nhưng không mấy
thân thiện, mối quan hệ trong dòng tộc hoặc mối quan hệ giữa những người công nhân.
Các mạng xã hội được lần dấu bởi những sự chuyển đổi này chỉ ra cách các nguồn tài
nguyên di chuyển trong một mạng, cách mà các tác nhân xác định vị trí để tác động
nguồn tài nguyên trao đổi và các kiểu tài nguyên trao đổi rất quan trọng trong môi trường
khác nhau.
Sự nghiên cứu về mạng xã hội của các nhà khoa học đã thu nhận được nhiều phát
minh khoa học mới về mạng xã hội trong nhiều thập kỷ qua, được mô hình và phân tích
bằng các công cụ của lý thuyết đồ thị. Qua những nghiên cứu đó, người ta đã chứng minh
được mạng xã hội thực tiễn có xu hướng cấu trúc của mạng bất ngẫu nhiên.












3


1.2. Phát hiện cộng đồng
Việc phát hiện cộng đồng có rất nhiều ứng dụng cụ thể. Ví dụ như phân cụm các
Web client có sở thích tương tự nhau và gần nhau về mặt địa lý có thể cải thiện hiệu suất
của việc cung cấp dịch vụ trên World Wide Web, trong đó mỗi cụm khách hàng được
phục vụ bởi một server chuyên dụng. Hay việc nhóm thành cụm các nút trong mạng lưới
giao thông có thể giúp ích trong việc xây dựng các bảng định tuyến nhỏ gọn giúp ích
trong việc tham gia giao thông thuận tiện.
Ngoài ra, việc phát hiện cộng đồng có ý nghĩa rất quan trọng vì một lý do khác. Việc
xác định các môđun và ranh giới của chúng cho phép ta phân lớp các đỉnh dựa trên cấu
trúc vị trí của chúng trong môđun. Từ đó, các đỉnh ở vị trí trung tâm trong môđun của
chúng (có nhiều kết nối cạnh đến các đỉnh khác trong môđun) có thể đóng vai trò quan
trọng trong việc điều khiển và giữ ổn định trong cụm. Mặt khác, các đỉnh ở vùng biên có
thể giữ vai trò quan trọng trong việc dẫn dắt mối quan hệ và giao lưu giữa các cụm khác
nhau trong mạng. Các phân lớp như thế mang ý nghĩa nhất định trong việc nghiên cứu
mạng xã hội. Cuối cùng, ta có thể nghiên cứu về đồ thị rút gọn, trong đó các đỉnh là các
cụm và các cạnh là các liên kết giữa các cụm trong đồ thị ban đầu (nếu có) từ đó ta thu
được một đồ thị biểu diễn mối quan hệ của các môđun trong mạng.











4


1.3. Quan hệ cố vấn – hướng dẫn khoa học
1.3.1. Động lực và mục đích
Ngày nay, với sự phát triển nhanh chóng của web mạng xã hội, các ứng dụng online
như Facebook, Youtube, Twitter…. mang lại nguồn thông tin phong phú, đồng thời con
người có thể dễ dàng kêt nối với nhiều mối quan hệ khác nhau. Ví dụ, người dùng
Facebook có thể chia sẻ quan điểm hay kinh nghiệm của họ với bạn bè, trên Twitter hay
Digg, mọi người có thể theo dõi và cập nhật được những tin tức của người khác. Với sự
hỗ trợ của các kỹ thuật khai phá liên kết (link mining), con người có thể trích xuất được
rất nhiều thông tin ngữ nghĩa quan trọng và hữu ích.
Trong khóa luận này, chúng tôi tập trung khai thác quan hệ cố vấn – được hướng
dẫn khoa học giữa những người là đồng tác giả từ các công trình khoa học được công bố
trên DBLP. Mạng cộng tác là một đồ thị được tạo thành với các nút là những những người
tham gia nghiên cứu, và các cạnh biểu diễn sự cộng tác giữa họ [4].
Nếu như chúng ta biết được quan hệ cố vấn – được hướng dẫn giữa những người
đồng nghiên cứu, có thể dễ dàng nhận biết được sự khác nhau giữa những người làm
nghiên cứu và trong cộng đồng, một chủ đề nghiên cứu đã được tạo ra và hướng phát triển
như thế nào, và một người nghiên cứu thì có vai trò và ảnh hưởng như thế nào trong một
cộng đồng nghiên cứu.
Tuy nhiên, thực tế là nhiều thông tin (nhiều loại quan hệ) thường Nn trong mạng
thông tin bởi nhiều lý do. Mạng thông tin chứa đựng nhiều thông tin phong phú về mối
quan hệ giữa người hoặc các thực thể với nhau. Ví dụ quan hệ cố vấn – được hướng dẫn
là Nn trong mạng tập hợp các tác giả [4], quan hệ gia đình thường Nn trong mạng quan hệ
bạn bè (trên Twitter hay Facebook). Tìm hiểu mối quan hệ này mang lai nhiều lợi ích và
nhiều ứng dụng như để tìm kiếm chuyên gia trong nghiên cứu khoa học và khám phá
cộng đồng.
Trong tìm kiếm tri thức, con người thường quan tâm tới cách thức mà người làm
nghiên cứu có thể kết nối đến với những người khác và làm thế nào mà nghiên cứu cộng
đồng có thể được hình thành từ nghiên cứu cá nhân? Khai phá mối quan hệ cố vấn – được
hướng dẫn giúp chúng ta giải quyết những câu hỏi đó.



5

Bài toán trích chọn quan hệ cố vấn – được hướng dẫn đề cập tới bài toán phát hiện
quan hệ giữa các đồng tác giả từ các công trình khoa học được công bố trên DBLP. Đây
là bài toán thời sự có ý nghĩa, đặc biệt trong các hệ thống tìm kiếm chuyên gia khoa học.
Có nhiều dự án và nghiên cứu đã được hình thành để duy trì và phát triển hướng nghiên
cứu này: The Mathematics Genealogy Project [12], the Computer Engineering Academic
Genealogy, the AI Genealogy Project [10], the Software Engineering Academic
Genealogy, hệ thống Arnetminer của nhóm Knowledge Engineering Tsinghua University,
China [11]…

Hình 1: Hệ thống Arnetminer [11]
Tuy nhiên, những hệ thống này chỉ dựa vào việc thu thập dữ liệu phả hệ thủ công để
cập nhật vào cơ sở dữ liệu. Bởi vậy, cần phát triển kỹ thuật phân tích để có thể trích chọn
tự động được mối quan hệ này từ nguồn dữ liệu trên mạng.
Bằng cách tiếp cận theo cách khai phá đồ thị, với các đặc trưng của nút và liên kết
giữa các cạnh đóng vai trò trung tâm. Chúng ta có thể đánh giá được độ quan trọng cỉa
một nút hay các nút kề nó. Hơn nữa, có thể xếp hạng và gom cụm dựa trên các liên kết.




Khai phá và tìm hiể
u m
cứu trong mạ
ng thông tin trư
• Các mối quan h
liệu cộ
ng tác. Thư

người cố vấ
n trong s
• Phụ thuộc thờ
i gian:
hướng dẫ
n thì ph
để nhận biết
khi nào thì
hướng dẫn.
• Tính khả chuy

n:
thông tin về
các đ
thước rất rộng lớ
n (theo hàm m
phương pháp có th
1.3.2. Phát biể
u bài toán trích
Bài toán trích chọ
n quan h
cộng sự (2010) [4][5]
phát bi
• Đầu vào: Mạng cộ
ng tác,
tác giả,
danh sách bài báo _ tác gi
• Đầu ra: Tất cả
các c
hạng tương ứng ሺݎ,


Trong đó, ݎ là số điể
m x
6
u m
ối quan hệ có những đặc điểm khác biệ
t v
ng thông tin trư
ớc đó, và nó có nhiều thách thức: [4]
i quan h
ệ thường là n: quan hệ cố vấn – hướ
ng d
ng tác. Thư
ờng không có dấu hiệu rõ ràng nào để nhậ
n bi
n trong s
ố lượng lớn những người cộng tác.
i gian:
vai trò của xã hội giống như người cố
v
n thì ph
ục thuộc nhiều vào thời gian. Không có d

khi nào thì
một người hướng dẫn chuyể
n thành m

n:
để tìm kiếm một người cố vấ
n không ch

các đ
ồng tác giả của của người đó. Các mạ
ng thông ti

n (theo hàm mũ). Vấn đề đặt ra quan trọ
ng là ph
ng pháp có th
ể thích hợp được với dữ liệu có qui mô lớ
n.
u bài toán trích
chọn quan hệ cố vấn – hướng dẫ
n khoa h
n quan h
ệ cố vấn – hướng dẫn khoa học của
đư
phát bi
ểu:
ng tác,
gồm tập các bài nghiên cứu đượ
c công b
danh sách bài báo _ tác gi
ả, danh sách
các c
ặp quan hệ cố vấn – hướng dẫn tiềm
năng và s

ݏݐ, ݁݀ሿሻ
m x
ếp hạng, ሾݏݐ,݁݀ሿ là khoảng thời gian hướ
ng d

Hình 2: Mô tả bài toán [4]
t v
ới những nghiên
ng d
ẫn là Nn trong dữ
n bi
ết người nào là
v
ấn và người được

u hiệu rõ ràng nào
n thành m
ột người được
n không ch
ỉ là xem xét về
ng thông ti
n có kích
ng là ph
ải tìm ra một
n.

n khoa h
ọc
đư
ợc Chi Wang và
c công b
ố, danh sách các
ăng và s
ố điểm xếp
ng d

ẫn



7

Ví dụ: Cạnh nối trực tiếp từ Bob tới Ada sẽ chỉ ra rằng, Ada được xem như là người
cố vấn của Bob, và mối quan hệ cố vấn – hướng dẫn khoa học được biểu diễn thông qua
vector (0.8, [1999, 2000]), điều này có nghĩa là Ada là người hướng dẫn của Bob trong
khoảng thời gian từ năm 1999 đến năm 2000. Số điểm đánh giá cho cặp quan hệ này là
0.8. Các kết quả như thế mang lại nhiều lợi ích và có nhiều ứng dụng trong phát hiện cộng
đồng và phát triển các nghiên cứu.

Tóm tắt chương 1
Trong chương này, khóa luận đã giới thiệu khái quát một số nội dung liên quan và
trình bày về động cơ và mục đích của bài toán trích chọn quan hệ cố vấn – hướng dẫn
khoa học. Trong chương tiếp theo, khóa luận sẽ tập trung làm rõ một số hướng tiếp cận về
bài toán trích chọn quan hệ trên mạng cộng tác.


















8

Chương 2. Một số hướng tiếp cận bài toán trích chọn
quan hệ cố vấn – hướng dẫn khoa học
Nghiên cứu quan hệ cố vấn – được hướng dẫn khác với những nghiên cứu trước đó
trong khai phá quan hệ và học quan hệ. Trong khai phá quan hệ thì những nghiên cứu là
tập trung vào các khai phá text và các kỹ thuật xử lý ngôn ngữ tự nhiên trên dữ liệu text
và các dữ liệu có cấu trúc, bao gồm các trang webs, hồ sơ người dùng và ngữ liệu văn
học. Còn học quan hệ thì nghiên cứu đề cập tới việc phân loại các các đối tượng hay thực
thể được biểu diễn trong các quan hệ nhiều ngôi. [7]
Trong chương này, chúng tôi giới thiệu một số hướng tiếp cận bài toán trích chọn
quan hệ trong mạng cộng tác.
2.1. Xếp hạng dựa trên phân tích chỉ dẫn khoa học
Hàng năm các ủy ban trong cộng đồng nghiên cứu khoa học đều đánh giá chất lượng
của các ứng viên thông qua số lượng và chất lượng nghiên cứu đã được thực hiện. Nghiên
cứu của Ankur Chauhan [3] trình bày hệ thống để tổng hợp và đề xuất số liệu đáng tin
cậy, dựa trên phân tích các chỉ dẫn và công bố để xếp hạng các ứng cử viên. Sử dụng
phương pháp trường ngẫu nhiên cho tách từ (CRFs) để trích xuất và phân loại các câu
trích dẫn, sau đó dựa trên các nguồn tài nguyên web và tính phù hợp của các trích dẫn
tham khảo đến chủ đề quan tâm. Hệ thống sau đó so sánh nội dung được trích dẫn, đánh
giá và xếp hạng dựa trên chuyên gia, kiểm tra độ tương quan của cả hai.
Số lượng các bài nghiên cứu khoa học được công bố phát triển rất nhanh. Hiển nhiên
là những người làm khoa học có thâm niên sẽ được công nhận và đánh giá độ tin cậy.
Điều này thu hút được quan tâm và đạt được nhiều sự tin cậy về chất lượng nghiên cứu
của người đó trong cộng đồng nghiên cứu khoa học. Một tập các ứng viên tiềm năng được

đánh giá xếp hạng dựa trên các nghiên cứu khoa học được công bố và sự đồng dạng về
ngôn ngữ học trong các lĩnh vực mà họ quan tâm.




9

Có 3 nguồn dữ liệu mà các tác giả sử dụng:
• DBLP Computer Science Bibliography database
• Google Scholar
• CiteseerX


Hình 3: Kiến trúc hệ thống [3]




10

• Pha đầu tiên là xử lý dữ liệu từ DBLP, sẽ cho phép người dùng tìm kiếm theo
tên tác giả bằng cách truy vấn tới cơ sở dữ liệu và trích xuất được những thông
tin của thực thể đó. Thông tin trích chọn được sẽ được lưu trữ trong file
“small.xml”. Điều này giúp giảm tải không gian tìm kiếm từ file cơ sở dữ liệu
lớn của dblp.
• Pha thứ hai, GRS-Fetch (Google scholar results fetcher), sẽ lấy thông tin về tiêu
đề của mối bài báo trong small.xml và tạo truy vấn tới google scholar và trích
chọn được tiêu đề các trang kết quả và số lượng các trích dẫn liên quan.
Sau đó sẽ tính toán chỉ số NGD (Nomarlized google distance) giữa hai từ hoặc

cụm từ A và B:
ܰܩܦ

ܣ
,
ܤ

=

max
[
log
݂

ܣ

,
log
݂

ܤ

]

log
݂

ܣ
,
ܤ


log
ܯ

min
log
݂

ܣ

,
log


ܤ


(2.1)

trong đó M ước lượng kích thước trong chỉ số tìm kiếm của google.
• Pha tiếp theo là phân tích các nội dung liên quan, là pha trích chọn đặc trưng
của hệ thống và tính toán các thành phần chỉ số h-index, số lượng trích dẫn
trung bình của mối bài báo…. h –index được định nghĩa là: mỗi nhà khoa học
sẽ có chỉ số h nếu N
p
bài báo của người đó có ít nhất h trích dẫn và (N
p
– h ) bài
báo có ≤ℎ trích dẫn.
• Cuối cùng là tính toán chỉ số xếp hạng cho mỗi ứng viên:


߰
=

ߣ


ߚ
ߙ


ߜ

(2.2)










11

2.2. Học tự động mối quan hệ tác giả từ cơ sở dữ liệu mục lục
Nghiên cứu của Akash Kushal [2] tiếp cận cách học tự động từ mối quan hệ giữa các
tác giả trong cơ sở dữ liệu mục lục. Xây dựng một mô hình xác suất để tiếp cận và mô
hình hóa mối quan hệ này. Thuật toán tính giá trị kỳ vọng tối ta (Expectation

Maximization algorithm) được dùng như là tham số cho mô hình bài toán.
Tập dữ liệu bao gồm 100 tiến sỹ của 10 người hướng dẫn khác nhau trong cộng
đồng nghiên cứu khoa học được sử dụng để làm tập dữ liệu kiểm tra thực nghiệm mô
hình. Mục đích của mô hình không chỉ là để trích chọn mối quan hệ hướng dẫn – cố vấn
giữa những tác giả mà còn được mở rộng mô hình cho những người có sự cộng tác.
Xây dựng một đồ thị với các đỉnh là các tác giả, và thêm vào mỗi cạnh là một đường
nối trực tiếp từ người được hướng dẫn tới người cố vấn của họ. Cây như thế sẽ được gọi
là cây phả hệ nghiên cứu và tương tự như cây phả hệ được xét dưới môi quan hệ cha –
con. Một người là cố vấn sẽ có thời gian làm khoa học dài hơn người hướng dẫn.
Có nhiều hệ thống được xây dựng và phát triển bài toán này, chẳng hạn như hệ
thống Mathematics Genealogy Project [9], the AI Genealogy Project [8]…. Tuy nhiên,
khác với những nghiên cứu này mới chỉ dựa vào việc thu thập dữ liệu một cách thủ công,
cách tiếp cận này dựa vào việc tìm kiếm và trích chọn thông tin dựa trên khai phá dữ liệu
mục lục. Các tác giả sử dụng thuật toán EM (tính giá trị kỳ vọng cực đại) để học mô hình
áp dụng cho bài toán này.
ܣ.
௔ௗ௩
: người hướng dẫn của A.
ܣ.ߛ
௦௧௔௥௧
: năm mà A bắt đầu nghiên cứu.
ܣ.ߛ
௚௥௔ௗ
: năm từ khi A tốt nghiệp vào nhóm của người nghiên cứu.
ܣ.ݕ
௘௡ௗ
: năm mà A dừng tham gia nghiên cứu.
Trong khoảng thời gian từ ܣ.ߛ
௦௧௔௥௧
đ ݊ ܣ.ݕ

௘௡ௗ
,mỗi tác giả có thể có nhiều bài báo
được công bố.
Tập các bài báo được ký hiệu là ܲ=ሺ

ܣ


1




2

,….,ܣ


݇݌




ሻ bao gồm các
đồng tác giả và công bố trong một năm.


12

Biểu diễn ܪ là tập các biến Nn. Các biến Nn bao gồm người hướng dẫn và các năm

ܣ.ߛ
௦௧௔௥௧
,ܣ.ߛ
௚௥௔ௗ
,ܣ.ݕ
௘௡ௗ
. Các biến có thể thấy được bao gồm các công bố ở trong
DBLP.




Hình 4: Mô hình tổng quát [2]
Generative Model có gồm hai thành phần:
• Mô hình trước ݌ሺܪ|Λሻ
• Mô hình quan sát ݌ሺܸ|ܪ,Λሻ.


13

Trong đó: Phân phối xác suất kết hợp ݌ሺܪ,ܸ|ܣሻ cho các biến Nn H và các biến nhìn
thấy được là hình mẫu trong mô hình.
Học mô hình:
Pha học mô hình bao gồm tính toán giá trị tham số Λ ∗ với giá trị hàm likelihood cực
đại. Công thức tính như sau:
Λ


=
arg


max
݌

ܸ
|
ܣ

=
arg

max


݌

ܪ
,
ܸ
|





(2.3)

Suy luận các biến n:
Bước suy luận sẽ xử lý việc tính toán giá trị phân phối xác suất trước ݌ሺܪ,ܸ|⋀) cho
mọi biến Nn H trong mô hình. Trong nhiều trường hợp, giá trị phân phối trước ܪ∗ tương

ứng với các gía trị của biến Nn. Ước lượng ܪ∗:
ܪ


=
ܽݎ݃
max

݌

ܪ
|
ܸ
,
Λ


(2.4)

Xác suất phân phối kết hợp là tích của giá trị ݌

ܪ
|
ܣ

ݒà ݌ሺܸ|ܪ,Λሻ:
݌

ܪ
,

ܸ
|

Λ

=
݌

ܸ
|
ܪ
,
Λ

p

H
|
Λ


(2.5)

Trong đó mô hình phân phối trước ݌ሺܪ|ܣሻ là phân phối xác suất của biến số, là đặc
trưng của thông tin liên nghiệm cần kết hợp với thông tin mẫu trong kỹ thuật Bayes.



×