Tải bản đầy đủ (.pdf) (72 trang)

Khám phá cộng đồng trong mạng trích dẫn: luận văn thạc sĩ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.62 MB, 72 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG

***

NGÔ LÊ HOÀNG LONG
KHÁM PHÁ CỘNG ĐỒNG TRONG
MẠNG TRÍCH DẪN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Đồng Nai, Năm 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG

***

NGÔ LÊ HOÀNG LONG
KHÁM PHÁ CỘNG ĐỒNG TRONG
MẠNG TRÍCH DẪN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Chuyên ngành: Công nghệ thông tin
Mã số: 60480201

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS. ĐỖ PHÚC

Đồng Nai, Năm 2018




LỜI CÁM ƠN

***
Bằng tất cả lòng chân thành và sự kính phục của người học viên đối với thầy của
mình, tôi xin trân trọng cảm ơn Thầy PGS.TS Đỗ Phúc. Mặc dù rất bận rộn với công việc
nghiên cứu, giảng dạy và công việc gia đình, tuy nhiên trong suốt thời gian hướng dẫn đề
tài, Thầy vẫn luôn sẵn sàng nhiệt tình sắp xếp thời gian để định hướng, hướng dẫn, động
viên và giúp đỡ rất tận tình giúp tôi hoàn thành luận văn này.
Tôi xin gửi lời chân thành cảm ơn đến Ban Giám hiệu trường Đại học Lạc Hồng, Quý
Thầy, Cô thuộc khoa sau đại học đã tạo điều kiện tốt nhất để tôi hoàn thành chương trình
cao học này. Cám ơn Ban Giám đốc, lãnh đạo các phòng Quản lý khoa học của Sở Khoa
học và Công nghệ Đồng Nai đã tạo điều kiện cho tôi được tham gia học tập và nghiên
cứu.
Bên cạnh đó, tôi xin cảm ơn sâu sắc đến các anh chị cùng khóa đã nhiệt tình đóng góp
ý kiến, chia sẻ cũng như động viên để tôi hoàn thiện hơn đề tài của mình.
Ngoài ra, tôi xin cảm ơn gia đình, người thân đã luôn khích lệ, động viên, giúp đỡ
trong suốt quá trình học tập, nghiên cứu, đã tạo nên sức mạnh to lớn để tôi hoàn thành kết
quả học tập này.
Mặc dù đã rất cố gắng nhưng Luận văn khó tránh khỏi những thiếu sót, tôi kính mong
Quý Thầy, Cô và bạn bè hướng dẫn, góp ý để nội dung nghiên cứu này ngày càng hoàn
thiện hơn và có ứng dụng thực tiễn.
Một lần nữa, tôi xin chân thành cảm ơn!
Đồng Nai, ngày

tháng

năm 2018


HỌC VIÊN

Ngô Lê Hoàng Long


LỜI CAM ĐOAN

***
Tôi xin cam đoan :
- Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp
của thầy PGS.TS Đỗ Phúc.
- Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và trung thực tên
tác giả, tên công trình, thời gian, địa điểm công bố.
- Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn
toàn trách nhiệm.

NGƯỜI CAM ĐOAN

Ngô Lê Hoàng Long


MỤC LỤC
Trang
Trang bìa phụ
Lời cảm ơn
Lời cam đoan
Mục lục
Danh mục hình
Danh mục bảng
CHƯƠNG 1: TỔNG QUAN ...................................................................................... 1

1.1 Giới thiệu đề tài ..................................................................................................... 1
1.2 Lý do chọn đề tài .................................................................................................. 2
1.3 Mục tiêu của đề tài ............................................................................................... 2
1.4 Phạm vi nghiên cứu .............................................................................................. 3
CHƯƠNG 2: CƠ SỞ LÝ LUẬN ................................................................................ 4
2.1 Giới thiệu bài báo khoa học .................................................................................. 4
2.1.1 Tiêu đề ............................................................................................................ 4
2.1.2 Tóm tắt ........................................................................................................... 4
2.1.3 Từ khóa (Key words) ..................................................................................... 5
2.1.4 Giới thiệu ........................................................................................................ 5
2.1.5 Dữ liệu và phương pháp nghiên cứu .............................................................. 6
2.1.6 Kết quả ........................................................................................................... 6
2.1.7 Thảo luận ........................................................................................................ 6
2.1.8 Tài liệu tham khảo .......................................................................................... 7
2.2 Cách biểu diễn về mạng trích dẫn ......................................................................... 7
2.2.1 Định nghĩa ...................................................................................................... 7
2.2.2 Cách biểu diễn mạng trích dẫn ....................................................................... 7
2.2.2.1 Đồ thị được sử dụng rộng rãi để biểu diễn mạng trích dẫn .................... 8
2.2.2.2 Ma trận kề chỉ sự tồn tại kết nối giữa các actor ..................................... 8
2.2.3 Các khái niệm cơ bản trong tổ chức mạng trích dẫn ...................................... 9
2.2.3.1 Tập đỉnh .................................................................................................. 9
2.2.3.2 Tập cạnh ............................................................................................... 11
2.2.3.3 Giới thiệu về đường đi và đường đi ngắn nhất trong mạng cộng đồng 11
2.2.3.4 Các kỹ thuật đo trung tâm trong đồ thị mạng trích dẫn........................ 12
2.3 Giới thiệu cộng đồng........................................................................................... 21
2.4 Giới thiệu cơ sở dữ liệu đồ thị Neo4j.................................................................. 23
2.4.1 Tổng quan về Neo4j ...................................................................................... 23
2.4.2 Cơ sở dữ liệu đồ thị Neo4j ............................................................................ 24
2.4.2.1 Nodes ....................................................................................................... 25
2.4.2.2 Relationships ........................................................................................... 25

2.4.2.3 Properties ................................................................................................. 27
2.4.2.4 Đường đi Paths ........................................................................................ 28


2.4.2.5 Duyệt đồ thị ............................................................................................. 29
CHƯƠNG 3: GIẢI THUẬT KHÁM PHÁ CỘNG ĐỒNG TRONG MẠNG TRÍCH
DẪN BẰNG THUẬT TOÁN GIRVAN NEWMAN .................................................. 30
3.1 Lý do chọn thuật toán.......................................................................................... 30
3.2 Thuật toán Girvan Newman ............................................................................... 30
CHƯƠNG 4: XÂY DỰNG HỆ THỐNG VÀ THỰC HIỆN .................................... 34
4.1 Yêu cầu thực nghiệm .......................................................................................... 34
4.2 Các chức năng của chương trình ......................................................................... 35
4.2.1 Tạo cơ sở dữ liệu đồ thị của mạng trích dẫn (Create Graph Database) ........ 35
4.2.2 Đọc thông tin của bài báo (Read Paper)........................................................ 37
4.2.3 Đọc trích dẫn của bài báo (Read Citation) .................................................... 38
4.2.4 Tính bậc của nút (Calculate Node Degree) ................................................... 40
4.2.5 Trích dẫn từ bài báo chính có liên quan đến các bài báo khác (Citing Set) .. 41
4.2.6 Trích dẫn từ các bài báo khác có liên quan đến bài báo chính (Cited Set) ... 45
4.2.7 Khám phá cộng đồng (Community Detection) ............................................. 47
4.2.8 Write to Pajek File (Viết vào tệp Pajek) ....................................................... 51
4.2.9 Community Analysis (Phân tích cộng đồng) ................................................ 53
CHƯƠNG 5: KẾT LUẬN ........................................................................................ 61
Danh mục tài liệu tham khảo


DANH MỤC HÌNH
Hình 1.1: Ví dụ về mô hình đồ thị mạng trích dẫn ........................................................ 1
Hình 2.1: Ví dụ biểu diễn trích dẫn thành viên hội đồng .............................................. 7
Hình 2.2: Mạng trích dẫn được biểu diễn bằng đồ thị ................................................... 8
Hình 2.3: Mạng gồm 11 node ........................................................................................ 8

Hình 2.4: Ma trận kề của 11 node.................................................................................. 9
Hình 2.5: Mạng có hướng .............................................................................................. 9
Hình 2.6: Ma trận kề của mạng có hướng ..................................................................... 9
Hình 2.7: Biểu diễn tập đỉnh trong mô hình mạng ...................................................... 10
Hình 2.8: Biểu diễn đồ thị có hướng và đồ thị vô hướng ............................................ 11
Hình 2.9: Đường đi ngắn nhất .................................................................................... 12
Hình 2.10: Mạng vô hướng .......................................................................................... 13
Hình 2.11: Mạng có hướng .......................................................................................... 13
Hình 2.12: Betweenness centrality .............................................................................. 14
Hình 2.13: Mô tả mạng trích dẫn ................................................................................. 16
Hình 2.14: Các giá trị Centrality.................................................................................. 17
Hình 2.15: Mạng hợp tác giữa các nhà khoa học làm việc tại học viện Santa Fee
(SFI)[10] ...................................................................................................................... 23
Hình 2.16: Kiến trúc logic của Neo4j .......................................................................... 24
Hình 2.17: Node, relationships và properties .............................................................. 25
Hình 2.18: Ví dụ về một đồ thị đơn giản với 1 node và 1 property............................. 25
Hình 2.19: Relationship và các quan hệ liên quan....................................................... 25
Hình 2.20: Một relationship giữa start node và end node............................................ 26
Hình 2.21: Quan hệ vào và quan hệ ra của một node .................................................. 26
Hình 2.22: Quan hệ trên 1 node ................................................................................... 26
Hình 2.23: Ví dụ một mạng trích dẫn .......................................................................... 27
Hình 2.24: Biểu diễn một Property .............................................................................. 28
Hình 2.25: Path ............................................................................................................ 28
Hình 2.26: Đường đi đến chính node đó bằng 0 .......................................................... 28
Hình 2.27: Đường đi từ node 1 đến node 2 có quan hệ relationship 1 ....................... 29
Hình 3.1: Quá trình thuật toán ..................................................................................... 32
Hình 4.1: Giao diện hệ thống ....................................................................................... 35
Hình 4.2: Create Graph Database ................................................................................ 36
Hình 4.3: Read Paper ................................................................................................... 38
Hình 4.4: Read Citation ............................................................................................... 39

Hình 4.5: Calculate Node Degree ................................................................................ 40
Hình 4.6: Calculate Node Degree ................................................................................ 41
Hình 4.7: Citing Set ..................................................................................................... 43
Hình 4.8: Cited Set....................................................................................................... 46
Hình 4.9: Community Detection .................................................................................. 50
Hình 4.10: Community Detection ................................................................................ 50


Hình 4.11: Giao diện Pajek .......................................................................................... 51
Hình 4.12: Giao diện đọc đồ thị Pajek ......................................................................... 52
Hình 4.13: Community Detection Pajek ...................................................................... 53
Hình 4.14: Biểu đồ cột cộng đồng 1 ............................................................................ 57
Hình 4.15: Biểu đồ tỉ lệ % cộng đồng 1 ...................................................................... 58
Hình 4.16: Biểu đồ cột cộng đồng 3 ............................................................................ 60
Hình 4.17: Biểu đồ tỉ lệ % cộng đồng 3 ...................................................................... 60


DANH MỤC BẢNG
Bảng 2.1: Trích dẫn một số bài báo của các nhà khoa học.......................................... 18
Bảng 2.2: Biểu diễn các relationships trong mạng trích dẫn ....................................... 27
Bảng 3.1: Egde betweenness ....................................................................................... 31
Bảng 4.1: Liệt kê năm bài báo của cộng đồng 1.......................................................... 56
Bảng 4.2: Liệt kê từ khóa bài báo của cộng đồng 3 .................................................... 59


1
CHƯƠNG 1: TỔNG QUAN
1.1 Giới thiệu đề tài
Những năm gần đây với sự phát triển nhanh chóng và bùng nổ của ngành công nghệ
thông tin, kho dữ liệu tri thức được truyền tải trên Internet là vô cùng to lớn và đồ sộ,

việc khai thác nguồn dữ liệu đó càng trở nên cấp thiết và là một trong những thách thức
lớn cho ngành công nghệ thông tin.
Thông qua các diễn đàn trên Internet, ta dễ dàng truyền tải, thu thập được nhiều thông
tin, bài viết nghiên cứu về nhiều lĩnh vực khác nhau. Các thông tin thu thập được ta dễ
dàng xem và tìm hiểu nhưng để có thể xem hết các thông tin này đòi hỏi ta phải bỏ công
sức, thời gian nghiên cứu rất lớn. Từ đó đặt ra vấn đề cho ngành công nghệ là cần phải
nghiên cứu ra giải pháp để thực hiện việc rút trích các ý chính từ các thông tin thu thập
được.
Egghe & Rousseau (1990, p. 228), giải thích khi một tài liệu A trích dẫn một tài liệu
B, chúng ta có thể thấy điều này bằng một mũi tên đi từ nút đại diện cho A đến nút đại
diện cho B. Bằng cách này các văn bản được gôm thành một tập D tạo thành một đồ thị
có hướng, và được gọi là đồ thị trích dẫn hoặc mạng trích dẫn.

Hình 1.1 Ví dụ về mô hình đồ thị mạng trích dẫn
Từ trang website đã cung cấp cho đề tài môi trường thực
nghiệm để nghiên cứu là tập hợp các thông tin trích dẫn được thu thập từ các trung tâm
công bố các bài báo khoa học như: DBLP (Tính đến tháng 7 năm 2016, DBLP đã liệt kê
hơn 3,6 triệu bài báo, bài báo hội thảo, và các ấn phẩm khác về khoa học máy tính)[1],
ACM (ACM có một thư viện số với khối lượng đáng kể các tạp chí, journal của các tổ


2
chức, kỷ yếu hội nghị. ACM cung cấp một cách phân loại các ngành, chuyên ngành liên
quan đến tính toán với khoảng 10 chuyên ngành rộng và hàng trăm chuyên ngành hẹp)
[2], và một số thông tin trích dẫn được thu thập từ các nguồn khác. Dựa vào cơ sỡ dữ liệu
đồ thị Neo4j, ứng dụng các thuận toán liên quan đến đồ thị, ta có thể xây dựng được ứng
dụng mô tả mô hình mạng trích dẫn trên môi trường thực nghiệm nêu trên.
Lúc này ta nhận thấy việc rút trích các nội dung chính của các bài báo khoa học sẽ
được ứng dụng qua việc đi tìm các phần tử chính yếu trong mạng trích dẫn. Để thực hiện
được điều đó, ta cần phải giải quyết các vấn đề sau:

Xác định phần tử (node) chính yếu trong mạng trích dẫn thông qua phương pháp đo
Centrality là đơn vị đo lường xác định các mối liến kết của một đỉnh trong đồ thị, điều
này có thể giúp ta có thể phát hiện được thực thể nào trong mạng là quan trọng và có tầm
ảnh hưởng đến những thực thể khác.
Giải quyết bài toán xác định đường đi ngắn nhất đi qua các đỉnh của đồ thị, từ đó xác
định thực thể nào là quan trọng nhất, có tầm ảnh hưởng lớn nhất tới các thực thể khác
trong mạng trích dẫn.
1.2 Lý do chọn đề tài
Với nguồn dữ liệu vô tận từ mạng Internet, để xác định rõ các nội dung chính yếu
trong công tác nghiên cứu, học tập và giáo dục là điều hết sức cần thiết, bằng việc đi tìm
các phần tử chính yếu trong đồ thị mạng trích dẫn giúp cộng đồng tiết kiệm được nhiều
thời gian công sức nghiên cứu, nâng cao hiệu quả trong công tác học tập và giáo dục.
Bên cạnh đó việc phương pháp xác định các phần tử chính yếu cũng là phương pháp
thông dụng giải quyết nhiều bài toán quan trọng liên quan đến mạng cộng đồng, có thể
ứng dụng vào thực tiễn cho nhiều lĩnh vực khác nhau như: giải quyết bài toán chăm sóc
khách hàng trong mạng lưới khách hàng, giải quyết bài toán makerting trong mạng lưới
thông tin, ….
1.3 Mục tiêu đề tài
Quá trình tìm hiểu về mạng trích dẫn, luận văn sẽ nghiên cứu phương pháp đi tìm
phần tử chính yếu trong mạng trích dẫn từ đó đề ra một bản mẫu để ứng dụng vào nhiều
lĩnh vực khác. Mục tiêu chính của đề tài là:
- Nghiên cứu về mạng trích dẫn.
- Tìm hiểu về phần tử chính trong mạng trích dẫn.


3
- Tìm hiểu kỹ thuật phân tích mạng trích dẫn.
- Nghiên cứu về hệ thống giải thuật khám phá cộng đồng trong mạng trích dẫn.
- Căn cứ mô hình thực nghiệm dựa trên thông tin trích dẫn thu thập được từ trang
điện tử xây dựng cơ sở dữ liệu đồ thị mạng trích dẫn bằng ứng

dụng Neoj4.
- Viết chương trình minh họa, thực hiện thuận toán xác định tập các phần tử chính
yếu trên cơ sở dữ liệu đồ thị mạng trích dẫn được xây dựng bởi ứng dụng Neoj4.
1.4 Phạm vi nghiên cứu đề tài
Đề tài tập trung vào tìm hiểu và nghiên cứu các vấn đề sau:
- Tìm hiểu về mạng trích dẫn, và các vấn đề liên quan.
- Triển khai xây dựng chương trình thực nghiệm, xây dựng ứng dụng và tối ưu hoá
một giải thuật cho bài khám phá cộng đồng trong mạng liên kết.
- Thử nghiệm, phân tích và đánh giá giải thuật trên bộ dữ liệu thực tế.
Cụ thể, đề tài thực hiện các nội dung sau:
- Nghiên cứu mô tả về hệ thống mạng trích dẫn.
- Phương thức hình thành mô hình mạng trích dẫn.
- Khám phá cộng đồng trong mạng trích dẫn.
- Tìm hiểu các phương pháp phân tích mạng trích dẫn.
- Viết ứng dụng thu thập dữ liệu thực tế từ trang điện tử để
kiểm tra thuật toán.
- Tiến hành đánh giá phân tích ưu nhược điểm của thuật toán.
- Đề ra phương pháp cải tiến để khắc phục trong tương lai.


4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ CÁC VẤN ĐỀ LIÊN QUAN ĐẾN LUẬN
VĂN
2.1 Giới thiệu về bài báo khoa học
Trong hoạt động nghiên cứu khoa học, bài báo khoa học đóng một vai trò hết sức
quan trọng. Bài báo khoa học là sản phẩm tri thức, qua đó mà người ta có thể đánh giá
khả năng chuyên môn và năng suất khoa học của nhà nghiên cứu. Nói một cách ngắn
gọn, bài báo khoa học (scientific paper hoặc paper) là một bài báo có nội dung khoa học
được công bố trên một tập san khoa học (scientific journal) đã qua hệ thống bình duyệt
(peer-review) của tập san.

Một bài báo khoa học thường có các thành phần cơ bản sau:
2.1.1 Tiêu đề - Title
Tiêu đề thường có từ 10 – 15 từ (một số tạp chí rút ngắn xuống còn dưới 10 từ), phản
ánh nội dung chính của bài viết, nó tóm tắt nội dụng của bài báo một cách cụ thể, chính
xác và ngắn gọn.
Bên cạnh thông tin được mô tả trong tiêu đề, tiếp sau là các nội dung cũng không kém
phần quan trọng, đó là:
 Thông tin về tác giả gồm: họ tên, học vị, chức danh, địa chỉ email,… mô tả thông
tin của một cá nhân hoặc sẽ là thông tin của đầy đủ của tất cả các thành viên trong nhóm
nếu bài báo được viết và nghiên cứu theo nhóm.
 Tên môn học hoặc lĩnh vực nghiên cứu, ví dụ như: cơ sở dữ liệu, khai phá dữ liệu,
sinh y học, …
 Tên giảng viên gồm: họ tên, học vị, chức danh của người hướng dẫn môn học
hoặc người định hướng phát triển nghiên cứu của bài báo.
 Các thông tin về thời gian liên quan đến bài viết như: thời gian nghiên cứu, ngày
viết bài, ngày được chấp thuận đăng bài, lần xuất bản,…
2.1.2 Tóm tắt - Summary hoặc Abstract
Tóm tắt là một đoạn văn ngắn, mô tả nội dung của bài báo nghiên cứu khoa học có từ
100 đến 250 từ, nhằm mục đích giúp độc giả nhận biết bài viết có phù hợp với đề tài
mình họ đang quan tâm không. Cấu trúc của tóm tắt gồm có các nội dung chính sau: hoàn
cảnh và mục tiêu (Background & Aims), phương pháp thực hiện (Methods), kết quả


5
nghiên cứu (Results), và kết luận (Conclusions). Một tóm tắt tốt, thường đạt được được
các tiêu chí sau:
 Mô tả được vấn đề tác giả đang quan tâm nghiên cứu, được mô tả trong 1-2 câu
văn.
 Xác định được bối cảnh khoa học của thực nghiệm nghiên cứu của đề tài khoa
học: nghiên cứu thiết kế theo mô hình gì, đối tượng tham gia nghiên cứu đến từ đâu và

đặc điểm của đối tượng, phương pháp đo lường, … thường được mô tả trong 4-5 câu văn.
 Nêu rõ kết quả đạt được của tác giả trong bài báo nghiên cứu gồm: tóm tắt những
gì tác giả đã làm được, kể cả những điểm yếu hạn chế, các nội dung này thường chỉ nêu
những kết luận chính và được mô tả trong 4-8 câu văn.
 Từ khóa liên quan đến bài báo: trong tóm tắt sẽ có 3- 6 từ khóa chính liên quan
đến chủ đề nghiên cứu, dễ tìm kiếm và xác định lĩnh vực nghiên cứu cho đọc giả.
2.1.3 Từ khóa (Key words)
Từ khóa là từ trong một câu, một đoạn, một văn bản, mang một ý nghĩa quan trọng
hoặc có mục đích nhấn mạnh theo ý của người viết. Từ khóa (Keyword) được sử dụng
rộng rãi như là một thuật ngữ internet chỉ việc xác định những từ ngữ chính thể hiện sản
phẩm, dịch vụ, thông tin mà chủ website hướng đến cũng như người dùng internet hay
dùng để tìm kiếm thông tin liên quan.
2.1.4 Giới thiệu – Introduction
Trong phần này, tác giả sẽ xác định đề tài nghiên cứu, đặt nó vào một ngữ cảnh thích
hợp cho mục tiêu nghiên cứu và cung cấp cho đọc giả đầy đủ cơ sở khoa học để hiểu biết
phần còn lại của bài viết. Để có thể hoàn thành tốt cho phần giới thiệu, tác giả sẽ phải tự
trả lời những câu hỏi như:
 Lý do thực hiện nghiên cứu này? (xuất phát từ hiện tượng tự nhiên hay các tư liệu
đã có trước)
 Những kiến thức nào đã có trước về đề tài này? (tổng kết tư liệu, quá trình phát
triển ý tưởng trước đó của các tác giả khác, những khẳng định, mâu thuẫn, và khác biệt
giữa các tài liệu đã có về đề tài này).
 Mục đích chính của nghiên cứu là gì?
Một phần giới thiệu tốt thông thường sẽ có các phần cơ bản sau:


6
 Có một tuyên bố rõ ràng về vấn đề hoặc câu hỏi được giải quyết trong môi trường
thực nghiệm.
 Nêu giả thuyết hoặc giả thuyết mà bạn đã kiểm tra trong nghiên cứu.

 Đặt câu hỏi vào một số ngữ cảnh bằng cách nêu rõ lý do tại sao đây là một câu hỏi
quan trọng, đặc biệt cần được trả lời.
 Nêu rõ các mục tiêu của nghiên cứu,
 Giải thích cách thức nghiên cứu giúp làm đầy các lỗ hổng trong kiến thức của
chúng ta.
 Đưa ra một cái nhìn khái quát về phương pháp điều tra, nếu cần thiết cần nêu rõ lý
do lựa chọn một phương pháp cụ thể.
 Nêu rõ kết quả chính và kết luận của cuộc nghiên cứu.
2.1.5 Dữ liệu và phương pháp nghiên cứu – Materials and Methods
Mục này còn được gọi là Experimental details (Dữ liệu thử nghiệm) hay Theoretical
basis (Cơ sở lý thuyết). Dữ liệu thu thập được và phương pháp nghiên cứu của tác giả
được trình bày ở đây. Mục này khó viết nhất ở chỗ cung cấp vừa đủ chi tiết để hiểu được
thử nghiệm nghiên cứu nhưng không làm rối trí độc giả. Nhìn chung, tác giả sẽ phải trả
lời những câu hỏi sau:
 Dữ liệu nào đã sử dụng?
 Chúng được sử dụng như thế nào?
 Địa điểm và thời gian hoàn thành thử nghiệm?
2.1.6 Kết quả - Results
Mục này tóm tắt những kết quả thử nghiệm và không đề cập đến ý nghĩa của chúng.
Dữ liệu được trình bày theo bảng biểu, đồ thị hình vẽ, hình ảnh v.v…Những dữ liệu đã
ghi theo bảng thì không nên trình bày lại theo hình vẽ hay biểu đồ. Những số liệu và bảng
biểu tự chúng đã trình bày đầy đủ thông tin mà không cần phải giải thích thêm bằng lời.
Mục này nên tập trung vào những xu hướng và khác biệt chính chứ không nên mô tả vào
những chi tiết nhỏ nhặt.
2.1.7 Thảo luận – Discussion
Mục này nhằm:
 Diễn giải phân tích kết quả, những ưu điểm và hạn chế, tách bạch rõ ràng dữ liệu
và suy luận.



7
 Mối quan hệ giữa kết quả nghiên cứu của tác giả với những phát hiện khác trong
các nghiên cứu trước đó. Điều này cho thấy đóng góp của tác giả bổ sung cho lý thuyết
và kiến thức, hay điều chỉnh những sai sót của các đề tài nghiên cứu trước đó. Tất nhiên,
người viết phải có những lý lẽ thật hợp lý cho những thử nghiệm và suy luận của mình và
cũng có thể đề nghị tiếp tục những thử nghiệm trong tương lai để làm 7ang tỏ những vấn
đề còn bỏ ngỏ trong kết quả của mình.
2.1.8 Tài liệu tham khảo – Reference
Phần Tài liệu tham khảo là một danh sách đầy đủ các tài liệu tham khảo bạn trích dẫn
trong bài báo của tác giả. Các tài liệu tham khảo được liệt kê theo thứ tự chữ cái theo tên
của tác giả đầu tiên của mỗi ấn bản. Phần này chỉ bao gồm những tài liệu tham khảo mà
tác giả đã thực sự đọc và tác giả đã đề cập cụ thể trong bài báo của mình.
2.2 Cách biểu diễn về mạng trích dẫn
2.2.1 Định nghĩa
Trích dẫn nghiên cứu là công đoạn rất quan trọng trong quá trình viết và hiệu chỉnh
nghiên cứu. Thông qua các trích dẫn nghiên cứu, người đọc hay hội đồng phản biện có
thể đánh giá được sự nghiêm túc và chuyên nghiệp của người nghiên cứu đối với công
trình thực hiện. Ngoài ra, các trích dẫn nghiên cứu còn thể hiện sự tôn trọng của người
nghiên cứu đối với các tác giả và sản phẩm họ đã tham khảo. Tùy thuộc vào mỗi đơn vị
hay tạp chí mà mỗi quy chuẩn đối với các trích dẫn tài liệu cũng khác nhau. Vì vậy người
nghiên cứu cần tìm hiểu kỹ các quy chuẩn và hiệu chỉnh công trình của mình.
VD: Khi trích dẫn thành viên trong hội đồng nghiên cứu A thành thành viên hội đồng
nghiên cứu B, trích dẫn thành viên hội đồng nghiên cứu C thành thành viên hội đồng
nghiên cứu D, chúng ta thấy thành viên trong hội đồng nghiên cứu A và thành viên hội
đồng nghiên cứu C có những thành viên tương đồng về lĩnh vực chúng ta đang tìm kiếm.
Chúng ta gom các thành viên này thành một hội đồng E tạo thành một đồ thị có hướng,
và được gọi là đồ thị trích dẫn hoặc mạng trích dẫn.

Hội đồng A


Hội đồng B

Hội đồng C

Hội đồng D

Hội đồng E


8
Hình 2.1 – Ví dụ biểu diễn trích dẫn thành viên hội đồng
2.2.2 Cách biểu diễn mạng trích dẫn
Mạng trích dẫn được biểu diễn bởi hai cấu trúc phổ biến đó là: Đồ thị và ma trận kề.
2.2.2.1 Đồ thị được sử dụng rộng rãi để biểu diễn mạng trích dẫn
Về cơ bản đồ thị G bao gồm một cặp (V, E) trong đó V là tập các đỉnh và E là tập các
cạnh liên kết các đỉnh lại với nhau. Mạng trích dẫn biểu diễn bằng đồ thị trong đó mỗi
đỉnh đại diện cho một đối tượng xã hội (actor) hoặc event còn những đường liên kết
(connection) giữa các actor được biểu diễn bằng những cạnh.

Hình 2.2 - Mạng trích dẫn được biểu diễn bằng đồ thị
2.2.2.2 Ma trận kề chỉ sự tồn tại kết nối giữa các actor
Trong đồ thị vô hướng, ma trận kề là ma trận đối xứng và với mỗi phần tử thuộc ma
trận kề chỉ một kết nối giữa hai actor và kí hiệu là xij xác định giá trị như sau:
xij = 1 khi ở dây có một kết nối giữa xi và xj.
xij = 0 khi ở đây không có kết nối
xii = xjj khi kết nối không tồn tại

1
9


2
6
5

8
7

Hình 2.3 - Mạng gồm 11 node
Ma trận kề biểu diễn như hình sau:


9

Hình 2.4 - Ma trận kề của 11 node
Trong mạng trích dẫn có hướng, ma trận kề là ma trận không đối xứng và được xác
định như sau:
xij = 1 khi có một kết nối từ ni đến nj
xji = 1 khi có một kết nối từ nj đến ni
xij = 0 khi không có kết nối nào

1
9

2
6

8
7

Hình 2.5 - Mạng có hướng

Ma trận kề biểu diễn như sau:

Hình 2.6 - Ma trận kề của mạng có hướng


10
Cộng đồng được biểu diễn là một đồ thị con của các đỉnh và các cạnh liên quan chặt
chẽ mà ở đó các đỉnh thuộc về một đồ thị con có cấu trúc tương tự hơn những đỉnh khác
trong phần còn lại của đồ thị và khoảng cách giữa các đỉnh trong cộng đồng ngắn hơn so
với các nút trong phần còn lại của đồ thị.
2.2.3 Các khái niệm cơ bản trong tổ chức mạng trích dẫn
Trong phân tích mạng trích dẫn, ta xem xét mạng trích dẫn như là đồ thị mạng bao
gồm các đỉnh (nodes), các cạnh (links). Node biểu diễn tập các tác nhân, thực thể, còn
Link biểu diễn mối quan hệ (relation) giữa các tác nhân, thực thể đó.
2.2.3.1 Tập đỉnh
Trong lý thuyết đồ thị, tập đỉnh còn được gọi là tập nút (nodes). Trong phân tích mạng
xã hội, nó còn được biết như là tập các tác nhân (actors) hay tập thực thể
(entities),…Trong mạng trích dẫn, tập đỉnh đặc trưng cho các cấu trúc của các mạng trích
dẫn, các thành viên hay các cộng đồng như một nhóm người, một tổ chức hay các quốc
gia, các trang web, các nhãn từ khoá hay các hình ảnh, video,…
Ví dụ: ta xét tập đỉnh đặc trưng cho các phần tử trong các mạng như sau:

Hình 2.7 – Biểu diễn tập đỉnh trong mô hình mạng
Ta thấy, mỗi đỉnh được đặc trưng cho một phần tử trong mạng


11
2.2.3.2 Tập cạnh
Trong mạng trích dẫn, tập cạnh đặc trưng cho mối liên kết (Link) hay mối quan hệ
giữa các tập đỉnh trong mạng. Mỗi cạnh ta có thể hiểu là một đường đi nối hai đỉnh với

nhau. Dựa trên cơ sở lý thuyết đồ thị, ta chia tập cạnh ra là 2 loại:
- Đối với đồ thị có hướng: Tập cạnh dạng trực tiếp, được biểu diễn bằng đường thẳng
có hướng (xác định hướng theo chiều mũi tên).
- Đối với đồ thị vô hướng: Tập cạnh dạng gián tiếp, được biểu diễn bằng đường thẳng
vô hướng (không có chiều mũi tên)

Hình 2.8 – Biểu diễn đồ thị có hướng và đồ thị vô hướng
Ngoài ra, đối với đồ thị, một thành phần quan trọng đó là trọng số của cạnh. Trọng số
của cạnh được định nghĩa là đơn vị dùng để xác định mức độ hay tần suất liên kết giữa 2
đỉnh trong đồ thị. Đối với các bài toán trong lý thuyết đồ thị, trọng số đóng vai trò quyết
định để giải quyết bài toán tìm đường đi ngắn nhất trong đồ thị.
2.2.3.3 Giới thiệu về đường đi và đường đi ngắn nhất trong mạng cộng đồng
Đường đi giữa hai đỉnh trong một mạng là đường đi qua các đỉnh không lặp lại trong
mạng.
Đường đi ngắn nhất giữa hai đỉnh trong một mạng là đường đi qua các đỉnh không lặp
lại trong mạng với số đỉnh đi qua là ít nhất.


12

Hình 2.9 – Đường đi ngắn nhất
Ví dụ: như trong đồ thị hình trên giữa nút 1 và nút 4 có 2 đường đi ngắn nhất mà độ
dài đường đi bằng 2 đó là {1, 2, 4} và {1, 3, 4}
2.2.3.4 Các kỹ thuật đo trung tâm trong đồ thị mạng trích dẫn
Để phân biệt mạng trích dẫn nào mạnh, mạng trích dẫn nào yếu. Trong phân tích
mạng trích dẫn có rất nhiều những thông số khác nhau. Một trong những thông số quan
trọng đó là density (mật độ mạng). Khi hệ số cố kết của mạng lưới càng lớn, mức độ gắn
kết, sự chặt chẽ của các mối quan hệ giữa các tác nhân trong mạng lưới cũng càng lớn, và
do đó, sự tương trợ, hỗ trợ… giữa các tác nhân cũng càng nhiều, càng hiệu quả hơn, sự
điều tiết của mạng trích dẫn đối với hành vi của tác nhân cũng mạnh mẽ hơn và ngược

lại.
Một cách tổng quát, tính gắn kết của mạng lưới là tỷ lệ giữa tổng các mối liên hệ thực
tế trong mạng lưới và tổng các mối quan hệ lý thuyết của nó (tức là tổng các mối quan hệ
có thể có của mạng). Công thức tính như sau:

k
n(n  1) / 2
Trong đó:
- k: tổng các đường liên kết thực tế của toàn mạng
- n: tổng các tác nhân (actor) trong mạng trích dẫn
- n(n-1)/2: tổng các mối liên kết lý thuyết trong mạng trích dẫn
Giá trị của hệ số này chạy từ 0.00 - 1.00. Càng gần tới 1.00 thì tính gắn kết của mạng
trích dẫn càng mạnh và do đó sự truyền nhận thông tin giữa các thành viên trong mạng
trích dẫn được diễn ra càng tốt và ngược lại.
+ Degree centrality
Degree centrality đề cập đến số kết nối từ một nút đến các nút khác ở trong mạng.
Một nút có degree centrality cao thì duy trì nhiều mối liên lạc với những nút khác trong


13
mạng. Một nút cần có degree centrality cao để có thể truy cập hoặc ảnh hưởng hơn đến
những nút khác trong mạng.
Trong mạng vô hướng, degree là số lượng kết nối (connection) của một nút. Degree
của một nút có thể bằng 0 nếu không có connection nào từ nút đó tới bất kỳ nút khác
trong mạng. Hoặc degree có thể bằng n-1 khi có kết nối từ một nút tới tất cả các nút khác
ở trong mạng.

1

1

9

2
6
5

8
7

Hình 2.10 – Mạng vô hướng
Ví dụ: trong đồ thị được biểu diễn như hình bên thì g(n5) = 6, g(n9) = 5, g(n3) = 4.
Trong mạng có hướng degree của nút (n) bằng tổng bậc vào của đỉnh (ký hiệu là gi(n)
và bậc ra của đỉnh go(n) tức là g(n)=gi(n)+go(n). Trong đó bậc vào của đỉnh n là số kết
nối kết thúc tại n, bậc ra của đỉnh là số kết nối xuất phát từ n. Những độ đo này rất quan
trọng trong mạng, vì bậc ra của đỉnh cho biết khả năng mở rộng kết nối của actor, còn bậc
vào của đỉnh cho biết mức độ nổi tiếng của actor. Trong đồ thị có hướng thì bậc vào và
bậc ra có thể khác nhau.
Ví dụ: như đồ thị được biểu diễn như hình bên, ta có go(ni), gi(ni) của các nút như
sau:

Hình 2.11 – Mạng có hướngs
+ Betweenness centrality
Điểm yếu của hệ số degree centrality là nó chỉ tính các mối quan hệ trực tiếp của tác
nhân mà thôi nên chưa chắc tác nhân có degree centrality cao là người “gần gũi” với mọi


14
thành viên khác trong mạng. Tính Betweenness centrality cũng là một trong những tiêu
chí quan trọng thể hiện vị thế của tác nhân trong mạng, bởi một tác nhân càng gần gũi với
các thành viên trong mạng trích dẫn bao nhiêu thì tác nhân đó càng dễ có nhiều thông tin,

càng có nhiều uy thế và do đó càng dễ gây ảnh hưởng lên toàn bộ mạng trích dẫn.
Betweenness centrality đo lường kiểm soát của một nút về sự liên lạc với các nút khác
trên mạng. Trong mạng trích dẫn với n nút, thì betweenness centrality của một nút v là:

Trong đó:
σ

st

= là tổng số đường đi ngắn nhất(shortest paths) từ đỉnh s đến đỉnh t của toàn

network.
Σ st(v) = tổng số đường đi ngắn nhất từ đỉnh s đến đỉnh t đi qua đỉnh v.

Hình 2.12 - Betweenness centrality
Edge Betweenness được tính theo công thức sau:

Trong đó:

 uv (e): Tổng số đường đi ngắn nhất từ u đến v mà đi qua cạnh e.

 uv : Tổng số đường đi ngắn nhất từ u đến v.


15
+ Closeness centrality
Closeness centrality là độ đo mà một đỉnh gần tất cả các đỉnh khác trong mạng
nhất. Closeness centrality xác định một tác nhân nào đó trong mạng lưới có thể ít gắn kết
với các thành viên khác trong mạng trích dẫn (tức hệ số degree centrality thấp), cũng
không “gần gũi” lắm với mọi thành viên khác (tức hệ số Betweenness centrality thấp),

nhưng đỉnh đó lại là “cầu nối” (bridge) hay “nhà trung gian” cần thiết trong mọi cuộc trao
đổi trong mạng. Nếu một tác nhân đóng được vai trò closeness càng lớn trong mạng lưới,
tác nhân đó sẽ càng ở vị trí thuận lợi trong việc “kiểm soát” mọi giao dịch, mọi thông tin
trong mạng trích dẫn; tác nhân đó cũng tác động đến mạng lưới một cách dễ dàng bằng
cách thanh lọc hoặc truyền thông tin trong mạng theo hướng có lợi cho mình nếu muốn;
đồng thời tác nhân đó cũng đứng ở vị trí tốt nhất để thúc đẩy sự phối hợp giữa các thành
viên khác trong mạng lưới. Cách tính hệ số trung tâm trung gian như sau:

𝐶𝐶 (𝑣) = ∑

1
𝑡∈𝑉\𝑣 𝑑𝐺 (𝑣,𝑡)

Trong đó:
𝑑𝐺 (𝑣, 𝑡 ) là chiều dài đi từ đỉnh v tới đỉnh t
+ Clustering centrality
Trong mạng trích dẫn, hệ số gom cụm được tìm ra bởi Watts and Strogatz là một tiêu
chuẩn để đo các mức độ gắn kết giữa các tác nhân trong mạng. Hệ số gom cụm của một
tác nhân được xác định bởi các tác nhân láng giềng có mối liên kết với nhau thành những
mạng con nhỏ nhất. Nếu một tác nhân chỉ có một láng giềng thì tác nhân nhân láng giềng
đó sẽ không tạo thành một mạng con. Công thức được tính như sau:
Clustering Centrality dành cho mạng có hướng

Clustering Centrality dành cho mạng vô hướng

Clustering Centrality trung bình cho toàn mạng trích dẫn


16
+ Bài báo có tầm quan trọng

Vấn đề quan trọng trong phân tích mạng trích dẫn là xác định nhóm. Nhóm là tập rời
nhau của các cá nhân được liên kết với nhau bằng một số loại liên quan hoặc tương tác.
Mỗi thành viên của nhóm có thể có vị trí khác nhau: vị trí trung tâm, ngoại vi hoặc một
nơi nào đó giữa chúng. Một nhóm có thể có một hoặc nhiều bài báo.
Trong phân tích mạng trích dẫn, Centrality thường được sử dụng để mô tả vị trí “quan
trọng” cả các bài báo trong mạng. Mỗi độ đo centrality sẽ cho ta thấy ý nghĩa “quan
trọng” khác nhau của từng thực thể trong mạng xã hội. Một trong các ứng dụng phổ biến
về độ đo centrality là xác định tập key player trong mạng trích dẫn.
Keyplayer là các bài báo trong mạng được xem là quan trọng, đó là những node có
khả năng điều khiển luồng thông tin, là những node nổi bật nhất và có tầm ảnh hưởng
đáng kể đến các node khác.
Định nghĩa chính thức của bài toán tìm bài báo Key player như sau:
Cho trước mạng trích dẫn (đồ thị vô hướng), tìm tập K-node (kp-set) sao cho:
- Nếu xóa tập này đi sẽ gây ra việc phá vỡ liên kết lớn nhất trong mạng, nghĩa là tìm
những node mà khi xóa các node đó đi thì mạng sẽ tách ra thành nhiều mạng con nhất
hoặc tạo ra khoảng cách giữa các node còn lại trong mạng xa nhất.
Tập này được gọi là KPP-1 hay KPP-Neg (Key Player Problem/Negative)
- Có nhiều kết nối đến tất cả các bài báo trong mạng, nghĩa là tìm những node có thể
kết nối đến các node còn lại nhiều nhất thông qua liên kết trực tiếp hoặc qua đường đi
ngắn nhất.
Tập này được gọi là KPP-2 hay KPP-Pos (Key Player Problem/Positive).
Ví dụ: Cho mạng trích dẫn được mô tả sau:

Hình 2.13 – Mô tả mạng trích dẫn
Vấn đề ở đây là hãy chỉ ra thực thể nào sẽ đóng vai trò Key player trong mạng:


×