Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (496.19 KB, 16 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
***

TRẦN THANH TÙNG

TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG
GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP
Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2016

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN THANH TÙNG

TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG
GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP
Ý KIẾN GÓP Ý TRONG HỘI NGHỊ
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học
Cán bộ hướng dẫn chính: TS. Bùi Quang Hưng

Cán bộ hướng dẫn phụ: PGS.TS. Vũ Duy Lợi

HÀ NỘI - 2016

LỜI CAM ĐOAN

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên
cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận văn,
những điều được trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp
từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ
ràng và được trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan của mình.

Hà Nội, ngày 26 tháng 10 năm 2016
Ngƣời cam đoan

Trần Thanh Tùng

4

LỜI CẢM ƠN

Tôi xin chân thành cảm ơn PGS.TS. Vũ Duy Lợi, chuyên viên cao cấp Văn
phòng Trung ương Đảng và TS. Bùi Quang Hưng, giảng viên trường Đại học
Công nghệ, Đại học Quốc gia Hà Nội đã tận tình giúp đỡ tôi về chuyên môn,
định hướng phát triển trong suốt quá trình làm luận văn.
Tôi xin gửi lời cám ơn tới các Thầy, Cô giáo của Khoa Công nghệ thông

tin, vì đã truyền dạy những kiến thức bổ ích, hiện đại về lĩnh vực Hệ thống
thông tin. Tôi đã được tiếp cận một môi trường học thuật cao, hiểu được sự vất
vả cũng như thành quả đạt được khi tham gia nghiên cứu khoa học.
Tôi xin cảm ơn các bạn trong nhóm Data Mining thuộc Trung tâm Công
nghệ tích hợp liên ngành giám sát hiện trường (FIMO center), Đại học Công
nghệ Hà Nội, TS. Nguyễn Việt Anh và Nhóm Giải pháp dữ liệu, Viện Công
nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Cuối cùng, với gia đình, tôi xin gửi lời biết ơn sâu sắc vì gia đình đã luôn ở
bên cạnh tôi, mang lại cho tôi nguồn động viên tinh thần to lớn và tạo mọi điều
kiện thuận lợi cho tôi trong quá trình học tập và hoàn thành luận văn này.
Mặc dù đã rất cố gắng nhưng luận văn sẽ không tránh khỏi những thiếu sót.
Rất mong nhận được ý kiến đóng góp quý báu của Thầy, Cô giáo và các bạn để
luận văn được hoàn thiện hơn.
Xin trân trọng cảm ơn!

5

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................ 3
LỜI CẢM ƠN .................................................................................................................. 4
MỤC LỤC ....................................................................................................................... 5
BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................................ 7
DANH MỤC CÁC HÌNH VẼ ......................................................................................... 8
MỞ ĐẦU ....................................................................................................................... 10
CHƢƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ .......... 14
1. Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị.............................. 14
2. Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội nghị Trung
ƣơng ........................................................................................................................... 15
2.1. Quy trình tổng hợp ý kiến thảo luận .............................................................. 16

2.2. Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ ........................................... 19
3. Xác định bài toán cần giải quyết .....................................................................23
CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU ............... 25
1. Khái niệm độ tƣơng đồng câu ..........................................................................25
2. Các phƣơng pháp tính độ tƣơng đồng câu .....................................................25
2.1. Phương pháp tính độ tương đồng câu dựa vào WordNet .............................. 25
2.2. Phương pháp tính độ tương đồng câu dựa vào Wikipedia ............................ 30
2.3. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent Dirichlet
Allocation) ..................................................................................................................... 34
2.4. Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn
(Latent Semantic Analysis) ............................................................................................ 37
3. Đánh giá và lựa chọn phƣơng pháp ................................................................ 45

6
CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU
TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ .......... 47
1. Đề xuất giải pháp phát hiện nội dung giống nhau trong phần mềm Hỗ trợ
tổng hợp ý kiến thảo luận tổ ...................................................................................47
2. Xử lý dữ liệu ......................................................................................................48
3. Thực nghiệm ......................................................................................................48
3.1. Môi trường thực nghiệm ................................................................................ 48
3.2. Chương trình phần mềm ................................................................................ 49
3.3. Dữ liệu thực nghiệm ...................................................................................... 50
3.4. Giao diện chương trình thực nghiệm ............................................................. 50
4. Đánh giá kết quả thực nghiệm .........................................................................52
KẾT LUẬN .................................................................................................................. 53
Tài liệu tham khảo ....................................................................................................... 55

7

BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Ký hiệu

Diễn giải

Tiếng Việt

WCG

Wikipedia Category Graph

Đồ thị chủ đề Wikipedia

SS

Semantic similarity

Tương đồng ngữ nghĩa

SR

Semantic relatedness

Quan hệ ngữ nghĩa

LDA

Latent Dirichlet Allocation

Phân bổ Dirichlet tiềm ẩn

LSA

Latent Semantic Analysis

Phân tích ngữ nghĩa tiềm ẩn

SVD

Singular Value Decomposition

Phân tích giá trị đơn

IDF

Inverse Document Frequency

Tần số nghịch của một từ

TF

Term Frequency

trong
Tần sốvăn
từ bản

8

DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Mô tả nghiệp vụ tổng hợp trên giấy ...................................................18
Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến ......................21
Hình 1.3. Kết quả bản tổng hợp các ý kiến góp ý của các Tổ ............................ 22
Hình 2.1. Sơ đồ phân cấp các từ trong WordNet ...............................................26
Hình 2.2. Sơ đồ tính độ tương đồng của câu ......................................................27
Hình 2.3. Đồ thị chủ đề Wikipedia .....................................................................31
Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia ............32
Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia ...........................................33
Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn .......................... 35
Hình 2.7. Mô hình LDA .....................................................................................36
Hình 2.8. SVD trong LSA ..................................................................................40
Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn, mỗi
một từ xuất hiện ít nhất trong 2 câu ...............................................................................41
Hình 2.10. Ma trận U.......................................................................................... 42
Hình 2.11. Ma trận giá trị đơn với k=2 .............................................................. 42
Hình 2.12. Ma trận V.......................................................................................... 42
Hình 2.13. Ma trận được xây dựng lại với k=2 ..................................................43
Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến ..................47
Hình 3.2. Giao diện khởi tạo LSA ......................................................................50
Hình 3.3. Giao diện nhập đoạn văn để so sánh ..................................................51
Hình 3.4. Kết quả so sánh...................................................................................51

9

DANH MỤC CÁC BẢNG BIỂU

Bảng 3.1. Cấu hình thiết bị môi trường thực nghiệm ......................................... 48
Bảng 3.2. Các thư viện sử dụng ......................................................................... 49

10

MỞ ĐẦU

1. Đặt vấn đề
Những năm qua, việc ứng dụng công nghệ thông tin trong hoạt động của
các cơ quan, tổ chức Đảng, Nhà nước đã giúp cho công tác lãnh đạo, chỉ đạo,
điều hành và giải quyết công việc hàng ngày được nhanh chóng, chất lượng hơn,
đồng thời đã giúp cho công tác cải cách hành chính ngày càng có hiệu quả. Việc
ứng dụng công nghệ thông tin giúp các cơ quan nâng cao năng lực quản lý, điều
hành, giảm thời gian giải quyết, xử lý công việc, góp phần không nhỏ trong việc
tinh giảm tổ chức bộ máy, tiết kiệm chi phí về tài chính.
Văn phòng Trung ương Đảng là một cơ quan tham mưu của Đảng, có chức
năng tham mưu, giúp việc Ban Chấp hành Trung ương Đảng mà trực tiếp là Bộ
Chính trị, Ban Bí thư trong việc tổ chức, điều hành công việc lãnh đạo của
Đảng. Trong mỗi một nhiệm kỳ hoạt động, Ban Chấp hành Trung ương Đảng tổ
chức các Hội nghị Trung ương (thông thường 2 Hội nghị/năm). Tại mỗi Hội
nghị, có rất nhiều các chủ trương quan trọng, có tầm ảnh hưởng lớn để lãnh đạo,
chỉ đạo đất nước; các nội dung, chuyên đề ấy đều được đưa ra bàn thảo, xin ý
kiến các Ủy viên Trung ương trước khi thông qua chính thức. Một trong những
nhiệm vụ quan trọng của Văn phòng Trung ương Đảng là chuẩn bị, tổ chức,
phục vụ về cơ sở vật chất và nội dung của các Hội nghị Trung ương Đảng. Đội
ngũ chuyên viên của Văn phòng Trung ương Đảng được giao nhiệm vụ ghi biên
bản chi tiết và tổng hợp tất cả các ý kiến góp ý, thảo luận của Ủy viên Trung

ương. Công việc này đòi hỏi tính chính xác, nhanh chóng, đầy đủ và kịp thời,
theo đó các cán bộ của Văn phòng phải có khả năng tổng hợp, biên tập văn bản;
đồng thời rất cần sự hỗ trợ của công nghệ thông tin để thực hiện tốt công việc.
Thông thường, một nội dung có rất nhiều ý kiến góp ý giống nhau (trong luận
văn còn được sử dụng bằng các từ: tương đồng, trùng thừa) gây trùng lặp nội
dung thông tin. Điều này đã gây ra những khó khăn cho chuyên viên tổng hợp ý
kiến, như mất nhiều thời gian, công sức để đọc, lọc loại bỏ những ý trùng thừa,

11

hoặc là việc rà soát, đánh dấu để loại bỏ các ý kiến đó không triệt để nên sẽ dễ
dẫn đến tình trạng chất lượng, hiệu quả công việc chưa cao.
Hiện nay, ở Văn phòng Trung ương Đảng đã sử dụng phần mềm hỗ trợ tổng
hợp ý kiến thảo luận tổ tại các Hội nghị Trung ương. Tuy nhiên, phần mềm này
chưa có chức năng phát hiện, đánh dấu các ý kiến trùng lặp. Với mong muốn áp
dụng những kiến thức đã được học tập ở trong trường vào cải tiến, nâng cao chất
lượng, rút ngắn thời gian tổng hợp các ý kiến tại Hội nghị Ban Chấp hành Trung
ương Đảng, tôi đã lựa chọn và nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên,
data mining để đưa ra giải pháp nhằm giải quyết vấn đề trên. Qua đó, đề xuất
xây dựng chức năng tự động phân tích, phát hiện, đánh dấu các nội dung góp ý
giống nhau trong phần mềm hỗ trợ tổng hợp ý kiến tại các Hội nghị Trung ương
đang được sử dụng tại cơ quan.
2. Mục tiêu và nhiệm vụ nghiên cứu của luận văn
* Mục tiêu:
Với mục đích góp phần giúp các chuyên viên nhanh chóng phát hiện ra
những ý kiến thảo luận đã được đề cập đến và bỏ qua chúng trong quá trình tổng
hợp ý kiến góp ý, mục tiêu của luận văn là:
Nghiên cứu các phương pháp tính toán độ tương đồng câu dựa trên các
thuật toán về xử lý ngôn ngữ tự nhiên. Trên cơ sở đó, đề xuất giải pháp xây

dựng chức năng phát hiện, đánh dấu những câu, đoạn văn giống nhau về ngữ
nghĩa trong các ý kiến góp ý vào cùng một nội dung của chủ đề được đưa ra bàn
thảo tại Hội nghị Trung ương Đảng.
* Nhiệm vụ:
Đây là vấn đề có tính thực tiễn cao và thật sự cần thiết trong hoạt động tổng
hợp ý kiến góp ý tại các Hội nghị của Trung ương. Tuy nhiên, đây cũng là vấn
đề khó, cần có nhiều thời gian để nghiên cứu, thử nghiệm, đánh giá, tăng độ

12

chính xác để có thể đưa vào sử dụng trong thực tế. Do đó, nhiệm vụ đặt ra trong
luận văn là
- Giới thiệu bài toán tổng hợp ý kiến trong hội nghị.
- Tìm hiểu các phương pháp tính độ tương đồng câu.
- Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp
ý kiến góp ý trong Hội nghị
3. Tổng quan nghiên cứu vấn đề
Trên thế giới, các công trình nghiên cứu về tính toán độ tương đồng giữa
các từ, các câu hoặc đoạn văn ngắn đã được nghiên cứu rộng rãi. Nhiều thuật
toán về tính toán độ tương đồng đã được đưa ra và ngày càng có sự cải thiện về
độ chính xác.
Tại Việt Nam, các thuật toán tính toán độ tương đồng giữa các câu để áp
dụng vào bài toán tóm tắt văn bản cũng đã được nhiều tác giả tìm hiểu, nghiên
cứu. Tuy nhiên, việc áp dụng các kết quả nghiên cứu khoa học đó vào thực tiễn
chưa thực được nhiều và có hiệu quả tốt, nguyên nhân có thể là do chưa phát
hiện chính xác được các nhu cầu sử dụng cũng như yêu cầu của thực tiễn đặt ra.
Tổng hợp ý kiến góp ý tại các Hội nghị là công việc có tính chất đặc biệt
thường chỉ diễn ra tại các công ty, tổ chức lớn như các cơ quan nhà nước. Công
việc cụ thể đó là việc tổ chức Hội nghị với đông đảo người tham gia bàn thảo về

một hoặc một số chủ đề cụ thể, sau đó tổng hợp các ý kiến góp ý về chủ đề đó
để đưa ra những kết luận, phương án giải quyết. Do đây là một công việc cụ thể
lại không mang tính chất đại trà nên các nghiên cứu áp dụng các bài toán tin học
vào vấn đề này không có nhiều. Đã có tác giả nghiên cứu về bài toán phân lớp ý
kiến góp ý trong tổng hợp ý kiến trong Hội nghị [3]. Tuy nhiên việc phát hiện
nội dung góp ý giống nhau trong một nội dung thảo luận để cảnh báo, lược bỏ
thì chưa được nghiên cứu áp dụng.

13

4. Phạm vi nghiên cứu của luận văn
Với tính chất là một luận văn thạc sỹ, phạm vi nghiên cứu của luận văn là:
Nghiên cứu các phương pháp và thực nghiệm một phương pháp tính toán độ
tương đồng câu để phát hiện nội dung tương đồng nhau trong tổng hợp ý kiến
góp ý tại các kỳ Hội nghị Trung ương Đảng.
5. Phƣơng pháp nghiên cứu
Để thực hiện được mục tiêu, nhiệm vụ của luận văn, các phương pháp
nghiên cứu được sử dụng như sau:
- Phương pháp khảo sát;
- Phương pháp tổng hợp;
- Phương pháp phân tích, đánh giá;
- Phương pháp thực nghiệm.
6. Nội dung của luận văn
Ngoài phần mở đầu và kết luận, luận văn được bố cục thành 3 chương:
- Chương 1. Bài toán tổng hợp ý kiến góp ý trong hội nghị.
- Chương 2. Các phương pháp tính độ tương đồng câu.
- Chương 3. Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ
thống tổng hợp ý kiến góp ý trong Hội nghị

55

Tài liệu tham khảo
Tiếng Việt
1. Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng, Kỷ yếu
Hội nghị tổng kết 5 năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông
tin & truyền thông Đại học Cần Thơ, tr 49-56.
2. Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức,
Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới
dữ liệu VNGRID, Chuyên san “Các công trình nghiên cứu, phát triển và ứng
dụng Công nghệ Thông tin và Truyền thông”, tr 72 – 81.
3. Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý trong
Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ,
Đại học Quốc gia Hà Nội, tr 44 – 46.
4. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận
văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia
Hà Nội.
5. năm 2016.
6. Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ
trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương”.
Tiếng Anh
7. David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent
Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 .

8. Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W. and
Harshman, R.A. (1990), “Indexing by latent semantic analysis”, Journal of
the Society for Information Science, 41(6), pp 391-407.

56

9. Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity
Using Corpus-Based Word Similarity and String Similarity”, ACM Transactions
on Knowledge Discovery from Data, Vol. 2, No.2, Article 10.
10. Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s
Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and
Representation of Knowledge.
11. Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter
Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14.
12. Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and
Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and
Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL.
18, NO. 8 .
13. Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpusbased and Knowledge-based Measures of Text Semantic Similarity.
14. Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese
Sentence Similarity Based on Concept”, IFIP International Federation for
Information Processing 2014 .
15. Tu C.Nguyen (2008), Hidden Topic discovery toward classification and
clustering in Vietnamese web documents, Master Thesis, Universtiy of
Engineering and Technology, Vietnam National University, Hanoi.
16. Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and
Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of
Multipel Sentences.
17. Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information
Content Metric for Semantic Similarity in WordNet.

57

18. Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring
Semantic Similarity between Words Using Web Documents”, WWW2007:
Track:Semantic Web.
19. Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007),
Comparing Wikipedia and German WordNet by Evaluating Semantic
Relatedness on Multipe Datasets.
20. TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia
Category Graph for NLP Applications.

Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về