Tải bản đầy đủ (.docx) (7 trang)

THIẾT kế GIAO DIỆN và CHỨC NĂNG PHẦN mềm hỗ TRỢ NGƯỜI DÙNG sử DỤNG THUẬT TOÁN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (335.08 KB, 7 trang )

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ

Tên đề tài: BIỂU DIỄN KẾT QUẢ
THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ
VỚI THUẬT TỐN RÚT TRÍCH TỪ KHĨA
VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ
••
Mã số:
rp /V 1 r _ Ị _

-> Ạ

Tên báo cáo chuyên đề:
THIẾT KẾ GIAO DIỆN VÀ CHỨC NĂNG PHẦN MỀM
HỖ TRỢ NGƯỜI DÙNG SỬ DỤNG THUẬT TỐN
•••

Chủ nhiệm đề tài: ThS. Võ Thị Hồng Thắm
Người chủ trì thực hiện chuyên đề: ThS. Võ Thị Hồng Thắm

Bình Dương, 06/2019


1

THIẾT KẾ GIAO DIỆN
Hệ thống được xây dựng gồm các mô-đun: bộ thu thập thông tin, bộ xử lý và bộ

hiển thị. Ngồi ra, một mơ-đun TF-IDF được lập trình bằng ngơn ngữ lập trình Python
phục vụ cho việc so sánh các đầu ra của nó với các đầu ra của hệ thống được hiện thực


bằng ngơn ngữ lập trình Java. Phần 1.1 sau đây mô tả một số kỹ thuật và công cụ được
dùng để xây dựng hệ thống. Hệ thống bao gồm các chức năng được mô tả trong phần
1.2. Thu thập dữ liệu và kết quả đầu ra được minh họa trong phần 1.3. Cấu trúc lưu trữ
và một số truy vấn cơ sở dữ liệu được làm rõ trong phần 1.4.
1.1 Các Framework dùng để lập trình
Để phát triển hệ thống, một số cơng cụ và thư viện được sử dụng. Phần này đề cập
ngắn gọn tên và phiên bản của các cơng cụ này. Đó là: Scala 2.10.5, Java 8, Spark 1.6.3,
Windows Utilities 2.6.x, Maven 3.3, Neo4j 3.2, Apache-tomcat-9.x, IntelliJ IDEA và
Vis.js. Ngoài ra, hệ thống cũng sử dụng VnTokenizer [13] và danh sách từ dừng được tải
xuống từ github được bổ sung thêm một số ký tự xuất hiện trong văn bản nhưng khơng
có bất kỳ ý nghĩa nào vào danh sách này (có thể xem danh sách từ dừng ở phần phụ lục
của chun đề).
1.2 Các tính năng chính
Hình 1 cho thấy hệ thống có 6 hàm cơ bản chính bao gồm: (1) Hiển thị dịng đời
của một từ khóa cụ thể; (2) Lấy N từ khóa chính của một bài viết; (3) Hiển thị dịng thời
gian của các từ khóa trong một chủ đề; (4) Thống kê việc sử dụng từ khóa; (5) Hiển thị
n từ khóa hàng đầu trong một chuyên mục; và (6) Hiển thị trực quan các bài báo ở dạng
biểu đồ cây. Xem chi tiết hình minh họa các tính năng này ở hình 2, các ảnh minh họa
được đánh số tương ứng.

Hình 1. Các tính năng hệ thống
Có một số chức năng chính được trình bày như sau. Hình 2 cho thấy danh sách n từ
khóa trong một bài viết (n = 7). Người dùng có thể xác định giá trị cho n. Số phần trăm
1


theo sau từ khóa là tỷ lệ giữa tần số của từ khóa này và tổng số từ khóa của bài viết này.
News Graph

Home About


B

The hst of top keywords in paper

o

Paper's content

PapeflD 28
Thi trường giao due phó thống Quan hé bát đói xứng
giũa ngươi bán vá người mua
Cãc chuyên gta cnl ra ràng mổl quan nê giừa người
ban va ngươi mua trong "thỊ trướng giáo dục’ hiên nay
đang la mối quan né Dát đói xứng
-Thưa nhãn bản chát th| tnrong cùa giao due tư nhăn
tai Viét Nam. các Chuyên gia cũng Chỉ ra ràng mỗi
quan hẻ giữa người bân và người mua trong th| trưởng
này đang lâ mói quan hê bát đối xứng »“Các trường
phải lam thu đẻ mua quyên tư chù’ » Nên chám dưt
quán tỳ gứo đuc kiẻu tem phiẻu Trường tư thi hoat
đổng theo thi trường Tai hỏi tnảo vê Chát lương giào
dục phổ thỏng do ủy ban Vàn hóa Giáo due vá Thanh
mèn. Thiêu niên. Nhi đồng cùa Quốc hõi tố chức ngày
22'9 môt nỗi đung đưoc cãc đai Diéu thào lưản lá vắn
đẻ quàn lý giáo due. bao gồm cà quản lý' hè tnống giáo
due ngoài cồng láp TS Pham Đỗ Nhát Tiên nguvên tro
ly Bỗ tiuớng Sỗ GD-Đ la ngưịi kíẻn đinh quan diêm
giáo due phổ thông công láp nẻn la dich vu công tmẻt
yẻu vã không nên ãp dung lanh té thl trương Cịn các

trướng ngối cõng lãp thi đưọc điêu tiêt theo quy luầt
của Kinh tẻ thi trương Theo ỏng Tiên trướng ngoái
cõng lẳp nẻn được tự xac định học phi túy tneo cnát
lưọng tneo nnu càu người hoc va mat bàno thl trưịno
Trươna xốc đinh sai thl cũno na

Háti2S0%i

Hình 2. GUI cho các từ khóa hàng đầu trong một bài viết
Hình 3 minh họa số lượng bài viết sử dụng một từ khóa. Có thể thấy từ khóa
“iphone” được sử dụng 12 lần trong chuyên mục công nghệ “CongNghe” vào ngày 28
tháng 9 năm 2017, 1 lần trong chuyên mục thời sự ‘ThoiSu” vào ngày 30 tháng 9 năm
2017 và chuyên mục “PhapLuat” vào ngày 3-4 tháng 10 năm 2017.

2


Hình 3. GUI cho số lượng bài viết có sử dụng từ khóa “iphone”
Hình 4 trình bày danh sách n các từ khóa (n = 10) hàng đầu được trích xuất từ một
chuyên mục. Có thể thấy rằng chuyên mục "ThoiSu" có các từ khóa bao gồm: phó,
bệnh_viện, thuốc, rác, ngạch, lao_động, bổ_nhiệm, tổng_cục, vv...

Hình 4. GUI rút trích từ khóa hàng đầu từ một chun mục
Hình 5 trình bày cây biểu đồ của các bài báo. Có thể thấy rằng các bài báo được
hiển thị trên cây đồ thị và người dùng có thể xem nội dung của bài viết.

3


O UãU

394

28/09/2017

-JL

04/10/2017

„ft.r
02/10/2017

Paper's content
411

■ /P/Ve

ip

\l / //______

,_______________0__________ XX \ \1____________
Phó chù tích Thanh Hóa hal lăn bó nhiêm than tỗc nữ trưởng phòng - vnExpress
----------------------------------------------------------------------------------------------------- WT'

///% sa

PapenD 400
Phõ chù tich Thanh Hóa hai lần bổ nhtém màn tốc* nử
trường phịng - VnExpress
Khi làm giám đốc sổ xây đung. ông Ngỗ Vân Tuấn cổ

nhiều vĩ phạm, gôm việc hai làn ký quyêl định bố
nmẻm bá Qưỹnh Anh -VnExpress
Ngày 29/9, ữy ban Kiém ưa Tinh ùy Thanh Hóa thơng
bão két ln sai pham cùa tâp thẻ. cá nhãn liên quan
vụ viẻc bổ nhiêm "thân tóc* bà Trân vũ Qnh Anh ngun Trưởng phơng quàn lỹ nhà và thl trương bát
đỏng sàn Sở Xây đung Phố chù tích tinh từng VI pham

29/092017

01/102017
Th«G(O
Ĩ

Hình 5. GUI cho hiển thị các bài báo dạng cây và xem nội dung của bài báo
1.3 Các tập dữ liệu
Hệ thống tạo các bộ dữ liệu bao gồm: tập dữ liệu các bài báo, tập dữ liệu của các
bài báo sau bước tiền xử lý, tập dữ liệu của n các từ khóa quan trọng hàng đầu của các
bài viết, tập dữ liệu của n các từ khóa hàng đầu của chuyên mục. Các bộ dữ liệu này
được cấu trúc như sau:
Tập dữ liệu của các bài báo bao gồm các bài báo được thu thập và sắp xếp trong
các thư mục Ngày/Chuyên mục /Bài báo. Các tệp bài báo này là các tệp văn bản. Tên
tệp là tiêu đề bài viết và tệp chứa thông tin bao gồm tiêu đề, mô tả và nội dung.
Tập dữ liệu của các bài báo đã qua bước tiền xử lý có cấu trúc tương tự với tập dữ
liệu các bài báo. Điều khác biệt duy nhất là nội dung của các bài báo được tiền xử lý
bằng cách tách từ và loại bỏ từ dừng.
Tập dữ liệu của các từ khóa hàng đầu của bài viết được lưu trong các tệp văn bản
có cấu trúc 4 trường bao gồm: ngày (Date), mã bài báo (ArticleID), từ khóa (KeyWord)
và tần số (Weight).
Tập dữ liệu của các từ khóa hàng đầu của chuyên mục có cấu trúc tương tự với tập
dữ liệu của các từ khóa hàng đầu của bài báo. Tập dữ liệu này được lưu dưới dạng tệp

văn bản chứa với 4 trường bao gồm: ngày (Date), mã chuyên mục (ColumnID), từ khóa
(KeyWord) và chỉ số xếp hạng (ImportanceIndex).

4


1.4 Lưu trữ và truy vấn cơ sở dữ liệu đồ thị
Hình 6 mơ tả cách dữ liệu được lưu trữ với cơ sở dữ liệu đồ thị. Cấu trúc lưu trữ
chung có 5 nút: Gốc, Ngày, Cột, Bài viết và Từ khóa (Root, Day, Column, Article,
KeyWord). Ví dụ sau đây sẽ làm rõ hơn về cách lưu trữ.

Hình 6. Cấu trúc lưu trữ chung và ví dụ
Bảng 1 mơ tả các thuộc tính của các nút và các mối quan hệ. Mỗi nút hoặc mối
quan hệ có các thuộc tính được sử dụng để lưu trữ dữ liệu có liên quan.

STT
1
2
3
4
5
6
7
2

Bảng 1. Các thuộc tính của nút và mối quan hệ
Thuộc tính
Mơ tả
rp.A
A•

Tên nút/mối
Rootquan hệ
ID; Name
Node
Day
ID; Value
Node
Column
ID; Name
Node
Article
ID; Path; Title
Node
Keyword
ID; Value
Node
Presents
Weight
Relationship
Written in
ImportanceIndex
Relationship
r

r./

TÀI LIỆU THAM KHẢO

1. Le Hong Phuong, N.T.M., A.R. Huyen, and H.T. Vinh, A hybrid approach to word
segmentation of Vietnamese texts. Language and Automata Theory and Applications,

2008: p. 240.

5


3

XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ
Bình Dương, ngày 20 tháng 06 năm 2019
Người chủ trì thực hiện chuyên đề

Võ Thị Hồng Thắm



×