Tải bản đầy đủ (.pdf) (17 trang)

Biểu diễn kết quả theo dõi các chủ đề trên tạp chí điện tử với thuật toán rút trích từ khóa và cơ sở dữ liệu đồ thị, lập trình ứng dụng demo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.47 MB, 17 trang )

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ

Tên đề tài: BIỂU DIỄN KẾT QUẢ
THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ
VỚI THUẬT TỐN RÚT TRÍCH TỪ KHÓA
VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ
Mã số:
Tên báo cáo chuyên đề:
LẬP TRÌNH ỨNG DỤNG DEMO

Chủ nhiệm đề tài: ThS. Võ Thị Hồng Thắm
Người chủ trì thực hiện chuyên đề: ThS. Võ Thị Hồng Thắm

Bình Dương, 06/2019


1. LẤY DỮ LIỆU TỪ TRANG WEB
Phần này trình bày cách cài đặt mô-đun thu thập dữ liệu
a. Cài đặt NetBeans
Đầu tiên, thực hiện tải NetBeans từ đường liên kết sau (xem hình 1):
/>
Hình 1: Giao diện tải NetBean
Nếu hệ thống chưa được cài đặt JDK, tải và cài JDK trước theo đường liên kết sau
(xem hình 2):
/>
1


Hình 2: giao diện tải JDK
Chọn một trong 2 để cài vào hệ thống


b. Vận hành mô – đun crawler
Cấu hình các đường dẫn liên kết đến các trang web cần thu thập dữ liệu
trong fiel config.txt. Hệ thống sẽ tự động tải dữ liệu khi được kích hoạt. Dữ liệu
được lưu trữ theo cấu trúc đã được thiết kế.
Hình 3 trình bày đoạn mã vận hành mơ – đun crawler

2


Hình 3: Vận hành mơ – đun crawler
2. XỬ LÝ DỮ LIỆU
Phần này trình bày cách cài đặt Apache Spark trên window 10.
a. Cài đặt Scala 2.10.5
Tải Scala từ (xem hình 4)
Giải nén và lưu vào ổ đĩa D:\Scala

Hình 4: Giao diện tải Scala
Thiết lập các biến môi trường:
3


o Variable name: SCALA_HOME:
o Variable value: D:\Scala
Thiết lập các biến hệ thống:
o Variable: Path
o Value: %SCALA_HOME%\bin
b. Cài đặt Java 8
Tải Java 8 theo đường dẫn
/>Thiết lập các biến môi trường:
Biến người dùng:

o Variable name: JAVA_HOME
o Variable value: C:\Program Files\Java\jdk1.8.0_131
Biến người dùng
o Variable: Path
o Value: %JAVA_HOME%\bin
c. Cài đặt Spark 1.6.3
Tải Apache Spark từ đường dẫn />(xem hình 5)
Giải nén và lưu trữ vào D:\Server\spark

4


Hình 5: Giao diện tải Spark

Thiết lập các biến mơi trường:
Biến người dùng:
o Variable name: SPARK_HOME
o Variable value: D:\Server\spark
Biến người dùng:
o Variable: Path
o Value: %SPARK_HOME%\bin
d. Cài đặt Windows Utilities 2.6.x
Tải file winutils.exe từ đường dẫn
/>Lưu file vào

D:\Server\hadoop-

winutils\2.6.4\bin
Chọn đường dẫn phù hợp với phiên bản đang dử dụng (Xem hình 6).


5


Hình 6: Giao diện tải winutils
Thiết lập các biến mơi trường:
Biến người dùng:
o Variable name: HADOOP_HOME
o Variable value: D:\Server\hadoop-winutils\2.6.4
Biến người dùng:
o Variable: Path
o Value: %HADOOP_HOME%\bin
e. Chạy Spark trên command line để kiểm tra kết quả cài đặt (xem
hình 7)

Hình 7: Kiểm tra kết quả cài đặt Windows Utilities
f. Cài đặt Maven 3.3
Tải Maven from the link:
6


/>Giải nén và lưu ở C:\Program Files.
Thiết lập các biến môi trường:
Biến người dùng:
o Variable name: MAVEN_HOME
o Variable value: C:\Program Files\apache-maven-3.3.9
Biến người dùng:
o Variable: Path
o Value: %MAVEN_HOME%\bin
Thiết lập MAVEN cho IntelliJ IDEA:
Biến người dùng:

o Variable name: M2_HOME
o Variable value: C:\Program Files\apache-maven-3.3.9
Biến người dùng:
o Variable: Path
o Value: %M2_HOME%\bin
g. Kiểm tra việc cài đặt Maven và JDK 8 (xem hình 8)

Hình 8: Kiểm tra kết quả cài đặt JDK và Maven
7


3. ỨNG DỤNG CƠ SỞ DỮ LIỆU ĐỒ THỊ
a. Cài đặt Neo4j 3.2
Tải Neo4j từ đường dẫn (xem hình
9)

Hình 9: Giao diện tải Neo4j
b. Cài đặt apache-tomcat-9.x
Tải Apache Tomcat từ đường dẫn />Tải tập tin nén: apache-tomcat-9.0.0.M22-windowx64.zip (xem hình 10)

Hình 10: Giao diện tải apache-tomcat
c. Install IntelliJ IDEA
Tải từ đường dẫn
(xem hình 11)
8


Hình 11: Giao diện tải IntelliJ IDEA
Chọn phiên bản ultimate có hỗ trợ phát triển web.
d. Tải vis.js

Tải vis.min.js và vis.js.css tại />Có thể thêm vào thư viện của project.
Thực hiện theo hướng dẫn sau đây.
e. Import library in libs
Mở File  Project Structure  SDKs tab. Sau đó, click vào nút dấu cộng màu
xanh lá cây để mở thư viện: ${project_path}/libs
f. Import local library in libs sử dụng command line.
Có 6 thành phần chính cần thêm vào thư viện (xem hình 12).

Hình 12: Các thành phần cần thêm vào thư viện
Các bước thực hiện:
1. Tải tập tin jar từ trang web
2. Tạo thư mục lưu trữ tập tin vừa tải về
3. Thực thi lệnh sau
9


mvn install:install-file -Dfile= -DgroupId= -DartifactId= -Dversion=
Dpackaging=
Ví dụ: Muốn thêm file jar vào thư mục ${project_dir} của thư viện, chạy
lệnh:
mvn install:install-file
-Dfile=${project_dir}/src/main/resources/libs/commons-math-1.2.jar
-DgroupId=org.apache.commons.math
-DartifactId=commons-math
-Dversion=1.2
-Dpackaging=jar
4. Tiếp theo, trong tập tin pom.xml, thêm đoạn mã sau:
<dependency>
<groupId> org.apache.commons.math </groupId>
<artifactId> commons-math </artifactId>

<version>1.2 </version>
</dependency>
4. KẾT QUẢ TÍNH TỐN CỦA THUẬT TỐN TF-IDF
Bảng 1 trình bày kết quả rút trích một số từ khóa dựa vào thuật tốn TF-IDF,
tính tốn theo cơng thức của thuật tốn và so sánh với kết quả chạy chương trình
được lưu vào cơ sở dữ liệu đồ thị.
Bảng 1: Kết quả rút trích một số từ khóa dựa vào thuật tốn TF-IDF, tính tốn thử trên
03 bài báo

Từ rút trích
từ bài báo 1

Số từ

Số tài liệu
TF

Log(3/số tài
liệu)

TF-IDF

Apple

5 0.172413793

2

0.405465108 0.069907777


thương_hiệu

2 0.068965517

1

1.098612289 0.075766365

đắt_giá

1 0.034482759

1

1.098612289 0.037883182

10


hành_tinh

1 0.034482759

1

1.098612289 0.037883182

thống_trị

1 0.034482759


1

1.098612289 0.037883182

táo

1 0.034482759

1

1.098612289 0.037883182

khuyết

1 0.034482759

1

1.098612289 0.037883182

sở_hữu

1 0.034482759

1

1.098612289 0.037883182

sát_thủ


1 0.034482759

1

1.098612289 0.037883182

smartphone

1 0.034482759

2

0.405465108 0.013981555

Android

1 0.034482759

1

1.098612289 0.037883182

iPhone

2 0.068965517

3

thú_nhận


1 0.034482759

1

1.098612289 0.037883182

lỗi

1 0.034482759

2

0.405465108 0.013981555

kết

1 0.034482759

1

1.098612289 0.037883182

nối_mạng

1 0.034482759

1

1.098612289 0.037883182


Apple_Watch

1 0.034482759

1

1.098612289 0.037883182

sản_xuất

1 0.034482759

2

0.405465108 0.013981555

đại_trà

1 0.034482759

1

1.098612289 0.037883182

dữ_liệu

1 0.034482759

1


1.098612289 0.037883182

Face

1 0.034482759

1

1.098612289 0.037883182

ID

1 0.034482759

1

1.098612289 0.037883182

đánh_cắp

1 0.034482759

1

1.098612289 0.037883182

11

0


0


Từ rút
trích từ bài
báo 2

Số từ

Số tài
liệu
TF

Log(3/số tài liệu)

TF-IDF

iPhone

3 0.073170732

3

Plus

3 0.073170732

2


0.405465108 0.029668179

đánh_bại

3 0.073170732

1

1.098612289 0.080386265

camera

4 0.097560976

1

1.098612289 0.107181687

smartphone

4 0.097560976

2

0.405465108 0.039557572

Samsung

4 0.097560976


1

1.098612289 0.107181687

trải_nghiệm

2 0.048780488

1

1.098612289 0.053590843

cây_bút

1 0.024390244

1

1.098612289 0.026795422

công_nghệ

2 0.048780488

1

1.098612289 0.053590843

kết_luận


1 0.024390244

1

1.098612289 0.026795422

12

0

0


coi

1 0.024390244

1

1.098612289 0.026795422

vua

1 0.024390244

1

1.098612289 0.026795422

sản_xuất


1 0.024390244

2

0.405465108 0.009889393

ra_mắt

1 0.024390244

1

1.098612289 0.026795422

Galaxy

1 0.024390244

1

1.098612289 0.026795422

S7

1 0.024390244

1

1.098612289 0.026795422


đầu

1 0.024390244

1

1.098612289 0.026795422

người_dùng

1 0.024390244

1

1.098612289 0.026795422

máy

1 0.024390244

1

1.098612289 0.026795422

chuyên_gia

1 0.024390244

1


1.098612289 0.026795422

lên_tiếng

1 0.024390244

1

1.098612289 0.026795422

mẫu

1 0.024390244

1

1.098612289 0.026795422

điện_thoại

1 0.024390244

1

1.098612289 0.026795422

Apple

1 0.024390244


2

0.405465108 0.009889393

13


Từ rút trích
từ bài báo 3

Số từ

Số tài liệu
TF

Log(3/số tài liệu)

TF-IDF

Pin

3 0.15

1

iPhone

5 0.25


3

Plus

3 0.15

2

0.405465108 0.060819766

dòng

1 0.05

1

1.098612289 0.054930614

ưu_điểm

1 0.05

1

1.098612289 0.054930614

vượt_trội

1 0.05


1

1.098612289 0.054930614

ai_ngờ

1 0.05

1

1.098612289 0.054930614

hàng

1 0.05

1

1.098612289 0.054930614

tố

1 0.05

1

1.098612289 0.054930614

mắc


1 0.05

1

1.098612289 0.054930614

lỗi

1 0.05

2

0.405465108 0.020273255

14

1.098612289 0.164791843
0

0


đàm_thoại

1 0.05

1

15


1.098612289 0.054930614


5. XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ
Bình Dương, ngày 20 tháng 06 năm 2019
Người chủ trì thực hiện chuyên đề

Võ Thị Hồng Thắm

16



×