TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
Tên đề tài: BIỂU DIỄN KẾT QUẢ
THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ
VỚI THUẬT TỐN RÚT TRÍCH TỪ KHÓA
VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ
Mã số:
Tên báo cáo chuyên đề:
LẬP TRÌNH ỨNG DỤNG DEMO
Chủ nhiệm đề tài: ThS. Võ Thị Hồng Thắm
Người chủ trì thực hiện chuyên đề: ThS. Võ Thị Hồng Thắm
Bình Dương, 06/2019
1. LẤY DỮ LIỆU TỪ TRANG WEB
Phần này trình bày cách cài đặt mô-đun thu thập dữ liệu
a. Cài đặt NetBeans
Đầu tiên, thực hiện tải NetBeans từ đường liên kết sau (xem hình 1):
/>
Hình 1: Giao diện tải NetBean
Nếu hệ thống chưa được cài đặt JDK, tải và cài JDK trước theo đường liên kết sau
(xem hình 2):
/>
1
Hình 2: giao diện tải JDK
Chọn một trong 2 để cài vào hệ thống
b. Vận hành mô – đun crawler
Cấu hình các đường dẫn liên kết đến các trang web cần thu thập dữ liệu
trong fiel config.txt. Hệ thống sẽ tự động tải dữ liệu khi được kích hoạt. Dữ liệu
được lưu trữ theo cấu trúc đã được thiết kế.
Hình 3 trình bày đoạn mã vận hành mơ – đun crawler
2
Hình 3: Vận hành mơ – đun crawler
2. XỬ LÝ DỮ LIỆU
Phần này trình bày cách cài đặt Apache Spark trên window 10.
a. Cài đặt Scala 2.10.5
Tải Scala từ (xem hình 4)
Giải nén và lưu vào ổ đĩa D:\Scala
Hình 4: Giao diện tải Scala
Thiết lập các biến môi trường:
3
o Variable name: SCALA_HOME:
o Variable value: D:\Scala
Thiết lập các biến hệ thống:
o Variable: Path
o Value: %SCALA_HOME%\bin
b. Cài đặt Java 8
Tải Java 8 theo đường dẫn
/>Thiết lập các biến môi trường:
Biến người dùng:
o Variable name: JAVA_HOME
o Variable value: C:\Program Files\Java\jdk1.8.0_131
Biến người dùng
o Variable: Path
o Value: %JAVA_HOME%\bin
c. Cài đặt Spark 1.6.3
Tải Apache Spark từ đường dẫn />(xem hình 5)
Giải nén và lưu trữ vào D:\Server\spark
4
Hình 5: Giao diện tải Spark
Thiết lập các biến mơi trường:
Biến người dùng:
o Variable name: SPARK_HOME
o Variable value: D:\Server\spark
Biến người dùng:
o Variable: Path
o Value: %SPARK_HOME%\bin
d. Cài đặt Windows Utilities 2.6.x
Tải file winutils.exe từ đường dẫn
/>Lưu file vào
D:\Server\hadoop-
winutils\2.6.4\bin
Chọn đường dẫn phù hợp với phiên bản đang dử dụng (Xem hình 6).
5
Hình 6: Giao diện tải winutils
Thiết lập các biến mơi trường:
Biến người dùng:
o Variable name: HADOOP_HOME
o Variable value: D:\Server\hadoop-winutils\2.6.4
Biến người dùng:
o Variable: Path
o Value: %HADOOP_HOME%\bin
e. Chạy Spark trên command line để kiểm tra kết quả cài đặt (xem
hình 7)
Hình 7: Kiểm tra kết quả cài đặt Windows Utilities
f. Cài đặt Maven 3.3
Tải Maven from the link:
6
/>Giải nén và lưu ở C:\Program Files.
Thiết lập các biến môi trường:
Biến người dùng:
o Variable name: MAVEN_HOME
o Variable value: C:\Program Files\apache-maven-3.3.9
Biến người dùng:
o Variable: Path
o Value: %MAVEN_HOME%\bin
Thiết lập MAVEN cho IntelliJ IDEA:
Biến người dùng:
o Variable name: M2_HOME
o Variable value: C:\Program Files\apache-maven-3.3.9
Biến người dùng:
o Variable: Path
o Value: %M2_HOME%\bin
g. Kiểm tra việc cài đặt Maven và JDK 8 (xem hình 8)
Hình 8: Kiểm tra kết quả cài đặt JDK và Maven
7
3. ỨNG DỤNG CƠ SỞ DỮ LIỆU ĐỒ THỊ
a. Cài đặt Neo4j 3.2
Tải Neo4j từ đường dẫn (xem hình
9)
Hình 9: Giao diện tải Neo4j
b. Cài đặt apache-tomcat-9.x
Tải Apache Tomcat từ đường dẫn />Tải tập tin nén: apache-tomcat-9.0.0.M22-windowx64.zip (xem hình 10)
Hình 10: Giao diện tải apache-tomcat
c. Install IntelliJ IDEA
Tải từ đường dẫn
(xem hình 11)
8
Hình 11: Giao diện tải IntelliJ IDEA
Chọn phiên bản ultimate có hỗ trợ phát triển web.
d. Tải vis.js
Tải vis.min.js và vis.js.css tại />Có thể thêm vào thư viện của project.
Thực hiện theo hướng dẫn sau đây.
e. Import library in libs
Mở File Project Structure SDKs tab. Sau đó, click vào nút dấu cộng màu
xanh lá cây để mở thư viện: ${project_path}/libs
f. Import local library in libs sử dụng command line.
Có 6 thành phần chính cần thêm vào thư viện (xem hình 12).
Hình 12: Các thành phần cần thêm vào thư viện
Các bước thực hiện:
1. Tải tập tin jar từ trang web
2. Tạo thư mục lưu trữ tập tin vừa tải về
3. Thực thi lệnh sau
9
mvn install:install-file -Dfile= -DgroupId= -DartifactId= -Dversion=
Dpackaging=
Ví dụ: Muốn thêm file jar vào thư mục ${project_dir} của thư viện, chạy
lệnh:
mvn install:install-file
-Dfile=${project_dir}/src/main/resources/libs/commons-math-1.2.jar
-DgroupId=org.apache.commons.math
-DartifactId=commons-math
-Dversion=1.2
-Dpackaging=jar
4. Tiếp theo, trong tập tin pom.xml, thêm đoạn mã sau:
<dependency>
<groupId> org.apache.commons.math </groupId>
<artifactId> commons-math </artifactId>
<version>1.2 </version>
</dependency>
4. KẾT QUẢ TÍNH TỐN CỦA THUẬT TỐN TF-IDF
Bảng 1 trình bày kết quả rút trích một số từ khóa dựa vào thuật tốn TF-IDF,
tính tốn theo cơng thức của thuật tốn và so sánh với kết quả chạy chương trình
được lưu vào cơ sở dữ liệu đồ thị.
Bảng 1: Kết quả rút trích một số từ khóa dựa vào thuật tốn TF-IDF, tính tốn thử trên
03 bài báo
Từ rút trích
từ bài báo 1
Số từ
Số tài liệu
TF
Log(3/số tài
liệu)
TF-IDF
Apple
5 0.172413793
2
0.405465108 0.069907777
thương_hiệu
2 0.068965517
1
1.098612289 0.075766365
đắt_giá
1 0.034482759
1
1.098612289 0.037883182
10
hành_tinh
1 0.034482759
1
1.098612289 0.037883182
thống_trị
1 0.034482759
1
1.098612289 0.037883182
táo
1 0.034482759
1
1.098612289 0.037883182
khuyết
1 0.034482759
1
1.098612289 0.037883182
sở_hữu
1 0.034482759
1
1.098612289 0.037883182
sát_thủ
1 0.034482759
1
1.098612289 0.037883182
smartphone
1 0.034482759
2
0.405465108 0.013981555
Android
1 0.034482759
1
1.098612289 0.037883182
iPhone
2 0.068965517
3
thú_nhận
1 0.034482759
1
1.098612289 0.037883182
lỗi
1 0.034482759
2
0.405465108 0.013981555
kết
1 0.034482759
1
1.098612289 0.037883182
nối_mạng
1 0.034482759
1
1.098612289 0.037883182
Apple_Watch
1 0.034482759
1
1.098612289 0.037883182
sản_xuất
1 0.034482759
2
0.405465108 0.013981555
đại_trà
1 0.034482759
1
1.098612289 0.037883182
dữ_liệu
1 0.034482759
1
1.098612289 0.037883182
Face
1 0.034482759
1
1.098612289 0.037883182
ID
1 0.034482759
1
1.098612289 0.037883182
đánh_cắp
1 0.034482759
1
1.098612289 0.037883182
11
0
0
Từ rút
trích từ bài
báo 2
Số từ
Số tài
liệu
TF
Log(3/số tài liệu)
TF-IDF
iPhone
3 0.073170732
3
Plus
3 0.073170732
2
0.405465108 0.029668179
đánh_bại
3 0.073170732
1
1.098612289 0.080386265
camera
4 0.097560976
1
1.098612289 0.107181687
smartphone
4 0.097560976
2
0.405465108 0.039557572
Samsung
4 0.097560976
1
1.098612289 0.107181687
trải_nghiệm
2 0.048780488
1
1.098612289 0.053590843
cây_bút
1 0.024390244
1
1.098612289 0.026795422
công_nghệ
2 0.048780488
1
1.098612289 0.053590843
kết_luận
1 0.024390244
1
1.098612289 0.026795422
12
0
0
coi
1 0.024390244
1
1.098612289 0.026795422
vua
1 0.024390244
1
1.098612289 0.026795422
sản_xuất
1 0.024390244
2
0.405465108 0.009889393
ra_mắt
1 0.024390244
1
1.098612289 0.026795422
Galaxy
1 0.024390244
1
1.098612289 0.026795422
S7
1 0.024390244
1
1.098612289 0.026795422
đầu
1 0.024390244
1
1.098612289 0.026795422
người_dùng
1 0.024390244
1
1.098612289 0.026795422
máy
1 0.024390244
1
1.098612289 0.026795422
chuyên_gia
1 0.024390244
1
1.098612289 0.026795422
lên_tiếng
1 0.024390244
1
1.098612289 0.026795422
mẫu
1 0.024390244
1
1.098612289 0.026795422
điện_thoại
1 0.024390244
1
1.098612289 0.026795422
Apple
1 0.024390244
2
0.405465108 0.009889393
13
Từ rút trích
từ bài báo 3
Số từ
Số tài liệu
TF
Log(3/số tài liệu)
TF-IDF
Pin
3 0.15
1
iPhone
5 0.25
3
Plus
3 0.15
2
0.405465108 0.060819766
dòng
1 0.05
1
1.098612289 0.054930614
ưu_điểm
1 0.05
1
1.098612289 0.054930614
vượt_trội
1 0.05
1
1.098612289 0.054930614
ai_ngờ
1 0.05
1
1.098612289 0.054930614
hàng
1 0.05
1
1.098612289 0.054930614
tố
1 0.05
1
1.098612289 0.054930614
mắc
1 0.05
1
1.098612289 0.054930614
lỗi
1 0.05
2
0.405465108 0.020273255
14
1.098612289 0.164791843
0
0
đàm_thoại
1 0.05
1
15
1.098612289 0.054930614
5. XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ
Bình Dương, ngày 20 tháng 06 năm 2019
Người chủ trì thực hiện chuyên đề
Võ Thị Hồng Thắm
16