Tải bản đầy đủ (.pdf) (79 trang)

Đề tài nghiên cứu khoa học xây dựng phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lượng đào tạo ở phân hiệu trường đại học nội vụ hà nội tại thành phố hồ chí minh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.65 MB, 79 trang )

BỘ NỘI VỤ
TRƢỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI

uả

n

tr



BÁO CÁO TỔNG HỢP

p

Q

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƢỜNG

Kh
óa

lu

ận

tố

tn

gh



iệ

XÂY DỰNG PHẦN MỀM PHÂN TÍCH TỰ ĐỘNG Ý KIẾN
PHẢN HỒI CỦA SINH VIÊN VỀ CHẤT LƢỢNG ĐÀO TẠO Ở
PHÂN HIỆU TRƢỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI TẠI
THÀNH PHỐ HỒ CHÍ MINH
Mã số của đề tài: ĐTCT.2022.133

Chủ nhiệm đề tài: Thạc sỹ Tôn Nữ Thị Sáu

Hà Nội, Tháng 7/2022


BỘ NỘI VỤ
TRƢỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI

uả

n

tr



BÁO CÁO TỔNG HỢP

p

Q


ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƢỜNG

Kh
óa

lu

ận

tố

tn

gh

iệ

XÂY DỰNG PHẦN MỀM PHÂN TÍCH TỰ ĐỘNG Ý KIẾN
PHẢN HỒI CỦA SINH VIÊN VỀ CHẤT LƢỢNG ĐÀO TẠO Ở
PHÂN HIỆU TRƢỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI TẠI
THÀNH PHỐ HỒ CHÍ MINH
Mã số của đề tài: ĐTCT.2022.133

Chủ nhiệm đề tài: Thạc sỹ Tôn Nữ Thị Sáu
Thành viên đề tài:
Thạc sỹ Đỗ Phƣớc Sang
Thạc sỹ Phạm Thị Thu Trang
Thạc sỹ Lê Xuân Hậu
Cử nhân Nguyễn Thị Kim Oanh


Hà Nội, Tháng 7/2022


MỤC LỤC
MỤC LỤC ............................................................................................................. 1
DANH MỤC BẢNG VIẾT TẮT .......................................................................... 3
DANH MỤC BẢNG BIỂU .................................................................................. 4
DANH MỤC HÌNH VẼ ........................................................................................ 5
MỞ ĐẦU ............................................................................................................... 7
1. Tính cấp thiết ..................................................................................................... 7
2. Mục tiêu của đề tài ............................................................................................ 8
3. Nhiệm vụ đề tài: ................................................................................................ 8
4. Đối tƣợng, phạm vi nghiên cứu......................................................................... 9
5. Phƣơng pháp nghiên cứu ................................................................................... 9

tr



6. Ý nghĩa khoa học và ý nghĩa thực tiển.............................................................. 9

uả

n

7. Kết quả đề tài................................................................................................... 10

Q


8. Cấu trúc của đề tài ........................................................................................... 11

gh

iệ

p

Chƣơng 1: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN ....... 12

tn

1.1 Các khái niệm cơ bản .................................................................................... 12

tố

1.1.1. Xử lý ngôn ngữ tự nhiên ........................................................................... 12

ận

1.1.2. Bài tốn Phân tích ý kiến .......................................................................... 13

Kh
óa

lu

1.1.3. Bài tốn phân tích ý kiến theo khía cạnh .................................................. 14
1.1.4. Máy học. .................................................................................................... 16
1.2. Một số mơ hình máy học và học sâu ............................................................ 17

1.2.1. Mơ hình máy học Support Vector Machine .............................................. 17
1.2.2. Mơ hình mạng học sâu tích chập – Convolutional Neural Network ........ 20
1.2.3. Mơ hình ngơn ngữ BERT .......................................................................... 26
1.3. Phƣơng pháp biểu diễn từ ............................................................................ 32
1.4. Các cơng trình nghiên cứu trong và ngoài nƣớc .......................................... 34
Chƣơng 2: XÂY DỰNG DỮ LIỆU DỰA TRÊN Ý KIẾN PHẢN HỒI CỦA
SINH VIÊN ......................................................................................................... 37
2.1. Giới thiệu ...................................................................................................... 37
2.2. Gán nhãn dữ liệu .......................................................................................... 38
2.2.1. Mục tiêu của việc gán nhãn ....................................................................... 38
2.2.2. Quy trình gán nhãn .................................................................................... 39
2.3. Tài liệu hƣớng dẫn các nguyên tắc gán nhãn dữ liệu ................................... 40
1


2.3.1. Quy tắc gán nhãn khía cạnh: ..................................................................... 40
2.3.2. Quy tắc gán nhãn bài toán trạng thái cảm xúc .......................................... 44
2.4. Huấn luyện ngƣời gán nhãn ......................................................................... 45
2.5. Thống kê dữ liệu và đánh giá dữ liệu. .......................................................... 47
Chƣơng 3: KẾT QUẢ THỬ NGHIỆM TRÊN CÁC MƠ HÌNH MÁY HỌC VÀ
PHẦN MỀM PHÂN TÍCH TỰ ĐỘNG Ý KIẾN PHẢN HỒI CỦA SINH VIÊN
VỀ CHẤT LƢỢNG ĐÀO TẠO THEO KHÍA CẠNH ...................................... 49
3.1. Mơ hình máy học.......................................................................................... 49
3.2. Mơ hình học sâu ........................................................................................... 50
3.3. Mơ hình ngơn ngữ BERT ............................................................................. 52
3.4. Các mơ hình so sánh..................................................................................... 54
3.5. Chi tiết cài đặt mơ hình ................................................................................ 55




3.6. Kết quả thử nghiệm ...................................................................................... 56

uả

n

tr

3.6.1. Độ đo đánh giá .......................................................................................... 56

Q

3.6.2. Kết quả thử nghiệm ................................................................................... 57

gh

iệ

p

3.7. Phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng
đào tạo theo khía cạnh ......................................................................................... 61

tn

3.7.1. Ngơn ngữ lập trình .................................................................................... 61

tố

3.7.2. Mô tả ứng dụng ......................................................................................... 63


lu

ận

3.7.3. Chi tiết từng chức năng ............................................................................. 64

Kh
óa

3.7.3.1. Chức năng Đăng ký tài khoản ................................................................ 65
3.7.3.2. Chức năng Đăng nhập tài khoản ............................................................ 65
3.7.3.4. Chức năng Phân tích ý kiến theo giảng viên .......................................... 66
3.7.3.5. Chức năng Phân tích ý kiến theo học phần ............................................ 69
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .......................................................... 73
1. Kết luận ........................................................................................................... 73
2. Hƣớng phát triển ............................................................................................. 73
3. Kiến nghị ......................................................................................................... 74
3.1. Triển khai phần mềm vào thực tế ................................................................. 74
3.2. Phát triển phần mềm trong tƣơng lai............................................................ 74
TÀI LIỆU THAM KHẢO ................................................................................... 75

2


DANH MỤC BẢNG VIẾT TẮT
TT Chữ viết tắt
1 Phân hiệu
TP.HCM
2 NB


Giải thích
Phân hiệu Trƣờng đại học Nội vụ Hà Nội tại TP.HCM
Naive Bayes

3

NN

Neural Network

4

SVM

Support Vector Machine

5

LSTM

Long Short-Term Memory

6

CNN

Convolutional neural network

7


BiLSTM-CNN Bidirectional Long Short-Term Memory-Convolutional
Neural Network

8

BERT

Bidirectional
Transformers

9

ANN

Artificial Neural Networks

uả

n

tr



Representations

lu

ận


tố

tn

gh

iệ

p

Q

Term Frequency – Inverse Document Frequency

Kh
óa

10 Tf-idf

Encoder

3

from


DANH MỤC BẢNG BIỂU

Kh

óa

lu

ận

tố

tn

gh

iệ

p

Q

uả

n

tr



Bảng 2.1. Danh sách thống kê số lƣợng các khía cạnh trong bộ dữ liệu ............ 47
Bảng 3.1. Kết quả thực nghiệm các phƣơng pháp cho bài tốn phát hiện khía
cạnh trên tập kiểm tra .......................................................................................... 58
Bảng 3. 2. Kết quả thí nghiệm các phƣơng pháp cho bài tốn phát hiện khía cạnh

và trạng thái cảm xúc tƣơng ứng trên tập kiểm tra ............................................. 59

4


DANH MỤC HÌNH VẼ

Kh
óa

lu

ận

tố

tn

gh

iệ

p

Q

uả

n


tr



Hình 1. 1. Phần mềm Awario phân tích cảm xúc khách hàng ............................ 16
Hình 1. 2. Lịch sử phát triển của máy học .......................................................... 17
Hình 1. 3. Các mặt phẳng phân tách hai lớp ....................................................... 18
Hình 1. 4. Margin phân chia hai lớp .................................................................. 19
Hình 1.5. Kiến trúc mạng nơ-ron nhân tạo ......................................................... 20
Hình 1. 6. Cấu trúc trong từng nốt của mạng nơ-ron nhân tạo ........................... 21
Hình 1.7. Mơ tả q trình tính tốn tại tầng tích chập, sử dụng hàm kích hoạt
ReLu .................................................................................................................... 22
Hình 1.8. Kết quả sau khi đi qua lớp tổng hợp ................................................... 23
Hình 1. 9. Đồ thị hàm sigmoid ............................................................................ 24
Hình 1. 10. Đồ thị hàm ReLu .............................................................................. 25
Hình 1. 11. Đồ thị hàm Tanh............................................................................... 26
Hình 1. 12 . Mơ tả q trình sử dụng BERT để rút trích vector biểu diễn của văn
bản đầu vào.......................................................................................................... 27
Hình 1. 13. Mơ hình Transformer đƣợc đề xuất bởi tác giả Vaswani et al. [21].28
Hình 1.14. Mơ tả đầu vào của kiến trúc mơ hình BERT [2]. .............................. 30
Hình 1.15. Ví dụ biểu diễn 2 câu văn bản đầu vào của mơ hình BERT ............. 30
Hình 1.16. Mơ tả q trình Mơ hình mặt nạ ngơn ngữ [15]. .............................. 31
Hình 1. 17. Mơ tả q trình Dự đốn câu tiếp theo............................................. 31
Hình 1. 18. Các cách tinh chỉnh khác nhau dựa trên mơ hình BERT. ................ 32
Hình 2. 1. Quy trình xây dự bộ dữ liệu ............................................................... 39
Hình 3.1. Mơ hình đề xuất trong bài tốn phân loại văn bản.............................. 49
Hình 3.2. Kiến trúc mơ hình kết hợp BiLSTM-CNN cho bài tốn tích ý kiến
theo khía cạnh trên miền dữ liệu giáo dục .......................................................... 50
Hình 3. 3. Kiến trúc tinh chỉnh mơ hình BERT .................................................. 53
Hình 3. 4. Kết quả chi tiết từng khía cạnh và trạng thái cảm xúc của mơ hình kết

hợp BiLSTM-CNN trên tập kiểm tra .................................................................. 59
Hình 3.5. Kết quả chi tiết từng khía cạnh và trạng thái cảm xúc của mơ hình kết
hợp BERT trên tập kiểm tra. ................................................................................ 60
Hình 3.6. Mơ hình quan hệ dữ liệu ..................................................................... 62
Hình 3.7 . Sơ đồ luồng dữ liệu ............................................................................ 63
Hình 3.8. Sơ đồ quy trình thực hiện .................................................................... 63
Hình 3.9. Mơ hình phân cấp chức năng của phần mềm Vasf Soft ..................... 64
Hình 3.10. Giao diện phần mềm Vasf Soft ......................................................... 64
5


Kh
óa

lu

ận

tố

tn

gh

iệ

p

Q


uả

n

tr



Hình 3.11. Giao diện đăng ký tài khoản ............................................................. 65
Hình 3.12. Chức năng đăng nhập tài khoản ........................................................ 65
Hình 3.13. Chức năng thốt ................................................................................ 66
Hình 3.14. Chức năng phân tích ý kiến theo giảng viên ..................................... 66
Hình 3.15.Tải tập tin dữ liệu để phân tích........................................................... 67
Hình 3.16. Biểu đồ phần trăm khía cạnh đối với giảng viên .............................. 68
Hình 3.17. Bản đồ phần trăm cảm xúc theo khía cạnh đối với giảng viên ......... 68
Hình 3.18. Bảng phân tích cụ thể mỗi ý kiến của sinh viên đối với giảng viên . 69
Hình 3.19. Chức năng phân tích khía cạnh theo học phần ................................. 69
Hình 3.20. Tải tập tin dữ liệu ý kiến phản hồi của sinh viên đối với học phần......... 70
Hình 3.21. Biểu đồ phần trăm cảm xúc trên mỗi khía cạnh đối với học phần ... 71
Hình 3.22. Biểu đồ phần trăm cảm xúc theo mỗi khía cạnh đối với học phần ... 71
Hình 3.23. Bảng phân tích chi tiết ý kiến phản hồi của sinh viên đối với học phần . 72

6


MỞ ĐẦU
1. Tính cấp thiết
Để thực hiện chủ trƣơng của của Bộ Giáo dục và Đào tạo nhiều trƣờng đại
học và cao đẳng tại Việt Nam đang triển khai thực lấy ý kiến phản hồi của ngƣời
học về giảng viên và nhà trƣờng bằng nhiều hình thức khác nhau sau khi kết

thúc học phần hoặc kết thúc học kỳ [26]. Cũng nhƣ các trƣờng đại học khác từ
năm 2017 đến này Phân hiệu Trƣờng Đại học Nội vụ Hà nội TP.HCM (Phân
hiệu) đã tiến hành thực hiện lấy ý kiến phản hồi của sinh viên về chất lƣợng đào
tạo bằng cách gửi đƣờng liên kết phiếu khảo sát đến sinh viên sau khi kết thúc
học kỳ. Để lấy ý kiến phản hồi của sinh viên một cách chính xác, có độ tin cậy

n

tr



cao trong phiếu khảo sát của Phân hiệu đƣợc thiết kế 2 loại câu hỏi đó là câu hỏi

Q

uả

đóng và câu hỏi mở. Đối với ý kiến thu thập đƣợc từ câu hỏi đóng đƣợc Phân

iệ

p

hiệu xử lý và phân tích bằng phần mềm Excel, SPSS. Nhƣng đối với dữ liệu thu

gh

đƣợc từ câu hỏi mở thƣờng bị bỏ qua, chỉ đọc để biết, khơng đƣợc phân tích cụ


tố

tn

thể. Trong khi đó những ý kiến thu đƣợc từ câu hỏi mở chính là tâm tƣ, nguyện

ận

vọng, tình cảm, quan điểm…của sinh viên gửi cho Phân hiệu, việc phân tích

Kh
óa

lu

nguồn dữ liệu này rất cần thiết giúp cho Phân hiệu hiểu rõ khía cạnh mà sinh
viên quan tâm và cảm xúc của sinh viên đối với khía cạnh đó.
Các ý kiến phản hồi cho câu hỏi mở thƣờng là văn bản cho nên việc phân
tích theo cách thủ cơng sẽ gặp rất nhiều khó khăn, mất rất nhiều thời gian, kinh
phí và nhân lực, cho nên Phân hiệu cần phải có một phần mềm phân tích tự động
ý kiến phản hồi của sinh viên về chất lƣợng đào tạo cho nguồn dữ liệu thu thập
đƣợc từ các câu hỏi mở. Phần mềm sẽ thay cho con ngƣời thực hiện cơng việc
phân tích ý kiến phản hồi của sinh viên theo các khía cạnh và trạng thái cảm xúc
khác nhau. Bằng cách sử dụng phần mềm việc phân tích sẽ trở nên dễ dàng hơn,
giảm thời gian phân tích, giảm nguồn nhân lực thực hiện, và điều quan trọng là
phần mềm đƣa ra kết quả phân tích chính xác và có độ đồng nhất cao. Từ kết
quả phân tích của phần mềm giảng viên, lãnh đạo Phân hiệu thấy đƣợc bức tranh
tổng thể về các khía cạnh và cảm xúc của sinh viên đối với khía cạnh đó để từ
7



đó đƣa ra những giải pháp kịp tời nhầm nâng cao chất lƣợng đào tạo tại Phân
hiệu.
Với sự phát triển của các mơ hình máy học và học sâu, việc áp dụng các
cơng nghệ trí tuệ nhân tạo vào giải quyết các vấn đề thực tế đã đƣợc nghiên cứu
[7] [13] [16] [18]. Tuy nhiên vấn đề của các mô hình này là chúng ta sẽ phải xây
dựng các bộ dữ liệu đã đƣợc gán nhãn và lựa chọn đƣợc mơ hình phù hợp với dữ
liệu để nâng cao hiệu suất của mơ hình. Theo tìm hiểu của nhóm nghiên cứu,
hiện nay đã có bộ dữ liệu về ý kiến phản hồi của sinh viên nhƣng chƣa có bộ dữ
liệu ý kiến phản hồi của sinh viên theo khía cạnh trong miền dữ liệu giáo dục
dành cho tiếng Việt. Đồng thời, tại Phân hiệu hiện nay chƣa có phần mềm phân



tích tự động ý kiến phản hồi của sinh viên theo khía cạnh đối với nguồn dữ liệu

n

tr

thu đƣợc từ câu hỏi mở cho nên nhóm nghiên cứu chọn đề tài “Xây dựng phần

Q

uả

mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lượng đào tạo ở

iệ


p

Phân hiệu trường Đại học Nội vụ Hà Nội tại Thành phố Hồ Chí Minh” để thực

tố

ận

2. Mục tiêu của đề tài

tn

gh

hiện.

lu

- Xây dựng bộ dữ liệu gồm có 4.000 ý kiến phản hồi sinh viên theo khía

Kh
óa

cạnh (tiếng Việt).

- Nghiên cứu các phƣơng pháp máy học, học sâu để giải quyết bài tốn
Phân tích tự động ý kiến phản hồi của sinh viên.
- Xây dựng bản demo phần mềm phân tích tự động ý kiến phản hồi của
sinh viên về chất lƣợng đào tạo tại Phân hiệu TP.HCM.
3. Nhiệm vụ đề tài:

Nhiệm vụ của đề tài này bao gồm các nội dung nhƣ sau:
+ Nghiên cứu, khảo sát các cơng trình liên quan đến bài tốn Phân tích tự
động ý kiến trong nƣớc và trên thế giới.
+ Thu thập và gán nhãn một tập dữ liệu ý kiến phản hồi của sinh viên với
kích thƣớc ít nhất 4000 câu ý kiến phản hồi.
8


+ Thử nghiệm, đánh giá kết quả thử nghiệm của các phƣơng pháp máy
học, học sâu trên bộ dữ liệu đã xây dựng.
+ Tìm hiểu các ngơn ngữ lập trình, cơ sở dữ liệu để xây dựng bản demo
phần mềm Phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo
tại Phân hiệu TP.HCM.
4. Đối tƣợng, phạm vi nghiên cứu
- Đối tƣợng nghiên cứu: Các ý kiến phản hồi của sinh viên đƣợc thu thập
tại Phân hiệu TP.HCM và các nguồn khác, các mơ hình máy học.
- Phạm vi nghiên cứu:



+ Đề tài nghiên cứu xây dựng dữ liệu tiếng Việt cho bài toán phân tích ý

uả

n

tr

kiến theo khía cạnh với hai bài tốn con trong đó là: Phát hiện loại khía cạnh,


Q

Phát hiện cảm xúc cho loại khía cạnh.

gh

iệ

p

+ Phần mềm phân tích tự động các ý kiến phản hồi cho câu hỏi mở trong

tn

cuộc khảo sát về chất lƣợng đào tạo.

ận

tố

5. Phƣơng pháp nghiên cứu

Kh
óa

lu

- Phƣơng pháp phân tích các tài liệu thứ cấp: Đề tài tập hợp các bài báo,
các cơng trình nghiên cứu của các tác giả đi trƣớc cả trong và ngồi nƣớc có liên
quan đến chủ đề nghiên cứu, trong đó đặc biệt là chú trọng đến các nghiên cứu

liên quan đến bài tốn phân tích ý kiến theo khía cạnh.
- Phƣơng pháp thực nghiệm: Sử dụng phƣơng pháp thực nghiệm để xây
dựng bộ dữ liệu, thực nghiệm bộ dữ liệu với các mơ hình máy học và học sâu.
Thực nghiệm xây dựng phần mềm phân tích tự động ý kiến phản hồi của sinh
viên.
6. Ý nghĩa khoa học và ý nghĩa thực tiển
Chúng ta có thể thấy rằng vấn đề phân tích các ý kiến phản hồi của sinh
viên rất quan trọng giúp các nhà quản lý, giảng viên nhìn thấy một cách tổng
quan những vấn đề mà sinh viên phản hồi để cải thiện môi trƣờng học tập phù
hợp với mong muốn của sinh viên và xu thế phát triển của thế giới. Mặc khác,
9


xây dựng các hệ thống phân tích tự động sẽ giúp các nhà quản lý tiết kiệm chi
phí, thời gian hơn là việc thuê ngƣời làm thủ công mà vẫn không hiệu quả.
- Xây dựng bộ dữ liệu chuẩn trong miền giáo dục phục vụ cho việc nghiên
cứu các phƣơng pháp cho bài tốn xác định khía cạnh trên Tiếng Việt.
- Đánh giá các phƣơng pháp máy học khác nhau bằng cách so sánh kết
quả với các phƣơng pháp học sâu cho bài tốn xác định khía cạnh trên Tiếng
Việt.
- Kết quả nghiên cứu có thể tích hợp vào các phần mềm khảo sát đánh giá
chất lƣợng giáo dục giúp tăng thêm tính năng và tạo ra chuyên nghiệp cho phần
mềm.

n

tr




- Phần mềm tạo ra không những chỉ sử dụng đƣợc tại Phân hiệu mà cịn

Q

uả

có thể sử dụng đƣợc cho các cơ sở giáo dục đại học khác.

gh

iệ

p

7. Kết quả đề tài

tn

Đề tài đã đạt đƣợc những kết quả tóm tắt sau đây:

ận

tố

- Một bộ ngữ liệu chuẩn tiếng Việt với kích thƣớc là 5.100 ý kiến phản

lu

hồi đƣợc gán thủ cơng cho bài tốn phân tích ý kiến theo khía cạnh với độ đồng


Kh
óa

thuận giữa những ngƣời gán nhãn là 88,95% cho phát hiện khía cạnh và 80,52%
cho phát hiện khía cạnh và cảm xúc trên khía cạnh.
- Nghiên cứu, so sánh và thử nghiệm sự hiệu quả các phƣơng pháp học
máy NB, NN, SVM, LSTM, CNN, BiLSTM-CNN, BERT. Trong đó mơ hình
BERT cho kết quả hiệu quả tốt hơn so với các mơ hình khác với chỉ số F1 phát
hiện khía cạnh là 82,53% và phát hiện khía cạnh và trạng thái cảm xúc tƣơng
ứng 79,39%.
- Xây dựng phần mềm demo cơng nghệ web với các tính năng cần thiết
minh hoạ cho nghiên cứu mà nhóm nghiên cứu đã thực hiện.
- Một bài báo khoa học tại tạp chí chun ngành với thơng tin nhƣ sau:

10


“Sáu, Tôn Nữ Thị, Đỗ Phƣớc Sang, and Phạm Thị Thu Trang. "Phân tích
ý kiến theo khía cạnh trên bình luận phản hồi của sinh viên cho tiếng Việt."
TNU Journal of Science and Technology 226, no. 18 (2021): 48-55.”
8. Cấu trúc của đề tài
Chƣơng 1 - Cơ sở lý thuyết. Trình bày nội dung lý thuyết về lĩnh vực xử
lý ngơn ngữ tự nhiên, các mơ hình máy học, học sâu. Đồng thời đƣa ra các cơng
trình nghiên cứu có liên quan đến đề tài.
Chƣơng 2 - Xây dựng dữ liệu dựa trên ý kiến phản hồi của sinh viên.
Chƣơng này trình bày về q trình nhóm nghiên cứu xây dựng hƣớng dẫn gán
nhãn, các các giai đoạn trong quá trình xây dựng bộ dữ liệu.

n


tr



Chƣơng 3 – Kết quả thử nghiệm trên các mơ hình máy học và phần mềm

Q

uả

Phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo theo khía

iệ

p

cạnh. Trong chƣơng này nhóm nghiên cứu trình bày về các mơ hình mà nhóm

gh

nghiên cứu đã thử nghiệm. Đánh giá so sánh kết quả thử nghiệm của các mơ

tố

tn

hình trên bộ dữ liệu mà nhóm nghiên cứu xây dựng. Đồng thời trình bày về phần

lu
Kh

óa

khía cạnh.

ận

mềm Phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo theo

Cuối cùng, tổng kết lại các kết quả quan trọng trong đề tài mà nhóm
nghiên cứu đã nghiên cứu và thực hiện, đƣa ra các hạn chế và hƣớng phát triển
của đề tài.

11


Chƣơng 1: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
Trong chƣơng này, nhóm nghiên cứu sẽ trình bày tổng quan các cơ sở lý
thuyết về lĩnh vực xử lý ngơn ngữ tự nhiên và chi tiết bài tốn Phân tích ý kiến,
một số mơ hình máy học mà nhóm nghiên cứu sử dụng để thực nghiệm. Bên
cạnh đó liệt kê các cơng trình liên quan đến đề tài này.
1.1 Các khái niệm cơ bản
1.1.1. Xử lý ngôn ngữ tự nhiên
Từ khi có máy tính thì dữ liệu ngơn ngữ đã xuất hiện, khối dữ liệu ngôn
ngữ ngày càng trở nên khổng lồ khi internet phát triển vì bất cứ ngƣời nào cũng

tr



có thể tạo ra dữ liệu ngơn ngữ nhƣ tiếng nói hoặc văn bản. Đặc thù chính của


uả

n

kiểu dữ liệu ngơn ngữ là khơng có cấu trúc hoặc nửa cấu trúc và khơng thể phân

Q

tích ra các thuộc tính cụ thể để lƣu trữ trong các dịng và cột của bảng biểu. Với

gh

iệ

p

tham vọng làm sao cho máy tính đọc và hiểu đƣợc dữ liệu ngơn ngữ đó phân

tn

tích và đƣa ra các tri thức hữu ích để phục vụ cho quốc gia, cho doanh nghiệp,

tố

cho bản thân. Với tham vọng đó các nhà nghiên cứu trên thế giới đã quan tâm và

lu

ận


nghiên cứu các phƣơng pháp xử lý dữ liệu ngôn ngữ ngay từ cuối những năm

Kh
óa

1940 [1] và từ đó lĩnh vực nghiên cứu ngơn ngữ tự nhiên cũng xuất hiện.
Theo Liddy, E. D [9] q trình xử lý ngơn ngữ tự nhiên là một tập hợp các
kỹ thuật máy tính đƣợc vận hành một cách lý thuyết để phân tích và miêu tả
(đƣa ra, trình bày) các văn bản xuất hiện tự nhiên ở một hoặc nhiều cấp độ phân
tích ngơn ngữ nhằm mục đích đạt đƣợc q trình xử lý ngơn ngữ gần giống con
ngƣời xử lý cho một loạt các nhiệm vụ hoặc ứng dụng.
Đầu vào của bài tốn Xử lý ngơn ngữ tự nhiên là dữ liệu ngôn ngữ đầu ra
là những vấn đề con ngƣời cần ví dụ nhƣ dịch văn bản đầu vào thành một ngôn
ngữ khác, trả lời các câu hỏi về nội dung của văn bản đầu vào hoặc rút ra suy
luận từ văn bản đầu vào.v.v…
Trong thực tế dữ liệu ngơn ngữ có hai loại đó tiếng nói và chữ viết, tƣơng
đƣơng với hai vai trị đó là vai trị của ngƣời đọc và vai trị của ngƣời nghe. Cho
12


nên trong lĩnh vực xử lý ngôn ngữ tự nhiên cũng chia làm hai lĩnh vực nhỏ bên
trong là xử lý văn bản và xử lý tiếng nói. Một số ứng dụng tiêu biểu trong lĩnh
vực xử lý ngôn ngữ tự nhiên đó là phân loại văn bản, tìm kiếm và truy xuất
thơng tin, dịch máy, tóm tắt văn bản tự động, hay kiểm tra lỗi chính tả tự động
và nhận dạng tiếng nói, chuyển từ tiếng nói sang chữ viết và ngƣợc lại.
1.1.2. Bài tốn Phân tích ý kiến
Theo từ điển Lạc Việt ý kiến là điều suy nghĩ, cách đánh giá riêng của
mỗi ngƣời về một vấn đề nào đó. Phân tích là phân chia các thành phần quan
trọng, khía cạnh nổi bật của một đối tƣợng ra thành các yếu tố.


tr

n

một vấn đề nào đó ra các thành phần quan trọng.



Phân tích ý kiến có nghĩa là phân tích các đánh giá của một cá nhân về

Q

uả

Phân tích ý kiến (opinion analysis) hay cịn gọi phân tích tình cảm

iệ

p

(sentiment analysis) là một lĩnh vực nghiên cứu, nó có liên quan chặt chẽ đến

gh

(hoặc có thể đƣợc coi là một phần của) ngơn ngữ học tính tốn, xử lý ngôn ngữ

tố

tn


tự nhiên và khai thác văn bản. Từ những năm đầu của thế kỷ 21 phân tích ý kiến

ận

đã đƣợc các nhà nghiên cứu trên thế giới tập trung nghiên cứu và cho đến nay

Kh
óa

lu

cũng có nhiều kết quả nghiên cứu đƣợc ứng dụng vào thực tiễn [14].
Mục tiêu của bài tốn phân tích ý kiến là xác định tình cảm hoặc quan
điểm hoặc mức độ phân cực tình cảm có trong các ý kiến đầu vào. Các các trạng
thái tình cảm ví dụ nhƣ là vui, buồn, tức giận, phẫn nộ hoặc yêu, thích, ghét,
căm thù. Các mức độ phân cực nhƣ là tích cực, tiêu cực, bình thƣờng.
Phân tích ý kiến khơng những đƣợc các nhà nghiên cứu quan tâm nghiên
cứu và phát triển mà còn đƣợc các doanh nghiệp thƣơng mại ứng dụng trong
nhiều lĩnh vực khác nhau nhƣ phân loại cảm xúc, thái độ ngƣời dùng thông qua
đánh giá của họ về sản phẩm, dịch vụ của doanh nghiệp trên trang các trang
thƣơng mại điện tử, trên trang mạng xã hội giúp các doanh nghiệp nắm bắt đƣợc
thái độ, tình cảm của khách hàng đối với những sản phẩm, dịch vụ mà họ đang
cung cấp trên thị trƣờng để từ đó họ đƣa ra những chính sách tốt hơn nhằm cải
thiện hoạt động kinh doanh của doanh nghiệp mình. Một ứng dụng khác của bài
13


tốn phân tích ý kiến là ứng dụng chatbox để xác định là trạng thái cảm xúc hiện
tại của đối phƣơng là gì.

Hiện nay, bài tốn phân tích cảm xúc có ba cấp độ đó là cấp độ câu văn
(sentence-level), văn bản (document-level), và khía cạnh (aspect-level).
- Mức độ văn bản (Document level): xác định cảm xúc hoặc quan điểm
của toàn bộ văn bản hoặc một đoạn văn bản.
- Mức độ câu (Sentence level): xác định cảm xúc hoặc quan điểm cho
một câu đơn riêng lẻ.
- Mức độ cụm từ (Phrase level): xác định cảm xúc hoặc quan điểm cho
từng cụm từ nhỏ ở trong một câu.

n

tr



1.1.3. Bài toán phân tích ý kiến theo khía cạnh

Q

uả

Bài tốn phân tích ý kiến chủ yếu tập trung giải quyết vấn đề một cách

iệ

p

chung chung là đƣa văn bản ý kiến đầu vào phân tích ra cảm xúc hoặc quan

gh


điểm của các ý kiến đó. Tuy nhiên, trên thực tế khi ta nghiên cứu bộ dữ liệu các

tố

tn

ý kiến về một lĩnh vực nào đó ví dụ bộ dữ liệu ý kiến về nhà hàng, bộ dữ liệu ý

ận

kiến về khách sạn, bộ ý kiến phản hồi của sinh viên về chất lƣợng đào tạo,

Kh
óa

lu

.v.v… lúc đó ta sẽ thấy rằng, có ý kiến chỉ nói về một khía cạnh nào đó cụ thể,
nhƣng có ý kiến lại đề cập đến nhiều khía cạnh khác nhau và mỗi khía cạnh lại
có một trạng thái cảm xúc hoặc mức độ cảm xúc khác nhau. Nếu nhƣ chúng ta
chỉ phân tích ý kiến đó theo mức độ cảm xúc tích cực, tiêu cực hoặc trung tính
thì sẽ khơng chính xác. Ví dụ khi phân tích một ý kiến phản hồi của sinh viên
“Thầy dạy khó hiểu nhƣng đƣợc cái thầy hay giúp đỡ sinh viên” về chất lƣợng
đào tạo thì chúng ta sẽ thấy rằng trong câu này đề cập đến hai khía cạnh, khía
cạnh thứ nhất là kỹ năng giảng dạy của thầy, khía cạnh thứ hai là hành vi của
thầy và ta dễ dàng nhìn thấy rằng đối với khía cạnh kỹ năng giảng dạy của thầy
là tiêu cực còn hành vi của thầy là tích cực. Nếu trong trƣờng hợp này chúng ta
cho ý kiến này là tiêu cực cũng khơng chính xác, mà tích cực cũng khơng chính
xác. Từ nhu cầu thức tế bài tốn phân tích ý kiến theo khía cạnh ra đời và đƣợc

nhiều nhà nghiên cứu quan tâm.
14


Bài tốn phân tích ý kiến theo khía cạnh (aspect based opinions analysis)
hay cịn gọi là bài tốn phân tích cảm xúc theo khía cạnh (aspect based
sentiment analysis) với mục tiêu chính là xác định khía cạnh có trong ý kiến, sau
đó xác định cảm xúc cho khía cạnh đó.
Đầu vào của bài tốn phân tích ý kiến theo khía cạnh: Là văn bản ý
kiến.
Đầu ra của bài toán phân tích ý kiến theo khía cạnh: Là các khía cạnh
đƣợc đề cập trong ý kiến và cảm xúc của các khía cạnh đó. Bộ khía cạnh đƣợc
định nghĩa sẵn trƣớc đó.
Từ ví dụ trên cho thấy bài tốn phân tích ý kiến theo khía cạnh là có sự

tr



khác biệt với bài tốn phân tích ý kiến. Bài tốn phân tích ý kiến theo khía cạnh

uả

n

là phân tích văn bản ra các khía cạnh khác nhau, sau đó xác định trạng thái cảm

p

Q


xúc của mỗi khía cạnh có xuất hiện ở trong ý kiến

gh

iệ

Hiện nay phân tích cảm xúc đƣợc rất nhiều doanh nghiệp quan tâm và xây

tn

dựng ứng dụng để đo lƣờng sức khoẻ thƣơng hiệu, quảng bá thƣơng hiệu nhƣ

ận

tố

Awario, Brandwatch, Talkwalke... Kết quả phân tích từ các phần mềm này sẽ

lu

giúp cho doanh nghiệp phát hiện ra những vấn đề khách hàng đánh giá tốt và

Kh
óa

chƣa tốt để doanh nghiệp có kế hoạch cải tiến phù hợp với từng vấn đề.

15



n

tr



Hình 1. 1. Phần mềm Awario phân tích cảm xúc khách hàng

iệ

p

Q

uả

Nguồn: />
tn

gh

1.1.4. Máy học.

ận

tố

Kể từ khi tiến hoá con ngƣời đã biết sử dụng các vật liệu có sẵn trong


lu

thiên nhiên nhƣ đá, cây làm những công cụ đơn giản để săn, bắt, hái, lƣợm. Với

Kh
óa

sự sáng tạo của bộ não con ngƣời đã phát minh ra các máy móc. Những chiếc
máy này đã làm cho cuộc sống của con ngƣời trở nên dễ dàng bằng cách cho
phép mọi ngƣời đáp ứng các nhu cầu cuộc sống khác nhau, bao gồm du lịch, các
ngành cơng nghiệp và máy tính. Và học máy là một trong số họ.
Tác giả Arthur Samuel [15] đã định nghĩa máy học là lĩnh vực nghiên
cứu cung cấp cho máy tính khả năng học hỏi mà khơng đƣợc lập trình rõ ràng.
Học máy dựa trên các thuật toán khác nhau để giải quyết vấn đề dữ liệu. Các nhà
khoa học dữ liệu muốn chỉ ra rằng có khơng có loại thuật tốn duy nhất nào phù
hợp để giải quyết tất cả vấn đề. Loại thuật toán đƣợc sử dụng phụ thuộc vào loại
vấn đề bạn muốn giải quyết, số lƣợng các biến, loại mơ hình phù hợp nhất với
nó, v.v.
16


Học máy có ứng dụng rộng khắp trong các ngành khoa học sản xuất, đặc
biệt là những ngành phân tích đối tƣợng dữ liệu khổng lồ nhƣ: Xử lý ngôn ngữ
tự nhiên (natural language processing), Máy tìm kiếm (search engine), nhận diện

p

Q

uả


n

tr



hình ảnh (computer vision)

gh

iệ

Hình 1. 2. Lịch sử phát triển của máy học

tn

Nguồn: />
ận

tố

Trong những năm gần đây, công nghệ phần cứng máy tính đƣợc nâng lên

lu

tầm cao mới vì thế hiện nay chúng ta có đƣợc thế hệ máy tính với khả năng tính

Kh
óa


tốn siêu tốc và khả năng lƣu trữ lớn. Vì sở hữu đƣợc hệ thống siêu máy tính
cho nên các hãng cơng nghệ lớn thu thập đƣợc khối dữ liệu khổng lồ. Cùng với
sự phát triển vƣợt bậc của công nghệ phần cứng, phần mềm, máy học cũng đã
tiến thêm một bƣớc dài và đóng góp quan trọng trong các bài tốn khác nhau,
trong lĩnh vực khác nhƣ xử lý ảnh, xử lý ngôn ngữ hay các kỹ thuật y sinh. Từ
đó cho thấy rằng máy học đóng một vai trị nền tảng trong sự phát triển của
ngành trí tuệ nhân tạo trên thế giới hiện nay.
1.2. Một số mơ hình máy học và học sâu
1.2.1. Mơ hình máy học Support Vector Machine
Support Vector Machine – SVM [1] là một thuật toán máy học giám sát
đƣợc sử dụng cho cả bài toán phân lớp (classification) và hồi quy (regression).
17


Tuy nhiên, SVM chủ yếu sử dụng trong bài toán phân lớp. Hiện nay, SVM đƣợc
xem là một thuật toán mạnh mẽ trong lĩnh vực máy học.
Giả sử chúng ta có hai phân lớp khác nhau đƣợc mơ tả bởi các điểm trong
không gian nhiều chiều. Yêu cầu chúng ta phải tìm kiếm đƣợc một mặt phẳng để
phân loại chính xác hai phân lớp đó, nghĩa là mặt phẳng đó sẽ phân tách đƣợc
các điểm ở cùng phân lớp sẽ nằm trên cùng một phía của mặt phẳng và hai phân
lớp khác nhau sẽ nằm ở trên hai phía khác nhau của mặt phẳng. Trong Hình 1.3,
chúng ta có thể thấy có rất nhiều mặt phẳng đƣợc tìm thấy có thể giải quyết

Kh
óa

lu

ận


tố

tn

gh

iệ

p

Q

uả

n

tr



đƣợc bài tốn trên.

Hình 1. 3. Các mặt phẳng phân tách hai lớp

Nguồn: />Tuy nhiên, trong các mặt phẳng đó, chúng ta cần tìm mặt phẳng có thể
phân chia tốt nhất và hiệu quả nhất. Mặt phẳng tốt nhất cần tìm là mặt phẳng
phân chia sao cho khoảng cách từ điểm gần nhất của các phân lớp tới mặt phẳng
là bằng nhau và khoảng cách đó đƣợc gọi là margin. Đồng thời, chúng ta cần
một mặt phẳng mà margin là lớn nhất thì sẽ mang lại khả năng phân lớp tốt hơn.

Thuật toán SVM đƣợc phát triển từ việc tìm kiếm ra siêu mặt phẳng sao cho
margin là lớn nhất.

18


n

tr



Hình 1. 4. Margin phân chia hai lớp

Q

uả

Nguồn: />
iệ

p

Giả sử chúng ta có một mẫu huấn luyện xi (i € {1, 2, …, n}) và giá trị của

gh

nhãn yi € {-1, 1}. Theo thuật tốn SVM sẽ tìm ra một siêu mặt phẳng mà phân

tố


tn

tách đƣợc hai phân lớp và có margin là lớn nhất. Phƣơng trình siêu mặt phẳng

Kh
óa

lu

ận

cần tìm:

Một siêu phẳng tách biệt ở dạng chính tắc thỏa mãn các ràng buộc sau:
[

]

{

}

Khoảng cách từ điểm xi đến siêu mặt phẳng (W, b) sẽ đƣợc tính theo cơng
thức:
|

|
|| ||


Margin cho siêu mặt phẳng (W, b) sẽ đƣợc tính tốn theo cơng thức sau:
(

)

Bài tốn tối ƣu trong SVM chính là bài tốn tìm W và b để margin đạt giá
trị lớn nhất và thỏa ràng buộc (2.2):
19


{

}

{
|
{

|

(
|

|

|| ||

|| ||

{

(|
|| ||

|

)}

}

|

| )}

{
}
|| ||
Sau khi tìm đƣợc siêu mặt phẳng phân cách

= 0, phân lớp

(class) cho một ngữ liệu mới sẽ đƣợc xác định đơn giản nhƣ sau:

tr



Trong đó hàm sgn là hàm xác định dấu, nhận giá trị 1 nếu đối số là không

Q


uả

n

âm và -1 nếu ngƣợc lại.

iệ

p

1.2.2. Mơ hình mạng học sâu tích chập – Convolutional Neural

tn

gh

Network

tố

Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN) [8] đƣợc ra

lu

ận

đời xuất phát từ ý tƣởng mô phỏng hoạt động của não bộ con ngƣời là mạng lƣới

Kh
óa


thần kinh đƣợc liên kết đầy đủ giữa các lớp với nhau. Kiến trúc của một mạng
nơ-ron nhân tạo gồm ba thành phần: lớp đầu vào, các lớp ẩn và lớp đầu ra. Trên
mỗi lớp có các nốt đƣợc thể hiện nhƣ các nơ-ron thần kinh, mỗi nốt trong một
lớp thì liên kết với tất cả các nốt trong lớp tiếp theo. Trong một mạng nơ-ron
nhân tạo thì số lớp ẩn là không giới hạn và số lƣợng các nốt trên mỗi lớp cũng
khơng giới hạn.

Hình 1.5. Kiến trúc mạng nơ-ron nhân tạo
20


Nếu chúng ta tiến hành đi sâu vào xem xét từng nốt trong các lớp của
mạng nơ-ron nhân tạo, chúng ta sẽ thấy đƣợc rằng, độ lớn trọng số của nốt hiện
đang xét sẽ là tổng các độ lớn trọng số của các nốt thuộc lớp đầu vào trƣớc đó và
chuyển qua hàm kích hoạt phi tuyến tính để tính toán trọng số. Các nốt này đƣợc
xem là đầu ra của lớp trƣớc đó và đồng thời cũng là đầu vào cho các lớp tiếp
theo. Trong quá trình huấn luyện, mạng nơ-ron thần kinh sẽ tiến hành tính tốn

tố

tn

gh

iệ

p

Q


uả

n

tr



và tối ƣu hóa các trọng số đối với từng nốt trong mạng.

ận

Hình 1. 6. Cấu trúc trong từng nốt của mạng nơ-ron nhân tạo

Kh
óa

lu

Nguồn: />Mạng nơ-ron tích chập (convolutional neural network - CNN) là một
trong những phƣơng pháp đƣợc áp dụng nhiều nhất trong lĩnh vực xử lý ảnh
(computer vision) để giải quyết các bài tốn nhƣ nhận dạng hình ảnh, phân loại
hình ảnh, phát hiện đối tƣợng, nhận diện khn mặt,…v.v. CNN đƣợc xây dựng
từ ba ý tƣởng chính: trƣờng tiếp nhận cục bộ (local receptive fields), chia sẻ
trọng số (shared weights) và tổng hợp (pooling). CNNs bao gồm một vài tầng
tích chập kết hợp với các hàm kích hoạt phi tuyến (nonlinear activation
function) để tạo ra thông tin trừu tƣợng hơn cho các tầng tiếp theo
- Lớp tích chập (convolution layer): Mục đích của tầng này là trích xuất
các đặc trƣng tƣơng ứng với đầu vào. Từ ý tƣởng trƣờng tiếp nhận cục bộ, sẽ

tiến hành chọn lựa một bộ lọc để tìm và lấy ra những thơng tin quan trọng từ đầu
21


vào và thu nhỏ số chiều cho những lớp ẩn tiếp theo. Để tính tốn các giá trị đầu
ra cho các vùng lọc chúng ta sẽ dùng đến các hàm kích hoạt. Một số hàm kích
hoạt đƣợc sử dụng hiện nay là ReLU, hàm kích hoạt Tanh hay Sigmoid. Hiện
nay, hàm kích hoạt ReLU đƣợc sử dụng nhiều hơn so với các hàm cịn lại. Hình
1.7 sẽ mơ tả q trình tính tốn tại tầng tích chập, sử dụng hàm kích hoạt ReLu

tố

tn

gh

iệ

p

Q

uả

n

tr




để tính tốn và sử dụng bƣớc trƣợt cho bộ lọc là 1.

lu

ận

Hình 1.7. Mơ tả q trình tính tốn tại tầng tích chập,

Kh
óa

sử dụng hàm kích hoạt ReLu

+ Hàm kích hoạt ReLu: ReLU là hàm kích hoạt phổ biến nhất cho CNN
và đƣợc ƣa chuộng vì tính tốn đơn giản, giúp hạn chế tình trạng Gradient biến
mất (vanishing gradient), và cũng cho kết quả tốt hơn. ReLu cũng nhƣ các hàm
kích hoạt khác, đƣợc đặt ngay sau tầng tích chập, ReLu sẽ gán những giá trị âm
bằng 0 và giữ nguyên giá trị của đầu vào khi lớn hơn 0. ReLU cũng có một số
vấn đề tiềm ẩn nhỏ khơng có đạo hàm tại điểm 0, giá trị của hàm ReLU có thể
lớn đến vơ cùng và nếu chúng ta không khởi tạo trọng số cẩn thận, hoặc khởi tạo
tham số Learning rate quá lớn thì những nơ-ron ở tầng này sẽ rơi vào trạng thái
chết, tức là ln có giá trị < 0.
- Lớp tổng hợp (Pooling layer): Sau tầng tích chập sẽ thực hiện tầng
tổng hợp để giảm số chiều đặc trƣng đầu vào và đồng thời cũng giữ lại các thông
22


tin quan trọng từ ngữ liệu đầu vào. Khi giảm số lƣợng chiều đi thì cho phép
giảm số lƣợng tham số, rút ngắn thời gian huấn luyện và hạn chế “học tủ”
(overfitting). Cơ chế của tầng tổng hợp tƣơng tự nhƣ tầng tích chập, cũng tiến

hành sử dụng một bộ lọc trƣợt qua ngữ liệu đầu vào và trích xuất ra các đặc
trƣng cần thiết trong vùng bộ lọc đó. Thế nhƣng, trái với bộ lọc tại tầng tích
chập, bộ lọc ở tầng tổng hợp sẽ không chứa các tham số. Hiện nay, phƣơng pháp
đƣợc sử dụng phổ biến ở tầng tổng hợp là phép tổng hợp lớn nhất (maxpooling:
chỉ lấy giá trị cao nhất trong vùng của bộ lọc đi qua). Ngồi ra, cịn có phƣơng
pháp phép tổng hợp trung bình (averagepooling: tính tốn giá trị trung bình

tố

tn

gh

iệ

p

Q

uả

n

tr



trong vùng bộ lọc đi qua).

lu


ận

Hình 1.8. Kết quả sau khi đi qua lớp tổng hợp

Kh
óa

Nguồn: a/cc4ae912-a9ce-4815-a3ca-e859999432af.png.
- Lớp kết nối đầy đủ (fully connected layer): Kiến trúc của tầng liên kết
đầy đủ tƣơng tự nhƣ kiến trúc của mạng nơ-ron nhân tạo đƣợc trình bày ở phần
đầu tiên. Kết quả đầu ra của cả hai tầng tích chập và tầng tổng hợp đều là các ma
trận ở dạng hai chiều hoặc 3 chiều. Trong khi đó, đầu ra mong muốn của hệ
thống là một vector một chiều. Để giải quyết vấn đề này trong tầng liên kết đầy
đủ, đầu tiên chúng ta tiến hành làm phẳng đầu ra ở lớp tổng hợp cuối cùng thành
một vector và vector này chính là đầu vào của các lớp liên kết đầy đủ. Lớp cuối
cùng trong tầng liên kết đầy đủ chính là đầu ra của bài tốn đƣợc quan tâm đến.
+ Hàm kích hoạt: Trong một mạng nơ-ron nhân tạo hàm kích hoạt
(activation function) đóng vai trị là thành phần phi tuyến tại đầu ra của các nơron. Hàm kích hoạt mơ phỏng tỷ lệ truyền xung qua axon của một neuron thần
23


×