ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
LƯU TUẤN THÀNH
PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TỐN TRÍCH CHỌN
THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN
THOẠI DI ĐỘNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SỸ
BÌNH DƯƠNG – 2021
ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
LƯU TUẤN THÀNH
PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TỐN TRÍCH CHỌN
THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN
THOẠI DI ĐỘNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SỸ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGƠ THANH HÙNG
BÌNH DƯƠNG – 2021
LỜI CAM ĐOAN
Tôi là Lưu Tuấn Thành, học viên lớp CH17HT, ngành Hệ thống thông tin,
trường Đại học Thủ Dầu Một. Tôi cam đoan, luận văn “Phương pháp học bán
giám sát cho bài tốn trích chọn thơng tin và ứng dụng trích chọn thực thể tên điện
thoại di động” là cơng trình nghiên cứu của riêng cá nhân tơi, dưới sự hướng dẫn
của TS. Ngô Thanh Hùng. Luận văn không do tơi tự nghiên cứu, tìm hiểu, đọc,
dịch tài liệu, tổng hợp và thực hiện. Nội dung Cơ sở lý thuyết được đút kết từ các
cơng trình nghiên cứu trước và được biên mục trong phần tài liệu tham khảo. Các
số liệu, chương trình phần mềm và những kết quả trong luận văn là trung thực và
chưa được công bố trong bất kỳ một cơng trình nào khác. Tơi xin chịu trách nhiệm
về lời cam đoan này.
Bình Dương, ngày 10 tháng 10 năm 2021
Người viết luận văn
Lưu Tuấn Thành
LỜI CẢM ƠN
Trong quá trình thực hiện luận văn “Phương pháp học bán giám sát cho bài
tốn trích chọn thơng tin và ứng dụng trích chọn thực thể tên điện thoại di động”
tơi đã được sự hướng dẫn nhiệt tình của TS. Ngô Thanh Hùng. Thầy đã dành nhiều
thời gian hướng dẫn, góp ý để tơi hồn thiện đề tài. Trong q trình nghiên cứu
thầy ln động viên tinh thần, định hướng cho tơi trong những lúc khó khăn khi
nghiên cứu. Tơi chân thành cảm ơn.
Tơi cũng bày tỏ lịng biết ơn sâu sắc đến các thầy cô đã giảng dạy tơi tận
tình, thầy Bùi Thanh Hùng đã truyền đạt những kiến thức bổ ích cho tơi trong suốt
thời gian học tại trường Đại học Thủ Dầu Một đã tạo điều kiện tốt nhất để tơi hồn
thành luận văn này.
Sau cùng, tôi cũng xin gửi lời cảm ơn đến gia đình, đồng nghiệp, các anh
chị học chung lớp đã đồn kết, sát cánh giúp đỡ, động viên tôi trong suốt thời gian
học vừa qua.
Một lần nữa, tôi xin Trân trọng cảm ơn.
Bình Dương, ngày 10 tháng 10 năm 2021
Người viết luận văn
LƯU TUẤN THÀNH
II
TÓM TẮT LUẬN VĂN
Trong thời đại khoa học - kỹ thuật như hiện nay, thời đại của cách mạng
khoa học 4.0, với sự phát triển về mọi mặt của đời sống từ văn hóa, giáo dục cho
đến cơng nghệ trong đó lĩnh vực cơng nghệ thơng tin đã tạo ra các sản phẩm trí tuệ
nhân tạo, robot cơng nghệ và máy móc đang dần thay thế con người. Nhu cầu giao
tiếp, thương mại điện tử và tìm kiếm thơng tin rất lớn, vì thế một số ứng dụng xử
lý ngơn ngữ tự nhiên như tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất
thơng tin và trả lời câu hỏi tự động ngày càng phát triển. Những ứng dụng này
được phát triển dựa trên nền tảng của một số các tác vụ xử lý ngơn ngữ tự nhiên.
Trích chọn tên điện thoại di động trong văn bản đã được nghiên cứu trên nhiều
ngôn ngữ như tiếng Anh, tiếng Nhật, tiếng Trung,… bằng nhiều phương pháp khác
nhau và đã đạt được nhiều kết quả khả quan. Các phương pháp học máy trước đây
như SVM, Cây quyết định, … cho kết quả phân loại cũng khá tốt.
Luận văn với đề tài “Phương pháp học bán giám sát cho bài tốn trích chọn
thơng tin và ứng dụng trích chọn thực thể tên điện thoại di động” dựa trên những
nghiên cứu trước đây để đề xuất nghiên cứu và phát triển một hệ thống nhận diện
tên riêng tiếng Việt (ViNER) bằng cách kết hợp các đặc trưng cú pháp tự động với
các từ nhúng được huấn luận sẵn làm đầu vào cho Bộ nhớ ngắn dài hai chiều
(BiLSTM). Phương pháp huấn luyện hệ thống này trên tập dữ liệu mà tôi crawl từ
hàng trăm bài báo khác nhau. Bộ dữ liệu này gồm 3 tập dữ liệu huấn luyện, phê
chuẩn và kiểm tra. Mỗi tập dữ liệu gồm 4 cột: Từ hoặc từ ghép, POS, CHUNK và
TAG.
Sau khi huấn luyện và đánh giá thực nghiệm hệ thống trên nhiều khía cạnh
khác nhau bằng Độ đo chính xác (Accuracy), tơi nhận thấy hệ thống kết hợp các
đặc trưng cú pháp tự động với các từ nhúng được huấn luận sẵn làm đầu vào cho
Bộ nhớ ngắn dài hai chiều (BiLSTM) cho kết quả cao nhất đạt 74,04%.
Luận văn cũng xây dựng một ứng dụng web trích xuất trực quan, nhận diện
tên điện thoại di động cho một đoạn văn bản do người dùng nhập vào.
I
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................. I
LỜI CẢM ƠN .................................................................................................................. II
TÓM TẮT LUẬN VĂN ...................................................................................................
DANH MỤC VIẾT TẮT ..................................................................................................
DANH MỤC CÁC BẢNG ...............................................................................................
DANH MỤC HÌNH VẼ, ĐỒ THỊ ..................................................................................
CHƯƠNG I
GIỚI THIỆU CHUNG .................................................................................................... 1
1.1. Lí do thực hiện đề tài ................................................................................ 1
1.2. Mục tiêu nghiên cứu ................................................................................. 2
1.3. Đối tượng, phạm vi nghiên cứu ................................................................ 2
1.4. Phương pháp nghiên cứu .......................................................................... 3
1.5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài ..................................... 3
1.5.1. Ý nghĩa khoa học............................................................................... 3
1.5.2. Ý nghĩa thực tiễn ............................................................................... 4
1.6. Bố cục luận văn ........................................................................................ 4
CHƯƠNG II
CƠ SỞ LÝ THUYẾT...................................................................................................... 5
2.1. Xử lý ngôn ngữ tự nhiên ........................................................................... 5
2.1.1. Tách từ (ViTokenizer) ....................................................................... 7
2.1.2. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging) 8
2.1.3. Xác định cụm từ (Chunking) ............................................................. 9
2.1.4. Phân tích cú pháp (Parsing)............................................................. 12
2.2. Các phương pháp biểu diễn từ dưới dạng vector.................................... 13
2.2.1. Biểu diễn túi từ - Bag of words ....................................................... 13
2.2.2 Biểu diễn One-hot-vector ................................................................. 14
2.2.3. Túi từ liên tục - CBOW ................................................................... 18
II
2.2.4. Skip gram ........................................................................................ 21
2.3. Học sâu - Deep Learning ........................................................................ 25
2.3.1. Mạng nơ ron nhân tạo (ANN) ......................................................... 26
2.3.2. Mạng nơ-ron hồi quy RNN (Recurrent Neural Network) ............... 32
2.3.3. Bộ nhớ dài-ngắn LSTM (Long-short term memory) ...................... 34
2.3.4. Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short
term memory) ............................................................................................ 39
2.4. Phương pháp học bán giám sát ............................................................... 40
2.4.1 Học có giám sát ............................................................................... 41
Ví dụ về học giám sát ................................................................................ 42
2.4.2. Học bán giám sát ............................................................................ 43
2.5. Xác định thực thể tên điện thoại di động ................................................ 43
2.5.1. Tổng quan về bài tốn Trích chọn thực thể tên điện thoại di động. 43
2.5.2. Hướng tiếp cận nghiên cứu ............................................................. 44
2.5.3. Các nghiên cứu gần đây .................................................................. 44
2.5.4. Đề xuất hướng nghiên cứu .............................................................. 45
CHƯƠNG III
MƠ HÌNH ĐỀ XUẤT.................................................................................................. 47
3.1. Tổng quan mơ hình đề xuất .................................................................... 47
3.2. Các đặc trưng của mơ hình đề xuất ........................................................ 48
3.2.1. Từ nhúng – Word embeddings ........................................................ 48
3.2.2. Các đặc trưng cú pháp ..................................................................... 50
3.3. Trích chọn tên thực thể điện thoại di động ............................................. 50
3.3.1 Mơ hình học sâu trong bài tốn trích chọn tên điện thoại di động... 52
3.3.2. Trích chọn tên điện thoại di động ................................................... 55
3.4. Cách đánh giá: ........................................................................................ 55
CHƯƠNG IV
THỰC NGHIỆM ........................................................................................................... 57
4.1. Môi trường thực nghiệm ......................................................................... 57
III
4.2. Dữ liệu thực nghiệm ............................................................................... 57
4.2.1. Thu thập dữ liệu .............................................................................. 57
4.2.2.
Xử lý dữ liệu ................................................................................ 58
4.3. Kết quả Thực nghiệm ............................................................................. 62
4.3.1 Trích xuất đặc trưng ......................................................................... 62
4.3.2 Thực nghiệm giữa phương pháp LSTM và BiLSTM với đặc trưng
từ ................................................................................................................ 62
4.3.3 Thực nghiệm BiLSTM với đặc trưng từ và số vòng huấn luyện khác
nhau ........................................................................................................... 63
4.3.4 Thực nghiệm phương pháp sử dụng các lớp BiLSTM với đặc trưng
từ ................................................................................................................ 63
4.3.5 Thực nghiệm phương pháp BiLSTM với đặc trưng từ và tỉ lệ
Dropout khác nhau .................................................................................... 64
4.4. Xây dựng ứng dụng Web trực quan hóa kết quả .................................... 65
4.4.1 Thiết kế Xây dựng Web: .................................................................. 65
CHƯƠNG V
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................. 70
5.1. Kết quả đạt được ..................................................................................... 70
5.2. Hướng phát triển ..................................................................................... 70
TÀI LIỆU THAM KHẢO .......................................................................................... 72
IV
DANH MỤC VIẾT TẮT
Từ viết tắt
Từ chuẩn
Diễn giải
BiLSTM
Bidirectional Long short-
Mạng nơ ron bộ nhớ ngắn – dài song
term memory
song
CBOW
Continuous Bag of Words
Túi từ liên tục
CHUNK
Chunking
Tách câu thành các cụm từ (Cụm
danh từ, cụm động từ, …)
LSTM
Long short-term memory
Mạng nơ ron bộ nhớ ngắn – dài
MISC
Miscellaneous
Tên riêng khác không thuộc Org
ML
Machine learning
Học máy
NER
Named Entity Recognition
NLP
Natural
Languague
Processing
Nhận diện thực thể được đặt tên hay
nhận diện tên riêng
Xử lý ngôn ngữ tự nhiên
ORG
Organization
Tên điện thoại di động chỉ tổ chức
POS
Part-of-Speech
Từ loại (N, A, R, …)
RNN
Recurrent Neural Network
Mạng nơ ron hồi quy
ViNER
VLSP
Vietnamese Named Entity
Recognition
Vietnamese Language and
Speech Processing
V
Nhận diện tên riêng tiếng Việt
Xử lí ngơn ngữ và tiếng nói Việt Nam
DANH MỤC CÁC BẢNG
Bảng 2. 1. Minh họa ví dụ tách từ .......................................................................... 8
Bảng 2. 2. Nhãn cụm từ cho hệ phân cụm từ Việt ............................................... 10
Bảng 2. 3. Biểu diễn từ thành ma trận vector 50 chiều ........................................ 13
Bảng 3. 1. Các đặc trưng được sinh tự động ........................................................ 50
Bảng 3. 2. Một đặc trưng vector đầu vào cho mơ hình ........................................ 54
Bảng 4. 1: cấu hình máy PC dùng trong thực nghiệm ......................................... 57
Bảng 4. 2: Các công cụ sử dụng trong thực nghiệm ............................................ 57
Bảng 4. 3. Thống kê chi tiết dữ liệu ..................................................................... 60
Bảng 4. 4. Tham số của mơ hình huấn luyện ....................................................... 63
Bảng 4. 5. Độ chính xác của hệ thống khi sử dụng các phương pháp học sâu .... 63
Bảng 4. 6. Độ chính xác hệ thống huấn luyện với các Epoch khác nhau ............ 63
Bảng 4. 7. Kết quả so sánh giữa các lớp .............................................................. 64
Bảng 4. 8. Kết quả của các Dropout khác nhau ................................................... 64
Bảng 4. 9. Kết quả so sánh giữa các đặc trưng .................................................... 64
Bảng 4. 10. Các tham số và đặc trưng tối ưu cho mơ hình huấn luyện_đánh giá 65
VI
DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 2. 1. Mơ hình xử lý ngơn ngữ tự nhiên ......................................................... 5
Hình 2. 2. Trích xuất (trích chọn) các thực thể trong văn bản ............................... 7
Hình 2. 3. Mơ hình hoạt động của bộ phân cụm từ Việt ...................................... 10
Hình 2. 4. Mơ hình Word2vector ......................................................................... 18
Hình 2. 5. Mơ hình Continuous Bag of Words .................................................... 20
Hình 2. 6. Mơ hình CBOW chi tiết ...................................................................... 21
Hình 2. 7. Mơ hình Skip gram trong Word2vec .................................................. 22
Hình 2. 8. Mơ hình mạng nơ ron 1 lớp ẩn của Word2vec ................................... 23
Hình 2. 9. Ma trận trọng số của lớp ẩn của mơ hình Word2vec .......................... 23
Hình 2. 10. Lớp ẩn của mơ hình hoạt động như một bảng tra cứu...................... 24
Hình 2. 11. Mối tương quan giữa từ “ants” và từ “car” ....................................... 24
Hình 2. 12. Lược sử học sâu Deep Learning ....................................................... 26
Hình 2. 13. Một nơ ron sinh học ......................................................................... 27
Hình 2. 14. Một perceptron .................................................................................. 27
Hình 2. 15. Mơ hình nơ ron .................................................................................. 28
Hình 2. 16. Mơ hình mạng nơ ron ANN .............................................................. 29
Hình 2. 17. xây dựng mơ hình neural network .................................................... 30
Hình 2. 18. xây dựng mơ hình neural network ................................................... 32
Hình 2. 19. Q trình xử lý thơng tin trong mạng RNN ...................................... 33
Hình 2. 20. RNN phụ thuộc short-term ................................................................ 34
Hình 2. 21. RNN phụ thuộc long-term................................................................. 34
Hình 2. 22. Các mô-đun lặp của mạng RNN chứa một layer .............................. 35
Hình 2. 23. Các mơ-đun lặp của mạng LSTM chứa bốn layer ............................ 36
VII
Hình 2. 24. Các kí hiệu sử dụng trong mạng LSTM ............................................ 36
Hình 2. 25. Tế bào trạng thái LSTM giống như một băng truyền ....................... 37
Hình 2. 26. Cổng trạng thái LSTM ...................................................................... 37
Hình 2. 27. LSTM focus f .................................................................................... 38
Hình 2. 28. LSTM focus i .................................................................................... 38
Hình 2. 29. LSTM focus c .................................................................................... 39
Hình 2. 30. Mơ hình Bidirectional LSTM sử dụng 2 mạng nơ-ron LSTM ......... 40
Hình 2. 31. Mạng Bi-LSTM cho NER ................................................................. 40
Hình 2. 32. Mơ hình học có giám sát ................................................................... 41
Hình 2. 33. Thuật tốn học có giám sát ............................................................... 42
Hình 3. 1. Mơ hình đề xuất cơ bản cho trích chọn tên sản phẩm (điện thoại di động)
.............................................................................................................................. 48
Hình 3. 2. Mơ hình xây dựng vector Word embedding ....................................... 49
Hình 3. 3. Hệ thống trích chọn tên điện thoại di động chi tiết ViNER ................ 53
Hình 3. 4. Mơ hình học sâu 2 lớp BiLSTM cho hệ thống ViNER ...................... 54
Hình 3. 5. Precision và Recall .............................................................................. 56
Hình 4. 1. Mơ hình của pha tiền xử lí .................................................................. 59
Hình 4. 2. Sơ đồ thiết kế ứng dụng Web ............................................................. 65
Hình 4. 3. Giao diện chính của trang web ............................................................ 66
Hình 4. 4. Giao diện phân tích dữ liệu ................................................................. 66
Hình 4. 5. Giao diện phân tích kết quả................................................................. 67
Hình 4. 6. Các đặc trưng được tạo tự động bởi công cụ Underthesea ................. 68
Hình 4. 7. So sánh nhãn tên điện thoại di độngcủa ViNER và Underthesea ....... 68
Hình 4. 8. Giao diện Demo thực tế ...................................................................... 69
VIII
CHƯƠNG I
GIỚI THIỆU CHUNG
Trong chương này, chúng tôi sẽ giới thiệu tổng quan về các vấn đề được
nghiên cứu của đề tài, đồng thời xác định mục tiêu, phạm vi nghiên cứu cũng như
những ý nghĩa mà kết quả của đề tài này mang lại cả về ý nghĩa khoa học và áp
dụng thực tiễn.
1.1. Lí do thực hiện đề tài
Dữ liệu lớn (Big data), Trí tuệ nhân tạo (AI) và Internet vạn vật (IOT) là ba
nhân tố quan trọng trong cuộc cách mạng công nghiệp 4.0 đang bùng nổ và phát
triển mạnh mẽ trên toàn thế giới. Thành phần cốt lõi của ba nhân tố trên chính là
các phương pháp học máy (machine learning - ML) và xử lí ngôn ngữ tự nhiên
(nhiên Natural Language Processing - NLP) trong số những bài tốn về Trí tuệ
nhân tạo. Những ứng dụng trên có chức năng xử lý tiêu biểu như trích xuất thơng
tin, tóm tắt văn bản, máy tìm kiếm, dịch máy. Trong đó việc trích chọn ra những
tên điện thoại di động, tên nhà sản xuất, tên địa danh, tên người nổi tiếng và nhiều
tên khác trong các văn bản mang lại nhiều ý nghĩa quan trọng cho các bài toán
NLP - Natural Language Processing.
Hiện nay trên thế giới, có rất nhiều hệ thống trích chọn tên nhưng chủ yếu
phục vụ cho văn bản tiếng Anh, tiếng Trung, tiếng Nhật. Trích chọn thực thể là bài
tốn cơ bản nhất trong các bài tốn trích chọn thơng tin và đóng vai trò khá quan
trọng. Thực thể tên ngày càng được ứng dụng trong nhiều bài toán trong khai phá
dữ liệu web cũng như nhiều các bài toán trong xử lý ngơn ngữ tự nhiên. Do đó việc
xây dựng các giải thuật trích chọn các thực thể tên này từ web là bài tốn có ý
nghĩa quan trọng.
Ở Việt Nam, số lượng các loại điện thoại mới ra đời được bán ngày càng
nhiều, người tiêu dùng đang bắt đầu có xu hướng thay thế những chiếc điện thoại
đã cũ của mình. Nhiều người thậm chí cịn mua những chiếc điện thoại thứ hai, thứ
ba cho cá nhân. Tuy nhiên thông tin trên mạng internet có rất nhiều tin quảng cáo
về sản phẩm điện thoại nên người dùng sẽ bị nhiễu loạn thông tin và không thể
chọn lựa được những thông tin mình mong muốn. Điều này địi hỏi mỗi khi muốn
1
mua một cái điện thoại mới người dùng phải cập nhật thơng tin chính xác liên quan
đến các loại điện thoại mới để đưa ra các quyết định phù hợp. Tuy nhiên các thông
tin trên mạng rất nhiều và chưa có sự phân loại, dẫn đến người dùng gặp phải khó
khăn trong việc lấy ra các thơng tin cần thiết cho nhu cầu sử dụng. Một trong những
nhu cầu đó, chính xác là xác định được tên điện thoại.
Một ứng dụng khác của việc trích chọn tên điện thoại di động là tìm thêm
các thơng số kỹ thuật liên quan đến từng loại điện thoại để so sánh, đánh giá sản
phẩm giữa các nhà sản xuất. Hoặc có thể ứng dụng vào bài toán khai phá quan
điểm. Từ những nhu cầu bức thiết trên chúng tôi mạnh dạn chọn đề tài “Phương
pháp học bán giám sát cho bài tốn trích chọn thơng tin và ứng dụng trích chọn
thực thể tên điện thoại di động” làm luận văn nghiên cứu.
1.2. Mục tiêu nghiên cứu
Để quá trình nghiên cứu luận văn đạt được những kết quả tốt chúng tôi cần
thực hiện các công việc sau:
Thu thập dữ liệu từ các website, các trang báo, các trang quảng cáo trên
mạng internet của các hãng điện thoại di động trong và ngoài nước.
Xây dựng một hệ thống trích chọn tên điện thoại di động sử dụng phương
pháp học sâu mạng nơ ron ngắn, dài, song song BiLSTM của kiến trúc học sâu
Deeplearning với sự hỗ trợ của ma trận Pretrain Word Embedding tiếng Việt và
các cơng cụ trích xuất đặc trưng.
Ngồi ra, chúng tơi còn xây dựng một ứng dụng Web để trực quan hóa việc
phân tích dữ liệu, phân tích kết quả và trích chọn tên điện thoại di động nhập vào
từ trang web.
1.3. Đối tượng, phạm vi nghiên cứu
Đối tượng nghiên cứu: khảo sát trên bộ dữ liệu thông tin về điện thoại di
động có nhiều tham số khác nhau dựa trên nền tảng học sâu Deep Neural Networks
để tìm ra mơ hình học sâu với tham số tối ưu cho hệ thống trích chọn tên điện thoại
di động.
2
Phạm vi nghiên cứu: xây dựng mơ hình trích chọn được các tên điện thoại
di động từ các văn bản tiếng Việt nhập vào từ giao diện Web. Mơ hình được huấn
luyện từ nguồn dữ liệu Crawling trên một số trang báo thương mại điện tử như:
thegioididong.com, cellphone.com, Viettelstore.vn, Vnreview.vn. Trong bộ dữ
liệu này, hệ thống chỉ trích chọn 2 loại thực thể hay còn gọi là tên điện thoại di
động (gồm tên điện thoại di động, model sản xuất).
1.4. Phương pháp nghiên cứu
Vận dụng kiến thức đã học, các bài báo nghiên cứu khoa học và các nghiên
cứu trước đây của các tác giả, cùng với sự hướng dẫn của giảng viên để thu thập,
lựa chọn nguồn dữ liệu, chọn mơ hình đề xuất phù hợp.
Phương pháp nghiên cứu lý thuyết: Dựa trên các môn học như Big data, học
máy, khai phá dữ liệu, lập trình hướng đối tượng và phân tích hệ thống thơng tin…
Phương pháp tổng hợp, phân tích: trên nền tảng tổng hợp kết quả đã có được
ta phân tính từng thành phần nhỏ của kết quả đó.
Phương pháp học sâu mạng nơ ron ngắn dài song song BiLSTM: có nghĩa
là LSTM hai chiều, là tín hiệu truyền ngược cũng như chuyển tiếp theo thời gian
và nó được sử dụng trong các trường hợp vấn đề học tập tuần tự.
1.5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài
1.5.1. Ý nghĩa khoa học
Luân văn đã tìm ra phương pháp học sâu trích chọn tên thực thể trong văn
bản tiếng Việt kết hợp từ “nhúng” phù hợp, hiệu quả cho bài tốn trích chọn thực
thể tên điện thoại di động, luận văn này cũng sẽ làm tài liệu tham khảo và nghiên
cứu cho các hướng phát triển tiếp theo sau này.
Luận văn cũng đánh giá được hiệu suất của phương pháp bằng cách thực
nghiệm hệ thống trên các khía cạnh khác nhau dựa trên bộ dữ liệu cho sẵn.
Đã xây dựng được một ứng dụng web để trực quan hóa các nhu cầu người
dùng khi người dùng nhập văn bản cần nhận dạng các tên thực thể và phân tích
trực quan các dữ liệu dựa trên các biểu đồ so sánh và kết quả.
3
1.5.2. Ý nghĩa thực tiễn
Luận văn tìm ra phương pháp học sâu để trích chọn thực thể tên là bài tốn
cơ bản nhất trong các bài tốn trích chọn thơng tin nó đóng vai trị quan trọng.
Thực thể tên ngày càng được ứng dụng trong nhiều trong bài toán trong xử lý ngôn
ngữ tự nhiên cũng như khai phá dữ liệu web. Vì vậy việc trích chọn các thực thể
tên này từ web là bài tốn có ý nghĩa quan trọng. Luận văn dựa vào phương pháp
học sâu, xây dựng một mơ hình trích chọn thực thể tên điện thoại di động giúp cho
người sử dụng tìm được thơng tin về sản phẩm điện thoại một cách chính xác và
xây dựng ứng dụng web để trích chọn thực thể tên điện thoại di động.
1.6. Bố cục luận văn
Luận văn được chia thành 5 phần với các nội dung như sau:
Chương 1 – Giới thiệu chung
Trình bày lý do chọn đề tài, mục tiêu, đối tượng - phạm vi và phương
pháp nghiên cứu, ý nghĩa của đề tài.
Chương 2 – Cơ sở lý thuyết
Giới thiệu tổng quan về xử lí ngơn ngữ tự nhiên, các phương pháp, công
cụ để tách từ, gán nhãn từ loại, gán nhãn cụm từ, phân tích cú pháp; Giới
thiệu về các cách biểu diễn từ thành vector, mạng nơ ron nhân tạo, kỹ thuật
lan truyền ngược; Phương pháp học sâu để sử dụng cho bài toán, Trình bày
tổng quan hệ thống trích chọn tên điện thoại di động, hướng tiếp cận và các
nghiên cứu liên quan; Đề xuất hướng nghiên cứu.
Chương 3 – Mơ hình đề xuất
Trình bày tổng quan mơ hình đề xuất, các đặc trưng trong mơ hình; Chi
tiết hệ thống trích chọn thực thể tên điện thoại di động.
Chương 4 – Thực nghiệm
Giới thiệu bộ dữ liệu, q trình xử lí dữ liệu, phương pháp đánh giá,
phần thực nghiệm và đánh giá thực nghiệm theo các khía cạnh khác nhau
để chọn mơ hình tối ưu cho hệ thống trích chọn thực thể tên điện thoại di
động.
Chương 5 – Kết luận và hướng phát triển
4
CHƯƠNG II
CƠ SỞ LÝ THUYẾT
Trong chương này, chúng tôi sẽ giới thiệu tổng quan về cách xử lý ngôn
ngữ tự nhiên như tách từ (Tokenizer), cách xác định loại từ, cụm từ và phân tích
cú pháp trong câu. Đồng thời giới thiệu các phương pháp biểu diễn và xác định
được phương pháp học sâu được sử dụng trong luận văn để xác định thực thể tên
điện thoại di động và đề xuất hướng nghiên cứu sau này.
2.1. Xử lý ngôn ngữ tự nhiên
Trong thời đại hiện nay, cuộc cách mạng công nghiệp 4.0, việc xử lý các
ngôn ngữ tự nhiên đang được nghiên cứu và phát triển mạnh mẽ. Xử lý ngơn ngữ
tự nhiên có tên tiếng Anh là: Natural Language Processing. Đây là các kĩ thuật,
phương pháp nhằm hỗ trợ cho các hệ thống máy tính hiểu, xử lý, nhận dạng ngôn
ngữ tự nhiên như: tiếng Việt, tiếng Anh. Có rất nhiều nghiên cứu về NLP nhưng
có thể phân thành các nhánh nghiên cứu như: Phân tích cảm xúc (Sentiment), Phân
loại tài liệu (Classification), Dịch máy (Translation), Tóm tắt văn bản (Topic
Modelling), Trích xuất thơng tin (Information Extraction), …
Các Trợ lý thông minh như Siri của Apple, Alexa của Amazon và Ok
Google của Google bắt đầu xác định các mẫu trong giọng nói, nhận dạng giọng
nói, suy ra ý nghĩa và đưa ra phản hồi.
Hình 2. 1. Mơ hình xử lý ngôn ngữ tự nhiên1
1
/>
5
Trích xuất thơng tin bài tốn lấy ra những thành phần thông tin cụ thể của
một văn bản, những thành phần này chính là hạt nhân tạo nên nội dung ngữ nghĩa
của văn bản đó. Có nhiều mức độ trích chọn thông tin từ văn bản như xác định các
thực thể (Element Extraction), xác định quan hệ giữa các thực thể (Relation
Extraction), xác định và theo dõi các sự kiện và các kịch bản (Event and Scenario
Extraction and Tracking), xác định đồng tham chiếu (Co-reference Resolution) ...
Các kĩ thuật được sử dụng trong trích chọn thơng tin gồm có: phân đoạn, phân lớp,
kết hợp và phân cụm.16 Từ đây sẽ có nhiều ứng dụng cho nhiều domain như Text
and Web mining (rút trích tên người nổi tiếng, sản phẩm đang hot, so sánh giá sản
phẩm, nghiên cứu đối thủ cạnh tranh, phân tích tâm lý khách hàng), Biomedical,
Business intelligent, Financial professional (đánh giá thị trường từ các nguồn khác
nhau: giá xăng dầu tăng giảm, thơng tin chiến tranh - chính trị giữa các nước, điều
luật mới trong thị trường kinh doanh), Terrism event (sử dụng vũ khí gì, đối tượng
tấn công là ai).
Sau các bước tiền xử lý thiên về từ vựng và cú pháp như tách câu, tách từ,
phân tích cú pháp, gán nhãn từ loại. Từ IE ta sẽ đơn giản hóa thành các bài tốn
con gồm: Rút trích tên thực thể (Named entity recognition – NER: people,
organization, location), phân giải đồng tham chiếu (Coreference resolution) và
Rút trích quan hệ giữa hai thực thể (Relation extraction). Bài toán nhận dạng ra
các thực thể có tên trong văn bản là một nhiệm vụ cốt lõi trong trích xuất thơng tin.
6
Hình 2. 2. Trích xuất (trích chọn) các thực thể trong văn bản2
2.1.1. Tách từ (ViTokenizer)
Để có thể trích chọn được các thực thể tên điện thoại di động trong các văn
bản dữ liệu ban đầu cần phải qua bước tiền xử lý để tách câu, phân đoạn từ (tách
từ), chuẩn bị dữ liệu đầu vào cho bước tiếp theo. Từ là một đơn vị nhỏ nhất có
nghĩa độc lập, có thể giữ một chức năng ngữ pháp nhất định và có thể quy về một
từ loại nhất định, có khả năng tách biệt khỏi những từ bên cạnh để có thể phân biệt
được với những bộ phận tạo thành từ. Tính hồn chỉnh trong nội bộ của từ là cần
thiết cho nó, với tư cách một từ riêng biệt, phân biệt với cụm từ. Tính hồn chỉnh
và tính tách biệt về ý nghĩa là bắt buộc với mỗi từ.
Từ được cấu tạo nhờ các từ tố (hình vị), một từ có thể có một, hai hoặc nhiều
âm tiết tạo nên, nên có rất nhiều cách phân chia các âm tiết thành các từ, gây ra
nhập nhằng. Việc phân giải nhập nhằng này gọi là bài tốn tách từ. Nói cách khác,
từ được tạo ra nhờ một hoặc một số hình vị kết hợp với nhau theo những nguyên
tắc nhất định. Từ tố (hình vị) là đơn vị nhỏ nhất có ý nghĩa của ngơn ngữ. Tách từ
là gom nhóm các từ đơn liền kề thành một cụm từ có ý nghĩa, các từ đơn được gom
nhóm với nhau bằng cách nối với nhau bằng ký tự gạch dưới ("_").
Sau khi thực hiện tách từ thì mỗi từ (token) trong câu được cách nhau bởi
một khoảng trắng. Đây là quy ước chung cho tất cả các ngôn ngữ của bài tốn tách
từ trong xử lý ngơn ngữ tự nhiên. Mục tiêu của việc tách từ văn bản đầu vào là để
khử tính nhập nhằng về ngữ nghĩa của văn bản. Với ngôn ngữ tiếng Anh, việc tách
từ khá đơn giản vì ranh giới từ được trích chọn bằng khoảng trắng và dấu câu. Với
ngôn ngữ tiếng Việt, ranh giới từ không được xác định mặc nhiên bằng khoảng
trắng. Tiếng Việt có đặc điểm là ý nghĩa ngữ pháp nằm ở ngoài từ, phương thức
ngữ pháp chủ yếu là trật tự từ và từ hư. Cho nên có trường hợp một câu có thể có
nhiều ngữ nghĩa khác nhau tuỳ vào cách tách từ như thế nào, gây nhập nhằng về
ngữ nghĩa của câu.
Ví dụ về tách từ trong tiếng Anh và tiếng Việt:
2
/>
7
Văn bản đầu vào
Văn bản sau khi
tách từ
Dữ liệu tiếng Anh
Oppo Find X3 Neo
phone is a new breeze in the
high-end phone segment,
when copying almost every
high-end technology from the
elder Oppo Find X3 Pro but
at a more affordable price for
users.
Oppo Find X3 Neo phone is
a new breeze in the high-end
phone segment, when copying
almost
every
high-end
technology from the elder
Oppo Find X3 Pro but at a
more affordable price for
users.
Dữ liệu tiếng Việt
Điện thoại Oppo Find X3
Neo là một làn gió mới trong
phân khúc điện thoại cận cao
cấp, khi sao chép gần như
mọi công nghệ cao cấp từ
đàn anh Oppo Find X3 Pro
nhưng với mức giá phải
chăng hơn cho người dùng.3
Điện thoại Find_X3_Neo,
là một làn gió mới trong
phân khúc điện thoại cận
cao cấp, khi sao chép gần
như mọi công nghệ cao cấp
từ đàn anh
Oppo_Find_X3_Pro nhưng
với mức giá phải chăng hơn
cho người dùng.
Bảng 2. 1. Minh họa ví dụ tách từ
2.1.2. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging)
Công việc gán nhãn từ cũng được gọi là gắn thẻ ngữ pháp, cho một văn
bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Tức là phân loại các
từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ trong đó. Mỗi từ
trong một ngơn ngữ nói chung có thể gắn với nhiều từ loại. Mỗi từ loại tương ứng
với một hình thái và một vai trị ngữ pháp nhất định.
Gán nhãn từ loại là một trong những bước quan trọng và cơ bản trong xử lý
và khai phá dữ liệu trước khi phân tích văn phạm, ngữ nghĩa sâu hơn hay các vấn
đề xử lý ngôn ngữ phức tạp khác. Nó xác định các chức năng ngữ pháp của từ
trong câu. Khi văn bản đã được gán nhãn thì nó sẽ được ứng dụng trong các hệ
thống tìm kiếm thơng tin, gán nhãn tên thực thể, trong các hệ thống nhận dạng
tiếng nói cũng như trong các hệ thống dịch máy.
Gán nhãn từ loại là bài toán nhận được quan tâm sớm nhất trong chuyên
ngành xử lý ngôn ngữ tự nhiên và được nghiên cứu nhiều cũng như có nhiều
phương pháp giải quyết.
3
/>
8
Có thể kể đến một số bộ cơng cụ POS tagging cho hai loại ngôn ngữ:
Tiếng Anh: POS tagger của NLTK, Stanford Log-linear Part-OfSpeech
Tagger…
Ví dụ 1 (tiếng Anh). Văn bản đầu vào là: “And now for
Samsung Galaxy Note 21.”
Sau khi tách từ và POS tagging sẽ thu được kết quả:
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), (‘Samsung’, ‘Np’),
(‘Galaxy’, ‘Np’), ( ‘Note’, ‘Np’), (’21’, ‘M’)]
Tiếng Việt: JVnTagger, JH-POS-TAG, vnTagger, ViTokenizer…
Ví dụ 2 (tiếng Việt). Văn bản đầu vào là: “Samsung Galaxy M52 sử
dụng màn hình kích thước 6.5 inches, cùng với tấmc nền AMOLED cho khả
năng hiển thị rực rỡ hơn nhiều so với màn FullHD. Bên cạnh đó, màn hình
đã vận dụng màn dạng đục lỗ, giúp mở rộng được kích thước khơng gian
trải nghiệm. Và độ phân giải đạt chuẩn FullHD cho khả năng hiển thị sắc
nét, góc nhìn tốt.
Cấu hình mạnh mẽ bởi Snapdragon 730, 6GB RAM, bộ nhớ trong
128GB.”
Sau khi tách từ và POS tagging sẽ thu được kết quả:
Samsung/N Galaxy/Np M52/M sử/N dụng/N màn/N hình/N kích/N
thước/N 6.5/M inches,/N cùng/A với/E tấm/Nc nền/N AMOLED/Np cho/V khả/N
năng/N hiển/N thị/N rực/N rỡ/A hơn/A nhiều/A so/V với/E màn/N FullHD./N
Bên/N cạnh/N đó,/N màn/N hình/N đã/R vận/V dụng/N màn/N dạng/N đục/N
lỗ,/V giúp/V mở/V rộng/A được/V kích/V thước/N khơng/R gian/N trải/V
nghiệm./N Và/Np độ/N phân/N giải/N đạt/N chuẩn/N FullHD/N cho/V khả/N
năng/N hiển/N thị/N sắc/N nét,/N góc/N nhìn/V tốt./N
Cấu/N hình/N mạnh/A mẽ/N bởi/E Snapdragon/Np 730,/V 6GB/N RAM,/N
bộ/N nhớ/V trong/N 128GB/M.
2.1.3. Xác định cụm từ (Chunking)
Trong nội dung xác định cụm từ thì phân cụm từ được nghiên cứu và được
sử dụng trong nhiều ứng dụng thực tế như các hệ thống chích trọn thông tin, dịch
9
máy, và tóm tắt văn bản. Bài tốn phân cụm có thể hiểu là việc gộp một dãy liên
tiếp các từ trong câu để gán nhãn cú pháp. Việc nghiên cứu bài toán phân cụm trên
thế giới đã được thực hiện khá kỹ lưỡng cho nhiều ngôn ngữ bao gồm: Tiếng Anh,
Tiếng Trung, Tiếng Nhật, Tiếng Pháp.
Gần đây, tổ chức Xử lý tiếng nói và ngơn ngữ tiếng Việt (VLSP) đã xây
dựng một bộ công cụ phân cụm từ tiếng Việt sử dụng hai phương pháp học máy
cấu trúc bao gồm CRFs và MIRA. Công cụ này đã được huấn luyện trên một tập
dữ liệu VietTreeBank gồm khoảng 260 câu. Q trình thử nghiệm cho thấy mơ
hình đề ra hồn tồn tương thích với dữ liệu VTB. Mặc dầu với số lượng dữ liệu
ban đầu không nhiều nhưng kết quả thể hiện mơ hình CRFs và Online Learning là
các lựa chọn đúng đắn. Đây là hai phương pháp kinh tế, đảm bảo cả về mặt thời
gian lẫn độ chính xác. Các kết quả thu được đối với hệ thống phân cụm từ tiếng
Việt dùng dữ liệu chuẩn VTB cho kết quả khả quan 65.27%. 4
Cell phone ở trên
Data
VN
Sentence
CRFs
Onlinelearning
Decoding
Chunking
models
Chunks
NP [Cell phone] VP [ở trên bàn ]
Hình 2. 3. Mơ hình hoạt động của bộ phân cụm từ Việt
Bài toán phân cụm tiếng Việt được phát biểu như sau: Gọi X là câu đầu vào
tiếng Việt bao gồm một dãy các từ tố kí hiệu X=(X1, X2,…, Xn). Chúng ta cần xác
định Y=(Y1, Y2, ..., Yn) là một dãy các nhãn cụm từ (cụm danh từ, cụm động từ).
Những tập nhãn chuẩn và xuất hiện nhiều trong câu văn tiếng Việt như sau:
Bảng 2. 2. Nhãn cụm từ cho hệ phân cụm từ Việt
4
/>
10
Tên
Chú thích
ADJP
Cụm tính từ
ADVP
Cụm phó từ
NP
Cụm danh từ
PP
Cụm giới từ
QP
Cụm từ chỉ số lượng
VP
Cụm động từ
WHNP
Cụm danh từ nghi vấn (ai, cái gì, con gì, vv.)
WHADJP
Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, vv.)
WHADVP
Cụm từ nghi vấn dùng khi hỏi thời gian, nơi chốn, vv.
WHPP
Cụm giới từ nghi vấn (với ai, bằng cách nào, vv.)
Chú ý rằng bộ nhãn này đã được phối hợp chặt chẽ với nhóm VTB và sẽ cịn
được hiệu chỉnh trong tương lai. Cấu trúc cơ bản của một cụm danh từ như sau:
<danh từ trung tâm>
Ví dụ: “Cái điện thoại đẹp” thì danh từ “điện thoại” là phần trung tâm, định
từ “cái” là phần phụ trước, cịn tính từ “đẹp” là phần phụ sau.
(NP (D cái) (N điện thoại) (J đẹp))
Một cụm danh từ có thể thiếu phần phụ trước hay phần phụ sau nhưng không
thể thiếu phần trung tâm.
Ký hiệu: VP (Cụm động từ)
Cấu trúc chung: Giống như cụm danh từ, cấu tạo một cụm động từ về cơ bản
như sau: <bổ ngữ trước><động từ trung tâm><bổ ngữ sau>; Bổ ngữ trước
thường là phụ từ.
Ví dụ: “đang chơi game” (VP (R đang) (V chơi) (NP game))
Ký hiệu: ADJP (Cụm tính từ)
Cấu trúc chung: <bổ ngữ trước><tính từ trung tâm><bổ ngữ sau>;
Bổ ngữ trước: Bổ ngữ trước của cụm tính từ thường là phụ từ chỉ mức độ.
Ví dụ: rất đẹp (ADJP (R rất) (J đẹp))
Ký hiệu: PP (Cụm giới từ)
Cấu trúc chung : <Giới từ><cụm danh từ>
11
Ví dụ : vào thế giới di động (PP (S vào) (NP thế giới di động))
Ký hiệu : QP (Cụm từ chỉ số lượng)
Cấu trúc chung: Thành phần chính của QP là các số từ. Có thể là số từ xác
định, số từ khơng xác định, hay phân số. Ngồi ra cịn có thể có phụ từ như
"khoảng", "hơn", v.v. QP đóng vai trị là thành phần phụ trước trong cụm danh từ
(vị trí -2). 3
Ví dụ 1: năm trăm (QP (M năm) (M trăm))
Ví dụ 2: hơn 200 (QP (R hơn) (M 200))
2.1.4. Phân tích cú pháp (Parsing)
Trong phân tích cú pháp thì văn phạm trong ngơn ngữ tự nhiên là quy tắc
chủ yếu trong cấu trúc ngôn ngữ. Các từ trong một câu đuợc ghép nối với nhau
dựa trên văn phạm để hình thành nên câu có nghĩa và thơng qua đó thể hiện vai trị
của từ trong ngữ nghĩa của câu. Câu có thể chia làm hai phần chính là chủ ngữ và
vị ngữ. Trong chủ ngữ có thể bao gồm danh từ, cụm danh từ, đại từ, mệnh đề… và
trong vị ngữ có thể có động từ chính, trạng từ, bổ túc từ… Xét nhỏ hơn nữa có thể
chia tiếp cụm danh từ, mệnh đề thành các thành phần nhỏ hơn và cho đến khi chỉ
còn lại từ và từ loại của nó (khơng thể chia cú pháp đuợc nữa). Dựa vào cách phân
tích cú pháp trong ngôn ngữ tự nhiên này ta nhận thấy cấu trúc cây phù hợp để
biểu diễn cú pháp văn phạm cho một câu. 5 Phân tích cú pháp đưa ra mơ tả về quan
hệ và vai trị ngữ pháp của các từ, các cụm từ (hoặc ngữ) trong câu, đồng thời đưa
ra hình thái của câu. Cây phân tích cú pháp đại diện cho cấu trúc cú pháp của một
chuỗi theo ngữ pháp ngữ cảnh.
Một số bộ công cụ phân tích cây cú pháp như Stanford Parser (tiếng Anh),
vn.vitk (tiếng Việt)…
Ví dụ văn bản đầu vào là: “When I was involved in a traffic accident.”
Sau khi tách từ và phân tích cú pháp sẽ thu kết quả:
(ROOT
(FRAG
(SBAR
(WHADVP (WRB When))
5
/>
12
(S
(NP (PRP I))
(VP (VBD was)
(VP (VBN involved)
(PP (IN in)
(NP (DT a) (NN trafic)
(NN accident)))))))
(. .)))
2.2. Các phương pháp biểu diễn từ dưới dạng vector
Sau khi tiền xử lý ngôn ngữ bằng các phương pháp tách từ, gán nhãn từ loại,
phân cụm từ ta có được các đặc trưng. Để máy tính có thể hiểu được các đặc trưng
thì nó phải được biểu diễn dưới dạng ma trận số hay còn gọi là vector. Trong xử
lý ngôn ngữ tự nhiên, việc biểu diễn một từ thành một vector đóng một vai trị cực
kỳ quan trọng. Nó lợi ích rất nhiều trong việc thể hiện sự tương đồng, đối lập về
ngữ nghĩa giữa các từ, giúp mơ hình hóa vector cho 1 câu hay đoạn văn, tìm các
câu có nghĩa tương đồng,... có nhiều phương pháp để tạo ra các vector từ như Biểu
diễn túi từ - Bag of words, One-hot-vector, Túi từ liên tục – CBOW, Skip gram.
1
2
3
4
5
6
7
……
50
1
Apple
0.9898
0.7865
0.5645
0.7509
0.4534
0.5467
0.6498
0.7613
0.8363
2
Banana
0.4533
0.8644
0.1538
0.4313
0.3511
0.2422
0.2422
0.3553
0.2422
3
Cat
0.8734
0.8363
0.4821
0.1378
0.2341
0.2122
0.6775
0.3432
0.1113
4
Dog
0.9873
0.4836
0.1342
0.1956
0.2131
0.3433
0.2244
0.7453
0.5432
5
Eag
0.9473
0.4836
0.4343
0.9211
0.1221
0.4634
0.7464
0.2424
0.5322
6
Google
0.7634
0.4836
0.1313
0.1344
0.1232
0.6222
0.6564
0.3522
0.3242
7
Home
0.8463
0.9732
0.4411
0.1333
0.6453
0.3435
0.3535
0.2442
0.3432
…
0.8653
0.4835
0.1343
0.4421
0.7567
0.2424
0.5241
0.3221
0.3434
Zoo
0.4736
0.9473
0.1453
0.1134
0.6564
0.1749
0.1892
0.1344
0.3543
……
10000
Bảng 2. 3. Biểu diễn từ thành ma trận vector 50 chiều
2.2.1. Biểu diễn túi từ - Bag of words
Mơ hình “Bag of Words” là mơ hình thường dùng trong các tác vụ phân lớp
văn bản. Thông tin sẽ được biểu diễn thành tập các từ kèm với tần suất xuất hiện
của mỗi từ này trong văn bản. Cơ bản là thực hiện bằng cách đếm số lần xuất hiện
của mỗi từ trong văn bản.
Ví dụ, với hai câu sau:
(1) Iphone chụp hình rất đẹp, Samsung cũng chụp hình rất đẹp.
13