Tải bản đầy đủ (.docx) (74 trang)

Ứng dụng xử lý ngôn ngữ tự nhiên phân tích nhu cầu sử dụng dịch vụ viễn thông từ các bình luận trên mạng xã hội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (660.58 KB, 74 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

PHẠM THẾ AN

ỨNG DỤNG XỬ LÝ NGƠN NGỮ TỰ NHIÊN
PHÂN TÍCH NHU CẦU SỬ DỤNG DỊCH VỤ VIỄN THÔNG

TỪ CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG – 2022

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

PHẠM THẾ AN

ỨNG DỤNG XỬ LÝ NGƠN NGỮ TỰ NHIÊN
PHÂN TÍCH NHU CẦU SỬ DỤNG DỊCH VỤ VIỄN THÔNG

TỪ CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI

Chuyên ngành: Khoa học máy tính
Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. Hoàng Phước Lộc


ĐÀ NẴNG – 2022

i

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc tới TS. Hoàng Phước Lộc – Giảng viên
trường Cao Đẳng Sư Phạm Quảng Trị, người thầy đã dành nhiều thời gian tận
tình chỉ bảo, hướng dẫn, giúp đỡ tơi trong suốt quá trình tìm hiểu, nghiên cứu.
Thầy là người định hướng và đưa ra nhiều góp ý quý báu trong q trình tơi
thực hiện luận văn.

Tôi xin chân thành cảm ơn các thầy, cơ ở Trường Khoa Học Máy Tính -
Đại học Duy Tân đã cung cấp cho tôi những kiến thức và tạo cho tôi những
điều kiện thuận lợi trong suốt quá trình tơi học tập tại trường.

Tơi cũng bày tỏ lịng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng
nghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khun q báu. Tơi
xin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhóm nghiên
cứu ln động viên và tạo mọi điều kiện tốt nhất cho tôi.

Tôi xin chân thành cảm ơn!

Đà Nẵng, tháng 10 năm 2021
Họ và tên

Phạm Thế An

ii


LỜI CAM ĐOAN

Tôi xin cam đoan đây là cơng trình nghiên cứu của riêng tơi thực hiện
dưới sự hướng dẫn của TS. Hoàng Phước Lộc, Giảng viên trường Cao Đẳng
Sư Phạm Quảng Trị. Các số liệu, kết quả nêu trong Luận văn là trung thực và
chưa từng được ai công bố trong bất kỳ công trình nào khác.

Tơi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã
được cảm ơn và các thơng tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.

Đà Nẵng, tháng 10 năm 2021
Họ và tên

Phạm Thế An

iii

MỤC LỤC

LỜI CẢM ƠN.....................................................................................................i
LỜI CAM ĐOAN..............................................................................................ii
MỤC LỤC...........................................................................................................i
DANH MỤC CÁC TỪ VIẾT TẮT.................................................................vi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ........................................................vii
DANH MỤC CÁC BẢNG.............................................................................viii
MỞ ĐẦU.............................................................................................................1
Chương 1. GIỚI THIỆU VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN...................4
1.1 Khái quát xử lý ngôn ngữ tự nhiên...............................................................4


1.1.1 Khái niệm................................................................................................4
1.1.2 Trí tuệ nhân tạo......................................................................................4
1.1.3 Nhập nhằng trong ngôn ngữ...................................................................5
1.1.4 Dịch máy.................................................................................................5
1.2 Quy trình xử lý ngơn ngữ tự nhiên...............................................................6
1.2.1 Tiền xử lý văn bản...................................................................................6
1.2.2 Phân tích hình thái..................................................................................7
1.2.3 Phân tíchcú pháp....................................................................................8
1.2.4 Phân tích ngữ nghĩa................................................................................9
1.2.5 Tích hợp văn bản..................................................................................11
1.2.6 Phân tích thực nghĩa.............................................................................11
1.3 Các bài tốn và ứng dụng của NLP............................................................11

iv

1.4 Kết luận chương 1......................................................................................13
Chương 2. MỘT SỐ KỸ THUẬT XỬ LÝ NGÔN NGỮ..............................14
2.1 Khái quát về tách từ Tiếng Việt.................................................................14

2.1.1 Các hướng tiếp cận với bài toán tách từ...............................................15
2.1.2 Nhập nhằng trong tách từ Tiếng Việt...................................................17
2.1.2 Loại bỏ Từ dừng....................................................................................18
2.2 Một số phương pháp tách từ Tiếng Việt....................................................18
2.2.1 Phương pháp mơ hình Markov ẩn........................................................18
2.2.2 Phương pháp chuyển dịch trạng thái hữu hạn có trọng số...................20
2.2.3 . Phương pháp so khớp cực đại.............................................................25
2.3 Phân lớp quan điểm....................................................................................28
2.3.1 Khái niệm phân lớp quan điểm.............................................................28
2.3.2 Phương pháp phân lớp dựa vào cụm từ thể hiện quan điểm................28
2.3.3 Phân lớp dựa vào phân lớp văn bản.....................................................32

2.3.4 Phân lớp dựa vào hàm tính điểm số.....................................................32
2.3.5 Phân lớp dựa vào kỹ thuật học máy......................................................33
2.4 Kết luận chương 2......................................................................................40
Chương 3. MƠ HÌNH ĐỀ XUẤT...................................................................41
3.1 Mơ hình hệ thống.......................................................................................41
3.1.1 Giới thiệu..............................................................................................41
3.1.2 Mơ hình hệ thống..................................................................................42
3.2 Thu thập bình luận.....................................................................................43
3.2.1 Tiền xử lý dữ liệu..................................................................................44

v

3.2.2 Tách từ tiếng Việt..................................................................................45
3.3 Phân lớp phản hồi, bình luận.....................................................................46
3.4 Thử nghiệm và đánh giá kết quả................................................................49
3.4.1 Thu thập dữ liệu....................................................................................49
3.4.2 Cài đặt giải thuật NaiveBayes..............................................................50
3.4.3 Cài đặt giải thuật Support Vector Machines (SVM )............................52
3.4.4 Cài đặt giải thuật Fasttext....................................................................53
3.4.5 Đánh giá các giải thuật........................................................................56
3.4.6 Về ưu điểm của mơ hình áp dụng:........................................................57
3.4.7 Về nhược điểm của mơ hình áp dụng:..................................................58
3.5 Kết luận chương 3......................................................................................58
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................59
Kết luận............................................................................................................59
Hướng phát triển..............................................................................................59
TÀI LIỆU THAM KHẢO

vi


DANH MỤC CÁC TỪ VIẾT TẮT

Chữ viết tắt Ý nghĩa
Natural language processing (Xử lý ngôn ngữ tự
NLP nhiên)
Part – Of – Speech (Từ loại)
POS Suppor vector Machine (Phương pháp sử dụng Máy
học)
SVM Artificial intelligence (Trí thơng minh nhân tạo)
Hidden Markov Models
AI Weighted Finite State Transducer
HMM Conditional Random Fields
WFST Pointwise mutual information (Chuẩn hóa thơng tin
CRF lẫn nhau)
Hypertext Markup Language
PMI

HTML

vii

DANH MỤC CÁC BẢNG

Bảng 2.1- Bảng các nhãn từ loại của Pennn TreebankBảng...........................29
Bảng 2.2 - Nhãn của mẫu cho trích chọn với cụm có hai từ...........................30
Bảng 3.1 - Thống kê dữ liệu thu thập trên các nhãn........................................49
Bảng 3.2 - Bảng đánh giá kết quả thực thi các giải thuật................................56

viii


DANH MỤC CÁC HÌNH VẼ, ĐỒ TH
Hình 1.1 - Các bước xử lý văn bản..................................................................15
Hình 1.2 - Cây cú pháp của câu "Nam là sinh viên giỏi".............................18Y
Hình 2.1 - Mơ hình Markov ẩn........................................................................19
Hình 2.2 - Đồ thị vơ hướng HMM..................................................................19
Hình 2.3 - Sơ đồ mơ hình WFST.....................................................................21
Hình 2.4 - Mơ hình máy vector hỗ trợ khả tách tuyến tính.............................37

Hình 2.5 - Phương pháp lề mềm 3

Hình 3.1 - Mơ hình khai thác nhu cầu của các bình luận trên mạng xã hội....42
Hình 3.2 - Các bước thu thập bình luận..........................................................43
Hình 3.3 - Sơ đồ huấn luyện cơ sở tri thức......................................................47
Hình 3.4 - Sơ đồ xác định nhu cầu theo câu bình luận....................................48
Hình 3.5 - Thống kê dữ liệu thu thập trên các nhãn........................................50
Hình 3.6 - Cài đặt giải thuật Naive Bayes.......................................................51
Hình 3.7 – Cài đặt giải thuật SVM..................................................................53
Hình 3.8 - Kiến trúc mơ hình của fastText cho một câu với các thuộc tính từ
ngram x1, x2,…,xN.........................................................................................54
Hình 3.9 - Các word được tách ra từ câu “this is a sentence” với n=3............55
Hình 3. 10 - Cài đặt giải thuật Fasttext............................................................56

1

MỞ ĐẦU

1. Lý do chọn đề tài
Mạng xã hội là nơi mang mọi người đến với nhau để trị chuyện, chia sẻ

ý tưởng, sở thích và kết nối với nhau qua phương tiện truyền thông xã hội hay

cịn gọi là Social Media. Khơng giống như các phương tiện truyền thống, các
trang web truyền thông mạng xã hội chứa nội dung do hàng trăm hoặc thậm
chí hàng triệu người khác nhau tạo ra. Với sự phổ biến của các trang mạng xã
hội, ngày càng có nhiều người trở thành một phần của cộng đồng trực tuyến.

Mạng xã hội không chỉ là nơi để mọi người giao lưu, kết nối và chia sẻ,
mạng xã hội còn là “mảnh đất vàng” cho kinh doanh Online, hỗ trợ tìm kiếm
khách hàng, tương tác, thậm chí là quảng cáo, xây dựng thương hiệu doanh
nghiệp hoặc xây dựng thương hiệu cá nhân. Mạng xã hội có bản chất của hoạt
động xã hội, ở đây, người sử dụng có thể đưa ra những bình luận, nhận xét và
đánh giá của mình về các sản phẩm hay dịch vụ họ đã và đang sử dụng. Do
đó, thơng tin từ mạng xã hội rất có ý nghĩa cho các cơng ty, nhà cung cấp. Từ
đó những người đã tạo sản phẩm, dịch vụ nếu họ có chiến lược thu thập thông
tin phản hồi của người dùng hợp lý để từ đó điều chỉnh sản phẩm, dịch vụ của
họ nhằm đáp ứng nhu cầu người dùng.

AI và học máy đang trở thành một phần cốt lõi của ngành công nghệ
bằng cách giúp các doanh nghiệp (DN) đạt được mục tiêu, đưa ra các quyết
định quan trọng và tạo ra các sản phẩm và dịch vụ sáng tạo. Trên thực tế, thị
trường AI và ML (Machine Learning) có khả năng tăng trưởng 9 tỷ USD vào
năm 2022, với tốc độ tăng trưởng CAGR (Compounded Annual Growth rate)
là 44%.

Việc kết hợp AI và khai thác thế mạnh của mạng xã hội sẽ giúp các
doanh nghiệp đưa ra các phân tích, quyết định kinh doanh đúng đắn, hạn chế
các sai lầm do phán đoán chủ quan. Đồng thời tạo điều kiện giúp doanh

2

nghiệp hiện diện mọi lúc mọi nơi, tìm kiếm được tập khách hàng tiềm năng và

gia tăng doanh số bán hàng hiệu quả.

Từ thực tiễn đó tơi đã thực hiện đề tài luận văn “Ứng dụng xử lý ngơn
ngữ tự nhiên phân tích nhu cầu sử dụng dịch vụ viễn thơng từ các bình
luận trên mạng xã hội”
2. Mục tiêu và nhiệm vụ nghiên cứu

Mục tiêu của đề tài là đi sâu nghiên cứu về các kỷ thuật xử lý ngôn ngữ
tự nhiên. Từ đó áp dụng các kỹ thuật để khai thác quan điểm của người dùng
về các dịch vụ Viễn thơng từ các bình luận trên mạng xã hội. Góp phần mang
lại lợi ích cho doanh nghiệp trong việc tìm kiếm khách hàng tiềm năng, chăm
sóc khách hàng, đề xuất các chương trình bán hàng phù hợp.
3. Đối tượng và phạm vi đề tài

Đối tượng nghiên cứu của đề tài là: Các nội dung tổng quan về xử lý
ngôn ngữ tự nhiên, các kỹ thuật xử lý ngơn ngữ tự nhiên, bài tốn khai thác
quan điểm khách hàng từ các bình luận trên mạng xã hội.

Do khối lượng thông tin trên mạng xã hội là rất lớn, bao gồm rất nhiều
lĩnh vực, khía cạnh khác nhau, dẫn đến quy mô dữ liệu và phạm vi xử lý là rất
lớn. Vì vậy cần thu hẹp phạm vi nghiên cứu với một chủ đề cụ thể.

Trong đề tài này, phạm vi nghiên cứu là phân tích các bình luận của
khách hàng tại trang Fanpage của Vinaphone trên mạng xã hội Facebook để
phân loại các khách hàng có nhu cầu sử dụng các dịch vụ về Internet, di động
và truyền hình số.
4. Phương pháp nghiên cứu

Để thực hiện luận văn này, tôi đã sử dụng 02 phương pháp nghiên cứu
khoa học để tiếp cận và làm rõ những vấn đề của đề tài đặt ra, cụ thể đó là:


- Phương pháp phân tích và tổng hợp lý thuyết: Nghiên cứu các tài liệu
khác nhau về khái niệm và các kỹ thuật xử lý ngơn ngữ tự nhiên; phân tích để

3

tìm hiểu đối với mỗi vấn đề và tổng hợp để có cái nhìn tổng quan, đầy đủ về
các vấn đề cần tìm hiểu.

- Phương pháp thực nghiệm khoa học: Thực hiện thu thập, xử lý các
bình luận; Xây dựng dataset, gán nhãn cho các câu bình luận. Áp dụng các kỹ
thuật xử lý ngôn ngữ tự nhiên để phân lớp theo thuật toán học sâu.

Luận văn được trình bày với bố cục như sau:
5. Tổng quan vấn đề nghiên cứu

Nội dung của đề tài mang ý nghĩa khoa học khi cung cấp một cách nhìn
tổng quan về xử lý ngôn ngữ tự nhiên và nghiên cứu các kỹ thuật xử lý ngôn
ngữ tự nhiên; đưa ra mơ hình khai thác các quan điểm của khách hàng và xây
dựng cơ sở dữ liệu tri thức về nhu cầu của khách hàng.

Đề tài luận văn cũng mang ý nghĩa thực tiễn khi thực nghiệm các
phương pháp trên với tập dữ liệu thực tế, mô tả các kết quả đạt được, từ đó
xây dựng các quy trình, giải pháp, cơng cụ tìm hiểu nhu cầu của khách hàng,
chăm sóc khách hàng, nâng cao chất lượng, hiệu quả trong hoạt động sản xuất
kinh doanh của đơn vị.
6. Cấu trúc luận văn

Luận văn được trình bày với bố cụ gồm có phần mở đầu, kết luận và 03
chương, cụ thể như sau:


Chương 1: Giới thiệu về xử lý ngôn ngữ tự nhiên: Giới thiệu các khái
niệm, khái quát chung về NLP

Chương 2: Một số kỹ thuật xử lý ngôn ngữ: Giới thiệu mộ số kỹ thuật
để xử lý ngôn ngữ tự nhiên Tiếng Việt

Chương 3: Mơ hình đề xuất: Đề xuất mơ hình, thực nghiệm cho q
trình nghiên cứu.

4

Chương 1. GIỚI THIỆU VỀ XỬ LÝ NGƠN NGỮ TỰ NHIÊN

1.1 Khái qt xử lý ngơn ngữ tự nhiên

1.1.1 Khái niệm

Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểu
diễn phép ẩn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêu
chuẩn hay sự thật thuộc lịch sử và siêu việt. Nhiều ngôn ngữ sử dụng điệu bộ,
âm thanh, ký hiệu, hay chữ viết, và cố gắng truyền khái niệm, ý nghĩa, và ý
nghĩ, tuy nhiên, nhiều khi những khía cạnh này nằm sát quá, cho nên khó
phân biệt nó.

NLP (Natural Language Processing) là khái niệm để chỉ các kĩ thuật,
phương pháp tác động trên ngơn ngữ tự nhiên bằng máy tính. Chúng ta cần
phân biệt ngơn ngữ tự nhiên (ví dụ như tiếng Việt, tiếng Anh, tiếng Nhật… là
những ngôn ngữ trong giao tiếp thường ngày) và ngôn ngữ nhân tạo (như
ngôn ngữ lập trình, ngơn ngữ máy, …).


Ngồi ra, xử lý ngơn ngữ tự nhiên cũng là một nhánh của trí tuệ nhân tạo
tập trung vào các ứng dụng trên ngôn ngữ tự nhiên của con người. Trong trí
tuệ nhân tạo thì xử lý ngơn ngữ tự nhiên là một trong những nội dung khó
nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - cơng cụ hồn hảo
nhất của tư duy và giao tiếp.
1.1.2 Trí tuệ nhân tạo

Trí tuệ nhân tạo hay trí thơng minh nhân tạo AI (Artificial intelligence)
là một ngành thuộc lĩnh vực khoa học máy tính. Là trí tuệ do con người lập
trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi thơng
minh như con người.

Trí tuệ nhân tạo có thể được phân thành ba loại hệ thống khác nhau: Trí
tuệ nhân tạo phân tích, lấy cảm hứng từ con người và nhân tạo. AI phân tích

5

chỉ có các đặc điểm phù hợp với trí tuệ nhân thức; tạo ra một đại diện nhận
thức về thế giới và sử dụng học tập dựa trên kinh nghiệm trong quá khứ để
thông báo các quyết định trong tương lai. AI lấy cảm hứng từ con người có
các yếu tố từ trí tuệ nhận thức và cảm xúc; hiểu cảm xúc của con người, ngoài
các yếu tố nhận thức và xem xét chúng trong việc ra quyết định. AI nhân cách
hóa cho thấy các đặc điểm của tất cả các loại năng lực (nghĩa là trí tuệ nhận
thức, cảm xúc và xã hội), có khả năng tự ý thức và tự nhận thức được trong
các tương tác.
1.1.3 Nhập nhằng trong ngôn ngữ

Nhập nhằng trong ngôn ngữ học là hiện tượng thường gặp, trong giao
tiếp hàng ngày con người ít để ý đến nó bởi vì họ xử lý tốt hiện tượng này

theo ngữ cảnh cụ thể. Nhưng trong các ứng dụng liên quan đến xử lý ngôn
ngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tự
động thì nhập nhằng trở thành vấn đề nghiêm trọng . Ví dụ trong một câu cần
dịch có xuất hiện từ “đường” như trong câu “Cà phê này cần cho thêm
đường” vấn đề nảy sinh là cần dịch từ này là đường (sử dụng trong thức ăn
của con người) hay đường (sử dụng trong giao thông), con người xác định
chúng khá dễ dàng căn cứ vào văn cảnh và các dấu hiệu nhận biết khác nhưng
với máy thì khơng. Một số hiện tượng nhập nhằng: Nhập nhằng ranh giới từ,
Nhập nhằng từ đa nghĩa, Nhập nhằng từ đồng âm (đồng tự), Nhập nhằng từ
loại.
1.1.4 Dịch máy

Dịch máy là một trong những ứng dụng chính của xử lý ngơn ngữ tự
nhiên, dùng máy tính để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
Mặc dù dịch máy đã được nghiên cứu và phát triển hơn 50 năm qua, song vẫn
tồn tại nhiều vấn đề cần nghiên cứu. Ở Việt Nam, dịch máy đã được nghiên
cứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch

6

còn nhiều hạn chế. Hiện nay, dịch máy được phân chia thành một số phương
pháp như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở
ví dụ.
1.2 Quy trình xử lý ngơn ngữ tự nhiên

Quá trình xử lý văn bản hay quá trình phân tích và kiểm tra tính chính
xác của văn bản là một vấn đề khá phức tạp, trải qua nhiều bước khác nhau. Ở
mỗi bước xử lý đòi hỏi người nghiên cứu phải có một kiến vững vàng về ngôn
ngữ cũng như nhiều kiến thức bổ trợ khác mới có thể xử lý tốt được. Q
trình này thường được chia thành các bước cụ thể sau: Tiền xử lý văn bản,

phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa, tích hợp văn bản
và phân tích ngữ dụng. Sau đây ta sẽ mô tả từng công việc:

Hình 1.1 - Các bước xử lý văn bản
1.2.1 Tiền xử lý văn bản

Khi đầu vào của hệ xử lý ngôn ngữ là một văn bản, ta cần phải có thêm
tầng tiền xử lý để xử lý sơ bộ văn bản đầu vào, rồi phân tách nó thành các đơn
vị rõ ràng để cho hệ xử lý chính dễ dàng thực hiện. Cụ thể bước này sẽ bao
gồm các công việc sau:

Trước nhất, bước tiền xử lý sẽ xử lý sơ bộ văn bản đầu vào (làm sạch
văn bản) bằng cách xóa bỏ những ký tự, những mã điều khiển, những vùng
không cần thiết cho việc xử lý.

Trong mỗi văn bản, bước tiền xử lý sẽ nhận diện các tiêu đề, các chú
thích, các số thứ tự và gạch đầu dòng, các đoạn văn trong văn bản.

Trong mỗi đoạn văn, bước tiền xử lý sẽ phân rã nó ra thành các câu là
đơn vị cơ sở của một văn bản. Đây là giai đoạn khó nhất và sẽ là trọng tâm

7

của bước tiền xử lý, như dấu “.” trong trường hợp sau (không biết đâu là dấu
chấm câu).

Ví dụ: Với khoản tiền 100.000 triệu đồng bạn có thể học chuyển tiếp 2
năm thạc sỹ tại Việt Nam.

Xa hơn nữa, bước tiền xử lý có thể phân tích câu thành những ngữ để

giảm bớt gánh nặng đồng thời tăng chất lượng cũng như tốc độ xử lý của hệ
thống.
1.2.2 Phân tích hình thái

Trong bước này từng từ sẽ được phân tích và các ký tự khơng phải chữ
(như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và nhiều ngôn
ngữ khác các từ được phân tách với nhau bằng dấu cách. Tuy nhiên trong
tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không
phải từ. Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Nhật, phân
tách từ trong tiếng Việt là một công việc không hề đơn giản.

Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ)
riêng biệt, đồng thời kèm theo tất cả các thơng tin về từ đó, như là: Từ loại,
phạm trù ngữ pháp, các biến cách của từ, tiền tố, hậu tố của từ (nếu có). Trong
trường hợp gặp từ mới, hệ thống sẽ để nguyên và đánh dấu một từ loại đặc
biệt để chuyển sang phần xử lý tên riêng hay từ mới. Bước phân tích hình thái
gồm các phần:

Phân tích phụ tố: Bao gồm tiền tố và hậu tố, ta thường gặp các loại phụ
tố này trong tiếng Anh. Xử lý từ ghép, ngữ cố định: Nhận diện được từ ghép
hay ngữ cố định từ các thành tố của chúng, như ngôi nhà, sách gối đầu
giường…

Xử lý các trường hợp tỉnh lược (bỏ bớt) trong một số từ như đại từ, thời
gian…

8

Đánh dấu từ loại các từ trong câu để xác định từ loại của từ một cách tự
động, chủ yếu ta phải giải quyết trường hợp nhập nhằng từ loại (một từ có

nhiều từ loại), nhưng trong câu cụ thể, ta chỉ có thể có một từ loại đúng mà
thơi.

Ví dụ: Trong câu “Học sinh học sinh học”, ta sẽ phải đánh dấu từ loại
như sau: “Học sinh | danh từ học | động từ sinh học | danh từ”.

Thông thường, nhất là với các ngôn ngữ ở châu Âu, nhiệm vụ phân tích
câu thành các từ độc lập của khối phân tích hình thái là khơng khó vì hầu hết
tất cả các từ đều nằm nguyên thành một chữ, không cần chia cắt, ngoại trừ
một số trường hợp đặc biệt như viết tắt (có thể xử lý ngoại lệ). Với một số
ngôn ngữ như với tiếng Việt, tiếng Nhật,... vấn đề trở nên rất khó nếu các từ
trong ngơn ngữ được thành nhiều cụm có thể hiểu nhập nhằng.

Ví dụ: Xét câu sau “Ông già đi nhanh quá”. Chúng ta có ít nhất 2 cách
phân cách từ:

Cách 1: “Ông già” | “đi” | “nhanh” | “quá”
Cách 2: “Ông” | “già đi” | “nhanh” | “quá”
Trong trường hợp trên khơng có cách nào đánh giá cách phân cách từ
nào tốt hơn, chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần
xử lý ngữ nghĩa sẽ tiến hành đánh giá lại xem trường hợp nào là hợp lý hơn
và chọn lựa.
1.2.3 Phân tích cú pháp

Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự liên kết giữa
các từ này. Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm.

Phân tích cú pháp là nhằm phân tích một câu thành những thành phần
văn phạm có liên quan với nhau và được thể hiện thành cây cú pháp. Khi
nhập câu, ta phải phân thành các thành phần như chủ ngữ, vị ngữ; gán vai trò

chủ từ, đối từ của động từ chính, bổ nghĩa,.. Để phân tích cú pháp, chúng ta

9

cần có bộ luật văn phạm và giải thuật phân tích cú pháp. Hiện nay, người ta
đã đưa nhiều lý thuyết văn phạm (như: CFG, UG, LG, TAG,…), và các giải
thuật phân tích cú pháp hiệu quả (Earley, Tomita, TBL,…).

Ví dụ: Nhập câu “Nam là sinh viên giỏi”, sẽ phân tích như sau: [Nam]
DT [là Đt [sinh viên DT giỏi TT]NP]VP và cây cú pháp tương ứng:

Trong đó :
Cn,Vn : chủ ngữ, vị ngữ
Dt :Danh từ
VP : động ngữ
NP : danh ngữ
TT: tính từ
Đt : động từ

Hình 1.2 - Cây cú pháp của
câu "Nam là sinh viên giỏi"
Các tập luật cú pháp phải được xây dựng theo cơ chế mở, có thể sửa đổi,
bổ sung hay loại bỏ các luật. Kết quả của bước phân tích cú pháp phụ thuộc
rất nhiều vào tính chính xác và đầy đủ của các luật cú pháp.
1.2.4 Phân tích ngữ nghĩa
Mục đích của việc phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu có
mâu thuẫn với ý nghĩa của đoạn hay không. Dựa trên mối liên hệ logic về
nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ
thống sẽ xác định được một phần ý nghĩa của câu trong ngữ cảnh của đoạn.
Đầu vào của giai đoạn phân tích ngữ nghĩa là tập các khả năng phân tích

câu và thơng tin về ngữ nghĩa của tất cả các từ. Các thực từ thường có nhiều

10

nghĩa và nghĩa của nó chỉ được xác định duy nhất trong mối quan hệ giải
thích với các từ khác trong câu.

Giải quyết nhập nhằng nghĩa ở mức từ vựng:
Xét ví dụ “Tơi với quả bóng ở trên cao”, ta có từ “với” là “liên từ” hoặc
“động từ”. Để chọn được nghĩa thích cho từ “với” trong trường hợp này
chúng ta phải vận dụng các ý niệm của ngôn ngữ học tri nhận để biết rằng
“với” là động từ chỉ hành động tác động đến một danh từ chỉ sự vật, và “với”
là liên từ liên kết giữa hai đối tượng có cùng kiểu. Kết hợp những ý niệm ấy,
ta có “tơi” là đại từ và “quả bóng” là danh từ chỉ sự vật khơng thuộc cùng
dạng đối tượng, do đó máy tính sẽ chọn từ “với” có nghĩa là “động từ” cho
trường hợp này.
Mức độ nhập nhằng cấu trúc:
Ví dụ: “Một người đàn ông và một người đàn bà già”, ta có 2 cách phân
tích.
Cách 1: “Người đàn ông| và |người đàn bà già”;
Cách 2: “Người đàn ông và người đàn bà| già”;
Máy tính sẽ chọn cách phân tích thứ hai, do tính cân bằng vốn có trong
cấu trúc song song của liên từ “và”.
Tuy nhiên, nếu xét “Một đứa trẻ và một người đàn ơng già”, ta cũng sẽ
có 2 cách phân tích:
“Đứa trẻ| và |người đàn ông già”
“Đứa trẻ và người đàn ơng| già”
Máy tính sẽ chọn cách phân tích thứ nhất, vì máy thấy cấu trúc thứ hai là
vơ lý, do có sự đối lập về ngữ nghĩa giữa thuộc tính “trẻ” trong “đứa trẻ” và
thuộc tính “già” trong “người đàn ơng”.

Mức độ nhập nhằng liên câu


×