luận án tiến sĩ nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xư ly vân đê viết tắt tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.5 MB, 204 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NHO TÚY

ÀNG THỊ MỸ LỆ
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng, năm 2020

i

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NHO TÚY

NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG
TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT

Chuyên ngành

: KHOA HỌC MÁY TÍNH

Mã số

LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
PGS.TS. PHAN HUY KHÁNH

Đà Nẵng, năm 2020

ii

LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của tôi, dưới sự hướng dẫn trực
tiếp của PGS. TS. Phan Huy Khánh, hiện là cán bộ giảng dạy tại Đại học Bách Khoa,
Đại học Đà Nẵng.
Tôi cam đoan các kết quả được trình bày trong luận án là trung thực, không
sao chép từ bất kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai cơng bố
trong bất kỳ cơng trình nào khác. Mọi trích dẫn tài liệu tham khảo đều có ghi nguồn
gốc xuất xứ rõ ràng.
Nếu có gì khơng trung thực, tác giả xin chịu hoàn toàn trách nhiệm.
Tác giả,

Nguyễn Nho Túy

iii

MỤC LỤC
LỜI CAM ĐOAN.................................................................................................... ii
DANH MỤC CÁC CHỮ VIẾT TẮT...................................................................vii
DANH MỤC HÌNH ẢNH...................................................................................... ix

DANH MỤC BẢNG BIỂU.................................................................................... xi
MỞ ĐẦU.................................................................................................................. 1
1.
2.
2.1.
2.2.
2.3.
3.
4.
5.

ĐẶT VẤN ĐỀ.................................................................................................. 1
MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU.......................... 5
Mục tiêu.......................................................................................................... 5
Đối tượng........................................................................................................ 5
Phạm vi........................................................................................................... 6
PHƯƠNG PHÁP NGHIÊN CỨU.................................................................. 6
BỐ CỤC CỦA LUẬN ÁN............................................................................... 7
ĐÓNG GÓP CỦA LUẬN ÁN......................................................................... 8

CHƯƠNG 1. VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT..................................... 11
1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN....................................11
1.1.1. Ngôn ngữ và xử lý ngôn ngữ................................................................. 11
1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết................................................ 12
1.1.3. Các loại hình ngơn ngữ......................................................................... 13
1.1.4. Xử lý ngơn ngữ tự nhiên........................................................................ 14
1.1.5. Vấn đề xử lý tiếng Việt.......................................................................... 16
1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT................18
1.2.1. Ngữ nghĩa và ngữ nghĩa học................................................................. 18
1.2.2. Phân tích nghĩa của từ.......................................................................... 19

1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa................................................... 20
1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt................................................ 22
1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG..................................................... 25
1.3.1. Chữ viết tắt là gì................................................................................... 25
1.3.2. Lịch sử hình thành chữ Quốc ngữ......................................................... 26
1.3.3. Tìm hiểu về lịch sử chữ viết tắt............................................................. 27
1.3.4. Sử dụng chữ viết tắt.............................................................................. 28
1.3.5. Chữ viết tắt trong tiếng Việt.................................................................. 31
1.4. NGỮ NGHĨA CHỮ VIẾT TẮT..................................................................... 32

iv
1.4.1. Khái niệm ngữ nghĩa chữ viết tắt.......................................................... 32
1.4.2. Biến đổi ngữ nghĩa chữ viết tắt............................................................. 33
1.4.3. Nhập nhằng chữ viết tắt........................................................................ 34
1.4.4. Xử lý nhập nhằng chữ viết tắt............................................................... 35
1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt............................................ 36
1.5. TÓM TẮT CHƯƠNG 1................................................................................. 37
CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG
VIỆT....................................................................................................................... 38

2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT..............................38
2.1.1. Mơ hình sự hình thành chữ viết tắt....................................................... 38
2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt.......................................... 40
2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt............................................. 41
2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt.....................44
2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM................................................... 47
2.2.1. Hệ sinh thái phần mềm là gì................................................................. 47
2.2.2. Mơ hình hóa hệ sinh thái phần mềm..................................................... 48
2.2.3. Đặc điểm một hệ sinh thái phần mềm................................................... 50

2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm.............................................. 51
2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES)........51
2.3.1. Hệ thống khai thác phần mềm............................................................... 51
2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt................................. 52
2.3.3. Mơ hình hệ thống khai thác chữ viết tắt................................................ 53
2.4. THỰC NGHIỆM XÂY DỰNG AMES.......................................................... 54
2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt................................55
2.4.2. Xây dựng công cụ khai thác chữ viết tắt............................................... 55
2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt................................ 55
2.5. TÓM TẮT CHƯƠNG 2................................................................................. 56
CHƯƠNG 3. XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT.............57
3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT........................................ 57
3.1.1. Mơ hình quan hệ dữ liệu....................................................................... 57
3.1.2. Triển khai cài đặt.................................................................................. 59
3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT.................................60
3.2.1. Thu thập dữ liệu thủ công..................................................................... 60
3.2.2. Thu thập dữ liệu tự động ...................................................................... 61

v
3.2.3. Đề xuất thuật tốn SENVA tìm kiếm chữ viết tắt mới............................62
3.2.4. Thực nghiệm cài đặt thuật toán SENVA................................................ 64
3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT.............................65
3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành...................................65
3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục........................69
3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia.........................71
3.4. ĐÁNH GIÁ KẾT QUẢ.................................................................................. 73
3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt........................................... 73
3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt................................... 74
3.5. TÓM TẮT CHƯƠNG 3................................................................................. 76

CHƯƠNG 4. XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT...........77
4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT.................................................. 77
4.1.1. Lựa chọn cơng cụ lập trình................................................................... 77
4.1.2. Thiết kế chương trình............................................................................ 77
4.1.3. Kết quả xây dựng thư viện chữ viết tắt.................................................. 78
4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU............................ 79
4.2.1. Tin nhắn thương hiệu là gì.................................................................... 79
4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname........................80
4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu..............................81
4.2.4. Cài đặt chương trình, kết quả thử nghiệm............................................ 87
4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG.............88
4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình................................ 88
4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt.............................................. 89
4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển..................................90
4.3.4. Cài đặt và kết quả thực nghiệm............................................................. 92
4.4. ĐÁNH GIÁ KẾT QUẢ.................................................................................. 93
4.4.1. Đánh giá kết quả thực nghiệm AMES.................................................. 93
4.4.2. Đánh giá AMES đặc tả theo mơ hình UML.......................................... 94
4.5. TĨM TẮT CHƯƠNG 4................................................................................. 96
CHƯƠNG 5. XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT.................................... 97
5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT........................97
5.1.1. Ngữ cảnh sử dụng chữ viết tắt.............................................................. 97
5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản ........................................ 98

vi
5.1.3. Xây dựng mơ hình nhận diện chữ viết tắt trong văn bản.......................99
5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt
......................................................................................................................
100

5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT................102
5.2.1. Xây dựng các miền dữ liệu
......................................................................................................................
102
5.2.2. Xây dựng vị từ và hàm
......................................................................................................................
103
5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản
......................................................................................................................
105
5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT....................106
5.3.1. Xây dựng cơ sở luật
......................................................................................................................
106
5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt
......................................................................................................................
109
5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt.......................110
5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng....................112
5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG.......113
5.4.1. Tần số chữ viết tắt............................................................................... 113
5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt...............114
5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt..................................116
5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm......................117
5.4.5. Kết quả thực nghiệm và đánh giá....................................................... 119
5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt
......................................................................................................................
123
5.5. TÓM TẮT CHƯƠNG 5............................................................................... 124
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.......................................................... 125

1. KẾT LUẬN...................................................................................................... 125
1.1. Tóm tắt nội dung luận án
......................................................................................................................
125
1.2. Các kết quả đạt được

......................................................................................................................
126
1.3. Hạn chế của luận án
......................................................................................................................
128
2. HƯỚNG PHÁT TRIỂN.................................................................................. 129
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA TÁC GIẢ...............130
TÀI LIỆU THAM KHẢO................................................................................... 131
PHỤ LỤC

TIẾNG VIỆT
STT
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.

viii

TIẾNG ANH
STT

Chữ viết tắ

1.

API

2.

AMES

3.

AFVAI

4.

CSBCOM

5.

I*

6.

IM

7.

HTML

8.

PSTN

9.

SENVA

10.

SMS

11.

SAOM-FTS

12.

UML

13.

VNPT

14.

WFST

15.

XML

ix

STT

Hình

1.

Hình 1.1

2.

Hình 1.2

3.

Hình 1.3

4.

Hình 2.1

5.

Hình 2.2

6.

Hình 2.3

7.

Hình 2.4

8.

Hình 2.5

9.

Hình 2.6

10.

Hình 3.1

11.

Hình 3.2

12.

Hình 3.3

13.

Hình 4.1

14.

Hình 4.2.

15.

Hình 4.3

16.

Hình 4.4

17.

Hình 4.5

18.

Hình 4.6

19.

Hình 4.7

20.

Hình 5.1

x

21. Hình 5.2
22. Hình 5.3
23. Hình 5.4
24. Hình 5.5

xi

DANH MỤC BẢNG BIỂU

STT

Bảng

1.

Bảng 3.1

2.

Bảng 3.2

3.

Bảng 3.3

4.

Bảng 3.4

5.

Bảng 3.5

6.

Bảng 3.6.

7.

Bảng 3.7

8.

Bảng 3.8

9.

Bảng 4.1

10.

Bảng 4.2

11.

Bảng 4.3

12.

Bảng 4.4

13.

Bảng 4.5

14.

Bảng 5.1

15.

Bảng 5.2

16.

Bảng 5.3

17.

Bảng 5.4

18.

Bảng 5.5

1

MỞ ĐẦU
1.

ĐẶT VẤN ĐỀ
Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt

(CVT) chỉ với mong muốn rút gọn thời gian, công sức. Câu chuyện “Người ăn cắp
cừu” [79] (phụ lục 1) cho thấy CVT là một vấn đề tuy không lớn, không hẳn là mới
mẻ nhưng có lẽ ai cũng gặp phải khi đọc hiểu một văn bản, ví dụ chữ viết tắt ST

1

trong câu chuyện.
Cùng một CVT (hay một ký hiệu nào đó), người ta có thể đọc hiểu theo
nhiều cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ
quan của mình. Chữ viết tắt ST trong [79] đã được sử dụng từ nhu cầu thực tế để
diễn đạt nội dung trừng phạt kẻ ăn cắp cừu, nhưng được hiểu bởi một ý nghĩa khác
nhau, thậm chí đối ngược nhau. Khi một văn bản sử dụng CVT, người viết thường
luôn giả sử rằng CVT này thông dụng và dễ hiểu đối với đối tượng độc giả mà văn
bản này nhắm đến. Tuy nhiên, thực tế không phải đối tượng độc giả nào cũng hiểu
được hết, bởi do sự khác nhau về trình độ, độ tuổi, sự trải nghiệm, lĩnh vực hay
chuyên ngành. Hơn nữa, thời gian, trí nhớ và quan niệm của con người đã làm nhầm
lẫn, làm phát sinh thêm ý nghĩa mới CVT như chữ ST nói trên. Thực tế cuộc sống
và giao tiếp làm nảy sinh tìm hiểu ý nghĩa CVT là gì. Đây khơng phải là vấn đề dễ
dàng đối với tất cả mọi người. Khi đọc một văn bản, hầu hết người đọc đều phải
dừng lại chốc lát để hiểu được CVT ấy là gì. Thậm chí có khi người đọc phải mất
vài phút tìm hiểu và tra cứu mà vẫn chưa hiểu được đầy đủ CVT. Vì vậy vấn đề
phân giải ý nghĩa CVT là cần thiết trong nhiều tình huống, khơng chỉ tình huống
trong sử dụng ngơn ngữ tự nhiên (giao tiếp, đặt tên, nhắn tin, Email…), mà còn

trong các lĩnh vực nghiên cứu khoa học, nhận dạng chữ viết hình ảnh, dịch thuật…
Trong ngôn ngữ tự nhiên (NNTN), xu hướng thể hiện văn bản, lời nói ngắn gọn,
đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện tượng
phổ biến trong nhiều thứ tiếng khác trên thế giới. Viết tắt, nói tắt được sử dụng rộng rãi
trong nhiều lĩnh vực, nhiều chuyên ngành, từ các nhà sản xuất, các nhà xuất

1

ST: Người ăn cắp cừu (Sheep Theft) hay ST: Thánh thiện (Saint)

2

bản, đến các nhà quản lý, sử dụng, nghiên cứu, giảng dạy… Người dùng có nhu cầu
sử dụng CVT để ghi nhận, chuyển tải lượng thông tin lớn, đôi khi chứa đựng những
bí ẩn bất ngờ trong đó. Trên văn đàn Việt Nam, chữ viết tắt TTKH, tác giả bài thơ
«Hai sắc hoa ti gơn»2 vẫn cịn là điều bí ẩn và gây nhiều tranh luận cho đến nay.
Vậy nên việc sử dụng, lưu trữ, xử lý CVT trong bối cảnh chuyên ngành khoa học
công nghệ thông tin (CNTT), lĩnh vực liên quan đến sự tương tác giữa máy và
NNTN không thể không quan tâm đến vấn đề CVT.
Khoa học chuyên ngành CNTT đã định hình lĩnh vực liên quan đến sự tương
tác giữa máy và NNTN là lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN). Mục tiêu
của lĩnh vực này là giúp các chương trình trong máy tính hiểu được NNTN. Một hệ
thống XLNNTN có thể bắt đầu ở mức từ để xác định cấu trúc hình thái, bản chất
của từ (ví dụ như gán nhãn từ loại, ngữ nghĩa)..., sau đó có thể chuyển sang mức câu
để xác định trật tự từ, ngữ pháp, nghĩa của toàn bộ câu, tiếp theo là mức ngữ cảnh
và theo từng chun ngành [7][52][56].
Các cơng trình nghiên cứu về XLNNTN trên thế giới ra đời rất sớm, từ
những năm 1940 [52], theo hai hướng cơ bản: Hướng nghiên cứu đầu tiên vào giai
đoạn năm 1940-1950 là mơ hình các máy tự động và các mơ hình xác suất; hướng

nghiên cứu tiếp theo với các giai đoạn năm 1957-1970, XLNNTN tập trung nghiên
cứu theo lý thuyết ngơn ngữ hình thức của Chomsky và trí tuệ nhân tạo cho tiếng
nói như các phương pháp Bayes [56]… Tiếp đến, giai đoạn 1970-1983 phát triển
mạnh mẽ các mơ hình nghiên cứu về XLNNTN; giai đoạn 1983-1993, nghiên cứu
tập trung trở lại mơ hình trạng thái hữu hạn, các phương pháp xác suất và hướng
tiếp cận dựa trên các dữ liệu lời nói trong phân tích cú pháp, gán nhãn từ loại và xử
lý nhập nhằng ngữ nghĩa [52]. Giai đoạn từ năm 1994 đến nay, chuyên ngành
XLNNTN đã có những thay đổi và bước phát triển mới. Nhiều thuật tốn phân tích
cú pháp, gán nhãn từ loại, truy xuất thông tin cũng đã được nghiên cứu và áp dụng
như: Nhận dạng tiếng nói, kiểm tra chính tả, kiểm tra ngữ pháp, cơng cụ truy xuất
và trích chọn thơng tin trên web [52]. Giai đoạn này ghi nhận sự phát triển các
nghiên cứu phương pháp dịch máy thống kê, chẳng hạn như Google [62], [63] cũng
đã ứng dụng trong hệ dịch tự động từ năm 2007.
2

Tiểu thuyết thứ bảy - năm 1939

3

Trong tiếng Anh, có nhiều cơng trình nghiên cứu giải quyết nhập nhằng ngữ
3

nghĩa đã được thực hiện với hai hướng tiếp cận cơ bản : Giải quyết nhập nhằng dựa
trên thông tin trong một ngữ cảnh cụ thể và dựa trên những thông tin thu được trong
việc học từ vài tập ngữ liệu học [53][67]. Sau đó cịn có nhiều cơng trình dùng kết hợp
cả hai phương pháp này [68], sử dụng các mơ hình thống kê các loại đồng nghĩa để xác
định nghĩa của các từ tiếng Anh để khử nhập nhằng. Có nhiều cơng trình nghiên cứu
chun sâu CVT trong y học như [71][72][73][68], giải quyết vấn đề nhận dạng, khử
nhập nhằng CVT trong văn bản tóm tắt y học về bệnh nhân, về hệ thống NLP chuyên

ngành y học, giúp đưa ra quyết định, tạo điều kiện chăm sóc bệnh nhân tốt hơn. Có
nghiên cứu CVT trong ngôn ngữ tiếng Trung, tiếng Do Thái như [69][57], nghiên cứu
nhận diện CVT dựa vào thông tin ngữ cảnh văn bản, sử dụng phương pháp máy học để
nhận dạng CVT bởi thuộc tính nhất quán trong văn bản.
Vấn đề xử lý tiếng Việt (XLTV) đã được triển khai nghiên cứu từ năm 1990, đã
có nhiều cơng trình được cơng bố [9][25][56] ... Về nghiên cứu nhập nhằng, xử lý nhập
nhằng trong tiếng Việt, gần đây có các cơng trình nghiên cứu khử nhập nhằng trong
một vài lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục
vụ giảng dạy và học tập [42]; xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học
từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản [43], nghiên cứu đề
xuất giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt [3]. Về CVT
tiếng việt, đã có một số cơng trình nghiên cứu đề cập xây dựng cơ sở dữ liệu (CSDL)
CVT và ứng dụng trong một chuyên ngành: [26][29] đề cập đến hiện tượng nói tắt và
4

viết tắt trong tiếng Việt , [39] biểu diễn ngữ cảnh trong triển khai CVT dùng tiếp cận
học máy, [40] thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc, [66] thể hiện
bối cảnh trong mở rộng viết tắt bằng cách sử dụng phương pháp học máy. Một số từ
điển CVT tiếng Việt thông dụng, thường dùng trong chun ngành (y học, viễn thơng,
…), tiếng nước ngồi đã được xuất bản như [8][18][19][35][36]; các xuất bản này đã
chọn lọc và giới thiệu các CVT một số chuyên ngành, chưa quan tâm đến sự hình
thành, sự biến đổi và ứng dụng CVT, nhất

3 Wilks, Stevenson, Sense Tagging: Semantic Tagging with a Lexicon. In Proceedings of SIGLEX Workshop on Tagging
Text with Laxical Semantics: Why, What and How?, Washington, D.C. 1997
4
Tạp chí Ngơn ngữ và Đời sống, số 1+2 (87+88) năm 2003

4

là vấn đề nhập nhằng ngữ nghĩa CVT. Nhìn chung, đến nay chưa có cơng trình nào
nghiên cứu một cách hệ thống và đầy đủ về CVT tiếng Việt.
Trong bối cảnh chung của việc XLNNTN và XLTV, trên cơ sở tìm hiểu lý
thuyết về ngơn ngữ học và thực trạng sử dụng CVT trong thực tiễn, ta nhận thấy
rằng NNTN ln biến đổi và phát triển khơng ngừng; trong đó sự hình thành CVT
được xem như là phương thức hình thành nên từ ngữ mới, với những biến đổi ngữ
nghĩa CVT đa dạng. Do đó, để góp phần giải quyết các bài toán trong XLTV, đề tài
này đặt vấn đề cần thiết phải nghiên cứu: tiếp cận vấn đề ngữ nghĩa, nhập nhằng
ngữ nghĩa, xử lý, nhận dạng CVT, hướng đến xây dựng môi trường khai thác khả
dụng, phát triển CVT bởi nó liên tục biến tấu, thay đổi và ln có nhu cầu sử dụng
trong thực tiễn.
Câu chuyện Người ăn cắp cừu [79] cho ta thấy sự biến đối ngữ nghĩa của chữ
viết tắt ST qua thời gian, không gian và ngữ cảnh diễn tả theo ý nghĩ, nhận định của
con người. Việc XLTV trong văn bản chắc chắn gặp phải vấn đề nhập nhằng ngữ nghĩa
CVT. Xuất phát từ tình hình thực tiễn và nhu cầu nêu trên, dựa vào ý tưởng hệ sinh thái
phần mềm (Software Ecosysytems) [64][65][77], tác giả nhận thấy cần có nghiên cứu
tạo lập hệ thống khai thác, sử dụng CVT ngày càng thuận tiện cho người dùng, có tính
gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cứu, cùng tạo ra môi trường học
tập và trao đổi thông tin các vấn đề liên quan đến CVT, góp phần nhỏ trong nghiên cứu
XLTV. Đề tài của luận án được chọn: “Nghiên cứu ngữ nghĩa và

hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng
Việt”, triển khai thực hiện theo 3 nội dung nghiên cứu:
1)

Ngữ nghĩa và vấn đề nhập nhằng ngữ nghĩa trong tiếng Việt, tiếp

cận vấn đề chữ viết tắt tiếng Việt.
2)

Tiếp cận xử lý chữ viết tắt tiếng Việt.

3)

Xây dựng môi trường khai thác chữ viết tắt tiếng Việt.

Nội dung thứ 1 và thứ 2 đã tập trung nghiên cứu các vấn đề cơ sở khoa học
về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ
nghĩa, biến đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt...
Nội dung thứ 3 nghiên cứu xây dựng hệ thống khai thác CVT, đề xuất thuật
toán xây dựng công cụ tư vấn đặt tên CVT sử dụng trong tin nhắn thương hiệu cho

5

doanh nghiệp. Xây dựng phương pháp đánh giá tần số, tần suất CVT trên mạng
Internet; cài đặt thuật toán ghi nhận tần số CVT trên mạng. Đề xuất giải pháp xử lý
nhập nhằng CVT trong văn bản bằng cách xây dựng cơ sở luật nhận diện CVT, kết
hợp với các CSDL CVT, thống kê tần số, tần suất sử dụng để có một mơ hình xử lý
nhập nhằng CVT trong văn bản.
2.
2.1.

MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
Mục tiêu
Mục tiêu nghiên cứu của đề tài bao gồm những nội dung chính:
Sau khi tìm hiểu tiếng Việt về phương diện ngôn ngữ học, luận án nghiên

cứu hiện tượng nhập nhằng và xử lý nhập nhằng tiếng Việt nói chung, CVT tiếng

Việt nói riêng, nghiên cứu CVT và nhu cầu sử dụng trong thực tế ở tất cả các lĩnh
vực, chuyên ngành. Từ đó, hiểu được tri thức về CVT, triển khai thực hiện nghiên
cứu đạt được 4 mục tiêu chính:
1)

Nghiên cứu, phát hiện tri thức và xây dựng kho ngữ liệu CVT.

2) Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác
CVT.
3) Đề xuất chuẩn hóa CVT và triển khai giải pháp xử lý nhập nhằng
CVT.
4)

Xây dựng công cụ, ứng dụng và khai thác CVT.

Kết quả nghiên cứu định hướng đến công bố khoa học rộng rãi nhằm góp
phần nhỏ giải quyết nhập nhằng CVT, giúp cho việc sử dụng CVT một cách nhất
quán, đi đến chuẩn hoá hệ thống CVT, từng bước làm giàu hệ thống từ vựng, góp
phần phát triển ngơn ngữ tiếng Việt.
2.2.

Đối tượng
Đề tài nghiên cứu về bản chất ngôn ngữ tự nhiên nói chung, ngữ pháp tiếng

Việt, các phương pháp, kỹ thuật và cơng cụ XLNNTN, XLTV, trong đó có phương
pháp khử nhập nhằng.
Đối tượng nghiên cứu là tri thức các chuyên gia ngôn ngữ, chuyên gia
XLNNTN, chuyên gia tin học; nghiên cứu CVT trong văn bản, sách, báo, website
tiếng Việt, một số ngôn ngữ dân tộc khác, tiếng Anh… nghiên cứu sự hình thành
CVT trong NNTN ở tất cả các lĩnh vực đời sống xã hội. Tiếp cận từng bước, khởi

6

đầu từ vấn đề lý thuyết và thực tế sử dụng CVT để dần dần đi đến vấn để chuyên
sâu và thu hẹp hơn trong lĩnh vực khai thác, xử lý và sử dụng CVT trong chuyên
ngành viễn thông, CNTT.
2.3.

Phạm vi
Về lĩnh vực nghiên cứu lý thuyết, luận án nghiên cứu XLNNTN, XLTV, chủ

yếu xử lý văn bản, hiện tượng nhập nhằng, vấn đề ngữ nghĩa, công cụ XLNNTN,
XLTV.
Về lĩnh vực nghiên cứu sử dụng CVT, đề tài không hạn chế phạm vi, trong
mọi lĩnh vực đời sống xã hội. Tuy nhiên, đề tài tập trung vào lĩnh vực khoa học,
cơng nghệ và kỹ thuật, có tham khảo CVT tiếng Anh và một số ngôn ngữ khác.
Về môi trường phát triển ứng dụng, chủ yếu là xây dựng kho ngữ liệu, xây
dựng cơng cụ, ứng dụng, hình thành mơi trường khai thác, nghiên cứu CVT, cài đặt
thử nghiệm trong chuyên ngành và đưa vào khai thác trực tuyến. Phạm vi giới hạn
ứng dụng xử lý nhập nhằng CVT trong lĩnh vực viễn thông, CNTT.
3.

PHƯƠNG PHÁP NGHIÊN CỨU
Các phương pháp nghiên cứu cơ bản được sử dụng trong luận án gồm ba

phương pháp: Khảo sát thực tế, nghiên cứu lý thuyết và nghiên cứu thực nghiệm.
Khảo sát thực tế: Khảo sát vấn đề sử dụng CVT trong văn bản, Internet, quy
định ngữ pháp, thực tiễn, chuyên ngành viễn thông…; kết hợp phương pháp phỏng
vấn trực tiếp một số chuyên gia, từ đó so sánh, đối chiếu, kiểm chứng lại những

thơng tin CVT đã thu thập được.
Nghiên cứu lý thuyết: Nghiên cứu trên các tài liệu liên quan đến lý thuyết
ngôn ngữ học, XLNNTN, phương pháp tách từ, xây dựng từ điển, kỹ thuật xây
dựng máy tìm kiếm. Nghiên cứu lý thuyết xây dựng vị từ, hàm, cơ sở luật và máy
suy diễn; vận dụng lý thuyết Công nghệ phần mềm, CSDL… vào thực nghiệm.
Nghiên cứu thực nghiệm: Tìm hiểu các kỹ thuật tìm kiếm, xây dựng thuật
tốn và các bộ cơng cụ dựa trên giải pháp đã được đề xuất. Dữ liệu đầu vào của các
công cụ là dữ liệu được dùng trong thực tiễn, từ nguồn tài nguyên xây dựng.

7

Ngồi ra, cịn có sự kết hợp phương pháp thảo luận, trao đổi các nhà nghiên
cứu thông qua các hội thảo; từ đó, lựa chọn phương hướng tối ưu giải quyết vấn đề,
đồng thời có kiểm nghiệm, thử nghiệm và đánh giá kết quả khách quan hơn.
4.

BỐ CỤC CỦA LUẬN ÁN
Sau phần mở đầu giới thiệu mục đích triển khai đề tài, nội dung chính gồm 5

chương, phần kết luận và phần phụ lục. Cụ thể như sau:
Chương 1 nghiên cứu tổng quan, những nhân tố làm cho ngôn ngữ biến đổi
và phát triển; nêu lên những vấn đề về XLNNTN đặt trong bối cảnh chung để tiếp
cận vấn đề ngữ nghĩa và nhập nhằng ngữ nghĩa. Tìm hiểu sự biến đổi phát triển
ngôn ngữ tiếng Việt: sự biến đổi từ vựng và sự biến đổi ngữ nghĩa. Đây là cơ sở lý
luận của ngôn ngữ học để luận án tiếp cận nghiên cứu vấn đề CVT tiếng Việt. Từ đó
phân tích các hạn chế, phát hiện đặt vấn đề cần nghiên cứu.
Chương 2 tiếp cận nghiên cứu vấn đề hình thành CVT tiếng Việt bằng cách tìm
hiểu CVT trong cuộc sống với lịch sử hình thành, nhu cầu sử dụng. Thơng qua việc mơ
hình hóa sự hình thành, xem xét kỹ nguồn gốc tạo nên CVT, xây dựng các quy tắc hình

thành CVT; tìm hiểu các yếu tố ảnh hưởng đến hình thành CVT, so sánh với những quy
định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ dấu hiệu nhận biết CVT trong văn
bản. Nội dung chương 2 là kết quả nghiên cứu đầy đủ vấn đề CVT tiếng Việt, trọng tâm
là đề xuất xây dựng hệ thống khai thác CVT tiếng Việt (AMES). Đó là một trường khai
thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm; được triển khai thực
nghiệm để tạo lập kết nối giữa các tác nhân NSD, chuyên gia nghiên cứu, doanh
nghiệp, lập trình viên, nhà cung cấp hạ tầng với nhau.

Chương 3 nghiên cứu xây dựng nguồn tài nguyên CVT tiếng Việt, bao gồm:
xây dựng CSDL, đề xuất phương pháp thu thập dữ liệu, đề xuất và thực nghiệm
thuật tốn tìm kiếm CVT mới trên mạng Internet và cập nhật về CSDL. Đề xuất một
vài ứng dụng khai thác nguồn tài nguyên CVT, đặc biệt là ứng dụng sử dụng CVT
trong CSDL; đề xuất vấn đề sử dụng CVT trong việc ban hành bộ mã danh mục
chuyên ngành, ban hành bộ mã danh mục quốc gia. Đây là một trong những yêu cầu
cần thiết để tạo điều kiện chia xẻ, trao đổi dữ liệu với nhau.
Chương 4 trình bày kết quả xây dựng một số công cụ khai thác CVT tiếng
Việt, từng bước thực nghiệm hình thành một hệ thống khai thác CVT tiếng Việt dựa

8

trên ý tưởng hệ sinh thái phần mềm. Website tra thư viện viết tắt5 và Chương trình
từ điển trên máy di động6 là hai công cụ phục vụ khai thác nguồn dữ liệu CVT,
đồng bộ dữ liệu với nhau. Từ điển trên máy di động có sự tùy biến cá nhân khi sử
dụng CVT trên máy di động như thống kê, tần suất sử dụng cá nhân... Chương 4 còn
xây dựng công cụ tư vấn đặt tên thương hiệu Brandname cho doanh nghiệp, thực
nghiệm triển khai áp dụng vào thực tiễn dịch vụ chuyên ngành viễn.
Chương 5 tập trung phân tích và đề xuất giải quyết vấn đề xử lý nhập nhằng
CVT. Phân tích ngữ cảnh văn bản, nhận diện tình huống sử dụng CVT trong văn
bản, đưa giải pháp xử lý nhập nhằng CVT trong văn bản chuyên ngành. Xây dựng

vị từ và hàm nhận diện CVT trong văn bản, từ đó đề xuất xây dựng cơ sở luật, thuật
toán nhận diện và xử lý nhập nhằng CVT, đề xuất xây dựng máy suy diễn nhận diện
CVT trong văn bản, giới hạn trong lĩnh vực chuyên ngành viễn thông. Chương 5
còn nêu lên hướng tiếp cận xử lý nhập nhằng CVT dựa vào chỉ số tần suất xuất hiện
CVT; xây dựng thuật toán và thực nghiệm đánh giá tần số, tần suất CVT trên mạng
Internet và đưa ra một vài ứng dụng thực tiễn.
Phần kết luận trình bày tóm tắt nội dung và kết quả luận án đạt được. Phần
phụ lục trình bày bổ sung các giải thích, hình ảnh, bảng biểu, thuật tốn, mã lệnh...
5.

ĐĨNG GĨP CỦA LUẬN ÁN
Luận án đã có những đóng góp khoa học và ứng dụng thực tiễn như sau:
1.

Phát hiện và xây dựng kho ngữ liệu chữ viết tắt

Kho ngữ liệu được cập nhật từ nhiều nguồn dữ liệu khác nhau theo sự biến
động và phát triển CVT trong thực tiễn với phương pháp thủ cơng/tự động. Dữ liệu
CVT được chuẩn hóa và phân lớp. Hiện nay đã có khoảng 7.000 CVT tiếng Việt (có
cả CVT nội sinh và ngoại nhập) đã biên tập lưu trữ trong CSDL, từng bước chuyển
song ngữ (Việt - Anh) những CVT thông dụng.
2. Tổng kết các quy tắc hình thành chữ viết tắt, xây dựng hệ thống khai
thác

chữ viết tắt
Xây dựng các quy tắc hình thành CVT, từng bước chuẩn hóa quy tắc sử dụng
CVT, góp phần phát triển ngôn ngữ tiếng Việt. Luận án đã tiếp cận nghiên cứu sự
5
6

ABC Acronym Dictionary

9

hình thành CVT, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp để xây
dựng và đã cơng bố 9 quy tắc hình thành CVT trong bài báo số [8].
Luận án đã đề xuất AMES, mơ hình hóa hệ thống khai thác CVT. Đây là môi
trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm, có tính ổn
định, tính mở, tính kế thừa; được triển khai thử nghiệm để tạo lập kết nối giữa các
đối tượng NSD, chuyên gia nghiên cứu, doanh nghiệp, lập trình viên, nhà cung cấp
hạ tầng với nhau.
3.

Góp phần xử lý nhập nhằng chữ viết tắt

Luận án xây dựng 27 vị từ điều khiển, nhận diện CVT trong văn bản; xây
dựng 12 hàm xử lý chuỗi; lập 12 luật làm cơ sở xây dựng máy suy diễn nhận diện
CVT và triển khai thử nghiệm trong chuyên ngành viễn thông.
Luận án đã đề xuất giải pháp xây dựng công cụ thống kê tần số, tần suất
CVT tiếng Việt nhằm góp phần giúp nhà nghiên cứu quan sát, lưu trữ, thống kê và
phân tích các hiện tượng phát triển ngơn ngữ tiếng Việt nói chung và CVT nói riêng
qua từng thời điểm. Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho phép một cách
tiếp cận xử lý nhập nhằng ngữ nghĩa CVT.
4.

Ứng dụng và khai thác chữ viết tắt

Luận án đã xây dựng được hai hệ thống từ điển: Website thư viện CVT

7

và

Từ điển CVT trên máy di động 8. Hai hệ thống này có sự đồng bộ dữ liệu với nhau
đảm bảo thống nhất chung nguồn dữ liệu. Tuy nhiên có sự tùy biến cá nhân khi sử
dụng CVT trên máy di động như thống kê, tần suất sử dụng cá nhân,...
Xây dựng được ứng dụng máy tìm kiếm CVT mới, xây dựng cơng cụ quảng bá
thương hiệu Brandname cho doanh nghiệp, công cụ tư vấn đặt tên Brandname cho
doanh nghiệp (tránh trùng lặp, nhập nhằng), từ điển CVT trên máy di động cho NSD…
Các ứng dụng trên là những thành phần trong hệ thống AMES. Xây dựng và triển khai
thực nghiệm 4 thuật toán: Thuật toán SENVA - cập nhật tự động CVT mới từ Internet,
thuật toán SAOM-FTS - từ điển CVT trên di động, thuật toán CSBCOM

-

tư vấn thương hiệu, thuật toán AFVAI - đánh giá tần số CVT.

7
8

ABC Acronym Dictionary

luận án tiến sĩ nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xư ly vân đê viết tắt tiếng việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về