Tải bản đầy đủ (.pdf) (168 trang)

Luận án Tiến sĩ Kỹ thuật: Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.51 MB, 168 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NHO TÚY

ÀNG THỊ MỸ LỆ
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số

: 62.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng, năm 2020


i

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NHO TÚY

NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG
TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT

Chuyên ngành

: KHOA HỌC MÁY TÍNH



Mã số

: 62.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
PGS.TS. PHAN HUY KHÁNH

Đà Nẵng, năm 2020


ii

LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của tôi, dưới sự hướng dẫn trực tiếp
của PGS. TS. Phan Huy Khánh, hiện là cán bộ giảng dạy tại Đại học Bách Khoa, Đại
học Đà Nẵng.
Tôi cam đoan các kết quả được trình bày trong luận án là trung thực,
không sao chép từ bất kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai cơng
bố trong bất kỳ cơng trình nào khác. Mọi trích dẫn tài liệu tham khảo đều có ghi nguồn
gốc xuất xứ rõ ràng.
Nếu có gì khơng trung thực, tác giả xin chịu hoàn toàn trách nhiệm.
Tác giả,

Nguyễn Nho Túy


iii


MỤC LỤC
LỜI CAM ĐOAN.................................................................................................. ii
DANH MỤC CÁC CHỮ VIẾT TẮT ................................................................. vii
DANH MỤC HÌNH ẢNH .................................................................................... ix
DANH MỤC BẢNG BIỂU .................................................................................. xi
MỞ ĐẦU ................................................................................................................1
1.
2.
2.1.
2.2.
2.3.
3.
4.
5.

ĐẶT VẤN ĐỀ ................................................................................................1
MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU .........................5
Mục tiêu ........................................................................................................5
Đối tượng ......................................................................................................5
Phạm vi .........................................................................................................6
PHƯƠNG PHÁP NGHIÊN CỨU .................................................................6
BỐ CỤC CỦA LUẬN ÁN .............................................................................7
ĐÓNG GÓP CỦA LUẬN ÁN .......................................................................8

CHƯƠNG 1. VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT .................................... 11
1.1. NGÔN NGỮ VÀ XỬ LÝ NGƠN NGỮ TỰ NHIÊN .................................... 11
1.1.1. Ngơn ngữ và xử lý ngôn ngữ ................................................................ 11
1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết ............................................... 12
1.1.3. Các loại hình ngơn ngữ........................................................................ 13
1.1.4. Xử lý ngơn ngữ tự nhiên....................................................................... 14

1.1.5. Vấn đề xử lý tiếng Việt ......................................................................... 16
1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT ............... 18
1.2.1. Ngữ nghĩa và ngữ nghĩa học ................................................................ 18
1.2.2. Phân tích nghĩa của từ ......................................................................... 19
1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa .................................................. 20
1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt ............................................... 22
1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG .................................................... 25
1.3.1. Chữ viết tắt là gì .................................................................................. 25
1.3.2. Lịch sử hình thành chữ Quốc ngữ ........................................................ 26
1.3.3. Tìm hiểu về lịch sử chữ viết tắt ............................................................ 27
1.3.4. Sử dụng chữ viết tắt ............................................................................. 28
1.3.5. Chữ viết tắt trong tiếng Việt .................................................................31
1.4. NGỮ NGHĨA CHỮ VIẾT TẮT ................................................................... 32


iv
1.4.1. Khái niệm ngữ nghĩa chữ viết tắt ......................................................... 32
1.4.2. Biến đổi ngữ nghĩa chữ viết tắt ............................................................ 33
1.4.3. Nhập nhằng chữ viết tắt ....................................................................... 34
1.4.4. Xử lý nhập nhằng chữ viết tắt .............................................................. 35
1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt ............................................ 36
1.5. TÓM TẮT CHƯƠNG 1 ................................................................................ 37
CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG
VIỆT ..................................................................................................................... 38
2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT ............................. 38
2.1.1. Mơ hình sự hình thành chữ viết tắt....................................................... 38
2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt ......................................... 40
2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt ............................................ 41
2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt ..................... 44
2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM .................................................. 47

2.2.1. Hệ sinh thái phần mềm là gì ................................................................ 47
2.2.2. Mơ hình hóa hệ sinh thái phần mềm .................................................... 48
2.2.3. Đặc điểm một hệ sinh thái phần mềm................................................... 50
2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm.............................................. 51
2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES) ...... 51
2.3.1. Hệ thống khai thác phần mềm .............................................................. 51
2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt .................................52
2.3.3. Mô hình hệ thống khai thác chữ viết tắt ............................................... 53
2.4. THỰC NGHIỆM XÂY DỰNG AMES ........................................................ 54
2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt ............................... 55
2.4.2. Xây dựng công cụ khai thác chữ viết tắt ............................................... 55
2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt ............................... 55
2.5. TÓM TẮT CHƯƠNG 2 ................................................................................ 56
CHƯƠNG 3. XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT............. 57
3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT ...................................... 57
3.1.1. Mơ hình quan hệ dữ liệu ...................................................................... 57
3.1.2. Triển khai cài đặt................................................................................. 59
3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT ................................ 60
3.2.1. Thu thập dữ liệu thủ công .................................................................... 60
3.2.2. Thu thập dữ liệu tự động ...................................................................... 61


v
3.2.3. Đề xuất thuật tốn SENVA tìm kiếm chữ viết tắt mới ........................... 62
3.2.4. Thực nghiệm cài đặt thuật toán SENVA ............................................... 64
3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT ............................ 65
3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành ................................... 65
3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục ....................... 69
3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia ........................ 71
3.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................ 73

3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt .......................................... 73
3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt ................................... 74
3.5. TÓM TẮT CHƯƠNG 3 ................................................................................ 76
CHƯƠNG 4. XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT ........... 77
4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT ............................................... 77
4.1.1. Lựa chọn cơng cụ lập trình .................................................................. 77
4.1.2. Thiết kế chương trình ........................................................................... 77
4.1.3. Kết quả xây dựng thư viện chữ viết tắt ................................................. 78
4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU .......................... 79
4.2.1. Tin nhắn thương hiệu là gì ................................................................... 79
4.2.2. Các bước xây dựng cơng cụ tư vấn đặt tên Brandname........................ 80
4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu .............................. 81
4.2.4. Cài đặt chương trình, kết quả thử nghiệm ............................................ 87
4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG ........... 88
4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình ................................ 88
4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt ............................................. 89
4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển .................................90
4.3.4. Cài đặt và kết quả thực nghiệm ............................................................ 92
4.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................. 93
4.4.1. Đánh giá kết quả thực nghiệm AMES ................................................. 93
4.4.2. Đánh giá AMES đặc tả theo mơ hình UML ......................................... 94
4.5. TÓM TẮT CHƯƠNG 4 ................................................................................ 96
CHƯƠNG 5. XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT ................................... 97
5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT ...................... 97
5.1.1. Ngữ cảnh sử dụng chữ viết tắt ............................................................. 97
5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản ........................................ 98


vi
5.1.3. Xây dựng mơ hình nhận diện chữ viết tắt trong văn bản ...................... 99

5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt ............................................ 100
5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT .............. 102
5.2.1. Xây dựng các miền dữ liệu ................................................................. 102
5.2.2. Xây dựng vị từ và hàm ....................................................................... 103
5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản ...................... 105
5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT .................... 106
5.3.1. Xây dựng cơ sở luật ........................................................................... 106
5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt ................................... 109
5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt ...................... 110
5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng.................... 112
5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG ..... 113
5.4.1. Tần số chữ viết tắt ............................................................................. 113
5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt ............... 114
5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt ................................. 116
5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm ..................... 117
5.4.5. Kết quả thực nghiệm và đánh giá ...................................................... 119
5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt ................................ 123
5.5. TÓM TẮT CHƯƠNG 5 .............................................................................. 124
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 125
1. KẾT LUẬN .................................................................................................... 125
1.1. Tóm tắt nội dung luận án ...................................................................... 125
1.2. Các kết quả đạt được ............................................................................ 126
1.3. Hạn chế của luận án ............................................................................. 128
2. HƯỚNG PHÁT TRIỂN................................................................................. 129
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA TÁC GIẢ ............... 130
TÀI LIỆU THAM KHẢO ................................................................................. 131
PHỤ LỤC


vii

DANH MỤC CÁC CHỮ VIẾT TẮT
TIẾNG VIỆT
STT

Chữ viết tắt

NGHĨA TIẾNG VIỆT

1.

BCVT

Bưu chính viễn thơng

2.

CĐCN

Cao đẳng cơng nghệ

3.

CVT

Chữ viết tắt

4.

CSDL


Cơ sở dữ liệu

5.

DBĐT

Danh bạ điện thoại

6.

DCT

Địa chỉ tắt

7.

ĐTV

Điện thoại viên

8.

ĐH

Đại học

9.

ĐHBK


Đại học bách khoa

10.

ĐHQG

Đại học quốc gia

11.

GD-ĐT

Giáo dục và đào tạo

12.

HCM

Hồ Chí Minh

13.

KHCN

Khoa học cơng nghệ

14.

KNL


Kho ngữ liệu

15.

KTQS

Kỹ thuật qn sự

16.

KTXH

Kinh tế xã hội

17.

MTVT

Mục từ viết tắt

18.

NN&ĐS

Ngôn ngữ và đời sống.

19.

NSD


Người sử dụng

20.

NXB

Nhà xuất bản

21.

NCS

Nghiên cứu sinh

22.

PGS

Phó Giáo sư

23.

TBT

Thuê bao tắt

24.

THCN


Trung học chuyên nghiệp

25.

TS

Tiến sỹ

26.

TP

Thành phố

27.

XLTV

Xử lý tiếng Việt

28.

XLNNTN

Xử lý ngôn ngữ tự nhiên

29.

VH-TT


Văn hóa thơng tin

30.

VT-CNTT

Viễn thơng - Cơng nghệ thông tin


viii

TIẾNG ANH
STT

Chữ viết tắt

1.

API

2.

AMES

3.

AFVAI

NGHĨA TIẾNG ANH


NGHĨA TIẾNG VIỆT

Application Programming
Interface
Abbreviations Management
Exploit System
Assessment frequency
Vietnamese abbreviations on
the Internet

Lập trình giao diện ứng
dụng
Hệ thống khai thác Chữ
viết tắt
Ghi nhận tần số chữ viết
tắt trên Internet

4.

CSBCOM

Consultant SMS brandname
to the company

5.

I*

Modeling Language


6.

IM

7.

HTML

8.

PSTN

9.

SENVA

10.

SMS

11.

SAOM-FTS

Instand Message
HyperText Markup
Language
Public Switched Telephone
Network
Search Engines New

Vietnamese Abbreviations
Short Message Services
Search on mobile
abbreviations-used Full Text
Search

12.

UML

13.

VNPT

14.

WFST

15.

XML

Unified Modeling Language
VietNam Posts And
Telecommunications Group
Weighted Finite State
Transducer
eXtensible Markup
Language


Tư vấn đặt tên tin nhắn
thương hiệu Doanh
nghiệp
Ngơn ngữ mơ hình hóa
Tin nhắn
Ngơn ngữ đánh dấu siêu
văn bản
Mạng điện thoại chuyển
mạch cơng cộng
Máy tìm kiếm chữ viết
tắt mới tiếng Việt
Dịch vụ tin nhắn ngắn
Tìm kiếm chữ viết tắt
trên máy di động
Ngơn ngữ mơ hình hóa
thống nhất
Tập đồn Bưu chính
Viễn thơng Việt Nam
Chuyển đổi trạng thái
trọng số hữu hạn
Ngôn ngữ đánh dấu mở
rộng


ix

DANH MỤC HÌNH ẢNH
STT

Hình


Chú thích hình ảnh

Trang

1.

Hình 1.1

Mơ hình tháp nghĩa

18

2.

Hình 1.2

Xu hướng "tắt hóa"

24

3.

Hình 1.3

Tắt hóa trong chữ viết dân tộc ít người

30

4.


Hình 2.1

Mơ hình hình thành chữ viết tắt tiếng Việt

35

5.

Hình 2.2

Mơ hình sơ đồi khối hình thành chữ viết tắt tiếng Việt

36

6.

Hình 2.3

Ví dụ Hệ sinh thái phần mềm Microsoft

45

7.

Hình 2.4

8.

Hình 2.5


9.

Hình 2.6

10.

Hình 3.1

11.

Hình 3.2

Sử dụng UML mơ hình hóa sơ đồ hệ sinh thái phần
mềm
Mơ hình hệ thống khai thác chữ viết tắt tiếng Việt
Mơ hình UML hệ thống khai thác chữ viết tắt tiếng
Việt
Mơ hình quan hệ dữ liệu kho ngữ liệu chữ viết tắt tiếng
Việt
Quan hệ giữa các CSDL chữ viết tắt

12.

Hình 3.3

Các chức năng tìm kiếm

65


13.

Hình 4.1

Mơ hình hoạt động của website tra cứu chữ viết tắt

74

14.

Hình 4.2.

Trang chủ website thư viện chữ viết tắt

75

15.

Hình 4.3

Cây phân tích chuỗi

81

16.

Hình 4.4

Cây phân tích chuỗi và giá trị trọng số


81

17.

Hình 4.5

Mơ hình đồng bộ dữ liệu về máy di động

84

18.

Hình 4.6

Tiếp cận nghiên cứu hình thành AMES

88

19.

Hình 4.7

Kết quả thực nghiệm AMES

89

20.

Hình 5.1


Mơ hình nhận diện CVT trong văn bản

95

46
50
51
55
56


x

21.

Hình 5.2

22.

Hình 5.3

23.

Hình 5.4

24.

Hình 5.5

Cơ chế hoạt động của máy suy diễn nhận diện chữ viết

tắt
Mơ hình kết hợp xử lý nhập nhằng CVT trong văn bản
Kết quả thực hiện chương trình cập nhật tần số sử
dụng CVT
Biểu đồ tần suất CVT là thương hiệu di động trên
Internet

105
107
113
116


xi

DANH MỤC BẢNG BIỂU

STT

Bảng

Chú thích bảng biểu

Trang

1.

Bảng 3.1

Thống kê số liệu tác nghiệp


63

2.

Bảng 3.2

Thống kê CSDL tác nghiệp

63

3.

Bảng 3.3

CSDL Danh mục chun ngành

66

4.

Bảng 3.4

CSDL Danh mục hình thức thanh tốn

66

5.

Bảng 3.5


Bảng mã vùng thanh toán

67

6.

Bảng 3.6.

CSDL danh mục quốc gia chuyên ngành

69

7.

Bảng 3.7

Bảng thống kê sử dụng chữ viết tắt

70

8.

Bảng 3.8

Thống kê số liệu sử dụng giải pháp CVT

71

9.


Bảng 4.1

Bảng NGHIA_CVT_DACBIET

80

10.

Bảng 4.2

Bảng HUAN_LUYEN

80

11.

Bảng 4.3

Kết quả tạo chữ viết tắt Brandname

82

12.

Bảng 4.4

Thử nghiệm tư vấn Brandname và sự lựa chọn của
doanh nghiệp


13.

Bảng 4.5

Kết quả so sánh các tác nhân AMES và SECO

90

14.

Bảng 5.1

Bảng thống kê sử dụng chữ viết tắt (mẫu gửi đi)

92

15.

Bảng 5.2

Bảng vị từ và hàm

98

16.

Bảng 5.3

17.


Bảng 5.4

18.

Bảng 5.5

Tính toán tần suất xuất hiện CVT trong một phạm vi
chỉ định
Kết quả thực hiện tính tồn tần số sử dụng, tần suất
xuất hiện CVT
Tương quan tần suất CVT và thị phần dịch vụ

110
114
116


1

MỞ ĐẦU
1. ĐẶT VẤN ĐỀ
Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT)
chỉ với mong muốn rút gọn thời gian, công sức. Câu chuyện “Người ăn cắp cừu” [79]
(phụ lục 1) cho thấy CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng
có lẽ ai cũng gặp phải khi đọc hiểu một văn bản, ví dụ chữ viết tắt ST

1

trong câu


chuyện.
Cùng một CVT (hay một ký hiệu nào đó), người ta có thể đọc hiểu theo nhiều
cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của
mình. Chữ viết tắt ST trong [79] đã được sử dụng từ nhu cầu thực tế để diễn đạt nội
dung trừng phạt kẻ ăn cắp cừu, nhưng được hiểu bởi một ý nghĩa khác nhau, thậm chí
đối ngược nhau. Khi một văn bản sử dụng CVT, người viết thường luôn giả sử rằng
CVT này thông dụng và dễ hiểu đối với đối tượng độc giả mà văn bản này nhắm đến.
Tuy nhiên, thực tế không phải đối tượng độc giả nào cũng hiểu được hết, bởi do sự
khác nhau về trình độ, độ tuổi, sự trải nghiệm, lĩnh vực hay chuyên ngành. Hơn nữa,
thời gian, trí nhớ và quan niệm của con người đã làm nhầm lẫn, làm phát sinh thêm ý
nghĩa mới CVT như chữ ST nói trên. Thực tế cuộc sống và giao tiếp làm nảy sinh tìm
hiểu ý nghĩa CVT là gì. Đây khơng phải là vấn đề dễ dàng đối với tất cả mọi người.
Khi đọc một văn bản, hầu hết người đọc đều phải dừng lại chốc lát để hiểu được CVT
ấy là gì. Thậm chí có khi người đọc phải mất vài phút tìm hiểu và tra cứu mà vẫn
chưa hiểu được đầy đủ CVT. Vì vậy vấn đề phân giải ý nghĩa CVT là cần thiết trong
nhiều tình huống, khơng chỉ tình huống trong sử dụng ngơn ngữ tự nhiên (giao tiếp, đặt
tên, nhắn tin, Email…), mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dạng
chữ viết hình ảnh, dịch thuật…
Trong ngôn ngữ tự nhiên (NNTN), xu hướng thể hiện văn bản, lời nói ngắn
gọn, đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện
tượng phổ biến trong nhiều thứ tiếng khác trên thế giới. Viết tắt, nói tắt được sử dụng
rộng rãi trong nhiều lĩnh vực, nhiều chuyên ngành, từ các nhà sản xuất, các nhà xuất

1

ST: Người ăn cắp cừu (Sheep Theft) hay ST: Thánh thiện (Saint)


2


bản, đến các nhà quản lý, sử dụng, nghiên cứu, giảng dạy… Người dùng có nhu cầu
sử dụng CVT để ghi nhận, chuyển tải lượng thông tin lớn, đôi khi chứa đựng những
bí ẩn bất ngờ trong đó. Trên văn đàn Việt Nam, chữ viết tắt TTKH, tác giả bài thơ
«Hai sắc hoa ti gơn»2 vẫn cịn là điều bí ẩn và gây nhiều tranh luận cho đến nay. Vậy
nên việc sử dụng, lưu trữ, xử lý CVT trong bối cảnh chuyên ngành khoa học công
nghệ thông tin (CNTT), lĩnh vực liên quan đến sự tương tác giữa máy và NNTN
không thể không quan tâm đến vấn đề CVT.
Khoa học chuyên ngành CNTT đã định hình lĩnh vực liên quan đến sự
tương tác giữa máy và NNTN là lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN). Mục
tiêu của lĩnh vực này là giúp các chương trình trong máy tính hiểu được NNTN. Một
hệ thống XLNNTN có thể bắt đầu ở mức từ để xác định cấu trúc hình thái, bản chất
của từ (ví dụ như gán nhãn từ loại, ngữ nghĩa)..., sau đó có thể chuyển sang mức câu
để xác định trật tự từ, ngữ pháp, nghĩa của toàn bộ câu, tiếp theo là mức ngữ cảnh và
theo từng chun ngành [7][52][56].
Các cơng trình nghiên cứu về XLNNTN trên thế giới ra đời rất sớm, từ những
năm 1940 [52], theo hai hướng cơ bản: Hướng nghiên cứu đầu tiên vào giai đoạn năm
1940-1950 là mơ hình các máy tự động và các mơ hình xác suất; hướng nghiên cứu
tiếp theo với các giai đoạn năm 1957-1970, XLNNTN tập trung nghiên cứu theo lý
thuyết ngơn ngữ hình thức của Chomsky và trí tuệ nhân tạo cho tiếng nói như các
phương pháp Bayes [56]… Tiếp đến, giai đoạn 1970-1983 phát triển mạnh mẽ các
mơ hình nghiên cứu về XLNNTN; giai đoạn 1983-1993, nghiên cứu tập trung trở lại
mơ hình trạng thái hữu hạn, các phương pháp xác suất và hướng tiếp cận dựa trên các
dữ liệu lời nói trong phân tích cú pháp, gán nhãn từ loại và xử lý nhập nhằng ngữ
nghĩa [52]. Giai đoạn từ năm 1994 đến nay, chuyên ngành XLNNTN đã có những
thay đổi và bước phát triển mới. Nhiều thuật tốn phân tích cú pháp, gán nhãn từ loại,
truy xuất thông tin cũng đã được nghiên cứu và áp dụng như: Nhận dạng tiếng nói,
kiểm tra chính tả, kiểm tra ngữ pháp, cơng cụ truy xuất và trích chọn thơng tin trên
web [52]. Giai đoạn này ghi nhận sự phát triển các nghiên cứu phương pháp dịch máy
thống kê, chẳng hạn như Google [62], [63] cũng đã ứng dụng trong hệ dịch tự động
từ năm 2007.

2

Tiểu thuyết thứ bảy - năm 1939


3

Trong tiếng Anh, có nhiều cơng trình nghiên cứu giải quyết nhập nhằng ngữ
nghĩa đã được thực hiện với hai hướng tiếp cận cơ bản3: Giải quyết nhập nhằng dựa
trên thông tin trong một ngữ cảnh cụ thể và dựa trên những thông tin thu được trong
việc học từ vài tập ngữ liệu học [53][67]. Sau đó cịn có nhiều cơng trình dùng kết
hợp cả hai phương pháp này [68], sử dụng các mơ hình thống kê các loại đồng nghĩa
để xác định nghĩa của các từ tiếng Anh để khử nhập nhằng. Có nhiều cơng trình
nghiên cứu chun sâu CVT trong y học như [71][72][73][68], giải quyết vấn đề nhận
dạng, khử nhập nhằng CVT trong văn bản tóm tắt y học về bệnh nhân, về hệ thống
NLP chuyên ngành y học, giúp đưa ra quyết định, tạo điều kiện chăm sóc bệnh nhân
tốt hơn. Có nghiên cứu CVT trong ngôn ngữ tiếng Trung, tiếng Do Thái như [69][57],
nghiên cứu nhận diện CVT dựa vào thông tin ngữ cảnh văn bản, sử dụng phương
pháp máy học để nhận dạng CVT bởi thuộc tính nhất quán trong văn bản.
Vấn đề xử lý tiếng Việt (XLTV) đã được triển khai nghiên cứu từ năm 1990,
đã có nhiều cơng trình được cơng bố [9][25][56]... Về nghiên cứu nhập nhằng, xử lý
nhập nhằng trong tiếng Việt, gần đây có các cơng trình nghiên cứu khử nhập nhằng
trong một vài lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài
liệu phục vụ giảng dạy và học tập [42]; xử lý nhập nhằng trong tìm kiếm văn bản
tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản [43],
nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt
[3]. Về CVT tiếng việt, đã có một số cơng trình nghiên cứu đề cập xây dựng cơ sở dữ
liệu (CSDL) CVT và ứng dụng trong một chuyên ngành: [26][29] đề cập đến hiện
tượng nói tắt và viết tắt trong tiếng Việt 4, [39] biểu diễn ngữ cảnh trong triển khai
CVT dùng tiếp cận học máy, [40] thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ

quy tắc, [66] thể hiện bối cảnh trong mở rộng viết tắt bằng cách sử dụng phương pháp
học máy. Một số từ điển CVT tiếng Việt thông dụng, thường dùng trong chuyên
ngành (y học, viễn thơng,…), tiếng nước ngồi đã được xuất bản như
[8][18][19][35][36]; các xuất bản này đã chọn lọc và giới thiệu các CVT một số
chuyên ngành, chưa quan tâm đến sự hình thành, sự biến đổi và ứng dụng CVT, nhất

3

Wilks, Stevenson, Sense Tagging: Semantic Tagging with a Lexicon. In Proceedings of SIGLEX Workshop on Tagging
Text with Laxical Semantics: Why, What and How?, Washington, D.C. 1997
4
Tạp chí Ngơn ngữ và Đời sống, số 1+2 (87+88) năm 2003


4

là vấn đề nhập nhằng ngữ nghĩa CVT. Nhìn chung, đến nay chưa có cơng trình nào
nghiên cứu một cách hệ thống và đầy đủ về CVT tiếng Việt.
Trong bối cảnh chung của việc XLNNTN và XLTV, trên cơ sở tìm hiểu lý
thuyết về ngơn ngữ học và thực trạng sử dụng CVT trong thực tiễn, ta nhận thấy rằng
NNTN ln biến đổi và phát triển khơng ngừng; trong đó sự hình thành CVT được
xem như là phương thức hình thành nên từ ngữ mới, với những biến đổi ngữ nghĩa
CVT đa dạng. Do đó, để góp phần giải quyết các bài toán trong XLTV, đề tài này
đặt vấn đề cần thiết phải nghiên cứu: tiếp cận vấn đề ngữ nghĩa, nhập nhằng ngữ
nghĩa, xử lý, nhận dạng CVT, hướng đến xây dựng môi trường khai thác khả dụng,
phát triển CVT bởi nó liên tục biến tấu, thay đổi và ln có nhu cầu sử dụng trong
thực tiễn.
Câu chuyện Người ăn cắp cừu [79] cho ta thấy sự biến đối ngữ nghĩa của chữ
viết tắt ST qua thời gian, không gian và ngữ cảnh diễn tả theo ý nghĩ, nhận định của
con người. Việc XLTV trong văn bản chắc chắn gặp phải vấn đề nhập nhằng ngữ

nghĩa CVT. Xuất phát từ tình hình thực tiễn và nhu cầu nêu trên, dựa vào ý tưởng hệ
sinh thái phần mềm (Software Ecosysytems) [64][65][77], tác giả nhận thấy cần có
nghiên cứu tạo lập hệ thống khai thác, sử dụng CVT ngày càng thuận tiện cho người
dùng, có tính gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cứu, cùng tạo ra
môi trường học tập và trao đổi thông tin các vấn đề liên quan đến CVT, góp phần nhỏ
trong nghiên cứu XLTV. Đề tài của luận án được chọn: “Nghiên cứu ngữ nghĩa và
hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt”,
triển khai thực hiện theo 3 nội dung nghiên cứu:
1) Ngữ nghĩa và vấn đề nhập nhằng ngữ nghĩa trong tiếng Việt, tiếp cận vấn
đề chữ viết tắt tiếng Việt.
2) Tiếp cận xử lý chữ viết tắt tiếng Việt.
3) Xây dựng môi trường khai thác chữ viết tắt tiếng Việt.
Nội dung thứ 1 và thứ 2 đã tập trung nghiên cứu các vấn đề cơ sở khoa học
về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa,
biến đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt...
Nội dung thứ 3 nghiên cứu xây dựng hệ thống khai thác CVT, đề xuất thuật
tốn xây dựng cơng cụ tư vấn đặt tên CVT sử dụng trong tin nhắn thương hiệu cho


5

doanh nghiệp. Xây dựng phương pháp đánh giá tần số, tần suất CVT trên mạng
Internet; cài đặt thuật toán ghi nhận tần số CVT trên mạng. Đề xuất giải pháp xử lý
nhập nhằng CVT trong văn bản bằng cách xây dựng cơ sở luật nhận diện CVT, kết
hợp với các CSDL CVT, thống kê tần số, tần suất sử dụng để có một mơ hình xử lý
nhập nhằng CVT trong văn bản.
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
2.1.

Mục tiêu

Mục tiêu nghiên cứu của đề tài bao gồm những nội dung chính:
Sau khi tìm hiểu tiếng Việt về phương diện ngôn ngữ học, luận án nghiên cứu

hiện tượng nhập nhằng và xử lý nhập nhằng tiếng Việt nói chung, CVT tiếng Việt nói
riêng, nghiên cứu CVT và nhu cầu sử dụng trong thực tế ở tất cả các lĩnh vực, chuyên
ngành. Từ đó, hiểu được tri thức về CVT, triển khai thực hiện nghiên cứu đạt được 4
mục tiêu chính:
1) Nghiên cứu, phát hiện tri thức và xây dựng kho ngữ liệu CVT.
2) Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT.
3) Đề xuất chuẩn hóa CVT và triển khai giải pháp xử lý nhập nhằng CVT.
4) Xây dựng công cụ, ứng dụng và khai thác CVT.
Kết quả nghiên cứu định hướng đến cơng bố khoa học rộng rãi nhằm góp phần
nhỏ giải quyết nhập nhằng CVT, giúp cho việc sử dụng CVT một cách nhất quán, đi
đến chuẩn hoá hệ thống CVT, từng bước làm giàu hệ thống từ vựng, góp phần phát
triển ngôn ngữ tiếng Việt.
2.2.

Đối tượng
Đề tài nghiên cứu về bản chất ngơn ngữ tự nhiên nói chung, ngữ pháp tiếng

Việt, các phương pháp, kỹ thuật và công cụ XLNNTN, XLTV, trong đó có phương
pháp khử nhập nhằng.
Đối tượng nghiên cứu là tri thức các chuyên gia ngôn ngữ, chuyên gia
XLNNTN, chuyên gia tin học; nghiên cứu CVT trong văn bản, sách, báo, website
tiếng Việt, một số ngôn ngữ dân tộc khác, tiếng Anh… nghiên cứu sự hình thành
CVT trong NNTN ở tất cả các lĩnh vực đời sống xã hội. Tiếp cận từng bước, khởi


6


đầu từ vấn đề lý thuyết và thực tế sử dụng CVT để dần dần đi đến vấn để chuyên sâu
và thu hẹp hơn trong lĩnh vực khai thác, xử lý và sử dụng CVT trong chuyên ngành
viễn thông, CNTT.
2.3.

Phạm vi
Về lĩnh vực nghiên cứu lý thuyết, luận án nghiên cứu XLNNTN, XLTV, chủ

yếu xử lý văn bản, hiện tượng nhập nhằng, vấn đề ngữ nghĩa, công cụ XLNNTN,
XLTV.
Về lĩnh vực nghiên cứu sử dụng CVT, đề tài không hạn chế phạm vi, trong
mọi lĩnh vực đời sống xã hội. Tuy nhiên, đề tài tập trung vào lĩnh vực khoa học, cơng
nghệ và kỹ thuật, có tham khảo CVT tiếng Anh và một số ngôn ngữ khác.
Về môi trường phát triển ứng dụng, chủ yếu là xây dựng kho ngữ liệu, xây
dựng cơng cụ, ứng dụng, hình thành mơi trường khai thác, nghiên cứu CVT, cài đặt
thử nghiệm trong chuyên ngành và đưa vào khai thác trực tuyến. Phạm vi giới hạn
ứng dụng xử lý nhập nhằng CVT trong lĩnh vực viễn thông, CNTT.
3. PHƯƠNG PHÁP NGHIÊN CỨU
Các phương pháp nghiên cứu cơ bản được sử dụng trong luận án gồm
ba phương pháp: Khảo sát thực tế, nghiên cứu lý thuyết và nghiên cứu thực nghiệm.
Khảo sát thực tế: Khảo sát vấn đề sử dụng CVT trong văn bản, Internet, quy
định ngữ pháp, thực tiễn, chuyên ngành viễn thông…; kết hợp phương pháp phỏng
vấn trực tiếp một số chuyên gia, từ đó so sánh, đối chiếu, kiểm chứng lại những thông
tin CVT đã thu thập được.
Nghiên cứu lý thuyết: Nghiên cứu trên các tài liệu liên quan đến lý thuyết ngôn
ngữ học, XLNNTN, phương pháp tách từ, xây dựng từ điển, kỹ thuật xây dựng máy
tìm kiếm. Nghiên cứu lý thuyết xây dựng vị từ, hàm, cơ sở luật và máy suy diễn; vận
dụng lý thuyết Công nghệ phần mềm, CSDL… vào thực nghiệm.
Nghiên cứu thực nghiệm: Tìm hiểu các kỹ thuật tìm kiếm, xây dựng thuật tốn
và các bộ công cụ dựa trên giải pháp đã được đề xuất. Dữ liệu đầu vào của các công

cụ là dữ liệu được dùng trong thực tiễn, từ nguồn tài nguyên xây dựng.


7

Ngồi ra, cịn có sự kết hợp phương pháp thảo luận, trao đổi các nhà nghiên
cứu thông qua các hội thảo; từ đó, lựa chọn phương hướng tối ưu giải quyết vấn đề,
đồng thời có kiểm nghiệm, thử nghiệm và đánh giá kết quả khách quan hơn.
4. BỐ CỤC CỦA LUẬN ÁN
Sau phần mở đầu giới thiệu mục đích triển khai đề tài, nội dung chính gồm 5
chương, phần kết luận và phần phụ lục. Cụ thể như sau:
Chương 1 nghiên cứu tổng quan, những nhân tố làm cho ngôn ngữ biến đổi và
phát triển; nêu lên những vấn đề về XLNNTN đặt trong bối cảnh chung để tiếp cận
vấn đề ngữ nghĩa và nhập nhằng ngữ nghĩa. Tìm hiểu sự biến đổi phát triển ngôn ngữ
tiếng Việt: sự biến đổi từ vựng và sự biến đổi ngữ nghĩa. Đây là cơ sở lý luận của
ngôn ngữ học để luận án tiếp cận nghiên cứu vấn đề CVT tiếng Việt. Từ đó phân tích
các hạn chế, phát hiện đặt vấn đề cần nghiên cứu.
Chương 2 tiếp cận nghiên cứu vấn đề hình thành CVT tiếng Việt bằng cách
tìm hiểu CVT trong cuộc sống với lịch sử hình thành, nhu cầu sử dụng. Thơng qua
việc mơ hình hóa sự hình thành, xem xét kỹ nguồn gốc tạo nên CVT, xây dựng các
quy tắc hình thành CVT; tìm hiểu các yếu tố ảnh hưởng đến hình thành CVT, so sánh
với những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ dấu hiệu nhận biết
CVT trong văn bản. Nội dung chương 2 là kết quả nghiên cứu đầy đủ vấn đề CVT
tiếng Việt, trọng tâm là đề xuất xây dựng hệ thống khai thác CVT tiếng Việt (AMES).
Đó là một trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm;
được triển khai thực nghiệm để tạo lập kết nối giữa các tác nhân NSD, chuyên gia
nghiên cứu, doanh nghiệp, lập trình viên, nhà cung cấp hạ tầng với nhau.
Chương 3 nghiên cứu xây dựng nguồn tài nguyên CVT tiếng Việt, bao gồm:
xây dựng CSDL, đề xuất phương pháp thu thập dữ liệu, đề xuất và thực nghiệm thuật
tốn tìm kiếm CVT mới trên mạng Internet và cập nhật về CSDL. Đề xuất một vài

ứng dụng khai thác nguồn tài nguyên CVT, đặc biệt là ứng dụng sử dụng CVT trong
CSDL; đề xuất vấn đề sử dụng CVT trong việc ban hành bộ mã danh mục chuyên
ngành, ban hành bộ mã danh mục quốc gia. Đây là một trong những yêu cầu cần thiết
để tạo điều kiện chia xẻ, trao đổi dữ liệu với nhau.
Chương 4 trình bày kết quả xây dựng một số cơng cụ khai thác CVT tiếng
Việt, từng bước thực nghiệm hình thành một hệ thống khai thác CVT tiếng Việt dựa


8

trên ý tưởng hệ sinh thái phần mềm. Website tra thư viện viết tắt5 và Chương trình từ
điển trên máy di động6 là hai công cụ phục vụ khai thác nguồn dữ liệu CVT, đồng bộ
dữ liệu với nhau. Từ điển trên máy di động có sự tùy biến cá nhân khi sử dụng CVT
trên máy di động như thống kê, tần suất sử dụng cá nhân... Chương 4 còn xây dựng
công cụ tư vấn đặt tên thương hiệu Brandname cho doanh nghiệp, thực nghiệm triển
khai áp dụng vào thực tiễn dịch vụ chuyên ngành viễn.
Chương 5 tập trung phân tích và đề xuất giải quyết vấn đề xử lý nhập nhằng
CVT. Phân tích ngữ cảnh văn bản, nhận diện tình huống sử dụng CVT trong văn bản,
đưa giải pháp xử lý nhập nhằng CVT trong văn bản chuyên ngành. Xây dựng vị từ và
hàm nhận diện CVT trong văn bản, từ đó đề xuất xây dựng cơ sở luật, thuật toán nhận
diện và xử lý nhập nhằng CVT, đề xuất xây dựng máy suy diễn nhận diện CVT trong
văn bản, giới hạn trong lĩnh vực chuyên ngành viễn thông. Chương 5 còn nêu lên
hướng tiếp cận xử lý nhập nhằng CVT dựa vào chỉ số tần suất xuất hiện CVT; xây
dựng thuật toán và thực nghiệm đánh giá tần số, tần suất CVT trên mạng Internet và
đưa ra một vài ứng dụng thực tiễn.
Phần kết luận trình bày tóm tắt nội dung và kết quả luận án đạt được. Phần phụ
lục trình bày bổ sung các giải thích, hình ảnh, bảng biểu, thuật tốn, mã lệnh...
5. ĐĨNG GĨP CỦA LUẬN ÁN
Luận án đã có những đóng góp khoa học và ứng dụng thực tiễn như sau:
1. Phát hiện và xây dựng kho ngữ liệu chữ viết tắt

Kho ngữ liệu được cập nhật từ nhiều nguồn dữ liệu khác nhau theo sự biến
động và phát triển CVT trong thực tiễn với phương pháp thủ công/tự động. Dữ liệu
CVT được chuẩn hóa và phân lớp. Hiện nay đã có khoảng 7.000 CVT tiếng Việt (có
cả CVT nội sinh và ngoại nhập) đã biên tập lưu trữ trong CSDL, từng bước chuyển
song ngữ (Việt - Anh) những CVT thông dụng.
2. Tổng kết các quy tắc hình thành chữ viết tắt, xây dựng hệ thống khai thác
chữ viết tắt
Xây dựng các quy tắc hình thành CVT, từng bước chuẩn hóa quy tắc sử dụng
CVT, góp phần phát triển ngơn ngữ tiếng Việt. Luận án đã tiếp cận nghiên cứu sự
5
6


ABC Acronym Dictionary


9

hình thành CVT, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp để xây
dựng và đã cơng bố 9 quy tắc hình thành CVT trong bài báo số [8].
Luận án đã đề xuất AMES, mơ hình hóa hệ thống khai thác CVT. Đây là môi
trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm, có tính ổn
định, tính mở, tính kế thừa; được triển khai thử nghiệm để tạo lập kết nối giữa các đối
tượng NSD, chuyên gia nghiên cứu, doanh nghiệp, lập trình viên, nhà cung cấp hạ
tầng với nhau.
3. Góp phần xử lý nhập nhằng chữ viết tắt
Luận án xây dựng 27 vị từ điều khiển, nhận diện CVT trong văn bản; xây dựng
12 hàm xử lý chuỗi; lập 12 luật làm cơ sở xây dựng máy suy diễn nhận diện CVT và
triển khai thử nghiệm trong chuyên ngành viễn thông.
Luận án đã đề xuất giải pháp xây dựng công cụ thống kê tần số, tần suất CVT

tiếng Việt nhằm góp phần giúp nhà nghiên cứu quan sát, lưu trữ, thống kê và phân
tích các hiện tượng phát triển ngơn ngữ tiếng Việt nói chung và CVT nói riêng qua
từng thời điểm. Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho phép một cách tiếp
cận xử lý nhập nhằng ngữ nghĩa CVT.
4. Ứng dụng và khai thác chữ viết tắt
Luận án đã xây dựng được hai hệ thống từ điển: Website thư viện CVT 7 và
Từ điển CVT trên máy di động8. Hai hệ thống này có sự đồng bộ dữ liệu với nhau
đảm bảo thống nhất chung nguồn dữ liệu. Tuy nhiên có sự tùy biến cá nhân khi sử
dụng CVT trên máy di động như thống kê, tần suất sử dụng cá nhân,...
Xây dựng được ứng dụng máy tìm kiếm CVT mới, xây dựng cơng cụ quảng
bá thương hiệu Brandname cho doanh nghiệp, công cụ tư vấn đặt tên Brandname cho
doanh nghiệp (tránh trùng lặp, nhập nhằng), từ điển CVT trên máy di động cho
NSD… Các ứng dụng trên là những thành phần trong hệ thống AMES. Xây dựng và
triển khai thực nghiệm 4 thuật toán: Thuật toán SENVA - cập nhật tự động CVT mới
từ Internet, thuật toán SAOM-FTS - từ điển CVT trên di động, thuật toán CSBCOM
- tư vấn thương hiệu, thuật toán AFVAI - đánh giá tần số CVT.

7
8


ABC Acronym Dictionary


10

Xây dựng công cụ thống kê CVT và đề xuất chuẩn hóa, sử dụng CVT ở phạm
vi chuyên ngành VT-CNTT: Xây dựng khái niệm tần số, tần suất CVT trên Internet,
giải pháp và xây dựng thực nghiệm công cụ thống kê CVT tiếng Việt, làm cơ sở đánh
giá, lượng hóa chỉ số sử dụng, sự phát triển CVT trong thực tiễn.

Luận án cũng đã đề xuất chuẩn hóa, sử dụng CVT ở phạm vi quốc gia: Cần
thiết phải xây dựng và ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử
dụng CVT có tính gợi nhớ, dễ sử dụng, tạo điều kiện trao đổi chia xẻ thông tin CSDL
quốc gia dễ dàng và đồng bộ.
Đóng góp của luận án như là gạch nối nhỏ giữa lý thuyết ngôn ngữ học với
thực tiễn sử dụng CVT và với ngành XLNNTN trong CNTT, góp phần cùng giải
quyết vấn đề CVT tiếng Việt được nhiều người quan tâm.


11

CHƯƠNG 1.
VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT
Chương này trình bày những nghiên cứu tổng quan một số vấn đề cơ bản
ngôn ngữ và xử lý ngôn ngữ tự nhiên, các phương pháp tiếp cận và những định hướng
xử lý ngơn ngữ, từ đó xác định các vấn đề nền tảng nghiên cứu của luận án.
Nội dung chương 1 còn đề cập đến vấn đề CVT tiếng Việt trong cuộc sống
với lịch sử hình thành ở một số ngơn ngữ; đề xuất khái niệm ngữ nghĩa, sự biến đổi
ngữ nghĩa, nhập nhằng, xử lý nhập nhằng CVT… Từ đó, tiếp cận khảo sát thực tiễn
sử dụng CVT, mơ hình hóa sự hình thành CVT tiếng Việt.

1.1. NGƠN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Nội dung luận án thuộc lĩnh vực XLNNTN, nghiên cứu hiện tượng nhập nhằng
trong xử lý tiếng Việt, tiếp cận xử lý vấn đề CVT tiếng Việt. Trước khi đi sâu vào
những vấn đề cốt lõi, luận án tìm hiểu một số khái niệm như ngơn ngữ, hệ viết, ngơn
ngữ hình thức…
1.1.1. Ngơn ngữ và xử lý ngơn ngữ
Theo [4][28], ngơn ngữ đã có từ rất lâu, vào nửa cuối thế kỉ thứ IV trước Công
nguyên. Tài liệu ngơn ngữ cổ xưa nhất tìm thấy ở Ấn Độ, Hi Lạp và Ảrập.
Ngôn ngữ là một hệ thống tín hiệu đặc biệt: Tín hiệu là một đối tượng vật

chất kích thích vào giác quan, con người nhận thức được đối tượng đó. Tín hiệu ngơn
ngữ là các hình vị và các từ. Hình vị và từ được coi là tín hiệu vì chúng là một thể
thống nhất hai mặt âm thanh (cái biểu hiện) và ý nghĩa (cái được biểu hiện) [17][31].
Mỗi ngôn ngữ là hệ thống nhiều cấp độ, nhiều yếu tố đồng loại, không đồng
loại với số lượng khơng xác định; tín hiệu ngơn ngữ có tính đa trị, có màu sắc tu từ diễn cảm; có tính độc lập tương đối, có giá trị đồng đại, lịch đại [28][31]. Ngơn ngữ
là hệ thống tín hiệu tổng hợp được người bản ngữ chấp nhận, ghi nhớ, sử dụng giao
tiếp với cộng đồng xã hội 9.

Theo "Lời nói đầu", Giáo trình Ngơn ngữ học đại cương (bản dịch của Cao Xuân Hạo). NXB Khoa học Xã
hội, 2005, đăng trên website />9


12

Chức năng của ngơn ngữ: Ngơn ngữ có chức năng là phương tiện giao tiếp
quan trọng nhất của con người (nhưng không phải là duy nhất); là phương tiện, công
cụ của tư duy, trực tiếp tham gia vào quá trình hình thành, phát triển tư tưởng.
Ng̀n gốc và sự phát triển của ngơn ngữ: Theo [28], có nhiều quan niệm và
khuynh hướng khác nhau về nguồn gốc ngôn ngữ học xã hội. Hiện nay có trên 500
thuyết nguồn gốc ngơn ngữ như: Thuyết tượng thanh, Thuyết tiếng kêu trong lao
động,… Ngơn ngữ học Mác-xít cho rằng nguồn gốc ngơn ngữ bắt nguồn từ lao động,
đó là cách giải thích đúng đắn và biện chứng [28][31][46].
Cách thức phát triển của ngôn ngữ: Ngôn ngữ không phát triển bằng cách
phá hủy cũ, tạo mới mà theo con đường cải tiến những yếu tố căn bản của nó. Sự phát
triển của ngơn ngữ là không đồng đều giữa các mặt: Từ vựng là bộ phận biến đổi
nhiều và nhanh nhất. Ngữ âm của ngôn ngữ biến đổi chậm và không đồng đều. Hệ
thống ngữ pháp biến đối chậm nhất, được cải tiến, tu bổ và bền vững [28][31].
1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết
Khái niệm chữ viết: Theo [30], âm thanh hay lời nói là cái vỏ vật chất của ngơn
ngữ vẫn có những hạn chế nhất định, có giới hạn, khơng thể truyền đạt rộng rãi và

chính xác, lưu giữ lâu dài. Nó bị hạn chế về khoảng cách và thời gian [90]. Khắc phục
hạn chế đó, con người tìm cách xây dựng chữ viết. Chữ viết là kí tự ghi lại ngơn ngữ,
chữ viết là hệ thống tín hiệu của tín hiệu [30].
Sự khác biệt giữa âm và chữ viết: Chữ viết có sau và phụ thuộc vào âm thanh
ngơn ngữ [30]. Chữ viết có tính ổn định và bền vững. Chữ viết biểu thị ngữ âm, có
thể chính xác hoặc gần đúng. Ngơn ngữ biến hóa liên tục trong không gian và thời
gian trong khi chữ viết có xu hướng đứng n (tính bảo thủ) [30]. Chữ viết là phương
tiện hồn hảo để truyền đạt thơng tin, lưu giữ thơng tin, kích thích sự sáng tạo, là
thành quả kỳ diệu, vĩ đại của loài người [91]. Tuy chữ viết có tính bảo thủ, ổn định
và bền vững, nhưng vẫn có những cải tiến, sáng tạo trong quá trình phát triển.
Vấn đề cải tiến chữ viết: Theo [27], ở Việt Nam, vấn đề cải tiến chữ quốc ngữ
đã được đề cập từ lâu, được thảo luận sôi nổi vào đầu thập kỉ 60. Thời gian gần đây
có những đề xuất cải tiến chữ viết gây nhiều tranh cãi [88][89][92]; nhưng cơ bản vẫn
chưa có nhiều thay đổi, do tính bảo thủ của chữ viết, do thói quen và truyền thống
văn hóa. Việc cải tiến chữ viết thường diễn ra phức tạp. Theo [88], việc cải tiến chữ
viết tiếng Việt cần phải được cân nhắc, xem xét kỹ lưỡng và thận trọng.


13

Nhận xét: CVT cũng là một hướng làm thay đổi chữ viết, có thể được xem là
cải tiến chữ viết một cách tự nhiên. Chẳng hạn, người sử dụng viết tắt dùng các kí
hiệu viết tắt mang tính chất cá nhân: fê fán (phê phán), ffáp (phương pháp)...
1.1.3. Các loại hình ngôn ngữ
Ngôn ngữ tự nhiên: Một ngôn ngữ tự nhiên là bất kỳ ngôn ngữ nào phát sinh,
không suy nghĩ trước trong não bộ của con người. Định nghĩa các ngôn ngữ tự nhiên
thường phát biểu hay ngụ ý là ngôn ngữ mà bất kỳ đứa trẻ nào cũng có thể học và
được phát triển thơng qua sử dụng ngơn ngữ và nói 10.
Ngơn ngữ hình thức: Trong tốn học và khoa học máy tính, để nghiên cứu
sâu hơn về ngôn ngữ tự nhiên, người ta xây dựng ngôn ngữ hình thức (formal

language) [37]. Một ngơn ngữ hình thức được hình thức hóa, được định nghĩa là một
tập các chuỗi (string) được xây dựng dựa trên một bảng chữ cái (alphabet), chúng
được ràng buộc bởi các luật (rule) hoặc văn phạm (grammar) được định nghĩa
trước. Bảng chữ cái là tập hữu hạn các kí tự quy ước11.
Giả sử có một bảng chữ cái ∑ = {a, b} và kí hiệu L là ngôn ngữ, ‖∑‖ là số ký
tự của ∑, ‖∑‖ > 0 và ‖∑‖ ∈ 𝑁. Như vậy, ta có thể định nghĩa một số ngơn ngữ trên
bảng chữ cái ∑ như sau:
L1 = {aa, aaa} ; L2 = {aba, aab} ; L3 = {ab, ba, aabb,..., aaabbb,...} …
Lý thuyết ngơn ngữ hình thức cịn được ứng dụng trong xây dựng ngơn ngữ
lập trình. Trong lý thuyết độ phức tạp tính tốn (Computational complexity theory),
các vấn đề quyết định (decision problems) được định nghĩa như là các ngôn ngữ hình
thức, các lớp độ phức tạp (complexity classes) được xác định là tập của những ngơn
ngữ hình thức. Trong toán học, cú pháp của các hệ thống tiên đề biểu diễn bằng ngơn
ngữ hình thức.
Các mức tiếp cận ngơn ngữ tự nhiên và ngơn ngữ hình thức: Các tầng mức
ngơn ngữ tự nhiên (và ngơn ngữ hình thức) bao gồm từ vựng, cú pháp ngữ nghĩa và
ngữ dụng học. Tầng mức từ vựng (kí tự, từ, cụm từ, chữ, câu...) tương đồng như bảng
chữ cái trong ngơn ngữ hình thức. Từ vựng học là bộ môn nghiên cứu từ vựng của

10
11

/>Theo />

×