Tải bản đầy đủ (.pdf) (99 trang)

Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.51 MB, 99 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

VILAVONG SOUKSAN

NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO

LUẬN ÁN TIẾN SĨ KỸ THUẬT

ĐÀ NẴNG, NĂM 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

VILAVONG SOUKSAN

NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 62.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học : PGS. TS. PHAN HUY KHÁNH

ĐÀ NẴNG, NĂM 2017


ii


LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu khoa học của cá nhân tôi
dưới sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh.
Các dữ liệu, ví dụ và trích dẫn tham khảo trong luận án đảm bảo
độ tin cậy, chuẩn xác và trung thực.
Những kết quả đóng góp về mặt lý thuyết và ứng dụng của luận án
chưa từng được ai công bố trong bất kỳ công trình nào khác cho đến nay.
Tác giả luận án,

VILAVONG SOUKSAN

iii


MỤC LỤC
LỜI CAM ĐOAN ........................................................................................... iii
MỤC LỤC....................................................................................................... iv
DANH MỤC CHỮ VIẾT TẮT .................................................................... vii
DANH MỤC CÁC BẢNG ........................................................................... viii
DANH MỤC CÁC HÌNH .............................................................................. ix
MỞ ĐẦU ...........................................................................................................1
1.Mục tiêu, đối tượng và phạm vi nghiên cứu ..................................................3
2.Nhiệm vụ nghiên cứu và kết quả đạt được .....................................................4
3.Cấu trúc của luận án .......................................................................................4
4.Đóng góp của luận án .....................................................................................5
CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO.................................................6
1.1.TÌM HIỂU TIẾNG LÀO...........................................................................6

1.1.1. Giới thiệu tiếng Lào ........................................................................................ 6
1.1.2. Nguồn gốc của tiếng Lào ................................................................................ 7
1.1.3. Những yếu tố ngữ pháp tiếng Lào .................................................................. 7

1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG ...............12
1.2.1. So sánh bảng chữ cái .................................................................................... 13
1.2.2. So sánh cấu trúc âm tiết ................................................................................ 14
1.2.3. So sánh cấu trúc từ vựng .............................................................................. 14
1.2.4. So sánh cấu trúc câu ..................................................................................... 15

1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN .....................................16
1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào .................................................... 16
1.3.2. Thực trạng và thách thức trong xử lý tiếng Lào ........................................... 19
1.3.3. Đặt bài toán phân loại văn bản tiếng Lào ..................................................... 19

1.4.KẾT LUẬN CHƯƠNG 1 ........................................................................20
CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ ..........21
2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN ......................21
2.1.1. Khái niệm văn bản .......................................................................................... 21
iv


2.1.2. Khái niệm soạn thảo văn bản (STVB)............................................................ 23
2.1.3. Xu thế soạn thảo văn bản hiện nay ................................................................. 24

2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN .....................................................24
2.2.1. Tìm hiểu bài toán phân loại văn bản .............................................................. 24
2.2.2. Quy trình giải quyết bài toán PLVB ............................................................... 25
2.2.3. Các phương pháp giải quyết bài toán PLVB .................................................. 27


2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN ..................30
2.3.1. Tìm hiểu bài toán tách từ ................................................................................ 30
2.3.2. Các phương pháp tách từ ................................................................................ 31
2.3.3. Đánh giá hai phương pháp.............................................................................. 35

2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO ..................................................37
2.4.1. Bài toán phân loại văn bản tiếng Lào ............................................................. 37
2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào ................................................ 38
2.4.3. Đề xuất giải pháp triển khai ........................................................................... 38

2.5.KẾT LUẬN CHƯƠNG 2 ........................................................................40
CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG
LÀO ................................................................................................................41
3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP ...................41
3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào ...................................................... 41
3.1.2. Xây dựng mô hình cấu trúc của từ đơn......................................................... 42
3.1.3. Giải pháp nhận diện từ trong câu.................................................................. 47

3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN ...........................50
3.2.1. Xây dựng vị từ và hàm ................................................................................. 50
3.2.2. Xây dựng cơ sở luật ...................................................................................... 53
3.2.3. Xây dựng máy suy diễn nhận diện từ đơn .................................................... 54

v


3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ .................................................56
3.2.4. Xây dựng kho ngữ vựng tiếng Lào ............................................................... 56
3.3.2. Áp dụng phương pháp so khớp tối đa........................................................... 59
3.3.3. Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng...................... 59


3.4.KẾT LUẬN CHƯƠNG 3 ........................................................................62
CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ ..........63
4.1.CHUẨN BỊ DỮ LIỆU ..............................................................................63
4.1.1. Phân tích hiện trạng trường ĐH Champasak ................................................ 63
4.1.2. Thu thập dữ liệu HCVP tại trường ĐH Champasak ..................................... 64
4.1.3. Xây dựng kho văn bản HCVP của trường ĐH Champasak .......................... 65

4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM ..........................................68
4.2.1. Xây dụng mô hình thử nghiệm........................................................................ 68
4.2.2. Chuẩn bị cơ sở thử nghiệm............................................................................. 68
4.2.3. Đề xuất PLVB sử dụng hai phương pháp SVM và RBF ................................ 71

4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................72
4.3.2. Thử nghiệm hai phương pháp tách từ CRF và MM ..................................... 73
4.3.3. Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng ....................... 75
4.3.4. Thử nghiệm phân loại văn bản ..................................................................... 76

4.4.KẾT LUẬN CHƯƠNG 4 ........................................................................80
KẾT LUẬN .....................................................................................................81
TÀI LIỆU THAM KHẢO .............................................................................84

vi


DANH MỤC CHỮ VIẾT TẮT
1. Tiếng Anh
STT

Chữ

viết tắt

1

CRF

Conditional Random Fields

Trường điều kiện ngẫu nhiên

2

CL

Computational Linguistics

Ngôn ngữ học tính toán

3

MM

Maximum Matching

So khớp tối đa

5

NLP


Natural Language Processing

Xử lý ngôn ngữ tự nhiên

7

RBF

Radial BasisFunctions network

Mạng hàm bán kính xuyên tâm cơ sở

8

SVM

Support Vector Machine

Máy vec tơ hỗ trợ

Nghĩa tiếng Anh

Nghĩa tiếng Việt

2. Tiếng Việt
Chữ viết tắt

STT

Nghĩa


1

CHDCND Lào

Cộng hoà Dân chủ Nhân dân Lào

2

CNTT

Công nghệ Thông tin

3

CSDL

Cơ sở dữ liệu

4

ĐHBK

Đại học Bách Khoa

5

HCVP

Hành chính văn phòng


6

MSD

Máy suy diễn

7

NCKH

Nghiên cứu Khoa học

8

NNTN

Ngôn ngữ tự nhiên

9

NSD

Người sử dụng

10

PLVB

Phân loại văn bản


11

VBHC

Văn bản hành chính

12

XL NNTN

Xử lý ngôn ngữ tự nhiên

vii


DANH MỤC CÁC BẢNG

Số hiệu

Tên bảng

bảng

Trang

1.1.

So sánh chữ cai.


13

1.2.

So sánh cấu truc am tiết.

14

1.3.

So sánh cấu trúc từ đơn.

14

1.4.

So sánh cấu trúc câu.

16

4.1.

Ví dụ một số từ hư trong tiếng lào.

67

4.2.

Thử nghiệm phương pháp nhận diện từ đơn dùng cơ sở luật.


73

4.3.

Kết quả tách từ sử dụng phương pháp mạng nơ ron.

74

4.4.

Kết quả tách từ sử dụng phương pháp so khớp tối đa.

74

4.5.

Tách từ sử dụng ba phương pháp CRF, MMS và dùng luật.

75

4.6.

Kết quả PLVB tiếng Lào kết hợp SVM với CRF.

76

4.7.

PLVB tiếng Lào kết hợp SVM với tách từ dựa cơ sở luật.


77

4.8.

PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF.

77

4.9.

PLVB tiếng Lào kết hợp RBF với tách từ sử dụng cơ sở luật.

78

4.10.

Kết quả thực nghiệm PLVB tiếng Lào kết hợp tách từ.

78

viii


DANH MỤC CÁC HÌNH

Số hiệu
hình

Tên hình


Trang

1.1.

Cấu trúc ba tầng của chữ Lào.

10

1.2.

Bàn phím gõ tiếng Lào

17

2.1.

Mô hình hai giai đoạn phân loại văn bản.

26

2.2.

Mô hình giai đoạn học máy.

27

2.3.

Đồ thị vô hướng mô tả CRF


34

2.4.

Mô hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào.

39

3.1.

Cấu trúc từ đơn trong tiếng Lào.

42

3.2.

Cấu trúc XML cho CSDL chữ cái tiếng Lào.

48

3.3.

Mô hình nhận diện từ đơn tiếng Lào.

49

3.4.

Cơ chế hoạt động của máy suy diễn nhận diện từ đơn.


56

3.5.

Mô hình cập nhật dữ liệu cho kho ngữ vụng tiếng Lào.

58

3.6.

Mô hình tách từ tiếng Lào dùng phương pháp so khớp tối đa.

59

3.7.

Mô hình xử lý nhập nhằng khi tách từ tiếng Lào.

61

4.1.

Mô hình triển khai thử nghiệm PLVB tiếng Lào.

68

4.2.

Đồ thị so sánh kết quả thực nghiệm ba phương pháp tách từ.


75

4.3.

Lược đồ so sánh kết quả thực nghiệm giữa mạn RBF và SVM

79

ix


MỞ ĐẦU
Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language
Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh
vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN,
ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong
muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải
am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con
người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học,
của Khoa học Máy tính.
Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong
những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các
ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân
dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD)
theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào.
Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT)
nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng,
hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt
của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực
tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ

mọi hình thức, từ thương mại đến chính trị, quốc phòng... Đặc biệt số lượng văn bản
hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác
nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng. Nếu như trước đây,
VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì
ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ
liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự
gia tăng các VBHC.
Với thực trạng khối lượng thông tin đồ sộ cần xử lý, một vấn đề lớn đặt ra là
làm sao tổ chức và tìm kiếm thông tin một cách có hiệu quả ? Giải quyết bài toán phân
loại thông tin/dữ liệu, cụ thể là phân loại hay phân lớp văn bản (PLVB), là một trong
1


những câu trả lời hợp lý. Dĩ nhiên việc phân loại bằng cách thủ công là điều không thể
thực hiện, một khi thông tin trực tuyến không những có khối lượng lớn, mà còn không
được kiểm soát, thậm chí thiếu chất lượng, thiếu độ tin cậy, kể cả bị sai lạc... Hướng
giải quyết là nghiên cứu xây dựng một chương trình máy tính tự động phân loại.
Hiện nay, tại trường Đại học Champasak, một trường Đại học tương đối lớn của
nước Cộng hoà Dân chủ Nhân dân (CHDCND) Lào, diễn ra các hoạt động giao dịch
hành chính, văn phòng rất khẩn trương và tấp nập. Hàng ngày, cán bộ viên chức bận rôn
thực hiện phân loại, lưu trữ các VBHC xuất hiện mọi lúc mọi nơi, sau đó lại phải tìm
kiếm, xử lý các văn bản đó. Việc phân loại thực tế là phân chia các văn bản theo đơn vị,
theo lĩnh vực chuyên ngành đào tạo, khoa học công nghệ, kinh tế, pháp luật, văn hóa-xã
hội…, theo thể loại như : nghị định, quyết định, báo cáo, đơn từ..., v.v… Hệ quả thường
thấy là việc xử lý văn bản thủ công luôn gặp sai sót, nhầm lẫn và nhiều khi không kịp
tiến độ yêu cầu.
Từ nhu cầu thực tiễn cần đổi mới hiệu quả hoạt động hành chính văn phòng
(HCVP) tại trường Đại học Champasak, luận án đã nhằm đến mục tiêu giải quyết bài
toán PLVB tiếng Lào tự động trên cơ sở giải quyết bài toán XL NNTN cho tiếng Lào.
Hiện nay ở Lào, có rất ít công trình nghiên cứu thuộc lĩnh vực XL NNTN được

áp dụng thực tiễn. Luận án không tìm cách phân tích nguyên nhân của những hạn chế
này. Tuy nhiên, có thể nêu ra một số nguyên nhân chính mà chúng tôi phải tìm cách khắc
phục. Trước hết là thực trạng hoạt động khoa học công nghệ tại nước CHDCND Lào
chưa thực sự phát triển, nếu so sánh với các nước trong khối ASEAN, hay so sánh với
nước láng giềng Việt Nam. Điều này dẫn đến có rất ít chuyên gia về lĩnh vực XL
NNTN, đặc biệt là XL tiếng Lào. Mặc dù đã có nhiều hoạt động Tin học hóa, sử dụng
internet và các phương tiện truyền thông hiện đại trong mọi khía cạnh của cuộc sống,
nhưng chưa thật đều khắp nước Lào và vắng thiếu sự trao đổi chuyên môn, hợp tác
nghiên cứu khoa học. Một nguyên nhân nữa là những đặc điểm chính tả của tiếng Lào
trong vấn đề xử lý văn bản.
Nếu trong hệ thống chữ viết tiếng Việt, có thể xem mỗi từ có thể có ba tầng,
trong đó tầng giữa là các phụ âm và/hoặc nguyên âm, tầng trên và tầng dưới là các dấu
thanh, thì chính tả của tiếng Lào, kể cả tiếng Thái và tiếng Khmer, cũng sử dụng ba tầng
(chân, thân và tóc) nhưng phức tạp hơn nhiều (xem hình 1 minh họa dưới đây). Chữ viết
Lào khác về kiểu chữ nhưng có cấu trúc tương tự chữ viết Thái và Khmer. Cả ba ngôn
2


ngữ này đều không sử dụng dấu khoảng cách (Space) giữa các từ trong câu. Chính sự
vắng mặt của các dấu khoảng trống để phân cách các từ, hay âm tiết, đã dẫn đến hiện
tượng nhập nhằng, đa nghĩa… gây khó khăn không nhỏ trong lĩnh vực XL NNTN nói
chung, xử lý tiếng Lào trên máy tính nói riêng [38][45][47][49].
Cho đến thời điểm hoàn thành luận án này, vẫn chưa có những kết quả nào mới
liên quan đến nội dung thực hiện của đề tài là tách từ và phân loại văn bản tiếng Lào.
Tra trên google với từ khóa tiếng Anh “ Lao document Segmentation” hay “ Lao
document Classification” hoặc tiếng Lào “

”, “

ຈແ


ເອ ະ

”. Có rất ít kết quả liên quan trong những năm gần đây.

1. Mục tiêu, đối tượng và phạm vi nghiên cứu
Mục đích của đề tài :
Đề tài tìm hiểu các đặc trưng chính tả của hệ viết tiếng Lào, các phương pháp
tách từ và PLVB đã được đề xuất cho tiếng Anh, tiếng Thái và tiếng Việt, đánh giá
hiệu quả của các phương pháp này, đề xuất được giải pháp tách từ hiệu quả, lựa chọn
các phương pháp PLVB phù hợp và các điều kiện thử nghiệm, từ đó áp dụng giải
quyết bài toán PLVB kết hợp tách từ tiếng Lào, thử nghiệm phân loại các VBHC của
trường ĐH Champasack, nước CHDCND Lào và đánh giá các kết quả thử nghiệm.
Đối tượng nghiên cứu :
1. Các bài toán liên quan đến lĩnh vực xử lý NNTN, XL tiếng Lào và đặc trưng
chính tả và ngữ pháp của hệ thống chữ viết Lào.
2. Các phương pháp giải quyết bài toán tách từ và PLVB nói chung, giải
quyết cho bài toán tách từ và PLVB tiếng Lào nói riêng.
3. Các hoạt động HCVP mang tính thực tiễn tại trưởng Đại học Champasak,
nước CHDCND Lào.
Phạm vi nghiên cứu :
1. Lĩnh vực trí tệ nhân tạo, XL NNTN, XL tiếng Lào, ngôn ngữ Lào và ba
ngôn ngữ láng giềng là tiếng Việt, tiếng Thái và tiếng Khmer.
2. Vấn đề mã hoá và soạn thảo văn bản, các giải pháp xây dựng kho ngữ liệu,
giải pháp tách từ, PLVB, học máy và Toán học thống kê.
3. Môi trường, công cụ lập trình để thử nghiệm giải quyết bài toán tách từ,
PLVB HCVP tại trưởng Đại học Champasak.
3



2. Nhiệm vụ nghiên cứu và kết quả đạt được
Để đạt được mục đích đã đề ra trên đây, luận án hướng đến ba nhiệm vụ chính
như sau :
1. Nghiên cứu chuyên sâu về XL NNTN, các đặc trưng ngôn ngữ và chính tả
tiếng Lào. Phân tích, đánh giá những kết quả xử lý tiếng Lào đã được công
bố cho đến nay và phân tích hiện trạng các hoạt động HCVP mang tính thực
tiễn tại trưởng Đại học Champasak.
2. Đề xuất giải pháp phân tách từ hiệu quả trong một văn bản tiếng Lào trên cơ
sở xây dựng kho ngữ liệu từ đơn và cụm từ tiếng Lào, xây dựng cơ sở luật
và máy suy diễn dựa trên các đặc trưng ngữ pháp của hệ viết Lào.
3. Tìm chọn các phương pháp PLVB hiệu quả cho tiếng Lào, đề xuất mô hình
thử nghiệm PLVB kết hợp tách từ tiếng Lào sử dụng các giải pháp đề xuất
và các kho ngữ vựng đã xây dựng.

3. Cấu trúc của luận án
Sau phần mở đầu, nội dung của luận án gồm bốn chương như sau :
Chương 1 giới thiệu nguồn gốc và một số đặc trưng cơ bản của tiếng Lào, so
sánh đặc điểm ngôn ngữ với một số ngôn ngữ láng giềng Việt Nam, Thái và Khmer,
phân tích bối cảnh XL NNTN và xử lý tiếng Lào và đặt bài toán PLVB kết hợp giải
quyết bài toán tách từ tiếng Lào.
Chương 2 trình bày tổng quan về lý thuyết phân tách từ, PLVB, trong đó,
luận án tập trung giới thiệu các thuật toán phân tách từ, PLVB và các hướng nghiên
cứu liên quan, từ đó đề xuất giải pháp và các bước triển khai thử nghiệm PLVB tiếng
Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại trường Đại học Champasak,
nước CHDCND Lào.
Chương 3 tập trung đề xuất giải pháp xây dựng mô hình nhận diện từ giải quyết
bài toán tách từ trong văn bản tiếng Lào dựa trên cơ sở luật về đặc trưng ngữ pháp và
tính chất của nguyên âm, phụ âm, xây dựng cơ sở dữ liệu (CSDL) chữ cái, các kho
ngữ vựng từ đơn và cụm từ, xây dựng máy suy diễn (MSD) phục vụ giải quyết bài toán
tách từ kết hợp xử lý nhập nhằng.

Chương 4 phân tích hoạt động HCVP tại trường Đại học Champasak, xây dựng
kho văn bản HCVP theo một số lĩnh vực được chọn, trình bày các bước thử nghiệm từ
kho VBHC tiếng Lào đã xây dựng, đánh giá kết quả thử nghiệm PLVB dựa trên hướng
4


tiếp cận SVM và sử dụng mạng nơ ron RBF kết hợp sử dụng các phương pháp tách từ
CRF và sử dụng cơ sở luật, tiến hành đánh giá so sánh các kết quả thử nghiệm.
Sau bốn chương trên là phần kết luận và hướng phát triển của đề tài. Phần cuối
luận án là danh mục các tài liệu tham khảo, danh mục các công trình khoa học đã được
công bố và các phụ lục liên quan.

4. Đóng góp chính của luận án
1. Đề xuất mô hình cấu trúc từ đơn dựa trên đặc trưng của hệ viết tiếng Lào, từ
đó xây dựng cơ sở luật và máy suy diễn cho phép nhận diện và bóc tách từ
đơn trong một văn bản để giải quyết bài toán tách từ và PLVB tiếng Lào.
2. Xây dựng kho ngữ vựng từ đơn và từ ghép, kho văn bản HCVP tiếng Lào
trên cơ sở phân tích hiện trạng tại trường Đại học Champasack, CHDCND
Lào để phục vụ thử nghiệm tách từ và PLVB tiếng Lào.
3. Đề xuất giải pháp tách từ sử dụng phương pháp so khớp tối đa kết hợp sử
dụng cơ sở luật để xử lý nhập nhằng từ các kho ngữ vựng đã xây dựng mới.
4. Cài đặt hệ thống thử nghiệm, đánh giá kết quả sử dụng các phương pháp

PLVB kết hợp các phương pháp tách từ tiếng Lào, cho phép ứng dụng
thực tiễn phục vụ các hoạt động HCVP tại trường Đại học Champasack.

5


CHƯƠNG 1

VẤN ĐỀ XỬ LÝ TIẾNG LÀO
1.1. TÌM HIỂU TIẾNG LÀO
1.1.1. Giới thiệu tiếng Lào
Nước CHDCND Lào có bốn dòng ngôn ngữ chính là Lào-Tai, Mon-Khơme,
Chin-Tybệt và H'Mông-Miền thuộc 49 dân tộc khác nhau[46].
Dòng ngôn ngữ Lào-Tai (hay hệ ngôn ngữ Lào-Thái) có 8 dân tộc là Lào, Xaek,
Nhouan, Tai, Thai-Neua, Phouthai, Yang và Lue, chiếm 55% dân số cả nước. Tám dân
tộc này sinh sống ở các vùng đồng bằng dọc sông Mê Kông, các nhánh sông đổ về Mê
Kông, có nghề nghiệp chủ yếu là trồng lúa nước và đánh bắt cá.
Dòng ngôn ngữ Mon-Khơme có 32 dân tộc : Khmou, Katang, Katu, Kriang,
Kree/Kri, Khmer, Ngouan, Cheng, Samtao, Sadang, Xuay, Xingmoun, Nhaheun, TaOy, Triang, Tri, Toum, Thaen, Bid/Bit, Brao, Pakoh/Pacoh, Pray, Phong, Makong,
Moy, Yrou, Yae/Ye, Lamed/Lamet, Lavi/Lavy, Oy, Oedou và Harak, chiếm 27% của
dân số cả nước. Những dân tộc này thường sống ở vùng đồng bằng và trung du, có
nghề nghiệp chủ yếu là trồng lúa và làm nương.
Dòng ngôn ngữ Chin-Tybệt có 7 dân tộc : Singsily, Sila, Lahu, LoLo, Hor,
Akha, Hanyi, chiếm 11% của dân số cả nước. Những dân tộc này thường sống ở phía
Bắc giáp với Trung quốc, có nghề nghiệp chủ yếu là làm nương rẫy.
Dòng ngôn ngữ H'Mông-Miền chỉ có hai dân tộc là Hmong và Iewmien, chỉ
chiếm 7% của dân số cả nước. Hai dân tộc này sinh sống ở vùng núi cao miền Bắc, có
nghề nghiệp chủ yếu là làm nương rẫy và chăn nuôi gia súc.
Tiếng Lào-Tai là Quốc ngữ, được dùng trong giao tiếp chính thống và trong các
VBHC của nhà nước.
Luận án tập trung xử lý tiếng Lào-Tai, ngôn ngữ chính thức được dùng trong
nước Lào, gọi là tiếng Lào, tương tự tiếng Việt Kinh ở Việt Nam.

6


1.1.2. Nguồn gốc của tiếng Lào
Tiếng Lào (ພາສາລາວ, phát âm [pʰaːsaː laːw]) thuộc họ ngôn ngữ Tai-Kadai,

chịu ảnh hưởng của tiếng Phạn (梵 語; sa. saṃskṛtā vāk संस्कृता वाक् , một ngôn ngữ cổ
của Ấn Độ), ra đời từ khoảng thế kỷ XVI, là ngôn ngữ truyền thống của Hoàng tộc
Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo, một ngôn ngữ hỗn hợp ở bán đảo
Đông Nam Á. Tiếng Lào, là ngôn ngữ đơn âm có thanh điệu, đa số vay mượn từ
những ngôn ngữ cổ của Ấn Độ, như Paly, Sansakit của Đạo Phật, được phát triển rõ
ràng vào giữa thế kỷ XX. Cũng có những vay mượn từ tiếng Khơme, tiếng Pháp,
tiếng Anh và cả các ngôn ngữ khác trong khu vực. Căn cứ vào nhiều tài liệu của các
nhà ngôn ngữ Lào, người Lào đã sử dụng chữ cái Lào từ thế kỷ I (thời đại nước Lào cổ
điển). Chữ cái mà người Lào đã sử dụng trong thời kỳ này là một kiểu chữ kế thừa từ
chữ Sansakit của Đạo Phật trường phái Đại Thừa.
Tiếng Lào có những thanh điệu và phát âm gần gũi với tiếng Thái. Khác với
tiếng Việt, tiếng Anh và các ngôn ngữ Châu Âu, tiếng Lào không sử dụng các dấu
khoảng trống (Space) giữa các chữ viết. Chữ viết Lào tương tự một số ngôn ngữ thuộc
nhóm Mon-Khơme, Mông-Dao…, như tiếng Thái, tiếng Khmer, tiếng Mianma.
Hệ thống chữ viết Lào phát triển trong một thời gian lâu dài, pha trộn với nhiều
hệ ngôn ngữ khác như Thái, Ấn Độ,... nhưng phần lớn thuộc dòng ngôn ngữ Lào-Tai.
Nhiều nhà ngôn ngữ, nhiều nhóm nghiên cứu đã thực hiện nhiều công việc để phát
triển và giữ gìn chữ cái Lào. Năm 1975, Bộ Giáo dục Lào công bố sử dụng tiếng Lào
chính thức. Vào lúc này chữ cái Lào mới được phát triển rõ ràng, hiện đại và dễ sử
dụng đối với người dân và tồn tại cho đến ngày nay [34][46][47][49].

1.1.3. Những yếu tố ngữ pháp tiếng Lào
1. Bảng chữ cái tiếng Lào
Bảng chữ cái tiếng Lào gồm 3 nhóm : phụ âm, nguyên âm và dấu thanh và chữ
số [6][39][47][49].
1. Phụ âm :
Có 33 phụ âm được chia ra hai loại : phụ âm đơn và phụ âm ghép.
Các phụ âm đơn gồm :

7



ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ, ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ,
ຫ, ອ, ຮ, ຣ, ໝ, ໜ, ຫວ, ຫ, ຫງ, ຫຍ.
Được chia 3 nhóm thấp, trung và cao. Các phụ âm cao và trung có sự phát âm
gần giống như nhau.
Nhóm thấp gồm :
ຂ, ສ, ຖ, ຜ, ຝ, ຫ.

Nhóm trung gồm :
ກ, ຈ, ດ, ຕ, ບ, ປ, ຢ, ອ.

Nhóm cao gồm :
ງ, ຄ, ຊ, ຍ, ທ, ນ, ພ, ຟ, ມ, ລ, ວ, ຮ, ຣ.

2. Nguyên âm :
Có 28 nguyên âm được chia ra hai loại : nguyên âm dài và nguyên âm ngắn.
Các nguyên âm dài gồm :
າ, ີ, ີ, ີ, ເ, ໂ, ີ, ໄ, ເີາ, ີາ, ໃ, ແ, ີວ, ເີ, ເ ອ, ເ-ຍ, ເີຍ.
Các nguyên âm ngắn gồm :
ະ, ີ, ີ, ີ, ເ-ະ, ແ-ະ, ໂ-ະ, ເ-າະ, ວະ, ເີ, ເີອ.
3. Dấu thanh :
Tiếng Lào có 4 dấu thanh : ີ, ີ, ີ, ີ và 3 dấu cuối : ຯ, ໆ, ີ. Ví dụ mái
ệc ໄມເອກ, mái thô ໄມໂທ, mái tri ໄມຕ, mái chặt -ta -wa ໄມຈດຕະວາ.
Khi viết, vị trí thanh điệu được đặt ở phụ âm hoặc ở nguyên âm tùy vào vị trí
của nguyên âm trong âm tiết (khác với tiếng Việt chỉ đặt ở nguyên âm). Ngoài ra, âm
sắc thanh điệu tiếng Lào không hoàn toàn trùng khớp với thanh điệu tiếng Việt.
4. Chữ số :
Có 10 chữ số tương ứng với các số từ 0 đến 9 :
໐, ໑, ໒, ໓, ໔, ໕, ໖, ໗, ໘, ໙.

Cách viết chữ số Lào tuân theo hệ thống số chuẩn thông thường. Ví dụ : ໒໐໐໖
(2006), ໑໙,໗໕ (+19.75), -໗,໕ (-7,5), v.v… (luận án quy ước đặt nghĩa tiếng Việt của
một từ, hay câu tiếng Lào giữa cặp ngoặc đơn).
8


2. Hệ thống từ vựng tiếng Lào
Tiếng Lào là ngôn ngữ đơn âm (một từ chỉ có một âm tiết). Cách tạo từ cũng
tương tự tiếng Việt, mỗi từ được tổ hợp từ các chữ cái (phụ âm, nguyên âm) và các
dấu thanh. Từ vựng tiếng Lào có hai loại là từ đơn (giản) và từ phức (hợp). Từ phức
gồm từ ghép, từ láy.
1. Từ đơn :
Từ đơn chỉ có một âm tiết. Một âm tiết có ít nhất 2 ký tự gồm có phụ âm và
nguyên âm. Âm tiết dài nhất có 7 ký tự. Ví dụ từ đơn có 2 ký tự (quy ước đặt phát âm
IPA của một từ tiếng Lào giữa cặp gạch chéo) gồm một âm tiết :
ຂ / khor / (điều khoản) gồm phụ âm ຂ và nguyên âm
Ví dụ từ có 2 âm tiết : ໂຮງຮຽນ (trường học) /ໂຮງ/ຮຽນ/
Từ có 6 âm tiết : ມະຫາວທະຍາໄລ (đại học) /ມະ/ຫາ/ວ/ທະ/ຍາ/ໄລ/
Trong cấu tạo từ đơn, có tám phụ âm : ກ, ງ, ຍ, ດ, ນ, ບ, ມ, ວ vừa là phụ âm đầu
vần vừa được sử dụng làm phụ âm cuối từ, phụ âm khác chỉ xếp đầu vần của từ. Khi
tám phụ âm này dùng làm phụ âm cuối vần, cần đặt sau các nguyên âm lần lượt từ -າ
, ີ, ີ,… đến ເ-ຍ, không đứng cuối vần với các nguyên âm : ໄ, ເີາ, ີາ, ໃ. Các từ có
các phụ âm hỗn hợp đứng đầu vần như : ກວ, ຂວ, ຄວ, ງວ được xếp sau các từ có phụ
âm cuối vần chót của từ đó. Cuối từ nếu ghép với nguyên âm và hai dấu đặc biệt
như : ີ, ີ thì trở thành nguyên âm ghép như : າກ, ີກ, ີກ, ີກ, ເີກ, ເີກ, າງ, ີງ, ີງ
,ີງ, v.v…
Có thể mô hình hoá cấu trúc từ tiếng Lào theo ba tầng lần lượt từ dưới lên là
chân (tầng 3), thân (tầng 2) và tóc (tầng 1).
Tầng 1 gồm dấu thanh điệu và các nguyên âm trên


.

Tầng 2 gồm có các phụ âm trung tâm và phụ âm ghép ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ,
ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ, ຣ, ຫນ, ຫມ, ຫວ,
ຫງ, ຫຍ, ຫລ.

9


. Hình dưới đây

Tầng 3 là một nguyên âm dưới trong số nguyên âm
minh hoạ cấu trúc ba tầng của một từ (hay âm tiết) tiếng Lào.
Tóc (tầng 1)

Dấu thanh
Nguyên âm trên

Thân (tầng 2)

Thân chữ

ກ, ຂ, ຄ,…

Chân (tầng 3)

Nguyên âm dưới

ຈ, ສ,




.

Hình 1.1. Cấu trúc ba tầng của chữ Lào.
2. Từ ghép :
Từ ghép được ghép lại từ hai từ đơn trở lên, mang một nghĩa nào đó xác định.
Có năm dạng ghép : ghép hai từ đơn có nghĩa khác nhau, ghép hai từ đơn có nghĩa
tương đương, ghép hai từ đơn có nghĩa gần giống nhau, ghép nhiều từ đơn (cụm/nhóm
từ), ghép các từ của tiếng Pali và Sansakit.
Ví dụ ghép hai từ đơn có nghĩa khác nhau :
/ຂ/ຕກ/ລງ/ /khor tốc lông/ (nghị định) được ghép từ hai từ ຂ / khor / (cầu) và
ຕກລງ / tốc lông / (đồng ý).
Ví dụ ghép hai từ đơn có nghĩa tương đương :
/ແຈງ/ການ/ /cheng karn/ (thông báo) được ghép từ hai từ ແຈງ /cheng/ (sang ) và
ການ /karn/ (các việc).
Ví dụ ghép hai từ đơn có nghĩa gần giống nhau :
/ລາຍ/ງານ/” /lai ngan/ (thông báo) được ghép từ hai từ ລາຍ /lai/ (sóc) và ງານ
/ngan/ (việc).
Ví dụ ghép nhiều từ đơn :
/ກ ນປ ກ ດ ຕງຕງ /Lễ công bố quyết định bổ nhiệm cán bộ /
Ví dụ ghép các từ của tiếng Pali và Sansakit :
/ປ ກ ສ ນຍ ບດ / Bằng tốt nhiệp
3. Từ láy :
Từ láy có hai dạng tiêu biểu : láy bộ phận và láy hoàn toàn.
Ví dụ láy bộ phận :
10


ໜອຍໜງ /ໜອຍ/ໜງ/ /noi noeng/ (một ít)

ຈຈ” /ຈ//ຈ /chùu chìi/ (quấy rầy)
Ví dụ láy hoàn toàn :
ໄວໄວ /ໄວ/ໄວ /wai wai/ (nhanh nhanh)
ຊາຊາ /ຊາ/ຊ/າ /xàa xàa/ (chậm chậm),...
Ngoài ra còn có từ vay mượn của ngôn ngữ khác
Ví dụ từ vay mượn :
ເຝ /fờơ/ (Phở)
ໂອໂຕມາຕກ”/ໂອ/ໂຕ/ມາ/ຕກ/ /ô-tô-ma-tic/ (tự động)

3. Cấu trúc câu trong tiếng Lào
Tiếng Lào có hai loại câu : câu đơn và câu ghép.
1. Câu đơn
Tương tự quan điểm ngữ pháp tiếng Việt, trong ngữ pháp tiếng Lào, câu đơn
đơn gồm ba phần : chủ ngữ (danh từ hay đại từ), vị ngữ (động từ) và bổ ngữ. Ví dụ câu
đơn :
ກ ນລງທ ບຽນຮຽນພາສາວຽດນາມທມ ຫ ວທ ຍ ລຈ ປ ສກ
(Sinh viên đăng ký học tiếng Việt tại trường Đại học Champasack).
Được phân tách tương ứng như sau :
| ກ ນ|ລງທ ບຽນ|ຮຽນ|ພາສາວຽດນາມ|ທ|ມ ຫ ວທ ຍ ລ|ຈ ປ ສກ |
(| Sinh viên | đăng ký | học | tiếng Việt | tại | trường Đại học Champasack |).
2. Câu ghép :
Câu ghép có nhiều vế câu ghép lại với nhau để mở rộng ý nghĩa của câu. Vế
câu trong câu ghép thường có cấu tạo giống câu đơn. Giữa các vế câu ghép có những
mối quan hệ nhất định để nối với nhau. Tương tự tiếng Việt, có ba cách nối : nối bằng
từ ngữ có tác dụng nối, nối trực tiếp, không dùng từ ngữ có tác dụng nối, mà dùng dấu
phẩy, dấu chấm phẩy hoặc dấu hai chấm và nối bằng quan hệ từ. Có hai cách nối bằng
quan hệ từ :
-

Dùng các từ : và, rồi, thì, nhưng, hay, hoặc. Ví dụ :


11


| ຮງຮຽນ ດຈດຕງ ຫນກສກສ

ປທດສ ນ ສກສ

| ລ |ມອ ຈ ນນ ພ

ປ|

(Trường tổ chức cho sinh viên tham quan và cử cán bộ phụ trách đi theo)
-

Dùng các cặp quan hệ từ : Vì … nên (cho nên) … ; do … nên (cho nên)…

-

Ví dụ :
| ນອງ|ຈ ກຕ ລ ງຮຽນມກ ນປຽນ ປງ|ດງນນ| ຮງຮຽນຈງປ ກ ດ ຫນກຮຽນ|
(|Vì|thời khoá biểu thay đổi| nên |nhà trường đã thông báo cho sinh viên|).

1.2. SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG
Trong luận án, chúng tôi tiến hành so sánh tiếng Lào với ba ngôn ngữ là tiếng
Thái, tiếng Việt và tiếng Khmer. Về nguồn gốc, tiếng Lào thuộc ngữ chi Thái trong hệ
ngôn ngữ Tai-Kadai, chịu nhiều ảnh hưởng của tiếng Phạn[16][18][34][38][49].
Tiếng Thái (ภาษาไทย, [phasa thai]) là ngôn ngữ của người Thái, dân tộc
chiếm đa số ở Thái Lan, là ngôn ngữ quốc gia, chính thức của Thái Lan. Tiếng Thái
thuộc nhóm ngôn ngữ Thái của hệ ngôn ngữ Tai-Kadai, có nguồn gốc từ vùng miền

Nam Trung Quốc ngày nay, có mối liên hệ với các hệ ngôn ngữ Nam Á, Nam Đảo,
hoặc Hán-Tạng. Tiếng Thái chịu những ảnh hưởng của tiếng Phạn, các từ trong câu
không có dấu cách. Tiếng Lào có những thanh điệu và phát âm giống tiếng Thái đến
hơn 80%. Vì vậy, người Thái Lan và người Lào có thể đối thoại hiểu nhau được. Dân
địa phương ở Đông bắc Thái Lan có thể nói chuyện dễ dàng với người Lào.
Tuy có nguồn gốc như nhau, nhưng hai ngôn ngữ này lại có nhiều điểm khác
nhau. Hình loại chữ tiếng Thái khác hình loại chữ tiếng Lào. Bảng chữ cái tiếng Thái
có nhiều ký tự hơn bảng chữ cái tiếng Lào. Cách sử dụng ngôn ngữ và chính tả của hai
ngôn ngữ cũng rất khác nhau, mặc dù cả hai hệ thống viết đều không sử dụng dấu
phân cách từ, mà viết liền mạch, tương tự trong tiếng Khmer.
Tiếng Khmer (Khơ Me, hay Campuchia)
hơn

[pʰiːəsaː kʰmaːe], hay trang trọng

[kʰeɛmaʔraʔ pʰiːəsaː]), là ngôn ngữ của người Khmer, là ngôn ngữ chính

thức của Vương quốc Campuchia. Ở vùng đồng bằng sông Cửu Long Việt Nam cũng
có một bộ phận dân tộc Khmer sinh sống. Tiếng Khmer thuộc hệ ngôn ngữ Nam Á
(sau tiếng Việt), chịu ảnh hưởng đáng kể bởi tiếng Phạn và Pali qua Ấn Độ giáo và
Phật giáo, cho đến nay đã vay mượn rất nhiều từ tiếng Thái, tiếng Lào, tiếng Việt, và
tiếng Chăm, tất cả, do sự gần gũi địa lý và ảnh hưởng văn hóa lâu dài, đã tạo nên một
12


vùng ngôn ngữ Đông Nam Á.
Trong bốn ngôn ngữ Lào, Thái, Khmer và Việt Nam, tiếng Lào và tiếng Thái là
có sự tương đồng đáng kể. Chữ viết Khmer tuy có vẻ giống chữ Lào nhưng chữ
Khmer khác hoàn toàn với chữ Lào. Trong khi đó, tiếng Việt và tiếng Khmer đều
thuộc hệ ngôn ngữ Nam Á. Chữ viết Khmer chịu ảnh hưởng tiếng Phạn và Pali, họ

ngôn ngữ Môn–Khmer, còn tiếng Việt dùng bảng chữ cái La Tinh. Theo dòng thời
gian, bốn ngôn ngữ này rất khác nhau, mặc dù các hệ chữ viết Lào, Thái và Khmer có
vẻ giống nhau : viết liền các chữ mà không dùng dấu phân cách, có nguồn gốc từ hệ
chữ Brahmi ở Ấn Độ.
Sau đây chúng tôi sẽ tiến hành so sánh dựa trên một số đặc điểm ngữ pháp như
sau : bảng chữ cái, cấu trúc âm tiết, cấu trúc từ vựng và câu. Mục đích so sánh là để
nhìn nhận sự khó khăn phải trải qua trong tiến trình XL NNTN cho mỗi loại hình ngôn
ngữ, rất khó để vận dụng kết quả của nhau trên quan điểm và cách tiếp cận của XL
NNTN.

1.2.1. So sánh bảng chữ cái
Bảng dưới đây cho thấy sự khác biệt về hình loại chữ giữa bốn ngôn ngữ.
Bảng 1.1. So sánh chữ cái.
Tiếng Lào
33
Số phụ âm

(bổ sung 6 phụ
âm ghép đôi
28

Tiếng Việt
17
(bổ sung 10 phụ
âm ghép đôi và 1
phụ âm ghép ba)

âm dài, 4 nguyên nguyên âm đôi và

Dấu phụ


ghép
32
(có 9 nguyên âm
ngắn, 9 nguyên
âm dài, 3 hợp âm)

33
(15 phụ âm giọng
O [ᴐ] và 18 phụ âm
giọng Ô [o])
38
(24 nguyên âm
thường / không
độc lập và 14

13 nguyên âm ba)

4

5

4

Không có

Không có

Không có


Không có

33

Thuộc hệ Tai-

Thuộc họ Môn-

Kadai.

Khmer.

Không phân biệt

Không phân biệt

chữ hoa và chữ

chữ hoa và chữ

thường

thường

Kadai
Không phân biệt
chữ hoa và chữ
thường
Chữ số


(có 16 phụ âm

Tiếng Khmer

âm đặc biệt)

Thuộc hệ TaiĐặc điểm

44

12

(có 12 nguyên âm (là 12 nguyên âm
Số nguyên âm ngắn, 12 nguyên đơn bổ sung 32

Số dấu thanh

Tiếng Thái

10 chữ số Lào

Thuộc họ Nam Á
Chữ cái La Tinh,
phân biệt chữ hoa
và chữ thường
0..9

13

10 chữ số Thái


nguyên âm độc lập

10 hữ số
Khmer


1.2.2. So sánh cấu trúc âm tiết
Trong cả bốn ngôn ngữ, âm tiết là đơn vị phát âm ngắn nhất tạo nên một tiếng.
Mỗi âm tiết đều được cấu tạo từ một nhân âm tiết thường là nguyên âm, có giới hạn
trước và sau (không bắt buộc) là các phụ âm. Có nhiều quan điểm cho rằng âm tiết
trong cả bốn ngôn ngữ đều có cấu trúc ba tầng (chân, thân và tóc), mặc dù trong tiếng
Việt không thể hiện thật rõ ràng như ba ngôn ngữ còn lại. Bảng dưới đây cho thấy sự
khác biệt về cấu trúc âm tiết ba tầng giữa bốn ngôn ngữ[39].
Bảng 1.2. So sánh cấu trúc âm tiết.
Tiếng Lào

Tiếng Việt

Dấu thanh
Tầng 1 (tóc)

Tiếng Khmer

Dấu thanh

Nguyên âm trên

Dấu thanh


Nguyên âm trên

Phụ âm trung

Phụ âm và

Phụ âm trung

tâm, phụ âm

nguyên âm

tâm, phụ âm

ghép, nguyên âm

(không dấu)

ghép, nguyên âm

Tầng 2 (thân)

Tầng 3 (chân)

Tiếng Thái

Nguyên âm dưới Dấu thanh (nặng) Nguyên âm dưới

Nguyên âm
Phụ âm và

nguyên âm
Nguyên âm

1.2.3. So sánh cấu trúc từ vựng
Cả bốn ngôn ngữ đều có cấu trúc từ vựng tương đối giống nhau, đều được tạo
thành từ âm tiết và có hai loại từ : từ đơn, từ ghép và cụm từ (kết hợp nhiều từ đơn và
từ ghép). Về mặt từ loại, cả bốn ngôn ngữ đều có 7 loại từ như : danh từ, đại từ, động
từ, giới từ, tính từ, liên từ, trạng từ. Tuy nhiên có sự khác nhau về số lượng âm tiết ở
mỗi ngôn ngữ. Bảng dưới đây so sánh sự khác nhau giữa bốn ngôn ngữ.
Bảng 1.3. So sánh cấu trúc từ đơn.
Tiếng Lào

Tiếng Việt

Tiếng Thái

Tiếng Khmer

Nửa âm tiết,
một âm tiết
1
1
1
Số lượng âm tiết
hai âm tiết
và nhiều âm tiết
Mỗi âm tiết cũng Mỗi âm tiết cũng Mỗi âm tiết cũng Mỗi âm tiết cũng
là một từ đơn

là một từ đơn


là một từ đơn

là một từ đơn

(tiếng)

(tiếng)

(tiếng)

(tiếng)

2

1

2

1

Số chữ cái tối đa

12

7

27

21


Thanh điệu







Không

Đặc điểm
Số chữ cái tối
thiểu (độ dài)

14


1.2.4. So sánh cấu trúc câu
Cả bốn ngôn ngữ đều có cấu trúc câu tương đối giống nhau. Câu là một tập hợp
từ ngữ kết hợp với nhau theo một quy tắc nhất định, diễn đạt một ý tương đối trọn vẹn,
dùng để thực hiện một mục đích giao tiếp, truyền đạt nào đó. Dấu hiệu nhận biết câu khi
viết là đặt ở cuối câu một trong các dấu câu : dấu chấm, dấu chấm hỏi, dấu chấm than, dấu
hai chấm. Có hai loại câu là câu đơn và câu phức. Tuy nhiên trong cấu trúc câu, các quan
hệ từ và các từ phức đóng vai trò quan trọng trong việc nhận diện từ để giải quyết bài toán
tách từ. Luận án nhằm đến giải pháp tách từ tiếng Lào, vì vậy chúng tôi tìm hiểu các quan
hệ từ và cấu trúc từ phức của tiếng Việt để so sánh với tiếng Lào, qua đó thấy được tính
phức tạp và thách thức trong bài toán tách từ tiếng Lào.
Các quan hệ từ dùng để nối các từ, các câu, các đoạn văn, được sử dụng thành
cặp trong các câu phức [45]Ví dụ tiếng Việt có bốn loại quan hệ từ :

1. Vì/Do/Bởi/Tại/Nhờ (nguyên nhân) … nên/cho nên/mà … (kết quả).
2. Nếu/Hễ (giả thiết) … thì … (kết quả).
3. Tuy/Mặc dù … nhưng … (quan hệ tương phản).
4. Để … thì … (quan hệ mục đích).
Từ phức tiếng Việt gồm 8 loại :
1. Từ ghép là từ có hai tiếng trở lên ghép lại có nghĩa)
2. Từ láy phối hợp các tiếng có âm đầu hoặc vần (hoặc cả âm và vần) giống
nhau, hoặc láy âm đầu (rì rào), hoặc láy vần (lao xao), hoặc láy cả âm và
vần (loang loáng, xinh xinh). Có 3 loại từ láy : láy đôi (ngoan ngoãn), láy ba
(sạch sành sanh), láy bốn (rì rà rì rầm). Láy vần có thể chuyển thành từ láy
tư (róc rách thành róc ra róc rách).
3. Từ tượng thanh mô phỏng, gợi tả âm thanh của người, hay động vật.
4. Từ tượng hình gợi tả hình ảnh, màu sắc, mùi vị... của người, động vật.
5. Từ nhiều nghĩa có hai nghĩa trở lên (nghĩa gốc và nghĩa chuyển đổi).
6. Từ đồng nghĩa có nghĩa giống nhau (hoàn toàn hoặc không hoàn toàn).
7. Từ trái (dị) nghĩa có nghĩa trái ngược nhau.
8. Từ đồng âm là những từ giống nhau về âm nhưng khác nhau (không có liên
hệ gì về nghĩa).

15


Bảng dưới đây so sánh sự khác nhau giữa bốn ngôn ngữ.
Bảng 1.4. So sánh cấu trúc câu.
Tiếng Lào
Dấu trong câu

Dấu hết câu

Tiếng Việt


Tiếng Thái

Tiếng Khmer

Dấu phấy (,), dấu chấm (.), chấm phẩy (;), chấm than (!), chấm hỏi (?), hai
chấm (:), chấm lửng (...), gạch ngang (-), ngoặc đơn (), ngoặc kép (“ ”)
Dấu chấm (.), chấm phẩy (;), chấm than (!), chấm hỏi (?), hai chấm (:),
chấm lửng (...)

Quan hệ từ

2

Có 4 loại

2

Có 7 loại

Cấu trúc từ phức

6

Có 8 loại

6

6


Không



Không

Không

Khoảng trống
phân tách từ
trong câu

Sau đây là một ví dụ một câu tiếng Việt được phân tách từ trong ba ngôn ngữ
Lào Thái và Khmer để cho thấy sự khó khăn trong bài toán tách từ :
Câu tiếng Việt :
Sinh viên đăng ký học tiếng Việt tại trường Đại học Champasack.
Câu tiếng Lào :
ກ ນລງທ ບຽນຮຽນພາສາວຽດນາມທມ ຫ ວທ ຍ ລຈ ປ ສກ
được phân tách như sau :
| ກ ນ|ລງທ ບຽນ|ຮຽນ|ພາສາວຽດນາມ|ທ|ມ ຫ ວທ ຍ ລ|ຈ ປ ສກ |
Trong tiếng Việt được phân tách như sau :
| Sinh viên | đăng ký | học | tiếng Việt | tại | trường Đại học Champasack |
Trong tiếng Thái được phân tách như sau :
| การ|ลงทะเบียน|ภาษาเวียดนาม|ที่|มหาวิทยาลัย|จาปาสัก|
Trong tiếng Khmer được phân tách như sau :
|

|

|


|

|

|

|

1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN
1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào
1. Xây dựng các trình soạn thảo văn bản tiếng Lào
Tiếp cận đầu tiên về xử lý tiếng Lào là xây dựng các trình soạn thảo văn bản
16


×