Tải bản đầy đủ (.pdf) (63 trang)

Nghiên cứu thuật toán tách từ tiếng Lào và xây dựng ứng dụng hỗ trợ tra cứu từ mới tiếng Lào – Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.25 MB, 63 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ

Tên đề tài: Nghiên cứu thuật toán tách từ tiếng Lào và xây

dụng ứng dụng hỗ trợ tra cứu từ mới tiếng Lào – Việt

Giáo viên hướng dẫn

: TS. NÔNG THỊ HOA

Học viên thực hiện

: VONGPHASITH END

Lớp:

: Cao học K16A

Thái Nguyên, tháng 5 năm 2019

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thơng tin – ĐHTN
1




DANH SÁCH CÁC BẢNG
Bảng 2.1: Một số công cụ dùng cho tác từ hiện có


Bảng 3.1: Một số cặp từ Việt-Lào đã thu thập

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
2




DANH SÁCH CÁC HÌNH VẼ
Hình 3.1: Danh sách một số file âm thanh đọc tiếng Lào.
Hình 3.2: Danh sách một số file âm thanh đọc tiếng Việt.
Hình 3.3: Giao diện tra từ điển trong trang />Hình 3.4: Giao diện tra từ điển trong trang
Hình 3.5: Giao diện tra từ điển trong trang
Hình 3.6: Giao diện tra từ điển trong Google Translate
Hình 3.7: Giao diện tra từ điển trong Trang Laban.vn
Hình 3.8: Giao diện tra từ điển trong trang tracau.vn
Hình 3.9: Vị trí nhập từ cần tra
Hình 3.10: Vị trí ra lệnh dịch từ
Hình 3.11: Kết quả dịch
Hình 3.12: Vị trí chọn nghe âm thanh
Hình 3.13: Kết quả tra từ “ba”.
Hình 3.14: Kết quả tra từ “đa”.
Hình 3.15: Kết quả tra từ “dân”.
Hình 3.16: Kết quả tra từ “khoanh”.
Hình 3.17: Kết quả tra từ “khó”.
Hình 3.18: Kết quả tra từ “hai”.
Hình 3.19: Kết quả tra từ “kế”.
Hình 3.20: Kết quả tra từ “khách”.
Hình 3.21: Kết quả tra từ “lạc”.
Hình 3.22: Kết quả tra từ “nam”.

Hình 3.23: Kết quả tra từ “ngay”.
Hình 3.24: Kết quả tra từ “ngày”.
Hình 3.25: Kết quả tra từ “nghi”.
Hình 3.26: Kết quả tra từ “phân”.

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thơng tin – ĐHTN
3




MỤC LỤC
DANH SÁCH CÁC BẢNG ................................................................................................... 2
DANH SÁCH CÁC HÌNH VẼ .............................................................................................. 3
CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO ............................................................................... 6
1.1 Giới thiệu chung ........................................................................................................... 6
1.2 Thanh điệu và bảng chữ cái ......................................................................................... 6
1.2.1 Thanh điệu tiếng Lào ............................................................................................. 6
1.2.2 Bảng chữ cái tiếng Lào .......................................................................................... 7
1.3 Ngữ pháp tiếng Lào ...................................................................................................... 8
1.3.1 Biến cách đặc biệt về Ngữ pháp ........................................................................... 9
1.3.2 Quan hệ Danh từ ................................................................................................... 9
1.3.3 Danh xưng ........................................................................................................... 12
1.3.4 Quan hệ giữa Danh từ và Tính từ ....................................................................... 16
1.3.5 Động từ và các Thời của Hành động .................................................................. 16
1.4 Các Thể Ngữ pháp trong các Ngôn ngữ Lào - Thái – Khmer ................................... 22
1.4.1 Thể Nghi vấn trong Ngôn ngữ Lào - Thái - Khmer ............................................ 22
CHƯƠNG II: CÁC KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
............................................................................................................................................. 24
2.1 Giới thiệu chung…………………………..…………………………………………………….……………………..24

2.1.1 Xử lý ngôn ngữ tự nhiên...................................................................................... 24
2.1.2 Tách từ trong Xử lý ngôn ngữ tự nhiên ............................................................... 27
2.2 Các kỹ thuật tách từ hiện có ..................................................................................... 29
2.2.1 Mơ hình ngơn ngữ ............................................................................................... 29
2.2.2 Một số cách tiếp cận bài toán tách từ .................................................................. 30
2.2.3 Thuật toán tách từ phổ biến ................................................................................. 32
2.2.4 Một số vấn đề mở rộng ........................................................................................ 33
2.3 Dùng kỹ thuật Pointwise cho tách từ ......................................................................... 33
2.3.1 Ý tưởng cơ bản .................................................................................................... 33
2.3.2 Những đặc trưng được sử dụng ........................................................................... 35
2.3.3 Đặc điểm về dữ liệu huấn luyện .......................................................................... 37
2.4 Một số công cụ (Tools) dùng cho tách từ .................................................................. 37
CHƯƠNG III: XÂY DỰNG ỨNG DỤNG TRA CỨU TỪ ĐIỂN VIỆT-LÀO .................. 38
3.1 Giới thiệu bài toán ...................................................................................................... 38
3.2 Thu thập dữ liệu để xây dựng từ điển ........................................................................ 39

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
4




3.3 Khảo sát một số phần mềm tra từ điển ....................................................................... 46
3.4 Phân tích và thiết kế dữ liệu ....................................................................................... 49
3.4.1 Các yêu cầu về chức năng ................................................................................... 49
3.4.2 Các yêu cầu phi chức năng .................................................................................. 49
3.4.3 Thiết kế cơ sở dữ liệu .......................................................................................... 50
3.5 Xây dựng chương trình .............................................................................................. 50
3.5.1 Hướng dẫn sử dụng chương trình ........................................................................ 50
3.5.2 Các giao diện chương trình.................................................................................. 53

3.5.3 Một số đoạn code quan trọng .............................................................................. 60
KẾT LUẬN.......................................................................................................................... 62
HƯỚNG PHÁT TRIỂN....................................................................................................... 62
TÀI LIỆU THAM KHẢO ................................................................................................... 63

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
5




CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO

1.1 Giới thiệu chung
Tiếng Lào [2] là một ngôn ngữ thuộc Ngữ chi Thái trong hệ ngôn ngữ TaiKadai. Tiếng Lào chịu những ảnh hưởng của tiếng Phạn. Tiếng Lào cũng là ngôn ngữ
truyền thống của hoàng gia Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo. Bảng
chữ cái Lào là bản chính thức cho ngơn ngữ chính thức, và cũng được sử dụng để ghi
lại ngôn ngữ dân tộc thiểu số trong cả nước, trong khi những dân tộc có chữ riêng
như Hmơng vẫn có thể sử dụng chữ của mình.
Tiếng Lào có ảnh hưởng ít nhiều đến những ngơn ngữ khác trong vùng đối với
các lân bang như tiếng Thái, tiếng Khmer, tiếng Việt. Lào ngữ được coi là một ngôn
ngữ hỗn hợp ở bán đảo Đông Nam Á. Tiếng Lào có những thanh điệu và phát âm
giống tiếng Thái, phần tương đồng lên đến hơn 80%. Vì vậy trong đối thoại
giữa người Lào và người Thái Lan có thể hiểu nhau được. Ở Việt Nam, tiếng Lào
không được công nhận là ngôn ngữ thiểu số, tuy nhiên tiếng Lào được nói tại một số
vùng núi gần biên giới Việt-Lào và người dân ở đó xem tiếng Lào là ngơn ngữ thương
mại ở khu vực này.

1.2 Thanh điệu và bảng chữ cái
1.2.1 Thanh điệu tiếng Lào

Tiếng Lào cũng có 5 thanh điệu [3] tương đương với 5 thanh điệu của tiếng
Việt, tuy nhiên có một thanh điệu được gọi là luyến lên – luyến xuống lại được biến
đổi tùy từng trường hợp sử dụng.
Ngữ điệu tiếng Lào được quy định bởi năm thanh điệu:
Thanh cao (thanh sắc) được tạo bởi mái tri và được viết là ” ໊ “
Thanh thấp (thanh huyền) được tạo bởi mái ệc và được viết là ‘ ่ ’
tức là một dấu nháy như thanh sắc ở phía trên.
Thanh bằng (thanh khơng hay thanh bằng) nghĩa là khơng có dấu gì
ở trên hoặc dưới.
Thanh luyến lên (thanh hỏi) được tạo bởi mái chặt-ta-wa và được viết
là ” ่ ” tức là một dấu cộng ở phía trên đầu.

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN
6




Thanh luyến xuống (thanh nặng) được gọi là mái thô và được viết là
” ໊ ” giống như dấu ngả của tiếng Việt ở phía trên nhưng nó phát âm
gần giống thanh nặng trong tiếng Việt.
Riêng “thanh luyến xuống” (hay cịn gọi là “thanh lên – xuống khng ại) hoặc
“độc” = “đôộc”, “đọc” = “đoọc”… Bộ âm tiếng cũng không phát âm được các đồng
âm “â” mà chỉ phát âm được “ơ”.
Đặc biệt là tiếng Lào khơng có chữ cái nào tương đương với “r” nên các từ
của Việt Nam có chữ cái “r” đứng đầu khi phiên âm qua tiếng Lào sẽ bị đổi sang “s”.
Hoặc là “L” hoặc “gi” (chữ ລ) nhưng rất ít khi được dùng vì chữ cái Lào tương đương
với âm “gi” (tức là ລ) thường vẫn hay bị đọc thành “nh”.
Để nghe và đọc được đúng thanh điệu tiếng Lào, vui lòng nghe các bài hát đã
được phiên âm tiếng Lào qua phát âm Việt và bài hát Việt phát âm bằng tiếng Lào.

1.2.2 Bảng chữ cái tiếng Lào
Phần dưới đây liệt kê các phụ âm và nguyên âm trong tiếng Lào [1].
Phụ âm






co

khỏ

kho

ngo

cho











thỏ


tho

đo

to





sỏ







p’hỏ

pho

phỏ

mo

do






ngỏ

nhỏ

nỏ

so



nho


bo


ກກ





no


ກກ





p’ho

po






lo

vo

hỏ

ກກ ກກ





mỏ

lỏ

vỏ


o

ho

Nguyên âm
Khi ghép vần với phụ âm ở trên được sắp xếp theo thứ tự:
+ກ +ກ

+ິ +ິ +ິ +ິ +ິ +ິ





a

ກxກ ກx


ê



i


ư

ກxກ


ກx

e





u

ກxກ
ơ

ກx


ກxກກ
o

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN
7

+ິ




ກ+ກ

ກ+ກ


ກ+ກກ

ກ+ກ

ກ+ກກ

ກ+ກກ

+ກກກ

+ກ




ơ

ịa

ກ+

ກ+

ກ+ກກ

ạy

ay


au

ựa

ia

ưa

ụa

ua

+ກ

ăm

Số đếm tiếng Lào
Số đếm trong tiếng Lào viết có hơi khác khá nhiều so với tiếng Thái, nhưng
phát âm gần như giống hoàn toàn với số đếm của tiếng Thái. Chỉ duy nhất một số 9
thì tiếng Lào phát âm là ‘cậu’, tiếng Thái phát âm là ‘cạu’:
Số 0

o

sủn

Số 1




nừng

Số 2



soỏng

Số 3



sảm

Số 4





Số 5



hạ

Số 6




hơốc

Số 7



chết

Số 8



pẹt

Số 9



cậu

Số 10

໑o

sịp

1.3 Ngữ pháp tiếng Lào
Đối với các Ngôn ngữ Đông Dương như Lào, Campuchia, Việt Nam và Thái
Lan thì Ngữ pháp có rất nhiều điểm tương đồng... [4]. Tương đồng nhất về Ngữ
pháp giữa các Ngơn ngữ này là 'nói xi' tức là nếu ghép tất cả các Từ vựng lại với

nhau theo kiểu Từ - liền - Từ (word - to - word) thì Từ nào có ý nghĩa càng quan
trọng sẽ càng được xếp ở đầu câu, Từ nào càng ít quan trọng thì càng bị xếp về cuối
câu. Trong lúc các phần lớn các Ngôn ngữ như tiếng Anh, tiếng Hoa, tiếng Đức...
thì ngược lại là Từ nào càng quan trọng thì càng được xếp về cuối câu và từ nào
càng ít quan trọng thì được xếp về đầu câu.... Vì thế khi muốn diễn nghĩa một câu
tiếng Lào, tiếng Thái hoặc tiếng Campuchia sang tiếng Việt thì có thể dịch nghĩa

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
8




từng từ và xếp theo đúng thứ tự tương ứng thì sẽ thành nghĩa một câu tiếng Việt khá
hồn chỉnh, loại trừ một số trường hợp đặc biệt trong Ngữ pháp của các nước.
Trong tiếng LÀO có chữ ໆ dùng để viết khi có những từ phải viết 2 lần, có
nghĩa là khi đọc đến từ nào mà đứng sau nó có chữ ໆ thì phải đọc lặp 2 lần. Thí dụ từ
ຊ້ າໆ đọc là xạ xạ (từ từ). Trong tiếng Lào khơng có chữ "J" mà chỉ có chữ này "ຢ"
(đọc là do). Chữ này có thể dùng thay thế cho các chữ d, gi trong tiếng Việt (đơi khi
thay cho cả chữ r). Cịn chữ ຽ của tiếng Lào thì thay thế cho chữ iê của tiếng Việt.
Chữ này đứng một mình thì khơng đọc được. Thí dụ từ ຮຽນ nghĩa là học được ghép
như sau:
ກ (ho) + ກ (iê) + ກ (no) = hiên
1.3.1 Biến cách đặc biệt về Ngữ pháp
Trong tiếng Lào, tiếng Thái và tiếng Khmer có một biến cách Ngữ pháp rất
đặc biệt giống nhau đó là liên quan đến số đếm nếu số lượng người hay vật hay sự
kiện nhiều hơn 1 thì trật tự của cụm từ vẫn giống như trong tiếng Việt hoặc nhiều
Ngôn ngữ khác là: Số lượng (số đếm) + Danh từ (người, vật, sự vật)
Nhưng nếu chỉ là một duy nhất thì cấu trúc cụm từ lại thay đổi ngược lại là:
Danh từ (người, vật, sự vật) + 1 (chỉ số lượng)

Ví dụ cụ thể như dưới đây:
Ngôn ngữ

Số lượng nhiều hơn 1

Số lượng chỉ bằng 1

Tiếng Lào

Sorng kon (xoong khôn)

Kon neung (khôn nừng)

Tiếng Thái

Sorng kon (xoong khôn)

Kon neung (khôn nừng)

Tiếng Khmer

Pi mnus (pi ma-nut)

Mnus mouy (ma-nut muôi)

Tiếng Việt

Hai người

Một người (người một)


1.3.2 Quan hệ Danh từ
Xác định Danh từ
Trong các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt ln có những
mối quan hệ giữa Danh từ với các Thành phần Ngữ pháp trong câu rất phức tạp: Mặc
dù trong các Ngôn ngữ này không có khái niệm về Mạo từ Xác định hay Mạo từ Bất

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN
9




xác định như các Ngôn ngữ Châu Âu nhưng thay vào đó là những khái niệm phức tạp
hơn như dưới đây:
Danh từ trong các Ngôn ngữ Lào - Thái - Khmer
Các mối Quan hệ Danh từ chính là một bộ phận Ngữ pháp rất quan trọng không
chỉ đối với các Ngơn ngữ Lào - Thái - Khmer nói riêng mà cịn là đối với bất kỳ Ngơn
ngữ nào nói chung nhưng do Cấu trúc Ngữ pháp mỗi Ngôn ngữ mỗi khác mà nó sẽ
tạo ra những mối quan hệ khác biệt giữa Danh từ và các Thành phần Ngữ pháp khác
trong câu...
Chỉ định Danh từ
Đối với bất kỳ Ngôn ngữ Châu Âu nào (trừ tiếng Nga), nếu một Danh từ nào
trong câu khơng kèm theo Số lượng cụ thể thì người ta thường dùng các Mạo từ khơng
xác

định

hoặc


Mạo

từ

xác

định

để

chỉ



Danh

từ.

Ví dụ trong tiếng Anh dùng Mạo từ không xác định là 'a', tiếng Pháp là 'un' hoặc 'une'
tùy vào Danh từ là giống đực hay giống cái... trong lúc các Ngôn ngữ Lào, Thái và
Khmer cũng như tiếng Việt Khái niệm này nghe rất xa lạ và mơ hồ khó hiểu...
Chỉ định Danh từ trực tiếp
Để xác định các Danh từ trong câu, hoặc là có Lượng từ kèm theo (để chỉ rõ
số lượng Danh từ có bao nhiêu người hay đồ vật hoặc sự kiện...) hoặc là chỉ định
trực tiếp như Ví dụ trong câu dưới đây:
Tiếng Anh: I am a student
Tiếng Lào: koy pen nuk-seuk-sa (khọi pen nặc-xức-xa)
Tiếng Thái: pom pen nuk-seuk-sa (phôm pen nặc-xức-xa)
Tiếng Khmer: nhom kir chea sers (nhom cừ chia xa)
Tiếng Việt: Tôi là Sinh viên

Như vậy, với các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt có thể
giới thiệu trực tiếp Danh từ mà khơng cần phải có Mạo từ nào kèm theo như trong
các Ngôn ngữ Châu Âu nếu không đi kèm số lượng cụ thể là bao nhiêu.
Một điểu rất quan trọng trong phần lớn các Ngơn ngữ Châu Á có khác biệt so với
phần lớn các Ngôn ngữ Châu Âu là ở chỗ các Ngôn ngữ Châu Á không quan niệm số
nhiều hay số ít trong Danh từ cũng như khơng phân biệt giống đực hay giống cái

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
10




trong Danh từ. Trong lúc phần lớn các Ngôn ngữ Châu Âu có sự phân biệt rất rạch
rịi về điều này như các ví dụ dưới đây:
Số ít

Số nhiều

Tiếng Anh: I am a student

we are the students

Tiếng Việt: Tôi là sinh viên

chúng tơi là sinh viên

Ở Ví dụ nói trên trong tiếng Anh nếu Đại từ Chủ ngữ là số ít thì Danh từ đi
theo nó cũng sẽ là số ít. Ngược lại nếu Đại từ Chủ ngữ là số nhiều thì Danh từ đi
theo nó cũng phải là số nhiều cũng như Đại từ Chủ ngữ thuộc giống nào thì Mạo

từ và Danh từ đi theo nó cũng phải được biến đổi theo giống và số ít/số nhiều của Đại
từ Chủ ngữ.
Trong lúc các Ngôn ngữ Châu Á không cần phân biệt Giống và Số của Danh
từ đi kèm theo Đại từ Chủ ngữ bất chấp Đại từ Chủ ngữ là số ít hay số nhiều cũng
như giống cái hay giống đực....
Danh từ có Lượng từ kèm theo
Như đã nêu ở Mục chính của Ngữ pháp về Biến cách Ngữ pháp, nếu có Số
lượng đi kèm Danh từ thì nó sẽ thiết lập cụm Danh từ với Số lượng như dưới đây:
Ngôn ngữ

Số lượng nhiều hơn 1

Số lượng chỉ bằng 1

Tiếng Lào

Sorng kon (xoong khôn)

Kon neung (khôn nừng)

Tiếng Thái

Sorng kon (xoong khôn)

Kon neung (khôn nừng)

Tiếng Khmer

Pi mnus (bi ma-nut)


Mnus mouy (ma-nut muôi)

Tiếng Việt

Hai người

Một người (người một)

Từ loại (phân loại Danh từ)
Đặc biệt, trong các Ngôn ngữ Lào, Thái, Khmer, tiếng Hàn hoặc tiếng Nhật
cũng như tiếng Việt là khi có Lượng từ kèm theo Danh từ thì vấn đề không chỉ dừng
lại ở chỗ là đưa cụm từ nói trên vào trong câu mà nhiều trường hợp sẽ trở nên phức
tạp hơn là phải kèm theo các Từ loại đặc trưng để chỉ rõ Danh từ là loại nào cụ thể
chẳng hạn như người hay vật hay sự kiện.
Ví dụ: Tơi có 2 cái bàn, anh có 2 quyển vở, nó có 4 quả lựu đạn, cơ ấy
có giọng hát rất hay...

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
11




Ví dụ trên cho thấy rằng đứng trước các Danh từ ln có một Từ loại đặc
trưng để phân loại Danh từ thuộc loại nào. Vì vậy, dưới đây giới thiệu một số Từ
loại thường dùng trong các Ngôn ngữ Lào, Thái và Khmer:
1.3.3 Danh xưng
Trong các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt không giống
như các Ngôn ngữ Châu Âu thường được thống nhất các Danh xưng trong giao tiếp
một cách rất đơn giản bằng các Đại từ Nhân xưng rất cụ thể hoặc vài Chức danh đặc

biệt nào đó.
Trong lúc tiếng Thái, tiếng Lào, tiếng Khmer và tiếng Việt luôn phải loay hoay
để diễn giải các quan hệ trong xưng hô với nhau thành các Ngơn ngữ nước ngồi như
thế nào cho thật sát nghĩa và thật đúng phép xã giao mặc dù tự bản thân người Việt
cũng như người Lào hay người Thái hoặc người Khmer vẫn có thể xưng hơ được với
nhau rất dễ dàng bởi sự Xưng hô của các Ngôn ngữ Lào, Thái, Khmer cũng như tiếng
Việt đều giống nhau nhưng lại khơng giống như các Ngơn ngữ Châu Âu...
Vì thế, nội dung dưới đây diễn giải các cách Xưng hô (cịn gọi là Hơ cách)
trong các Ngơn ngữ Lào, Thái và Khmer.
Danh xưng và Hô cách là các kiểu Xưng hô trong tiếng Lào, tiếng Thái, tiếng
Khmer cũng như tiếng Hàn và tiếng Nhật tỏ ra rất phức tạp...
Sự xưng hô xã giao trong các Ngôn ngữ Châu Âu tỏ ra rất đơn giản mà cũng
rất đủ phép lịch sự trong giao tiếp kể cả bằng đối thoại trực tiếp lẫn trên Văn bản
nhưng đối với các Ngôn ngữ Lào, Thái, Khmer và tiếng Việt cũng như tiếng Hàn và
tiếng Hoa cùng với tiếng Nhật lại trở nên rất phức tạp bởi vì cách xưng hơ xã giao
trong các Ngơn ngữ này không chỉ bị phân chia theo Ngôi thứ và giống - số tương tự
như Hệ thống Đại từ Nhân xưng trong các Ngơn ngữ Châu Âu mà cịn được quy định
bởi sự chênh lệch tuổi tác và các mối quan hệ Gia đình - Xã hội...
Ví dụ trong tiếng Hoa, người ta vẫn xưng hô trực tiếp với nhau là 'wo' (tức là 'tôi') và
'ni' (tức là người đối thoại trực tiếp cùng với mình')nhưng khi gọi thì vẫn phải thông
qua sự chênh lệch tuổi tác và giới tính cũng như quan hệ gia đình để gọi ví dụ như
hơn kém nhau vài tuổi thì gọi người hơn mình là anh hay chị, nếu là hơn rất nhiều
tuổi thì gọi là cơ hay chú hay bác... Trong lúc tiếng Anh chỉ việc gọi một cách rất đơn
giản là gọi bằng tên riêng nếu rất thân thiện hoặc ngang bằng mình hoặc sẽ gọi là Mr

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
12





kèm theo tên họ (đối với đàn ông)hoặc là Ms với tên họ (đối với các cô gái trẻ) hoặc
Mrs với tên họ (nếu là phụ nữ đã có chồng hoặc rất lớn tuổi) của người đó.
Nếu diễn giải các cách xưng hô trong các Ngôn ngữ Lào, Thái và Khmer bằng
các Ngơn ngữ Châu Âu thì sẽ là một điều vơ cùng khó khăn nhưng để diễn giải bằng
tiếng Việt thì lại rất dễ dàng bởi vì rất may mắn rằng cách xưng hơ trong tiếng Việt
cũng hồn tồn giống với các các xưng hô trong tiếng Lào, tiếng Thái cũng như tiếng
Khmer...
Có thể sơ lược diễn giải cách xưng hô thông qua vài câu đối thoại trong tiếng
Việt như dưới đây:
- Người A: Cháu đi đâu đấy?

Người B: Cháu đang đi học bác ạ

- Người C: Em đang làm gì đấy? Người D: Em đang đánh máy anh ạ
- Người E: Chị đang ăn cơm à? Người G: ừ, chị đang ăn cơm em ạ
Cách xưng hô giữa các cuộc đối thoại ngắn nói trên dược diễn giải như dưới
đây:
Người A gọi người B là cháu và người B tự xưng mình là cháu và gọi người A là bác
thì cũng có nghĩa rằng người A sẽ tự xưng mình là bác. Tương tự, người C gọi người
D là em và người B tự xưng mình là em và gọi người C bằng anh thì có nghĩa rằng
người C cũng sẽ tự xưng là anh. Cuối cùng là người E gọi người G là chị và người G
gọi người E là em và tự xưng là chị thì người E cũng sẽ phải tự xưng là mình là em...
Như vậy, dễ dàng hình dung việc sử dụng các Danh xưng trong tiếng Lào cũng
như tiếng Thái và tiếng Khmer là hoàn toàn tương tự như trên và dưới đây lần lượt
giới thệu các cách tự xưng và gọi người khác:
Cách tự xưng phổ biến chung cho mọi đối tượng

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN
13





Trên đây là cách tự xưng của bản thân mình với các đối tượng khác, được sử
dụng với mọi lứa tuổi và mọi giới tính. Đặc biệt trong tiếng Thái chỉ riêng từ 'phổm'
là được sử dụng cho việc tự xưng trực tiếp là 'tôi' như bất kỳ ngôn ngữ nào nhưng từ
'xắn' lại được dùng chung cho mọi ngôi thứ tức là không chỉ được dùng để tự xưng
'tôi' mà còn để gọi người đối diện hoặc người thứ ba cho nên từ 'xắn' được coi là Ngôi
Vô nhân xưng chỉ được đưa vào trong câu để có Đại từ Chủ ngữ mà thôi, cũng giống
như Đại từ Vô nhân xưng trong tiếng Pháp là 'on'...
Các cách xưng hô theo tuổi tác và giới tính
Với những người hơn kém nhau vài tuổi, tiếng Lào và tiếng Thái cũng như tiếng
Khmer thường xưng hô thân thiện như dưới đây:

Theo trên cho thấy rằng chỉ có trong tiếng Lào là có sự phân biệt cách xưng
hô giữa nam và nữ đối với người lớn tuổi hơn với nam được xưng và hô là 'ại' tức là
'anh' và đối với nữ là 'ượi' tức là 'chị'. Còn trong tiếng Thái và tiếng Khmer thì người
lớn tuổi hơn cả nam lẫn nữ đều được dùng chung một cách xưng hô như nhau là
'boong' trong tiếng Khmer và 'Phì' trong tiếng Thái...
Chú ý: Trong tiếng Thái và tiếng Khmer, để phân được rõ ràng hơn người
đang xưng hơ là nam hay nữ thì người ta thường gọi thêm một từ gọi về giới tính theo
sau các Đại từ nói trên ví dụ tiếng Thái gọi 'Pee-sai' (phì-xai) là 'anh' để phân biệt đó
là người đàn ơng hoặc 'Pee-sao' (phì-xao) để gọi đó là 'chị' (tức là nữ). Cịn tiếng

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
14





Khmer gọi 'bong bros' (boong bơ-ró) là 'anh' (tức là nam giới) cịn nữ giới thì được
gọi là 'boong srey' (boong xơ-rây) tức là 'chị'...Có nghĩa rằng trong tiếng Thái 'sai'
được gọi kèm theo sau các Đại từ nói trên là để nhấn mạnh rằng đó là đàn ơng, 'sao'
là để nhấn mạnh rằng đó là phụ nữ. Cịn trong tiếng Khmer thì 'bros' được kèm theo
sau Đại từ nói trên là để nhấn mạnh đó là đàn ơng và 'srey' là để nhấn mạnh rằng đó
là phụ nữ....
Với những người chênh lệch nhau rất nhiều mà trong tiếng Việt thường phải
xưng và hô với nhau là 'cháu' và 'cô', 'chú' hoặc 'bác' thậm chí là 'ơng' và bà' thì trong
tiếng Thái và tiếng Lào cũng như tiếng Khmer - campuchia cũng hoàn toàn tương tự
như dưới đây:
Chú ý: Cách sử dụng kiểu xưng hô này trong tiếng Việt như thế nào thì trong
các Ngơn ngữ Lào, Thái và Khmer đều được áp dụng hoàn toàn tương tự...
Một điều rất quan trọng nữa là cách gọi và cách xưng hô trong tiếng Thái, tiếng Lào
và tiếng Khmer cũng như trong tiếng Việt là đồng nhất (tức là cùng một Hệ thống
Đại từ) trong lúc các Ngôn ngữ Châu Âu và tiếng Hoa thì cách gọi (Đại từ để gọi) và
cách xưng hô (Đại từ xưng hô) là hai hệ thống Đại từ khác nhau như các dẫn chứng
cụ thể dưới đây:
Tiếng Anh: Mr Trần, I want to meet you
Tiếng Hoa: 叔叔 Shūshu (su-su), 我想见见你 wǒ xiǎngjiàn jiàn nǐ.
Tiếng Việt: Chú ơi, cháu muốn gặp chú
Theo ví dụ dẫn giải trên để tạo sự chú ý của một người mà mình cần phải nói
điều gì đó thì cần phải gọi người đó và sử dụng Đại từ để gọi: Tiếng Anh thì sử dụng
Đại từ Mr + họ của người được gọi nếu là đàn ông lớn tuổi hoặc cần được tôn trọng
hoặc là Ms/Mrs + họ của người được gọi đối với phụ nữ nhưng khi đối thoại trực tiếp
thì người ta lại dùng I và You là hai Đại từ xưng hô (Đại từ Nhân xưng) để chứng tỏ
tỏ rằng cách gọi và cách xưng hơ khác nhau. Có nghĩa rằng người ta không thể dùng
luôn Đại từ để gọi cho câu đối thoại trực tiếp mà theo cách người Việt sử dụng thì
phải là: Mr Trần, I want to meet Mr Trần... cách nói này trong tiếng Anh là hồn tồn
sai về Ngơi thứ...

Tương tự, tiếng Hoa cũng dùng từ gọi là 'shushu' (có nghĩa là 'chú') để gọi
'chú ơi' và sau đó lại sử dụng Đại từ Nhân xưng là 'wo' và 'ni' để đối thoại với nhau.

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN
15




Trong lúc, trong tiếng Việt thì Đại từ để gọi và Đại từ xưng hô lại phải đồng nhất:
Nếu gọi 'chú ơi' thì trong xưng hơ cũng sử dụng 'chú' để đối thoại với người được gọi.
Sự giải thích trên để diễn giải rằng trong tiếng Thái, tiếng Lào và tiếng Khmer
cũng tuân theo quy tắc gọi và xưng hô hồn tồn sử dụng các Đại từ xưng hơ và gọi
như trong tiếng Việt...
1.3.4 Quan hệ giữa Danh từ và Tính từ
Khác với phần lớn các Ngơn ngữ trên Thế giới thơng thường Tính từ ln đặt
trước Danh từ, Ví dụ như trong tiếng Hoa 'mei' (nghĩa là 'đẹp') là Tính từ đứng trước
Danh từ 'rén' (nghĩa là 'người') t tạo thành 'mei rén' (có nghĩa là 'mỹ nhân' tức là
'người đẹp') hoặc trong tiếng Anh thì 'beautiful' (nghĩa là 'đẹp') là Tính từ cũng được
đặt trước Danh từ là 'girl' (nghĩa là 'cô gái') và trở thành 'beautiful girl' cũng có nghĩa
là 'cơ gái đẹp'.
Trong lúc tiếng Việt cũng như tiếng Thái, tiếng Lào và tiếng Khmer Campuchia thì hồn tồn ngược lại là Tính từ đặt sau Danh từ ngoại trừ một số tình
huống đặc biệt ví dụ như trong tiếng Lào và tiếng Thái nói về 'người đẹp' là 'ngarm
sao' hay 'ngarm sai' tức là 'xinh gái' và 'đẹp trai' (nhưng mà cũng đúng nghĩa hoàn
toàn với tiếng Việt vì 'ngarm' có nghĩa là 'đẹp' hoặc 'xinh' thì trong trường hợp này
tiếng Việt cũng đặt Tính từ lên trước) nhưg trong lúc đó thì tiếng Khmer vẫn đặt sau
Danh từ như 'srey sa art' có nghĩa là 'cơ gái đẹp' với Tính từ là 'sa art' (có nghĩa là
'xinh đẹp') vẫn đứng đằng sau Danh từ 'Srey' (có nghĩa là 'cơ gái').
1.3.5 Động từ và các Thời của Hành động
Trong các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt khơng có khái

niệm chia động từ theo các Thì Quá khứ, Hiện tại hay Tương lai mà các Động từ ln
bất biến trong mọi tình huống Ngữ pháp...
Thay vì phải biến đổi Động từ theo các Thì của Hành động như trong nhiều
Ngơn ngữ Châu Âu thì trong các Ngơn ngữ Lào, Thái và Khmer cũng như trong tiếng
Việt chỉ cần đưa thêm vào các Trợ từ để chỉ thời của các Hành động xảy ra như dưới
đây:
Động từ trong câu

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
16




Tất cả các Động từ trong tiếng Thái, tiếng Lào hay tiếng Khmer được sử dụng
trong câu luôn luôn được giữ nguyên thể không bị biến đổi theo Đại từ Chủ ngữ hay
theo các Thì (hiện tại, quá khứ, tương lai) tương tự như trong tiếng Việt.
Trong một câu có nhiều Động từ cũng được gắn bó theo cấu trúc như trong tiếng
Viêt...
Ví dụ câu có hai Động từ thì Động từ chính sẽ được đặt ngay sau Đại từ Chủ
ngữ hoặc gần Đại từ Chủ ngữ nhất, kế đó là Động từ phụ hoặc cũng có thể sẽ được
đặt cuối câu mà phần lớn theo đúng trật tự câu của tiếng Việt như dưới đây (chỉ trừ
một số trường hợp đặc biệt sẽ hơi ngược với trật tự về Động từ giữa tiếng Việt và
tiếng Lào hoặc tiếng Thái):

Ngôn ngữ

Nguyên văn

Tiếng Lào


ຂ້ ອຍໄປເຮັດວຽກ

Tiếng Thái

ฉั นไปทำงำน

Phiên âm
Koiy pay herd

viek

Khọi pay hết việc
Chan pai tum

ngarn

Xắn pai thăm ngan
Nhom tov tver

Tiếng Khmer

ka

Nhom tơu thuơ ca
Tơi đi làm việc

Tiếng Việt

Các Thì của Hành động

Trong tiếng Lào, tiếng Thái và tiếng Khmer cũng như tiếng Việt khơng có khái
niệm chia Động từ theo các Thì của Hành động mà chỉ có các Trợ từ kèm theo trong
câu ở những vị trí xác định thích ứng để chỉ rõ thời điểm đã và đang hoặc sẽ hành
động như dưới đây:
Thì hiện tại tiếp diễn
Đối với thì hiện tại thơng thường, sẽ khơng có gì khác biệt trong cấu trúc câu
của các Ngơn ngữ nói trên ngồi việc thiết lập một câu có cấu trúc 'Đại từ Chủ ngữ'
+ Động từ + Bổ ngữ... mà trong đó nếu là Đại từ Nhân xưng làm Chủ ngữ của câu thì

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
17




thường có thể được loại bỏ khơng cần sử dụng trong các câu tiếng Lào, tiếng Thái
hoặc tiếng Khmer....
Đối với những Hành động đang diễn ra và có thể sẽ kết thúc vào một thời điểm
nào đó có hạn định hoặc khơng hạn định thì người ta dùng một Trợ từ biểu thị cho
Thì hiện tại tiếp diễn như dưới đây:

Thì quá khứ
Trong tiếng Lào, tiếng Thái và tiếng Khmer nói chung chỉ có khái niệm Quá
khứ Đơn giản mà khơng có khái niệm Q khứ Tiếp diễn... vì vậy. Có hai dạng Q
khứ Đơn giản trong các Ngơn ngữ này là Quá khứ đã từng xảy ra ít nhất một lần rồi
và Quá khứ Hoàn thành
Quá khứ Hoàn thành
Đối với trường hợp này, tiếng Lào và tiếng Thái cùng đưa vào một Trợ từ kết
thúc câu là 'lèo' để khẳng định Hành động đã xảy ra và đã kết thúc. Tiếng Khmer
thì cũng đưa vào một trợ từ 'hoy' để khẳng định Hành động đã kết thúc như dưới

đây:

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thơng tin – ĐHTN
18




Thì Quá khứ vãng lai
Trong tiếng Lào và tiếng Thái cịn có một cách nói để chỉ những Hành
động ít nhất đã từng xảy ra một lần rồi bằng một Trợ từ 'khơi' (có nghĩa là 'quen'
hoặc là 'đã từng') như dưới đây:
Tiếng Lào: ລລລລລລລລລລລລລລລລລລລ koiy keri paiy ma Lao
leaw (khọi khơi pay ma Lào lẹo)
Tiếng Thái: ผมเคยไปลำวมำแล ้ว Pom keree pai ma Lao leaw (phổm khơi
pai ma Lao lẹo)
Tiếng Việt: Tôi đã từng đi đến Lào rồi (hoặc cũng có nghĩa là 'tơi đã
quen đi đến Lào rồi)
Có nghĩa rằng Trợ từ trên đây khẳng định Hành động từng xảy ra và cũng
có thể tiếp diễn nhiều lần.
Chú ý: Trong tiếng Lào và tiếng Thái, kết thúc của bất kỳ câu nào nói về Hành
động từng xảy ra hoặc đã hồn thành thì đều có Trợtừ แล ้ว/ແລ້ ວ'leaw' (lẹo) để khẳng
định và ở đây sự sắp xếp vị trí giữa Động từ chính và Động từ phụ trong câu hơi
khác trong tiếng Việt (vì theo trật tự của câu trên khi diễn nghĩa sang tiếng Việt theo
sát nghĩa sẽ là 'tôi đi Lào đến rồi').
Cận Quá khứ
Trong nhiều Ngơn ngữ thường nói về một Hành động vừa mới xảy ra trong
một Quá khứ rất gần và được gọi là Cận Quá khứ.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

19




Ví dụ như trong câu tiếng Anh: I just sent you my email
tiếng Việt: Tôi vừa mới gửi email cho bạn
Các câu nói trên để diễn đạt một hành động vừa mới xảy ra tức thì và cũng đã
được kết thúc trọn vẹn. Trong tiếng Thái, tiếng Lào và tiếng Khmer cũng có những
câu tương tự như dưới đây:
Ngơn ngữ

Ngun văn

phiên âm Quốc tế

Phiên âm Việt

Tiếng
Lào:

ລລລລລລລລລລລລລລລລລລລລລລລລລລລລລລ koiy ha-

gor sorng email haiy jao leaw khọi hả-cò xoong email hạy chạu lẹo
Tiếng Thái: ผมเพิง่ สงอีเมลให ้คุณแล ้ว pom peng sorng email hai
koon leaw

Phổm phờng xoòng email hai khùn lẹo

Tiếng Khmer: khnhom terb-tae pnher email oy neak hoy


khơ-nhom têp-

te phơ-nhe email ai niêc hài
Tiếng Việt:

tôi vừa mới gửi email cho bạn rồi

Tiếng Anh:

I just sent you my email

Thì Tương lai
Trong các Ngơn ngữ Lào, Thái và Khmer biểu thị Thời Tương lai của
một Hành động sắp xảy ra cũng rất đơn giản bằng một Trợ từ như dưới đây:
Thì tương lai khơng hạn định
Đây là Thì tương lai của một Hành động mang tính chất dự định, chưa chắc
đã xảy ra hoặc xảy ra không cụ thể là trong một tương lai gần hay xa...

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN
20




Ngồi ra, trong tiếng Lào và tiếng Thái có một mẫu câu nói về Hành động sẽ
xảy nhưng khơng hạn định về thời gian cũng như không chắc chắn diễn ra hay không
theo kiểu Cấu trúc Ngữ pháp không giống như tiếng Việt như dưới đây:
Tiếng Lào:


ລລລລລລລລລລລລ 'koiy yark ja leum' (khọi dạc chã lưm)

Tiếng Thái: ผมอยำกจะลืม 'pom yark ja leum' (phổm dạc chã lưm)
Tiếng Việt:

Tôi muốn (sẽ) quên

Hoặc một ví dụ khác tương tự:
Tiếng Lào:

ລລລລລລລລລລລ 'koiy yark ja paiy' (khọi dạc chã pay)

Tiếng Thái: ฉั นอยำกจะไป 'chan yark ja pai' (xắn dạc chã pai)
Tiếng Việt: Tơi muốn (sẽ) đi
Có nghĩa rằng, mặc dù tiếng Việt quan niệm rằng bất kỳ mong muốn nào cũng
đều chỉ là sẽ xảy ra trong tương lai nhưng cách nói của tiếng Việt khơng bao giờ nói
là 'tơi sẽ muốn...' hoặc 'tơi muốn sẽ...' mà chỉ nói đơn thuần là 'tơi muốn...' cho nên
tiếng Thái và tiếng Lào luôn chặt chẽ để biểu thị rõ ràng Hành động sắp xảy ra trong
tương lai vì Động từ 'muốn' là Động từ biểu thị ở một trạng thái tiềm năng mà thực
tế chưa xảy ra...
Điều đó để nói lên sự chặt chẽ trong tiếng Lào và tiếng Thái hơn tiếng Việt ở
chỗ là Trợ từ 'ja' (sẽ) luôn được đặt sau các Động từ nào biểu thị tiềm năng trong
tương lai tương tự như là อยำก/ຢາກ 'yark' (muốn), ต ้องกำร 'torng-garn' (cần, phải
làm), tung-jai (cố gắng)...
Cận tương lai

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN
21





Đây là mẫu câu nói về một Hành động sắp xảy ra ngay tức thì như mẫu câu
dưới đây:
Ngun văn

Ngơn ngữ

ລລລລລລກກກລລລລລລກກກກ

Tiếng Lào:
ni leri

Phiên âm Quốc tế

Phiên âm Việt
koiy si gup diew-

khọi xi cặp điêu-ni lơi

Tiếng Thái: ฉั นจะกลับเดิย
๋ วนีเ้ ลย

chan ja club deaw-nee leree

xắn chã

cơ-lăp điêu-ni lơi
Tiếng Việt: Tôi sắp quay về bây giờ luôn Tôi quay trở về ngay bây giờ
Tiếng Anh: I come back now

Chú ý: Trong tiếng Thái và tiếng Lào đều có thể dùng Trợ từ จะ 'ja' hoặc cũng
có thể dùng từ ໃກ້ 'gaiy' (trong tiếng Lào, phát âm là 'cạy', có nghĩa là
'gần') hoặc ใกล ้น 'clai' (trong tiếng Thái được phát âm là 'cơ-lại' nghĩa là 'gần') để
biểu thị nghĩa 'sắp' trong Cận tương lai (Tương lai rất gần) cho các câu trên.

1.4 Các Thể Ngữ pháp trong các Ngôn ngữ Lào - Thái – Khmer
1.4.1 Thể Nghi vấn trong Ngôn ngữ Lào - Thái - Khmer
Thể Nghi vấn trong bất kỳ Ngôn ngữ nào trên Thế giới cũng đều có ít nhất hai
thể loại gồm một loại được gọi là Thể Nghi vấn Trực chỉ Hành động và một loại được
gọi là Thể Nghi vấn có Đại từ nghi vấn Đặc trưng.
Việc sử dụng các Đại từ Nghi vấn như đã từng được để cập đến ở phần nói
về Đại từ Nghi vấn tiếng Lào, Đại từ Nghi vấn tiếng Tháivà Đại từ Nghi vấn tiếng
Khmer. Nội dung này sẽ đề cập chủ yếu vào Thể Nghi vấn Trực chỉ Hành động tức
là các câu hỏi dựa vào những hành động cụ thể như dưới đây:
Thể Nghi vấn kiểu Phủ định
Trong khi phần lớn các Ngôn ngữ Châu Âu người ta thường tạo ra các câu
Nghi vấn Trực chỉ Hành động bằng cách đảo ngược Động từ chính chỉ hành động
trực tiếp lên trước Đại từ Chủ ngữ hoặc sử dụng Trợ động từ được đặt trước Đại từ
chủ ngữ như dưới đây:
Tiếng Anh: Are you a student? hoặc: Do you want money?

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN
22




Tiếng Việt: Bạn là sinh viên phải không? hoặc: Bạn cần tiền không?
Tiếng Lào: 'jao mern nuk-seuk-sa bor'?


hoặc: 'jao yark ngern bor?'

Tiếng Thái: 'koon pen nuk-seuk-sa mai?' hoặc: 'koon yark ngern mai?'
Tiếng Khmer: 'neak kir chea Sers reu te?' hoặc: 'neak jong luy te?'
Trong lúc tiếng Việt, tiếng Lào, tiếng Thái và tiếng Khmer thì thường sử dụng
một Trợ từ Phủ định đặt ở cuối câu vì thế dạng Câu hỏi Trực chỉ Hành động trong
các Ngôn ngữ Lào, Thái, Khmer và Việt Nam có thể được gọi chung là Thể Nghi vấn
Phủ

định

tức



kiểu

câu

hỏi

dùng

sự

Phủ

định

để


hỏi.

Một điều đặc biệt là trong hầu hết các Ngôn ngữ Châu Á không bao giờ thấy kiểu câu
hỏi được đặt ra bằng cách đưa Động từ hay Trợ Động từ lên trước Đại từ Chủ
ngữ trong bất kỳ tình huống nào tức là Văn phạm trong Thể Nghi vấn của các Ngôn
ngữ Châu Á không giống như Văn phạm trong Thể Nghi vấn của các Ngôn ngữ Châu
Âu.
Thể nghi vấn kiểu có (từng xảy ra) hay chưa
Trong các Ngôn ngữ Châu Á mà đặc biệt là các Ngôn ngữ Lào, Thái, Khmer
và tiếng Việt rất đa dạng về các Thể loại câu Nghi vấn. Người ta có thể đặt ra một
câu hỏi về một Hành động từng xảy ra hay chưa hoặc một điều gì đó đã từng có hoặc
chưa có như dưới đây:
Thể Phủ định trong Ngôn ngữ Lào - Thái - Khmer
Thể Phủ định thường rất hay gặp trong giao tiếp hàng ngày hoặc trong Văn
bản...Tuy rằng Thể Phủ định chỉ để đơn giản xác nhận có hay khơng một sự việc đã
đang hoặc sẽ xảy ra nhưng không phải bất kỳ Ngôn ngữ nào cũng dễ diễn đạt bằng
lời nói cũng như bằng Văn bản...
Thể khẳng định trong tiếng Lào - Thái - Khmer
Thể khẳng định thường được sự dụng để tra lời cho các câu Nghi vấn hoặc
cũng để xác nhận những sự việc đã và đang xảy ra trong những tình huống giao tiếp
thường ngày....
Trong các Ngôn ngữ Lào, Thái và Khmer ln có nhiều sự tương đồng về mặt
văn phạm....

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
23





CHƯƠNG II: CÁC KỸ THUẬT TÁCH TỪ TRONG
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
2.1 Một số khái niệm
2.1.1 Xử lý ngôn ngữ tự nhiên
Khái niệm
Xử lý ngôn ngữ tự nhiên [5] là một lĩnh vực đặc biệt, là sự kết hợp giữa các
ngành khoa học máy tính, trí tuệ nhân tạo và ngôn ngữ học.
Mục tiêu của việc xử lý ngôn ngữ tự nhiên là để cho máy tính xử lý và hiểu
được ngôn ngữ tự nhiên của con người, giúp máy tính có thể thực hiện được một số
nhiệm vụ hữu ích thay cho con người như đặt lịch hẹn, mua bán hàng hóa, dịch từ
ngơn ngữ này sang ngơn ngữ khác, các hệ tư vấn, hệ hỏi đáp(Ví dụ: Siri, Google
Assistant, Facebook M, Cortana,...).
Để máy tính có thể hiểu được đầy đủ và thể hiện được đúng ý nghĩa của ngơn
ngữ là một nhiệm vụ cực kì khó.
Các bước xử lý


Phân tích hình thái - Trong bước này từng từ sẽ được phân tích và các ký tự
khơng phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và
nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách. Tuy nhiên
trong tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không
phải từ. Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn,tiếng Nhật, phân tách
từ trong tiếng Việt là một công việc không hề đơn giản.



Phân tích cú pháp - Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự
liên kết giữa các từ này. Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm.




Phân tích ngữ nghĩa - Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ phân
tích cú pháp.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
24






Tích hợp văn bản - Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những
câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau.



Phân tích thực nghĩa - Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch
lại để xác định nó thật sự có nghĩa là gì.

Tuy nhiên, ranh giới giữa 5 bước xử lý này cũng rất mong manh. Chúng có thể được
tiến hành từng bước một, hoặc tiến hành cùng lúc - tùy thuộc vào giải thuật và ngữ
cảnh cụ thể.
Các bài toán và ứng dụng


Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhất là nhận dạng chữ in, ví dụ
nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện tử như
dưới định dạng doc của Microsoft Word chẳng hạn. Phức tạp hơn là nhận dạng

chữ viết tay, có khó khăn bởi vì chữ viết tay khơng có khn dạng rõ ràng và thay
đổi từ người này sang người khác. Với chương trình nhận dạng chữ viết in có thể
chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian
ngắn. Nhận dạng chữ viết của con người có ứng dụng trong khoa học hình sự và
bảo mật thông tin (nhận dạng chữ ký điện tử).



Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tương
ứng. Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản hơn,
chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn thảo sẽ tự
ghi nó ra. Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện
giao tiếp giữa con người với robot. Nhận dạng tiếng nói có khả năng trợ giúp
người khiếm thị rất nhiều.



Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Thay vì
phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho chúng
ta. Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người
khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với
người.

Số hóa bởi Trung tâm Học liệu và Cơng nghệ thông tin – ĐHTN
25





×