Tải bản đầy đủ (.pdf) (73 trang)

Các phương pháp phân đoạn tiếng việt và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 73 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
VÀ TRUYỀN THÔNG

VŨ THỊ HẰNG

CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG
VIỆT VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - Năm 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN




i

ĐẠI HOẠC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
VÀ TRUYỀN THÔNG

VŨ THỊ HẰNG

CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG
VIỆT VÀ ỨNG DỤNG
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số:



60.48.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. BÙI VĂN THANH

Thái Nguyên - Năm 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN




ii

MỤC LỤC
Trang

LỜI CẢM ƠN ............................................................................................... v
LỜI CAM ĐOAN ........................................................................................ vi
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................. vii
DANH MỤC BẢNG .................................................................................. viii
DANH MỤC HÌNH ..................................................................................... ix
MỞ ĐẦU ....................................................................................................... 1
Chƣơng 1. TỔNG QUAN ............................................................................. 6
1.1. KHÁI QUÁT VỀ TIẾNG VIỆT ........................................................ 6
1.1.1. Đặc điểm từ tiếng Việt ................................................................ 6
1.1.2. Các từ loại tiếng Việt .................................................................. 7
1.2. VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT ........................................... 10

1.2.1. Từ vựng tiếng Việt .................................................................... 10
1.2.2. Tiếng – đơn vị cấu tạo lên từ .................................................... 11
1.2.3. Cấu tạo từ .................................................................................. 13
1.3. PHÂN ĐOẠN TỪ TIẾNG VIỆT BẰNG MÁY TÍNH ................... 17
1.4. TỔNG KẾT CHƢƠNG .................................................................... 18
Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP PHÂN ĐOẠN VĂN BẢN TIẾNG
VIỆT ............................................................................................................ 19
2.1. MÔ HÌNH LRMM ........................................................................... 19
2.1.1. Thuật toán Maximum Matching đơn giản ................................ 19
Số hóa bởi Trung tâm Học liệu – ĐHTN




iii

2.1.2. Thuật toán Maximum Matching phức tạp ................................ 19
2.2. PHƢƠNG PHÁP WFST (Weighted Finite-State Transducer) ........ 20
2.3. MÔ HÌNH HỌC MÁY CRF ............................................................ 23
2.3.1. Định nghĩa CRF ......................................................................... 23
2.3.2. Hàm tiềm năng của các mô hình CRF ....................................... 26
2.3.3. Conditional Random Fields ....................................................... 26
2.4. TỔNG KẾT CHƢƠNG .................................................................... 28
Chƣơng 3. BÀI TOÁN PHÂN ĐOẠN TIẾNG VIỆT ............................... 29
3.1. PHÁT BIỂU BÀI TOÁN ................................................................. 29
3.1.1. Cấu trúc chƣơng trình ............................................................... 30
3.1.2. Tiền xử lý số liệu ...................................................................... 32
3.1.3. Tách câu .................................................................................... 34
3.1.4. Tách từ ...................................................................................... 36
3.1.5. Khử nhập nhằng ........................................................................ 36

3.2. CÁC LOẠI NHẬP NHẰNG KHI TÁCH TỪ ................................. 36
3.2.1. Nhập nhằng do so khớp cực đại FMM/BMM sinh ra .............. 37
3.2.2. Nhập nhằng theo một số loại khác ............................................ 37
3.3. CÁCH KHỬ NHẬP NHẰNG .......................................................... 41
3.3.1 Cải tiến phƣơng pháp so khớp cực đại....................................... 41
3.3.2 Khử nhập nhằng theo một số loại khác...................................... 43
3.4. TỔNG KẾT CHƢƠNG .................................................................... 50
Chƣơng 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ ............................................. 52
Số hóa bởi Trung tâm Học liệu – ĐHTN




iv

4.1. KHO NGỮ LIỆU THỬ NGHIỆM VÀ CÁCH ĐÁNH GIÁ ........... 52
4.2. QUY TRÌNH THỬ NGHIỆM .......................................................... 54
4.3. KẾT QUẢ THỬ NGHIỆM .............................................................. 55
4.4. GIAO DIỆN CHƢƠNG TRÌNH ỨNG DỤNG ............................... 56
KẾT LUẬN VÀ KIẾN NGHỊ..................................................................... 60
DANH MỤC TÀI LIỆU THAM KHẢO .................................................... 62

Số hóa bởi Trung tâm Học liệu – ĐHTN




v

LỜI CẢM ƠN


Em xin chân thành cảm ơn Ban Giám hiệu, Phòng Đào tạo Sau Đại
học, Khoa Công nghệ Thông tin Trƣờng Đại học công nghệ thông tin và
truyền thông Thái Nguyên đã tận tình giúp đỡ, tạo mọi điều kiện thuận lợi
cho em trong quá trình học tập, nghiên cứu và thực hiện luận văn.
Đặc biệt, em xin gửi lời tri ân sâu sắc đến TS Bùi Văn Thanh – ngƣời
đã dành nhiều thời gian, công sức và tận tình hƣớng dẫn khoa học cho em
trong suốt quá trình hình thành và hoàn chỉnh luận văn.
Xin chân thành cảm ơn Quý Thầy, Cô đã giảng dạy, truyền đạt cho
em những tri thức quý báu, thiết thực trong suốt khóa học.
Cuối cùng xin bày tỏ lòng biết ơn đối với gia đình, ngƣời thân, bạn
bè, đồng nghiệp đã giúp đỡ, động viên, đóng góp ý kiến quý báu cho em
trong việc hoàn thành luận văn này.

Thái Nguyên, ngày tháng năm 2015
Tác giả

Vũ Thị Hằng

Số hóa bởi Trung tâm Học liệu – ĐHTN




vi

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dƣới sự
hƣớng dẫn trực tiếp của TS.Bùi Văn Thanh.

Mọi trích dẫn sử dụng trong báo cáo này đều đƣợc ghi rõ nguồn tài
liệu tham khảo theo đúng qui định.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá,
tôi xin chịu hoàn toàn trách nhiệm.

Thái Nguyên, ngày tháng năm 2015
Tác giả

Vũ Thị Hằng

Số hóa bởi Trung tâm Học liệu – ĐHTN




vii

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Tiếng Anh
Từ viết tắt

BMM

Tên đầy đủ

Back Maximum Matching

Diễn giải
Phƣơng pháp so khớp cực đại
lùi

Trƣờng ngẫu nhiên có điều

CRFs

FMM

Conditional Random Fields

kiện

Forward Maximum

Phƣơng pháp so khớp cực đại

Matching

tiến

Left Right Maximum
LRMM

WEST

Matching

Phƣơng pháp so khớp cực đại

Weighted Finite State

Phƣơng pháp chuyển dịch


Transducer

trạng thái hữu hạn

Số hóa bởi Trung tâm Học liệu – ĐHTN




viii

DANH MỤC BẢNG
Trang

Bảng 1.1. Hệ thống các từ loại tiếng Việt theo sách giáo khoa Ngữ
văn THCS ...................................................................................................... 7
Bảng 1.2. Cấu trúc của tiếng trong tiếng Việt .................................. 12
Bảng 2.1. Trọng số theo từ................................................................ 22
Bảng 4.1. Bảng số liệu các mục ........................................................ 53
Bảng 4.2. Kết quả thử nghiệm .......................................................... 55
Bảng 4.3. Kết quả phân đoạn ............................................................ 56

Số hóa bởi Trung tâm Học liệu – ĐHTN




ix


DANH MỤC HÌNH
Trang

Hình 2.1. Đồ thị vô hƣớng không có chu trình

24

Hình 2.2. Đồ thị vô hƣớng mô tả cho CRF

25

Hình 2.3. Mô tả các hàm tiềm năng

26

Hình 3.1. Mô hình bài toán phân đoạn tiếng Việt

30

Hình 3.2. Cấu trúc chƣơng trình phân đoạn tiếng Việt

31

Hình 4.1. Chọn chế độ lấy dữ liệu mẫu

52

Hình 4.2. Chƣơng trình phân đoạn văn bản

54


Hình 4.3. Giao diện chính của chƣơng trình

57

Hình 4.4. Chức năng phân đoạn văn bản

58

Hình 4.5. Kết quả sau khi phân đoạn văn bản

59

Số hóa bởi Trung tâm Học liệu – ĐHTN




1

MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, cùng với sự bùng nổ thông tin toàn cầu,
thì lƣợng thông tin trên văn bản và web tiếng Việt cũng tăng lên nhanh
chóng. Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng
nói) đang dần trở thành kiểu dữ liệu chính con ngƣời có và lƣu trữ dƣới
dạng điện tử. Vấn đề xử lý văn bản thành thông tin, tri thức hữu ích con
ngƣời hiện đang trở nên cấp thiết và đang là một thách thức.
Xử lý văn bản dựa trên các kỹ thuật của xử lý ngôn ngữ tự nhiên,
một lĩnh vực đã có lịch sử nghiên hơn cứu nửa thế kỷ trên thế giới, với

mục tiêu hiểu và sử dụng tri thức về ngôn ngữ ở các mức độ khác nhau và
cách thức xử lí ngôn ngữđãđƣợc trải nghiệm và thừa nhận. Trong khi đó
nghiên cứu về xử lý tiếng Việt còn đang còn ở những bƣớc đi đầu.
Có thể nói xử lý tựđộng ngôn ngữ nói chung và xử lý văn bản nói
riêng trên máy tính gặp phải vấn đề khó là làm sao cho máy đƣợc hiểu
ngôn ngữ con ngƣời, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ
thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản. Mấu chốt ởđây là
bản chất phức tạp của ngôn ngữ của con ngƣời, đặc biệt là sựđa nghĩa và
nhập nhằng nghĩa của ngôn ngữ.
TrongnỗlựcxâydựngmộtcơsởtrithứctiếngViệtthìviệchiểucácvănbản
tiếng

Việt,

tómtắt

văn

bản

tiếng

Việt,

hay

phân

loại


văn

bảntiếngViệt…lànhững công việc không thểthiếu. Các kếtquảđiểnhìnhvềlà
các công cụcơ bản dùng để xử lý văn bản tiếng Việt nhƣ kiểm tra lỗi chính
tả,

phân

tách

từ,

xác

địnhloạitừ,phântíchcúpháp...Côngviệccơbản

đầutiêncótínhtiênquyếtlàphân đoạn văn bản tiếngViệt thành các từ (tầng
hình thái).


2

Hiểu

một

cách

đơngiản,bàitoánphân


đoạn

văn

bản

tiếngViệtlàchotrƣớcmộtvănbản tiếngViệt, cầnxác định trong văn bản
đóranhgiớigiữa

các

từ

trongcâu.Nhƣng

khác

vớimộtsốtiếngnƣớcngoàinhƣtiếngAnh,thìtrongtiếngViệtranhgiớigiữacáctừ
trong đa số trƣờng hợpkhôngphải là dấucáchtrống.Văn bản tiếng Việt, tuy
dùng bảng chữ cái Latinh, nhƣng có những đặc điểm riêng về ký hiệu, ngữ
pháp và ngữ nghĩa, khác với các ngôn ngữ Ấn-Âu.Đây chính là khó khăn
trong việc ứng dụng các kỹ thuật phát triển để xử lý ngôn ngữ tự nhiên.
Mặt khác, dù là ngôn ngữ đơn âm tiết, nhƣng khác với các ngôn ngữ đơn
âm tiết khác nhƣ Trung Quốc, Thái, tiếng Việt còn phức tạp bởi cách xác
định biên giới của từ, sự đa nghĩa và nhập nhằng nghĩa. Vì vậy, cách thực
hiện tách từ của các ngôn ngữ này cũng không thể ứng dụng cho tiếng
Việt.
Tuy nhiên, một văn bản thật sự có thể có đến hàng nghìn câu và ta
không phải có một mà hàng triệu văn bản. Web là một nguồn dữ liệu văn
bản khổng lồ, và cùng với các thƣ viện điện tử - khi trong một tƣơng lai

gần các sách báo xƣa nay và các nguồn âm thanh đƣợc chuyển hết vào
máy tính (chẳng hạn bằng các chƣơng trình nhận dạng chữ, thu nhập âm
thanh, hoặc gõ thẳng vào máy) – sẽ sớm chứa hầu nhƣ toàn bộ kiến thức
của nhân loại. Vấn đề là làm sao “xử lý” (chuyển đổi) đƣợc khối dữ liệu
văn bản và tiếng nói khổng lồ này qua dạng khác để mỗi ngƣời có đƣợc
thông tin và tri thức cần thiết từ chúng?
ÝthứcđƣợcnhữnglợiíchcủaviệcxâydựngcơsởtrithứctiếngViệt,tầm
quan trọng của việc xử lý văn bản tiếng Việt nóichung vàbàitoánphân
đoạntiếngViệtnóiriêng

bằng

máy

tính,em

đãchọnhƣớngnghiêncứutrongkhóa luận của mình là phƣơng phápphân
đoạn tiếngViệt.


3

Để đạt đƣợc các mục tiêu đã đặt ra, hƣớng nghiên cứu của luận văn
đƣợc tổ chức thành 4 chƣơng, gồm:
- Chương I: Tổng quan về tiếng Việt. Phần này đƣa ra một số đặc
điểm của từ tiếng Việt, hệ thống các từ loại tiếng Việt, từ đó đặt ra vấn đề
giải quyết bài toán phân đoạn văn bản tiếng Việt, đó cũng là mục tiêu chính
của đề tài này.
- Chương II: Một số phương pháp phân đoạn văn bản tiếng Việt.
Trong phần này đƣa ra tổng quan về một số mô hình phân đoạn văn bản có

thể áp dụng cho văn bản tiếng Việt, và phân tích sâu hơn hai phƣơng pháp
phân đoạn văn bản là “so khớp cực đại” - LRMM và phƣơng pháp “chuyển
dịch trạng thái hữu hạn có trọng số” - WFST.
- Chương III: Bài toán phân đoạn tiếng Việt.Trong phần này nên lên
khái quát bài toán phân đoạn tiếng việt dựa trên việc cải tiến của phƣơng
pháp so khớp cực đại tiến và so khớp cực đại lùi, phân tích một số loại
nhập nhằng và đƣa ra phƣơng pháp khử nhập nhằng bằng trọng số.
- Chương IV: Thử nghiệm và đánh giá.Trình bày các bƣớc lập kho
ngữ liệu mẫu, lập từ điển. Qua đó thử nghiệm các phƣơng án tách từ và kết
luận.
2. Đối tƣợng nghiên cứu
Đối tƣợng nghiên cứu của đề tài là nghiên cứu về các phƣơng pháp
tách từ tiếng Việt, tìm hiểu một số loại nhập nhằng xảy ra khi phân đoạn
văn bản tiếng Việt, đƣa ra trọng số để khử nhập nhằng trong các trƣờng
hợp trên. Xây dựng từ điển phục vụ cho việc tách từ, xây dựng bộ ngữ liệu
các câu mẫu và chƣơng trình thử nghiệm, đánh giá phƣơng pháp tách từ đã
nêu và đƣa ra kết luận, hƣớng phát triển.
3. Phạm vi nghiên cứu


4

Phạmvi nghiên cứu của đề tài là tìm hiểu, tổng quan về các hƣớng
tiếp cận có thể ứng dụng trong việc xây dựng mô hình phân đoạn văn bản
tiếng Việt. Qua đó, phát hiện ra đƣợc các trƣờng hợp nhập nhằng khi phân
đoạn văn bản và sử dụng các trọng số nhằm giải quyết các trƣờng hợp nhập
nhằng.
4. Nhiệm vụ nghiên cứu
- Tìm hiểu những kiến thức tổng quan về tiếng Việt.
- Tìm hiểu phƣơng pháp phân đoạn tiếng Việt, phƣơng pháp khử

nhập nhằng
- Cài đặt hệ thống phân đoạn văn bản tiếng Việt
- Xây dựng kho ngữ liệu thử nghiệm và đánh giá
5. Những nội dung nghiên cứu chính
Bố cục của luận văn gồm phần mở đầu trình bày lý do chọn đề tài,
đối tƣợng và nhiệm vụ nghiên cứu của đề tài. Chƣơng một, tập trung trình
bày những kiến thức cơ bản về đặc điểm từ tiếng Việt, các loại từ tiếng
Việt và vấn đề phân đoạn tiếng Việt.Chƣơng hai,trình bày một số phƣơng
pháp phân đoạn văn bản tiếng Việt nhƣ mô hình LRMM, phƣơng pháp
WFST, mô hình học máy, phƣơng pháp khử nhập nhằng.Chƣơng 3,trong
chƣơng này chúng tôi đã khái quát đƣợc bài toán phân đoạn văn bản tiếng
Việt, trình bày phƣơng pháp cải tiến LRMM và WFST. Chƣơng 4, trình
bày các bƣớc xây dựng kho ngữ liệu thử nghiệm, quy trình thử nghiệm và
kết quả thử nghiệm hệ thống phân đoạn tiếng Việt đƣợc trình bày ở chƣơng
3.


5

Với những kết quả đạt đƣợc, phần kết luận của luận văn nêu lên
những kết quả đạt đƣợc của luận văn, hạn chế và đề xuất hƣớng nghiên cứu
tiếp theo của đề tài.
6. Phƣơng pháp nghiên cứu
- Phƣơng pháp đọc tài liệu
- Phƣơng pháp quan sát
- Phƣơng pháp phân tích – tổng hợp lý thuyết.
- Phƣơng pháp thực nghiệm.


6


Chƣơng 1.TỔNG QUAN
1.1.KHÁI QUÁT VỀ TIẾNG VIỆT
Tiếng Việt, hay Việt ngữ, là một trong số các ngôn ngữ thuộc hệ
ngôn ngữ Nam Á dùng bảng chữ cái Latinh, gọi là chữ Quốc Ngữ, cùng các
dấu thanh để viết. tiếng Việt có những đặc điểm riêng về ký hiệu, ngữ pháp
và ngữ nghĩa, khác với các ngôn ngữ Ấn - Âu. Đây chính là khó khăn trong
việc ứng dụng các kỹ thuật phát triển để xử lý ngôn ngữ tự nhiên. Mặt khác
dù là ngôn ngữ đơn âm tiết nhƣng không giống nhƣ các ngôn ngữ đơn âm
tiết khác nhƣ Trung Quốc, Thái, tiếng Việt đƣợc viết bằng các ký tự Latinh
mở rộng. Hơn nữa, tiếng Việt còn phức tạp bởi cách xác định biên giới của
từ, sự đa nghĩa và nhập nhằng nghĩa.Vì vậy, cách thực hiện tách từ của các
ngôn ngữ này cũng không thể ứng dụng cho tiếng Việt.
1.1.1. Đặc điểm từ tiếng Việt
Với các ngôn ngữ Ấn - Âu (nhƣ tiếng Anh, Pháp,...) “từ là một nhóm
các ký tự có nghĩa, phân cách nhau bởi khoảng trống hoặc dấu câu”. Trong
khi đó, các ngôn ngữ Châu Á nhƣ Trung Quốc, Thái, Việt Nam,... khoảng
trống không đƣợc sử dụng để xác định các biên giới từ. Phần nằm giữa hai
dấu phân cách là âm tiết.
Âm tiết là đơn vị phát âm tự nhiên nhỏ nhất trong ngôn ngữ. Trong
tiếng Việt, một âm tiết bao giờ cũng đƣợc phát ra với một thanh điệu, và
tách rời với âm tiết khác bằng một khoảng trống.Trên chữ viết, mỗi âm tiết
tiếng Việt đƣợc ghi thành một "chữ" và đọc thành một "tiếng". Ví dụ: từ
“Xe đạp điện, xe máy điện” gồm 3 chữ, 3 tiếng hoặc 3 âm tiết.
Từ là đơn vị nhỏ nhất của lời nói mang đầy đủ ý nghĩa truyền tải. Từ
có thể gồm duy nhất một âm tiết (từ đơn âm) hoặc cấu thành từ nhiều âm


7


tiết (từ đa âm). Nhƣ vậy, xét về mặt cấu tạo, từ có thể chia thành các loại
sau:
- Từ đơn: Do 1 âm tiết tạo thành.
- Từ ghép: Do 2, 3 hoặc 4 âm tiết tạo thành.
- Từ láy: Do hai hay nhiều âm tiết lặp lại tạo thành. Các âm tiết láy
có thể có một phần hay toàn bộ âm thanh đƣợc lặp lại. Ví dụ: Đăm đăm,
thăm thẳm, rào rào, rì rào, nhí nha nhí nhảnh, …
1.1.2. Các từ loại tiếng Việt
Trong phần Sự phân loại từ nhằm mục đích ngữ pháp, theo bản chất
ngữ pháp của từ mới đƣợc gọi là từ loại. Từ loại là sự phân loại vốn từ của
một ngôn ngữ cụ thể thành những loại, những lớp hạng dựa vào đặc trƣng
ngữ pháp của từ (việc thực hiện các chức vụ ngữ pháp nhất định của từ).
Bảng 1.1. Hệ thống các từ loại tiếng Việt theo sách giáo khoa Ngữ
văn THCS

Stt

1

2

TỪ LOẠI

DẤU HIỆU NHẬN
BIẾT

Danh từ

Những từ chỉ ngƣời, bác sĩ, học Học


(NV6/86)

vật, hiện tƣợng, khái sinh, gà con

lớp 7b học

niệm.

rất giỏi

Động từ

Những từ chỉ hành Học

(NV6/145)

động, trạng thái của sự nghiên cứu, học
vật.

3

ĐẶT CÂU

VÍ DỤ

Tính từ

tập, Chúng

hao mòn,…


Chỉ đặc điểm, tính Xấu,

sinh

em
tập

chăm chỉ.

đẹp, Mặt

trăng


8

(NV6/153)

chất của sự vật, hành xanh, đỏ, tốt, nhỏ,
động, trạng thái.

lớn nhỏ, …

sáng


vằngvặc
trên không.


Số từ

Chỉ số lƣợng và thứ tự Một, hai, ba, Hùng

(NV6/128)

sự vật.

trăm,

ngàn, Vƣơng



4

thứ

mƣời

tám



một

ngƣời

con


gái xinh đẹp.
Đại từ

Dùng để chỉ ngƣời, sự Tôi, nó, tao,

(NV7)

vật, hoạt động, tính tớ, chúng nó,
chất,… trong một ngữ mày,

hắn, Thế nào anh

cảnh nhất định hoặc họ, …

5

dùng để hỏi.

cũng

đến

thế, ai, gì, nhé.
bao

nhiêu,

mấy…
Lƣợng từ


Chỉ lƣợng ít hay nhiều Những,

(NV6/128)

của sự vật.

cả, Các

các, từng,…

hoàng

tử phải cởi
áo giáp xin

6

hàng.
(Thạch
Sanh)
Chỉ từ

Dùng để trỏ vào sự vật Ấy, đó, nọ, Từ đó nhuệ

(6/136)

nhằm xác định vị trí kia, …

7


khí

của


9

của sự vật trong không

nghĩa

quân

gian hoặc thời gian.

ngày

một

tăng.
Quan hệ từ Dùng biểu thị các ý Của, nhƣ, vì, Quyển sách
(NV7)

nghĩa về quan hệ nhƣ nên,
sở hữu, so sánh, nhân bằng,

về, đặt ở trên
của, bàn.

quả, … giữa các bộ ở,…


8

phận, giữa câu hoặc Nếu … thì,
giữa các đoạn văn.
Tuy

nhƣng,
Phó từ
9

Những từ chuyên đi Đã,

cũng, Viên

quan

(NV6.2/12) kèm động từ, tính từ vẫn, rất, ra, ấy đã đi
để bổ sung ý nghĩa cho vẫn
chƣa, nhiều nơi.
động từ, tính từ.

thật, …

Trợ từ

Nhấn mạnh, đƣa đẩy Thì, hả, hở,

“Ăn thì ăn


(NV8)

hoặc biểu thị thái độ

những miếng

đánh giá sự vật, sự

ngon,

việc đƣợc nói đến

Làm

thì

trong câu.

chọn

việc

10

cỏn con mà
làm”

11

Thán từ


Dùng làm dấu hiệu Than ôi, trời “Than

(NV8)

biểu lộ cảm xúc, tình ơi,hỡi, ối,

Thời

cảm, thái độ hoặc dùng

liệt nay còn

ôi!
oanh


10

để gọi đáp.

đâu?”

(Thế

Lữ)
Tình

12


thái Đệm vào câu để tạo A, ôi, nhé, Vệ Sĩ thân

từ

câu nghi vấn, câu cầu đấy, thay, ạ, yêu



(NV8)

khiến, câu cảm thán và nhé, nhỉ, cơ nhé! (Khánh

lại

biểu thị sắc thái tình mà, cơ, mà, Hoài)
cảm của ngƣời nói.

thì nào,…

1.2.VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT
Hiện nay có khá nhiều phƣơng pháp khác nhau để tiếp cận bài toán
phân đoạn tiếng Việt. Trong chƣơng này sẽ giới thiệu một số phƣơng pháp
nhƣ vậy cùng với những đánh giá về ƣu điểm và nhƣợc điểm của chúng và
lý do tại sao tôi chọn hƣớng tiếp cận dựa trên mô hình CRFs. Nhƣng trƣớc
hết, xin trình bày về những tìm hiểu về tiếng Việt, đó sẽ là cơ sở để tìm ra
một phƣơng pháp hợp lý nhất cho bài toán phân đoạn từ
1.2.1. Từ vựng tiếng Việt
Việc chỉra định nghĩa chính xác nhất thếnàolàmột từ không phải đơn
giản,


đòi

hỏicôngsứcnghiêncứucủacácnhàngônngữhọc.

Ta

sử

dụngđịnhnghĩa sau làm ví dụvề địnhnghĩa từ:
“Từlà

đơn

vịnhỏ

nhất

cónghĩa,có

kếtcấu

vỏngữâmbềnvững,hoànchỉnh,có chức năng gọi tên,đƣợc vậndụng độc lập,
tái hiện tự do trong lờinóiđể tạo câu”.[1]
Nhƣng xét trên gócđộ ứng dụng, ta có thể hiểumộtcác
đơngiảnlà“từđƣợccấu


11

tạobởimộthoặcnhiềutiếng”.Chúngtatìmhiểuvềkháiniệm"tiếng"trongmụcnhỏ

ngay tiếp theo
1.2.2. Tiếng – đơn vị cấu tạo lên từ
1.2.2.1. Khái niệm
Tiếnglà đơn vị cơsởđể cấutạolêntừtiếngViệt. Về mặt hình thức,
tiếnglàmột
đoạnphátâmcủangƣờinói,dùchúngtacócốtìnhphátâmchậmđếnmấycũngkhôn
g thểtáchtiếngrathànhcác đơn vị khácđƣợc.Tiếng đƣợc cácnhà ngôn
ngữgọilàâmtiết
(syllable).Vềmặtnộidung,tiếnglàđơnvịnhỏnhấtcónộidungđƣợcthểhiện,chíít
tiếngcũngcógiátrịvềmặthìnhtháihọc(cấutạotừ),đôikhingƣờitagọitiếnglàhình
tiết (morpheme syllable), tức là âm tiết có có giá trị vềhình thái học.
1.2.2.2. Phân loại
Cáctiếngkhôngphảitấtcảđềugiốngnhau,xétvềmặtýnghĩa,chúngtacóthể
chia tiếng thành các loại sau:
Tiếngtựthânnóđãcóýnghĩa,thƣờngđƣợcquychiếuvàomộtđốitƣợng,
khái niệm. Ví dụ: trời, đất, nƣớc, cây, cỏ…
Tiếngtựthânnókhôngcóýnghĩa,chúngkhôngđƣợcquychiếuvàođối
tƣợng,kháiniệm nàocả.Chúngthƣờng đi cùng vớimộttiếngkháccónghĩa
vàlàmthayđổi sắctháicủa tiếng đó, ví dụ nhƣ:(xanh)lè,(đƣờng) xá, (năng)
nôi…
Tiếngtựthânnókhôngcóýnghĩanhƣnglạiđivớinhauđểtạothànhtừ.
Những nếutáchrờitiếngnàyrađứngriêngthìchúng không có nghĩagìcả,
nhƣnglạicóthểghéplạithànhtừcónghĩa.Tathƣờngxuyêngặpởnhững
mƣợnnhƣ phéc-mơ-tuya, a-pa-tít, mì-chính...

từ


12


đầutiênchiếm

TrongtiếngViệtthìcáctiếngthuộcnhóm

đasố.Cáctiếngthuộc hainhóm sauthƣờngchỉchiếm sốít, đặcbiệtlànhóm
thứ3,chúngthƣờngđƣợcgọilà

tiếngvônghĩa.Việcnhóm

đầutiênchiếmđasốphảnánhthựctếlàkhinói,ngƣờita thƣờng sửdụng các tiếng
có nghĩa, hiếmkhi lại nói ra toàn từ vô nghĩa.
1.2.2.3. Cấu trúc của tiếng trong tiếng Việt và các thành tố của nó
Ta có thể biểu diễn cấu trúc của tiếng nhƣ bảng sau [4]:
Bảng 1.2. Cấu trúc của tiếng trong tiếng Việt

Âm đầu

Thanh điệu
Vần
Âm đệm

Âm chính

Âm cuối

Thanh điệu: mỗi tiếng đều có một thanh điệu là một trong 6 loại
sau: sắc, huyền, hỏi,ngã,nặng, và thanh bằng.Chúngcótácdụng phân biệt
tiếng về cao độ. Ví dụ : “việt” và “viết”
Âm đầu: có tác dụng mở đầu âmtiết. Ví dụ: “nắng” và “mắng”
Âm đệm: Có tác dụng biến đổi âm sắc của âm tiết sau lúc mở

đầu. Ví dụ: toán – tán
Âm chính: là hạt nhân và mang âmsắcchủđạo của tiếng.Vídụ :
“túy” và “túi”
Âm cuối: có tác dụng kết thúc tiếngvới các âm sắc khác nhau, do
đó có thểphân biệt các tiếng. Ví dụ: “bàn” và “bài”
Cụm gồm âmđệm, âmchính và âmcuối ta gọi là vần. Ví dụ: vần
“ang”, vần “oan”…


13

Đâylà5thànhtốcủatiếng(vầnkhôngphảilàmộtthànhtốmàchỉlàcáchgọi
củacụm

đãnóiởtrên),màbấtcứtiếngnàotrongtiếngViệt

3âm

đềutuântheocấutrúc
nhƣtrên.Nhƣngcũngcótrƣờnghợpmộtsốâmtrùngnhau,nhấtlàvớinhữngtiếngg
ồm 3 kí tự trởxuống.
1.2.3. Cấu tạo từ
Nhƣđãđềcậpởtrên,từtrongtiếngViệtđƣợccấutạohoặclàbằngmộttiếng
hoặclàtổhợpnhiềutiếngtheocáccáchkhácnhau đểtạoracácloạitừ [2].Dƣớiđây,
tôi xin trình bày về hai loại từ tiếngViệt.
1.2.3.1. Từ đơn
Từđơn,haycòngọilàtừđơnâmtiết,làcáctừđƣợc

cấutạo


bởimộttiếngduy nhất.Vídụ: tôi, bạn, nhà, hoa, vƣờn…
1.2.3.2. Từ ghép
Từghéplàcáctừđƣợc

tạolêntừhaihoặcnhiềuhơncác

tiếnglại.Giữacáctiếng có mỗi quan hệvề nghĩa với nhau, vì thế ta cũng có
các loại từ ghép khác nhau.
Từghép đẳng lập: các thành phầncấu tạo từ có mối quan hệ
bìnhđẳngvới nhau vềnghĩa. Ví dụ: ăn nói, bơilội …
Từ ghép chính phụ:các thành phần cấu tạo từcó mối quan hệphụ
thuộcvới nhau vềnghĩa. Thành phần phụ sẽ có vai trò làmchuyên biệt hóa,
tạo sắc thái cho thành phần chính. Ví dụ:hoahồng, đƣờng sắt…
1.2.3.3. Từ láy
Mộttừsẽđƣợccoilàtừláykhicácyếutốcấutạonênnócóthànhphầnngữâm
đƣợc lặp lại; nhƣngvừa có lặp (còn gọi là điệp) vừa có biến đổi (còn gọi là
đối).



dụ:

đo


14

đỏ,manmát…Nếumộttừchỉcóphầnlặpmàkhôngcósựbiếnđổi(chẳnghạnnhƣtừ
nhà nhà, ngành ngành…)thì ta có dạng láy của từ, hoàn toàn khôngphải là
từ láy.

Độdàitừláythayđổitừ2tiếngđến4tiếng.NhƣngtrongtiếngViệtđasốlàtừ
láy hai tiếng, chúng chia thành hai loại từ láy sau:


Láy hoàn toàn: là cách láy mà tiếng sau lặp lại hoàn toàn tiếng

trƣớc. Gọi là hoàn toàn nhƣng thực ra các tiếng không trùng khít nhau mà
có những sai khác rất nhỏ mà ta có thể nhận ra ngay. Một số kiểu láy hoàn
toàn ta hay gặp
Láyhoàntoàn

đốinhauởthanh

điệu,vídụnhƣ:“sừngsững”,“loang

loáng”…
Láy hoàn toànđốinhau ở âm cuối,ví dụ nhƣ:“khin khít”, “ăm
ắp”…
Láyhoàntoàn

đốinhauởtrọngâm,tứclàmộttiếngđƣợcnóinhấn

mạnhhoặckéodài hơnsovớitiếngkia,vídụnhƣ: đùngđùng, đăm đăm…


Láybộphận:làcáchláymàchỉcóđiệpởphầnâmđầucủatiếng,hoặcđ

iệp ởphầnvầnthìđƣợcgọilàláybộphận.Căncứvàođótachiaratừngkiểu láy sau
Từláyđiệpởâmđầuvàđốiởvần,vídụnhƣ“nhƣngnhức”,“thơ thẩn”,…
Từ láyđiệmở vần vàđối ở âmđầu, ví dụ “hấp tấp”, “liểngxiểng”,…

Nhập nhằng
Nếutadựatrênkháiniệm“từ”củacácnhàngônngữhọcđểtrựctiếpphânđoạ
n

từbằngtaythìkhócóthể

xảyraviệcnhậpnhằng

trong

tiếngViệt.Song

dƣớigócđộứng
dụngmáytính,chúngtacoimộttừchỉđơngiảnlàcấutạotừmộthoặcnhiềutiếng,và


15

việc này rất dễ gây ra sự nhậpnhằng trong quá trình phân đoạn từ.
1.2.3.4. Nhập nhằng
Nhập nhằng trong ngôn ngữ học là hiện tƣợng thƣờng gặp, trong
giao tiếp hàng ngày con ngƣời ít để ý đến nó bởi vì họ xử lý tốt hiện tƣợng
này. Nhƣng trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên khi
phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tự động nhập nhằng
trở thành vấn đề nghiêm trọng. Ví dụ trong một câu cần dịch có xuất hiện
từ "đƣờng" nhƣ trong câu "ra chợ mua cho mẹ ít đƣờng" vấn đề nảy sinh là
cần dịch từ này là road hay sugar, con ngƣời xác định chúng khá dễ dàng
căn cứ vào văn cảnh và các dấu hiệu nhận biết khác nhƣng với máy thì
không. Việc tìm ra các thuật toán hữu hiệu gây khó khăn không ít cho các
nhà lập trình

a) Nhập nhằng ranh giới từ
Trong tiếng Anh việc xác định ranh giới từ khá dễ dàng, mỗi từ riêng
lẻ đã mang trọn vẹn một nghĩa và ranh giới của chúng đƣợc xác định thông
qua khoảng trắng. Tiếng Việt thì khác, do là ngôn ngữ đơn lập nên từ
vựng chủ yếu là các từ ghép vì thế khoảng trắng không phải luôn luôn là
ranh giới chính xác.
Ví dụ 1.1.
- He is a teacher (1)
- Anh ấy là giáo viên (2)
Câu (1) phân định ranh giới dễ dàng cụ thể là: He / is / a / teacher
Nhƣng trong câu (2) nếu vẫn phân định ranh giới từ theo khoảng
trắng không chính xác hoàn toàn, cụ thể: Anh / ấy / là / giáo / viên


×