Giảng viên:
Hoàng Anh Việt
2011
Nội dung chương 02
17/10/14
2
Tiếng Việt – Đặc điểm và tính chất
Các phương pháp tách từ
Từ điển
Aaaaaa
Demo
Yêu cầu
Sinh viên cần có kiến thức:
Lý thuyết tính toán / Chương trình dịch
Xác suất thống kê
17/10/14
3
Tiếng Việt
Các nghiên cứu về Tiếng Việt:
Nước ngoài:
Thompson (1965)
Shum (1965)
Beatty (1990)
Việt Nam:
Nguyễn Tài Cẩn (1975)
Hồ Lê (1992)
Nguyễn Kim Thản (1997)
Diệp Quang Ban (1999)
17/10/14
4
Thompson (1965)
17/10/14
5
Cấu trúc cụm danh từ tiếng Việt của Thompson
Shum (1965)
17/10/14
6
Nom NP Mod
NP Nu N Dem
NP Pron
NP Npr
Nu PL CL
Nu Q CL
Nu Num CL
N N’ N”
Trong đó:
Nom : Chủ ngữ
Mod :bổ ngữ
Nu : Số đếm
Dem : Chỉ định từ
Pron : Đại từ
Npr : Danh từ riêng
N: Danh từ
N’: Danh từ phân loại
PL : số nhiều
Q: Lượng tử
Cấu trúc cụm danh từ tiếng Việt của Shum
Beatty (1990)
17/10/14
7
Cấu trúc cụm danh từ tiếng Việt của Beatty
Nguyễn Tài Cẩn (1975)
Phần đầu Phần trung
tâm
Phần sau
17/10/14
8
Ví dụ:
Ba người này
Cả hai tỉnh nhỏ ấy
Tất cả những cái chủ trương chính xác đó
Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ định có
hai phần :
Nguyễn Tài Cẩn (1975)
Phần trung tâm: cấu tạo bởi 2 thành phần chính: T1T2
Có đầy đủ : T1T2, ví dụ : con mèo (này)
Dạng thiếu T1 : -T2, ví dụ : - mèo (này)
Dạng thiếu T2: T1-, ví dụ : con – (này)
Phần đầu của danh ngữ có tất cả 3 loại thành tố
phụ (3 loại định tố) :
Định tố “cái”, ví dụ : cái cậu học sinh ấy
Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy
Định tố chỉ ý nghĩa toàn bộ, ví dụ : tất cả mấy cái cậu
học sinh ấy
17/10/14
9
Hồ Lê (1992)
Số lượng
từ
D1 D2 Sự kiện từ
(trừ đại từ chỉ định)
Đại từ chỉ
định
17/10/14
10
Trong đó:
D1: gồm những danh từ như : con, cái, …; ông, bà…; loại, thứ, hạng,
…; phía, bên, nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc….
D2: gồm những danh từ còn lại.
Ví dụ:
- Con mèo đen lớn rồi
- Cô y tá
- Phía ngoài sân
Diệp Quang Ban (1999)
Phần phụ trước Phần phụ trung
tâm
Phần phụ sau
-3 -2 -1 0 1 2
17/10/14
11
tất
cả
những con mèo đen ấy
-3 -2 -1 0 1 2
Ví dụ:
- vị trí 0 là vị trí của danh từ chính
- vị trí -1 là vị trí của từ chỉ xuất cái
- vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm
ba ; mỗi, từng, mọi…; những, các, một…; mấy
- vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ : hết thảy, tất cả, cả…
-
vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác
nhau như : danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng
tạp chí, phòng đọc, phòng hẹp, phòng chúng tôi….
-
vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia…
Các hướng tiếp cận
Tiếp cận dựa trên từ điển
Tiếp cận theo phương pháp thống kê
Tiếp cận theo phép lai
17/10/14
12
Các phương pháp
So khớp từ dài nhất (Longest Matching)
Học dựa trên sự cải biến (Transformation-based Learning – TBL)
Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State
Transducer – WFST)
Độ hỗn loạn cực đại (Maximum Entropy – ME)
Học máy sử dụng mô hình Markov ẩn (Hidden Markov Models-
HMM)
Học máy sử dụng vectơ hỗ trợ (Support Vector Machines)
17/10/14
13
Từ điển tiếng Việt
Theo thống kê trên trang Vdict.com
17/10/14
14
Tần suất xuất hiện độ dài từ trong từ điển
Từ điển tiếng Việt
Mã hóa từ điển
Mỗi mục từ bao gồm thông tin:
Từ
Từ loại
Nhằm tốn ít bộ nhớ và thuận tiện cho tìm
kiếm
17/10/14
15
Phân trang theo hai chữ cái đầu của từ, sắp tăng. Với mỗi trang,
các từ lại được sắp theo vần ABC.
Dựa Từ Điển
So khớp từ trái sang (*)
Học sinh/ học sinh/ học
So khớp từ phải sang
Học / sinh học /sinh học
Kết hợp cả hai
???
17/10/14
16
Automat tách từ Tiếng Việt
Một bài toán trong automat là nhận diện chuỗi
w có thuộc về ngôn ngữ L hay không.
Chuỗi nhập được xử lý tuần tự từng ký hiệu
một từ trái sang phải
Trong quá trình thực thi, automat cần phải
nhớ thông tin đã qua xử lý
17/10/14
17
Ví dụ Automat
17/10/14
18
Ví dụ Automat Tiếng Anh
17/10/14
19
Automat Tiếng Việt
1. Xây dựng ôtômát âm tiết đoán nhận tất cả
các âm tiết tiếng Việt
2. Xây dựng ôtômát từ vựng đoán nhận tất cả
các từ vựng tiếng Việt.
3. Dựa trên các ôtômát nêu trên, xây dựng đồ
thị tương ứng với câu cần phân tích và sử dụng
thuật toán tìm kiếm trên đồ thị để liệt kê các
cách phân tích có thể.
17/10/14
20
Ví dụ Automat âm tiết TV
17/10/14
21
Automat của 3 âm tiết: phương, pháp, trình
Phương pháp đồ thị
Biểu diễn chuỗi âm tiết s1,s2, sn
Trường hợp nhập nhằng thường xuyên nhất là 3 từ liền nhau
s1s2s3 trong đó s1s2 và s2s3 đều là từ.
BIểu diễn 1 đoạn bằng đồ thị có hướng tuyến tính G = (V,E), V
= {v0, v1, . . . , vn, vn+1}
Nếu các âm tiết si+1, si+2, . . . , sj tạo thành 1 từ -> trong G có cạnh
(vi,vj)
Các cách tách từ = các đường đi ngắn nhất từ v0 đến vn+1
17/10/14
22
Nhập nhằng Đồ thị
17/10/14
23
Giải quyết???
Xem lại
Lý thuyết xác suất
Lý thuyết thông tin
17/10/14
24
Phương pháp thống kê
Thông qua Search Engine thu được:
DF - document frequency, đó là tần số tài liệu, số
lượng các tài liệu đã được lập chỉ mục có chứa từ
cần xét.
MAX- là số lượng các tài liệu tiếng Việt đã được
lập chỉ mục (thường lấy khoảng 10
9
)
17/10/14
25
Xấp xỉ xác suất xuất hiện một từ trên internet