Tải bản đầy đủ (.pptx) (43 trang)

slide thuyết trình đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.92 MB, 43 trang )

Đề tài: Tìm hiểu phương pháp tách từ trong văn bản tiếng việt
theo hướng tiếp cận của giải thuật di truyền
BTL: X lý ngôn ng t nhiênử ữ ự

Các phương pháp tách từ tiếng Việt.

Giải thuật di truyền.

Phương pháp tách từ dựa trên thống kê Internet theo
hướng tiếp cận của giải thuật di truyền (IGATEC)

Tìm hiểu opensource Vntokenizer để tách từ trong văn
bản tiếng Việt.
T ng quanổ

Vấn đề tách từ tiếng Việt.

Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt

Một số phương pháp tách từ tiếng Việt hiện nay

Kết luận
Các ph ng pháp tách t ươ ừ
ti ng Vi t.ế ệ
Bài toán tách từ tiếng Việt là một bài toán khó.
Vì những đặc tính chung của tiếng Việt- một ngôn ngữ đơn
lâp.

Từ ở dạng nguyên thể , hình thức và ý nghĩa của từ độc lập
với cú pháp.


Từ được cấu trúc từ tiếng.

Từ bao gồm từ đơn và từ phức (bao gồm từ láy và từ ghép).
V n đ tách t ti ng Vi tấ ề ừ ế ệ
Điểm khác nhau giữa tiếng Anh và tiếng Việt
V n đ tách t ti ng Vi tấ ề ừ ế ệ
Ti ng Vi tế ệ

Ti ng Anhế

- Là ngôn ng đ n l p (isolate) hay còn g i là lo i ữ ơ ậ ọ ạ
hình phi hình thái, không bi n hình, đ n âm ti t.ế ơ ế

- T không bi n đ i hình thái, ý nghĩa ng pháp ừ ế ổ ữ
n m ngoài t .ằ ừ

- Ph ng th c ng pháp ch y u : tr t t t và h ươ ứ ữ ủ ế ậ ự ừ ư
t .ừ

- Ranh gi i t không đ c xác đ nh m c nhiên b ng ớ ừ ượ ị ặ ằ
kho ng tr ng.ả ắ

- T n t i lo i t đ c bi t “t ch lo i” hay còn g i ồ ạ ạ ừ ặ ệ ừ ỉ ạ ọ
là phó danh t ch lo i kèm theo v i danh t .ừ ỉ ạ ớ ừ

- Có hi n t ng láy và nói lái trong ti ng vi tệ ượ ế ệ

- Là ngôn ng không đ n l p- lo i hình bi n cách hay ữ ơ ậ ạ ế
còn g i là lo i hình chi t khu t.ọ ạ ế ấ


- T có bi n đ i hình thái, ý nghĩa ng pháp n m ừ ế ổ ữ ằ ở
trong t .ừ

- Ph ng th c ng pháp ch y u là ph t .ươ ứ ữ ủ ế ụ ố
!

- K t h p gi a các hình v là ch t ch , khó xác ế ợ ữ ị ặ ẽ
đ nh, đ c nh n di n b ng kho ng tr ng ho c d u ị ượ ậ ệ ằ ả ắ ặ ấ
câu.
!

- Hi n t ng c u t o b ng t ghép thêm ph t ệ ượ ấ ạ ằ ừ ụ ố
(affix) vào t g c là r t ph bi n.ừ ố ấ ổ ế

!

!
Các h ng ti p c n c a kĩ ướ ế ậ ủ
thu t tách t ti ng Vi tậ ừ ế ệ

So khớp từ dài nhất (Longest Matching)

Học dựa trên sự cải biến (Transformation-based Learning -TBL)

Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer-
WFST)

Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền.
M t s ph ng pháp tách ộ ố ươ
t ti ng Vi từ ế ệ

So kh p t dài nh t ớ ừ ấ
(Longest Matching)
Ưu điểm:
- Tách từ nhanh đơn giản chỉ cần dựa vào từ điển.
- Độ chính xác tương đối cao.
Hạn chế:
- Độ chính xác phụ thuộc vào hoàn toàn vào tính đầy đủ và chính xác của từ điển.
- Phương pháp này sẽ không đạt được kết quả nếu chuối từ trước có liên hệ với các từ sau.
Ví dụ : một ông quan tài giỏi => một ||ông|| quan tài|| giỏi.
So kh p t dài nh tớ ừ ấ
(Longest Matching)
B cướ T dài nh t có ừ ấ
thể
Các ti ng còn l iế ạ
1 Tôi là sinh viên tr ng đ i h c Bách Khoa Hà N iườ ạ ọ ộ
2 Là sinh viên tr ng đ i h c Bách Khoa Hà N iườ ạ ọ ộ
3 Sinh viên tr ng đ i h c Bách Khoa Hà N iườ ạ ọ ộ
4 Tr ngườ đ i h c Bách Khoa Hà N iạ ọ ộ
5 Đ i h cạ ọ Bách Khoa Hà N iộ
6 Bách Khoa Hà N iộ
7 Hà N iộ !
-
Huấn luyện cho máy “học” trên dữ liệu hàng vạn câu tiếng Việt đã
được đánh dấu ranh giới từ đúng.
-
Sau khi học xong, máy sẽ xác định được các tham số (các xác suất)
cần thiết cho mô hình nhận diện từ.
Học dựa trên sự cải biến
(Transformation-based Learning -TBL)
Ưu điểm:

- Có khả năng tự rút ra quy luật của ngôn ngữ.
- Có những ưu điểm của cách tiếp cận dựa trên luật nhưng nó khác phục được
khuyết điểm của việc xây dựng các luật một cách thủ công bởi các chuyên gia.
- Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu của luật
(dựa trên ngữ liệu huấn luyện).
- Có khả năng khử một số nhập nhằng của các mô hình ngôn ngữ theo kiểu
thống kê.
Học dựa trên sự cải biến
(Transformation-based Learning -TBL)
Hạn chế:
- Phương pháp này “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động
các quy luật đó”. Mà việc xây dựng một tập ngữ liệu đạt được đầy đủ các
tiêu chí của tập ngữ liệu trong tiếng Việt là điểu rất khó, tốn kém nhiều về
mặt thời gian và công sức.
- Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật
tương đối đầy đủ.
- Cài đặt phức tạp.
Học dựa trên sự cải biến
(Transformation-based Learning -TBL)

Ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác
suất xuất hiện của mỗi từ trong ngữ liệu.

Dùng WFST để duyệt qua câu cần xét. Cách duyệt có trọng số
lớn nhất sẽ là cách tách từ được chọn.
Chuyển đổi trạng thái trọng số hữu hạn
(Weighted- Finite State Transducer- WFST)
Chuyển đổi trạng thái trọng số hữu hạn
(Weighted- Finite State Transducer- WFST)
Ý tưởng của phương pháp là kết hợp giữa thuật toán di truyền với dữ

liệu thống kê được lấy từ Internet.
Phương pháp tách từ dựa trên thống kê từ
trên Internet và giải thuật di truyền
Hệ thống tách từ theo phương pháp IGATEC được chia làm 2 phần:

Online Extractor : Thành phần này có tác dụng lấy thông tin về
tần số xuất hiện của các từ trong văn bản.

GA Engine for Text Segmentation : mỗi cá thể trong quan thể
được biểu diễn bởi chuỗi các bit 0,1.
Các cá thể trong quần thể được khởi tạo ngẫu nhiên. Sau đó
thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng
giá trị fitness của các cá thể để đạt được cách tách từ tốt nhất có
thể.
Phương pháp tách từ dựa trên thống kê từ trên Internet
và giải thuật di truyền
-
Hướng tiếp cận dựa trên ký tự có ưu điểm là dễ thực hiện , thời
gian thực hiện tương đối nhanh , tuy nhiên lại cho kết qủa không
chính xác bằng hướng tiếp cận dựa trên từ .
-
Nhìn chung với hướng tiếp cận này nếu chúng ta có thể cải tiến
để nâng cao độ chính xác trong tách từ
K t Lu nế ậ

Giới thiệu

Cơ sở lý thuyết

Các toán tử di truyền

Gi i thu t di truy nả ậ ề

Giải thuật di truyền là một phân ngành của giải thuật tiến hóa vận
dụng các nguyên lý của tiến hóa như di truyền, đột biến, chọn lọc
tự nhiên, và trao đổi chéo.

Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn
ngữ máy tính để mô phỏng quá trình tiến hoá của một tập hợp
những đại diện trừu tượng (gọi là những nhiễm sắc thể) của các
giải pháp có thể (gọi là những cá thể) cho bài toán tối ưu hóa vấn
đề
Gi i thu t di truy nả ậ ề
*
C s lý thuy tơ ở ế
Thuật toán di truyền gồm có bốn quy luật cơ bản là lai ghép, đột
biến, sinh sản và chọn lọc tự nhiên:
Toán tử di truyền dựa trên 4 quy luật trên

Toán tử lai ghép

Toán tử đột biến

Toán tử sinh sản

Toán tử chọn lọc tự nhiên
Toán t di truy nử ề

Nghiên cứu thống kê dựa trên Internet.

Phương pháp tách từ dựa trên thống kê Internet theo hướng

tiếp cận của giải thuật di truyền (IGATEC)

Kết luận
Internet and Genetics Algorithm-
based Text Categorization for
Documents in Vietnamese - IGATEC

Internet là kho dữ liệu vô tận.

Theo Rudi& Paul(2005) tỉ lệ xuất hiện của từ trên Internet là
khá ổn đinh, điều này cho phép ta thực hiện các tính toán chính
xác và ổn định vì ít phụ thuộc vào số lượng trang web trên
Internet tăng lên theo thời gian.
Nghiên c u th ng kê trên ứ ố
internet

Công cụ trích xuất thông tin từ Google

Công cụ tách từ dùng thuật toán di truyền (Genetic Alogorith)
IGATEC
Nhiệm vụ của công cụ trích xuất thông tin từ Google sẽ lấy
thông tin về:

Tần số xuất hiện của các văn bản chứa từ (document
frequency) trên các trang web để thực hiện tính toán theo
công thức MI, dự đoán khả năng tồn tại của một từ.

Tần số các văn bản chứ từ với từ khóa đại diện cho chủ để
dùng để tính mức độ liên quan của từ với các loại chủ đề cần
phân loại.

Công cụ trích xuất thông tin từ
Google

×