Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (35.53 KB, 1 trang )
KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO
A DISAMBIGUATION METHOD FOR THE DOCUMENT
SEGMENTATION OF THE LAO LANGUAGE
Vilavong Souksan; Phan Huy Khánh
Trường Đại học Bách Khoa; Dai hoc Champasak Lao
;
TÓM TẮT
Trong xử lý tự nhiên (XLNNTN), thường gặp bài toán tách từ trong phân loại văn bản tự động, hay
phân tích, dịch thuật văn bản… Do cách viết tiếng Lào không dùng dấu cách, hay ký hiệu phân biệt các
từ trong câu, việc xác định ranh giới giữa các từ, cụm từ trở nên khó khăn hơn so với các ngôn ngữ có
dấu cách từ rõ ràng như tiếng Anh, tiếng Việt… Hơn nữa, hiện tượng nhập nhằng, đa nghĩa trong các
ngôn ngữ nói chung, tiếng Lào nói riêng, cũng đặt ra những vấn đề cần giải quyết. Trên cơ sở đánh giá
các phương pháp tách từ trong xử lý Tin học tiếng Lào, nội dung bài báo trình bày kết quả tìm hiểu các
hiện tượng nhập nhằng trong tiếng Lào, bằng cách đối sánh với các hiện tượng nhập nhằng trong tiếng
Việt, từ đó bài báo đề xuất giải pháp khử bỏ nhập nhằng trong tiến trình tách từ tiếng Lào để đạt được
kết quả có độ chính xác tốt hơn so với các phương pháp tách từ tiếng Lào đã đề xuất trước đây.
Từ khóa: nhập nhằng; phân loại văn bản; tách từ; xử lý ngôn ngữ tự nhiên; xử lý tiếng Lào
ABSTRACT