Tải bản đầy đủ (.pdf) (1 trang)

Tài liệu KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (35.53 KB, 1 trang )


KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO


A DISAMBIGUATION METHOD FOR THE DOCUMENT
SEGMENTATION OF THE LAO LANGUAGE


Vilavong Souksan; Phan Huy Khánh

Trường Đại học Bách Khoa; Dai hoc Champasak Lao
;

TÓM TẮT


Trong xử lý tự nhiên (XLNNTN), thường gặp bài toán tách từ trong phân loại văn bản tự động, hay
phân tích, dịch thuật văn bản… Do cách viết tiếng Lào không dùng dấu cách, hay ký hiệu phân biệt các
từ trong câu, việc xác định ranh giới giữa các từ, cụm từ trở nên khó khăn hơn so với các ngôn ngữ có
dấu cách từ rõ ràng như tiếng Anh, tiếng Việt… Hơn nữa, hiện tượng nhập nhằng, đa nghĩa trong các
ngôn ngữ nói chung, tiếng Lào nói riêng, cũng đặt ra những vấn đề cần giải quyết. Trên cơ sở đánh giá
các phương pháp tách từ trong xử lý Tin học tiếng Lào, nội dung bài báo trình bày kết quả tìm hiểu các
hiện tượng nhập nhằng trong tiếng Lào, bằng cách đối sánh với các hiện tượng nhập nhằng trong tiếng
Việt, từ đó bài báo đề xuất giải pháp khử bỏ nhập nhằng trong tiến trình tách từ tiếng Lào để đạt được
kết quả có độ chính xác tốt hơn so với các phương pháp tách từ tiếng Lào đã đề xuất trước đây.


Từ khóa: nhập nhằng; phân loại văn bản; tách từ; xử lý ngôn ngữ tự nhiên; xử lý tiếng Lào


ABSTRACT




In the field of natural language processing (NLP), there is a problem of words segmentation in a
sentence that is often applied to the automatic classification of documents, or in the analysis, the
translation of the text As the writing of the Lao language does not use spaces or separation symbols
of words, the determination of boundaries between words in the sentences is more difficult than other
languages such as English, Vietnamese language Moreover, the phenomenon of ambiguity in natural
language in general, especially in Laos language, also poses problems that need to be solved. At present,
on the basis of the research status estimation of information technology applications in Lao and
evaluation methods generally used for separating from texts in the application of natural language
processing, the process of segmentation in the Lao language is particularly used by processing in the
informatics language. In this study, the authors will present the findings of ambiguous phenomena in
Lao comparing to the phenomena of ambiguity in Vietnamese and then propose solutions to eliminating
ambiguity in the process of segmentation in the Lao language to achieve results with better accuracy
than the Lao segmentation method proposed in the previous study.


Keywords: ambiguous; documents classification; segmentation; natural language processing; Lao
language processing

×