Tải bản đầy đủ (.pdf) (3 trang)

Học bán giám sát SVM KNN phân lớp web và thử nghiệm đối với văn bản giao thông vận tải

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (192.4 KB, 3 trang )

Học bán giám sát SVM-KNN phân lớp Web và
thử nghiệm đối với văn bản Giao thông vận tải

Hoàng Hải Yến

Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: PGS. TS. Hà Quang Thụy
Năm bảo vệ: 2012

Abstract: Giới thiệu khái quát phương pháp phân lớp SVM và kNN. Giới thiệu phương
pháp SVM-KNN phân lớp văn bản. Giới thiệu mô hình của thuật toán. Dựa vào mô hình
ở chương 2, tiến hành thực nghiệm việc phân lớp văn bản tiếng Việt theo hai nhóm:
nhóm văn bản liên quan tới ngành Giao thông vận tải và nhóm không liên quan. Để làm
rõ mô hình cũng như 3 pha chính trong mô hình, các thực nghiệm trên các nội dung văn
bản lấy tự động từ internet được tiến hành. Luận văn tập trung đánh giá kết quả thực
nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN.

Keywords: Công nghệ thông tin; Phân lớp văn bản; Cơ sở dữ liệu

Content
TÓM TẮT
Khối lượng khổng lồ các văn bản tiếng Việt trên mạng Internet đặt ra một thách thức
nhằm phân lớp tự động hoặc bán tự động các văn bản này nhằm cung cấp những thông tin tập
trung và có giá trị cho một ngành nghề cụ thể nào đó.
Trong các phương pháp phân lớp văn bản phổ biến thì phương pháp SVM (Support
Vertor Machine) được sử dụng với độ tin cậy cao. Tuy nhiên SVM không tối ưu hóa thời gian
tính toán sai số lớn trong việc ước lượng khoảng giữa hai vector. Tức là khi các vector có số
chiều lớn thì tốc độ của SVM bị hạn chế.
Trong luận văn này, tôi nghiên cứu phương pháp lai giữa k-láng giềng gần (kNN) với
SVM nhằm thực hiện phân đa lớp văn bản, lý do chính là nhằm tăng khả năng tính toán trong cả


quá trình huấn luyện và thực hiện phân lớp, kết quả là phương pháp này đạt kết quả khá hơn
trong thực tế thử nghiệm của luận văn.
Nội dung luận văn gồm 3 chương:
Chương 1: Giới thiệu khái quát phương pháp phân lớp SVM và kNN.
Chương 2: Giới thiệu giải pháp chi tiết các thuật toán lai SVM-kNN theo hai phương
pháp [5] và [7], quan điểm và các viễn cảnh cho các thuật toán lai SVM-kNN tương ứng. Giới
thiệu mô hình của thuật toán.

2
Chương 3: Dựa vào mô hình ở chương 2, tiến hành thực nghiệm việc phân lớp văn bản
tiếng Việt theo hai nhóm: nhóm văn bản liên quan tới ngành Giao thông vận tải và nhóm không
liên quan. Để làm rõ mô hình cũng như 3 pha chính trong mô hình, các thực nghiệm trên các nội
dung văn bản lấy tự động từ internet được tiến hành. Luận văn tập trung đánh giá kết quả thực
nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN
Kết luận: Trong luận văn này tôi nghiên cứu một phương pháp lai giữa k-láng giềng gần
(kNN) với SVM nhằm thực hiện phân đa lớp văn bản, lý do chính là nhằm tăng khả năng tính
toán trong cả quá trình huấn luyện và thực hiện phân lớp, kết quả là phương pháp này đạt kết
quả khá hơn trong thực tế thử nghiệm của luận văn.
- Mô tả chi tiết các thuật toán SVM, kNN và thuật toán lai SVM-kNN theo hai phương
pháp [5] và [7] cũng như quan điểm và các viễn cảnh cho các thuật toán lai SVM-kNN
tương ứng.
- Thực nghiệm việc phân lớp văn bản tiếng Việt liên quan tới ngành GTVT. Luận văn tập
trung đánh giá kết quả thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân
lớp SVM-kNN
Qua phân tích và đánh giá kết quả thực nghiệm đã cho thấy tính đúng đắn của phương
pháp phân lớp bán giám sát SVM-kNN trong phân lớp văn bản tiếng Việt.
Tuy nhiên trong quá trình thực nghiệm với phương pháp của luận văn đề ra tôi vẫn chưa
đưa ra được chương trình tổng hợp nhằm thực hiện nhanh hơn thuật toán, thay vào đó tôi vẫn
phải sử dụng cả ba chương trình riêng biệt để thực hiện thuật toán thủ công. Cũng do thời gian
không cho phép tôi không thể thực nghiệm trên tập mẫu rộng hơn và nhiều lớp hơn nhằm đưa ra

kết quả khách quan hơn nữa về thuật toán SVM-kNN.
m những láng giềng gần với mẫu truy vấn và bước 2: huấn luyện cục bộ bằng SVM đối
với từng nhóm. Như vậy phương pháp này vẫn bảo đảm được khoảng cách giữa các văn bản gần
nhau.
Phương pháp này có thể áp dụng được trong phạm vi rộng hơn, phân nhiều lớp dữ liệu,
thực tế chứng minh nó làm tốt hơn từng thuật toán đơn lẻ (SVM và kNN), vẫn đạt được hiệu
năng với những vấn đề mà SVM không thực hiện được.

References
Tiếng Việt
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu
Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục, 2009.
[2] Trần Thị Oanh (2008). Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp
cho tiếng Việt, Luận văn Thạc sỹ, Trường Đại học Công nghệ - ĐHQG Hà Nội, 2008.
Tiếng Anh

3
[3] Cam-Tu Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Thu-Trang Nguyen, and
Quang-Thuy Ha (2009). Web Search Clustering and Labeling with Hidden Topics, ACM
Transactions on Asian Language and Information Processing, 8 (3), 40 pp, 2009
[4] C. Chang and C J. Lin (2010). LIBSVM: a library for support vector machines,
Technical Report, Initial version: 2001 Last updated: November 16, 2010,
LIBSVM software library version 3.0
released on September 13, 2010,
[5] Hao Zhang, Alexander C. Berg, Michael Maire, Jitendra Malik (2006). SVM-KNN:
Discriminative Nearest Neighbor Classification for Visual Category Recognition, CVPR (2)
2006: 2126-2136, 2006.
[6] Xuan-Hieu Phan, Le-Minh Nguyen, Cam-Tu Nguyen, Trung-Kien Nguyen and
Quang-Thuy Ha (2006). Vietnamese word segmentation with crfs and svms: An investigation,
PACLIC20: 215-222, Wuhan, China, 2006.

[7] Kunlun Li, Xuerong Luo, Ming Jin (2010). Semi-supervised Learning for SVM-
KNN, JCP 5(5): 671-678, 2010.
[8] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann,
Ian H. Witten (2009). The WEKA Data Mining Software: An Update, SIGKDD Explorations,
11 (1), 2009. weka/
[9] Miha Grcar, Blaz Fortuna, Blaz Fortuna (2005). kNN Versus SVM in the
Collaborative Filtering Framework, ACM 1-59593-214-3 USA, 2005.
[10] Y. Lee, Y. Lin, and G. Wahba (2004). Multicategory support vector machines,
theory, and application to the classification of microarray data and satellite radiance data.
Journal of the American Statistical Association, 99:67 - 81, 2004.
[11] Yiming Yang , Jan O. Pedersen (1997). A Comparative Study on Feature Selection
in Text Categorization, 1997.

×