Xây dựng mô hình khai phá văn bản tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (521.77 KB, 63 trang )

Luận văn tốt nghiệp Trang 1 Ngành: Công nghệ thông tin
LỜI CẢM ƠN
Lời đầu tiên, chúng em xin chân thành cảm ơn thầy Nhiếp Văn Ngọc, đã trực
tiếp hướng dẫn và tạo điều kiện cho chúng em nghiên cứu và hoàn thành luận văn
này.
Chúng em xin chân thành cảm ơn cô Nguyễn Thị Thu Hà, cô đã hỗ trợ, giúp đỡ
chúng em rất nhiều trong quá trình thực hiện. Và chúng em xin chân thành cảm
ơn các thầy cô trong khoa Công nghệ thông tin đã tận tình chỉ bảo và giúp đỡ
chúng em trong suốt quá trình học tập trong trường.
Và cuối cùng chúng tôi xin cảm ơn đến tất cả bạn bè, những người đã hỗ trợ
giúp đỡ chúng tôi hoàn thiện luận văn này.
Mặc dù chúng em đã cố gắng hoàn thiện luận văn trong phạm vi và khả năng
cho phép nhưng chắc chắn không tránh khỏi những sai sót. Em kính mong nhận
được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và bạn bè.

Hà nội, tháng 7 năm 2008

Đỗ Đức Cường
Nguyễn Đình Luận
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 2 Ngành: Công nghệ thông tin
MỞ ĐẦU
Trong những năm gần đây khối lượng các văn bản báo cáo, tổng kết, v.v
trong các cơ quan, đơn vị, ngành nghề, rất lớn. Đồng thời do sự phát triển vượt
bậc của công nghệ thông tin nên các văn bản đều được chuyển tải dưới dạng điện tử.
Các văn bản này rất đa dạng đề cập đến nhiều lĩnh vực trong xã hội như : kinh tế,
chính trị, văn hoá, khoa học, giáo dục v.v. Vấn đề đặt ra là làm thế nào để phân
loại và khai phá được các văn bản báo cáo này khi mà khối lượng các văn bản báo

cáo ngày càng nhiều. Mặt khác một số nơi do thời gian, điều kiện không tham khảo
những văn bản đã có, dẫn đến ban hành các văn bản mới chồng chéo thậm chí trái
luật, nhiều chỗ sai do sử dụng lại các mẫu văn bản cũ .v.v Vì vậy vấn đề phân loại
và khai phá những văn bản đã ban hành là vấn đề rất cần thiết.
Hiện nay ở Việt Nam việc phân loại và tóm tắt văn bản nói chung, văn bản
báo cáo nói riêng vẫn phải làm bằng tay. Một thực tế là khi khối lượng thông tin quá
lớn, việc phân loại dữ liệu thủ công là điều không tưởng. Hướng giải quyết là một
chương trình máy tính tự động phân loại và tóm tắt các thông tin của các văn bản
báo cáo tiếng Việt.

Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 3 Ngành: Công nghệ thông tin
Chương 1. Tổng quan chung về khai phá văn bản
1. Data Mining
1.1. Bối cảnh ra đời của khai phá dữ liệu:
Trước sự phát triển không ngừng của internet dẫn đến những kho dữ liệu đã lưu trữ
một lượng dữ liệu khổng lồ. Trong lượng dữ liệu khổng lồ đó ẩn chứa rất nhiều
những thông tin quan trọng, tuy nhiên, trước đây người ta vẫn thường sử dụng
những phương pháp thủ công mà rất khó khăn để khai phá chúng. Mà những thông
tin quan trọng luôn thôi thúc con người tìm cách để khai phá . Còn các hệ thống kho
dữ liệu chỉ nhằm làm nhiệm vụ lưu trữ dữ liệu mà thôi.
Cùng với sự phát triển của kỹ thuật máy tính và kỹ thuật thông tin, thông tin ngày
càng được phát triển mạnh mẽ, đã vượt qua mọi khả năng phân tích thủ công của
con người, cho dù hệ thống kho dữ liệu có thể nâng cao khả năng tìm kiếm, thống
kê… nhưng không thể phát hiện được những mối quan hệ và những quy luật nằm
bên trong dữ liệu, đồng thời cũng không thể căn cứ vào những phương pháp phân
tích truyền thống được nữa. Trong một biển dữ liệu khổng lồ, làm thế nào để lấy
được những thông tin có giá trị có tri thức đã trở thành một nhiệm vụ vô cùng quan

trọng, Con người mong muốn loại bỏ những dữ liệu thô để chắt lọc những dữ liệu
tinh, Khai phá dữ liệu DM bắt nguồn từ đây. Nó xuất hiện vào cuối những năm 80
của thế kỷ 20, từ những năm 90 nó bắt đầu khởi phát, cho tới thế kỷ 21, rất nhiều
các khái niệm gần đúng với nó ví dụ KDD( Knowledge
Data Development ), phân tích dữ liệu, Data Fusion, Data warehouse…
Trong lúc này, một lĩnh vực nằm trong ngành trí tuệ nhân tạo là học máy đang
không ngừng phát triển. Học máy làm nâng cao tính năng của những chương trình
máy tính, nó thu nhận được từ nhiều ngành khoa học khác nhau bao gồm: trí tuệ
nhân tạo, xác suất thống kê, tam lý học, triết học… rồi căn cứ vào những mô hình
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 4 Ngành: Công nghệ thông tin
học khác nhau để đưa ra phương pháp học, ví dụ: tự học, học có giám sát, mạng
noron và di truyền…
Cuối cùng: Data Mining là việc tiến hành xử lý, khai phá từ trong kho dữ liệu lớn,
không honaf chỉnh, nhiều nhiễu, mơ hồ, để trích rút ra những thông tin có giá trị, có
tri thức.
1.2. Sự phát triển:
Khái niệm về KDD lần đầu tiên được xuất hiện vào tháng 8 năm 1989 tại hội nghị
trí tuệ nhân tạo quốc tế lần thứ 11. Từ đó tới nay, rất nhiều các chuyên gia, học giả ở
nhiều quốc gia đã nghiên cứu về DM. Các hiệp hội được hình thành như ACM
SIGKDD, IEEE, ICDM, SDM, PAKDD, VLDB, FSKD, MLDM…
Tại Việt Nam, khoảng 5 năm trở lại đây, ngày càng có nhiều các chuyên gia
nghiên cứu DM và DM cũng ngày được phát triển, nó đang là một xu thế mới trong
nghiên cứu để ứng dụng vào cuộc sống.
1.3. Các khía cạnh khai phá chủ yếu
Nhiệm vụ chủ yếu là phân tích dữ liệu, phân lớp, phân loại, đo lường, đo độ lệch …
1.3.1. Phân tích kết hợp (association analysic)
Khai phá luật kết hợp do Rakesh Apwal và cộng sự cùng đưa ra. Giá trị giữa 2 biến

lượng hoặc hai biến lượng trở lên tồn tại một tính quy luật được gọi là kết hợp. Luật
kết hợp dữ liệu là một vấn đề khá quan trọng trong kho dữ liệu, để nhằm phát hiện
ra tri thức. Kết hợp được phân thành kết hợp đơn giản, kết hợp time-series và kết
hợp nhân quả. Mục đích của phân tích kết hợp là tìm ra mạng kết hợp tiềm ẩn trong
kho dữ liệu.
1.3.2. Phân lớp ( clustering )
Phân lớp là căn cứ vào tính chất của dữ liệu để phân thành từng lớp khác nhau.
Trong một lớp dữ liệu có nhiều đặc tính tương thích, phân lớp là căn cứ vào các đặc
trưng khái quát của dữ liệu để phân chúng thành từng lớp khác nhau, ví dụ như căn
cứ vào mô hình phân bố của dữ liệu, quan hệ giữa các thuộc tính của dữ liệu.
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 5 Ngành: Công nghệ thông tin
1.3.3. Phân loại ( classification )
Phân loại là tìm ra khái niệm miêu tả của một lớp nào đó, nó đại diện cho chỉnh thể
tin tức của dữ liệu, rồi dựa vào hàm miêu tả, đồng thời dùng hàm mô tả này để miêu
tả mô hình dữ liệu. Thông thường, dùng mô hình cây quyết định để biểu thị. Phân
loại là lợi dụng việc huấn luyện tập dữ liệu thông qua một số các thuật toán nhất
định để đạt được quy tắc phân loại.
1.3.4. Khẳng định ( predication ):
Khẳng định là lợi dụng lịch sử của dữ liệu để tìm ra được quy luật biến hóa, xây
dựng mô hình, đồng thời từ mô hình đó để áp dụng vào loại dữ liệu trong tương lai
để tiến hành khẳng định, khẳng định quan tâm tới độ tinh và tính chuẩn xác, thông
thường dùng phương sai của khẳng định để đo lường.
1.3.5. mô hình time –series:
Time –series chỉ sự thông qua sự tuần tự của thời gian tìm kiếm những mô hình phát
sinh. Tựa như hồi quy, nó cũng dùng để nhận biết giá trị tương lai của dữ liệu.
1.3.6. Độ lệch ( deviation)
Trong độ lệch bao gồm rất nhiều tri thức, trong kho dữ liệu, dữ liệu tồn tại những

khác biệt, phát hiện những khác biết trong kho dữ liệu là rất quan trọng. Độ lệch
giữa kết quả quan sát được giữa giá trị trả về theo tính toán và kết quả thực tế.
1.4. Quy trình của DM
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 6 Ngành: Công nghệ thông tin
1.4.1. Chuẩn bị dữ liệu :
Chuẩn bị dữ liệu được phân thành 3 bước chính: Lựa chọn dữ liệu, Tiền xử lý và
biến đổi dữ liệu. Mục đích của việc lựa chọn dữ liệu là tìm kiếm tất cả những thông
tin của đối tượng liên quan để trích chọn ra dữ liệu cần thiết đưa vào xử lý, tiền xử
lý thực chất là quá trình lọc nhiễu. Biến đổi dữ liệu là quá trình tìm kiếm những đặc
trưng chuẩn bị cho giai đoạn khai phá dữ liệu.
1.4.2. Giai đoạn khai phá dữ liệu
Giai đoạn khai phá dữ liệu đầu tiên phải xác định rõ nhiệm vụ hoặc mục đích khai
phá. Tiếp theo xác định rõ sử dụng phương pháp nào để khai phá, hoặc có thể dùng
các phương pháp khác nhau để thực hiện. Để lựa chọn phương pháp khai phá dựa
vào 2 đặc điểm sau:
- Với mỗi dạng dữ liệu khác nhau sẽ có đặc điểm khác nhau, do đó cần sử
dụng phương pháp nào để đạt hiệu quả tốt nhất.
- Do yêu cầu của người dùng hoặc hệ thống, có người dùng yêu cầu nhận được
mô hình, có thể dễ dàng hiểu được tri thức, có người dùng hoặc hệ thống lại
muốn nhận được sự đánh giá chuẩn xác tri thức.
1.4.3. Kết quả và đánh giá:
Giai đoạn khai phá dữ liệu đã đưa ra được mô hình, thông qua người dùng hoặc máy
để đánh giá và đưa ra tri thức.
2. Text Mining
2.1 Thế nào là khai phá dữ liệu văn bản:
Khai phá dữ liệu văn bản là rút ra những thông tin có giá trị và có tri thức từ trong
dữ liệu văn bản. Hay nói cách khác, là khai phá dữ liệu trong văn bản. Từ định

nghĩa trên cho thấy, khai phá dữ liệu văn bản là một phần nằm trong khai phá dữ
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 7 Ngành: Công nghệ thông tin
liệu, nó cũng sử dụng các công cụ khai phá như máy học, thống kê số học, xử lý
ngôn ngữ tự nhiên … và là sự giao thoa của nhiều ngành khoa học khác nhau. Nó
ứng dụng trong nhiều lĩnh vực khác nhau, ví dụ : thương mại tri thức ( business
intelligence ), phục hồi dữ liệu (information retrieval ), xử lý thông tin sinh vật
( bioinformatics)…và được ứng dụng nhiều trong các lĩnh vực : quản lý quan hệ
khách hàng ( customer relationship management ), tìm kiếm trên mạng ( web search
)….
2.2 Tại sao phải khai phá dữ liệu văn bản:
Trong thực tế cuộc sống, rất nhiều các lĩnh vực đều chứa đựng lượng lớn dữ liệu,
đặc biệt như là dữ liệu văn bản, làm thế nào để khai phá và trích rút dữ liệu có ích từ
trong văn bản là một vấn đề vô cùng quan trọng, hay nói cách khác, khai phá dữ liệu
văn bản đang là một ngành mới và là một ngành rất phát triển.
- Dữ liệu text bao gồm : bán cấu trúc và không cấu trúc những bài báo, kết quả
nghiên cứu, dữ liệu web, email, blog, diễn đàn …
Bán cấu trúc có nghĩa : Các dạng văn bản bao gồm một số trường có cấu trúc như
tên tiêu đề, tác giả … và một số trường không cấu trúc tựa như abstract hoặc nội
dung ( content). Một trong những đặc điểm của textmining là có một số lớn lượng
đặc trưng được miêu tả trong mỗi văn bản., điển hình một dữ liệu văn bản ta có thể
rút ra một lượng lớn đặc trưng ví dụ như từ khóa, nội dung, thuật ngữ…
Trong trường hợp ngược lại, khi phân tích một nhóm files hoặc bảng liên kết, ta tìm
thấy những đặc trưng từ một vài cho đến vài trăm, những đặc trưng này xuất hiện rải
rác trong các văn bản. Mỗi văn bản có thể chứa một số ít tập các từ khóa, và phần
lớn các từ khóa xuất hiện trong một số hữu hạn các văn bản, do đó phần lớn các
vector đặc trưng nhị phân được sử dụng để biểu diễn đặc trưng có thể mang giá trị 0.
TextMining là sự giao thoa của nhiều lĩnh vực khoa học khác nhau:

Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 8 Ngành: Công nghệ thông tin
2.3 Các khía cạnh khai phá dữ liệu văn bản
Khai phá dữ liệu văn bản gồm 3 tầng chính : tầng dưới cùng là các công cụ khai phá
cơ bản như máy học, đại số thống kê, xử lý ngôn ngữ tự nhiên … Tầng giữa bao
gồm các kỹ thuật khai phá cơ bản ; trích rút thông tin, phân loại văn bản, phân cụm,
nén văn bản và xử lý dữ liệu văn bản. Tầng trên là tầng ứng dụng bao gồm truy vấn
thông tin, và phát hiện tri thức .
2.4 Các bước quan trọng trong khai phá dữ liệu văn bản:
2.4.1 Tiền xử lý văn bản:
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Truy vấn thông tin, Phát hiện tri thức
Trích rút thông
tin văn bản
Phân
loại văn
bản
Phân lớp
văn bản
Nén văn
bản
Xử lý dữ liệu
văn bản
Máy học, Đại số thống kê, Xử lý ngôn ngữ tự nhiên
Luận văn tốt nghiệp Trang 9 Ngành: Công nghệ thông tin
1- Định nghĩa các quy tắc để trích rút, tập hợp của văn bản ( data selection and

filtering )
2- Định nghĩa định dạng của văn bản
3- Đưa văn bản về dạng chuẩn ( làm sạch, nhận dạng ngày và tiền tệ …)
4- Thu nhỏ và chuyển hóa văn bản ( loại bỏ các từ dừng, từ tầm thường …)
2.4.2 Xử lý từ :
1- Chọn đơn vị phân tích: từ( cách biểu diễn hoặc chú thích ) và biểu diễn từ ghép,
thuật ngữ…
2- Định nghĩa quy tắc ngữ pháp để giải thích nghĩa bóng của văn bản
3- Ngôn ngữ và phân tích từ ( phát hiện từ khóa , điệp từ …)
4- Định nghĩa loại ngữ nghĩa, gán nhãn thuật ngữ
5- Phân tích teo định nghĩa hoặc siêu dữ liệu…
2.4.3 Xử lý khai phá văn bản:
1- Phân loại văn bản
2- Phân cụm và tóm tắt
3- Trích rút tri thức ( với sự kết hợp của hệ chuyên gia )
4- Kết hợp kết quả của TM với xử lý dữ liệu
2.5 Xử lý ngôn ngữ tự nhiên ( Natural Laguage Processing –NLP):
Là việc xử lý bằng ngôn ngữ của con người bằng công cụ máy vi tính thông qua các
phương pháp học máy để nhận biết từ khóa, thuật ngữ, nhóm từ đồng thời xác định
được các thành phần trong câu như : danh từ, tính từ, động từ, giới từ… để thông
qua đó đưa ra quy luật trong việc tách ghép từ, tách câu, ghép câu trong các kỹ thuật
khai phá văn bản…
2.5 Kỹ thuật tóm tắt văn bản ( Text – Summary):
2.5.1 Định nghĩa:
Tóm tắt văn bản theo nội dung, không bao gồm lời bình luận, bổ sung, giải thích …
2.5.2 Phân loại tóm tắt:
- Phân loại theo nhu cầu người dùng:
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận

Luận văn tốt nghiệp Trang 10 Ngành: Công nghệ thông tin
+ Tóm tắt chung ( GS- Generic Summarization)
+ Tóm tắt có truy vấn ( User – query Summarization )
- Phân loại theo đối tượng văn bản:
+ Tóm tăt đơn văn bản ( Single document summarization )
+ Tóm tắt đa văn bản ( Multiple document summarization )
- Phân loại theo phương thức:
+ Tóm tắt dựa trên trích rút ( SBE- Summarization based on Extraction )
+ Tóm tắt dựa trên sự hiểu biết ( SBU – Summarization based on Understanding )
- Phân loại theo sự cần thiết
+ Tóm tắt có giám sát ( supervised summarization –SS)
+ Tóm tắt không giám sát ( US – Unsupervised summarization )
2.5.3 Tóm tắt tự động :
1- Định nghĩa :
Thông qua máy vi tính tiến hành trích rút nội dung tự động từ một văn bản nguồn để
đưa ra nội dung trọng tâm cô đọng, đồng thời rút ngắn được chiều dài văn bản.
2- Hệ thống tóm tắt tự động:
Hệ thống tóm tắt tự động có thể tóm tắt văn bản nguồn thành những văn bản tóm tắt
ngắn với nội dung trọng tâm và cô đọng nhất.
Hình 1-1 Mô hình tóm tắt tự động
3- Các phương pháp đánh giá
Edmundson và Rouge
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 11 Ngành: Công nghệ thông tin
2.5.4 Phương pháp tóm tắt văn bản:
2.5.5 Các bước cơ bản trong tóm tắt văn bản:
Đơn vị cơ bản nhất trong tóm tắt văn bản là các câu. Đối với việc tóm tắt theo tỉ lệ
chiều dài văn bản phải trích rút các câu theo độ quan trọng của các câu. Để xác định

được độ quan trọng của câu chủ yếu dựa vào độ quan trọng của các thuật ngữ trong
câu , ngoài ra còn phụ thuộc vào các yếu tố khác:
- Độ tương hỗ giữa các thuật ngữ trong câu tính theo công thức:
)()(
)&(
log
21
21
2
tPtP
ttP
MI =
- Độ tương hỗ giữa tập từ Negative và Positive ảnh hưởng tới câu
- Độ tương đương của thuật ngữ trong câu với từ xuất hiện ở tiêu đề
- Chiều dài câu
- Vị trí câu
- ….
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 12 Ngành: Công nghệ thông tin
Với các yếu tố trên đây chỉ là tóm tắt chung hay còn gọi tóm tắt bằng việc tổng hợp
từ các câu rời rạc. Để tóm tắt văn bản sao cho trở thành một văn bản hoàn chỉnh
phải dựa vào độ tương tự của các câu. Có nghĩa có một kho dữ liệu tập hợp các câu,
sau đó so sánh độ tương tự giữa các câu, tìm các câu tương ứng trong văn bản ở
trong kho dữ liệu và trích rút ra để lắp ghép thành văn bản hoàn chỉnh.
3. MỘT SỐ GIẢI PHÁP PHÂN LOẠI VÀ TÓM TẮT NỘI DUNG VĂN BẢN
3.1 Các phương pháp phân loại và tóm tắt nội dung văn bản tiếng Anh
3.1.1 Bối cảnh các phương pháp phân loại văn bản hiện nay
Phân loại văn bản tự động là một trong các lĩnh vực được chú ý nhiều nhất

trong những năm gần đây. Để phân loại người ta sử dụng nhiều cách tiếp cận khác
nhau như dựa trên từ khóa, dựa trên ngữ nghĩa các từ có tần số xuất hiện cao, mô
hình Maximum Entropy, tập thô … Tiếng Anh là một trong những ngôn ngữ được
nghiên cứu sớm và rộng rãi nhất với kết quả đạt được rất khả quan. Một số lượng
lớn các phương pháp phân loại đã được áp dụng thành công trên ngôn ngữ này : mô
hình hồi quy [Fuhr et al,1991], phân loại dựa trên láng giềng gần nhất (k-nearest
neighbors) [Dasarathy, 1991], phương pháp dựa trên xác suất Naïve Bayes
[Joachims, 1997], cây quyết định [Fuhr et al,1991], học luật quy nạp [William &
Yoram, 1996], mạng nơron (neural network)[Wiener et al, 1995], học trực
tuyến[William & Yoram, 1996], và máy vector hỗ trợ (SVM-support vector
machine) [Vapnik, 1995]. Hiệu quả của các phương pháp này rất khác nhau ngay cả
khi áp dụng cho tiếng Anh. Việc đánh giá gặp nhiều khó khăn do việc thiếu các tập
ngữ liệu huấn luyện chuẩn. Thậm chí đối với tập dữ liệu được sử dụng rộng rãi nhất,
Reuter cũng có nhiều phiên bản khác nhau. Hơn nữa, có rất nhiều độ đo được sử
dụng như recall, precision, accuracy hoặc error, break-even point, F-measure …
trong phần này giới thiệu các thuật toán phân loại được sử dụng phổ biến nhất đồng
thời so sánh giữa các phương pháp sử dụng kết quả của [Yang, 1997].
3.1.2 Các phương pháp phân loại văn bản tiếng Anh hiện hành
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 13 Ngành: Công nghệ thông tin
+ Biểu diễn văn bản
Bước đầu tiên của mọi phương pháp phân loại văn bản là chuyển việc mô tả
văn bản dùng chuỗi ký tự thành một dạng mô tả khác, phù hợp với các thuật toán
học theo mẫu và phân lớp. Hầu hết các thuật toán đều sử dụng cách biểu diễn văn
bản sử dụng vector đặc trưng, sự khác nhau có chăng là việc chọn không gian đặc
trưng khác nhau. Vì vậy ở phần này sẽ trình bày sơ lược về vector đặc trưng.
Ý tưởng chính là xem mỗi văn bản d
i

tương ứng là một vector đặc trưng
id
(TF(w
1
),TF(w
2
), ,TF(w
n
)) trong không gian các từ W
n
(w
i
là một từ, một đặc trưng,
tương ứng một chiều của không gian). Giá trị của TF(w
i
) chính là số lần xuất hiện
của từ w
i
trong văn bản d
1.
Từ được chọn là một đặc trưng khi nó xuất hiện trong ít
nhất 3 văn bản [Joachims, 1997]. Để không bị phụ thuộc vào chiều dài văn bản
vector đặc trưng sẽ được chuẩn hóa về chiều dài đơn vị :
id
(
∑
)(
)TF(w
2
1

i
wTF
,
∑
)(
)TF(w
2
2
i
wTF
, ,
∑
)(
)TF(w
2
i
n
wTF
)
Hình 1.1 Biểu diễn văn bản
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 14 Ngành: Công nghệ thông tin
Trong thực tế để cải thiện tốc độ và kết quả người ta thường sử dụng IDF(w
i
)
hoặc TFIDF(w
i
) thay cho TF(W

i
) :
IDF(w
i
)=
)
)(
log(
i
wDF
m
TFIDF(W
i
)=TF(w
i
).IDF(w
i
)
Với
m là số văn bản huấn luyện
DF(w
i
) là số văn bản có chứa từ w
1.
Một số vấn đề này sinh khi biểu diễn văn bản theo hướng vector đặc trưng là
việc chọn đặc trưng và số chiều cho không gian. Cần phải chọn bao nhiêu từ và
chọn những từ nào ? theo những cách nào ? Có nhiều hướng tiếp cận trong vấn đề
này mà tiêu biểu là sử dụng Information Gain [Yang & Petersen, 1997], ngoài ra
còn có các phương pháp như DF-Thresolding [Yang & Petersen, 1997],
2

χ
-Test
[Schütze et al,1995] hoặc Term Strength [Yang & Wilbur,1997]. Phương pháp
Information Gain sử dụng độ đo Mutual Information(MI) [Yang & Petersen, 1997]
để chọn ra tập đặc trưng con f gồm những từ có giá trị MI cao nhất.
Các đặc trưng của văn bản khi biểu diễn dưới dạng vector :
Số chiều không gian đặc trưng thường rất lớn (trên 10000)
Có các đặc trưng độc lập nhau, sự kết hợp các đặc trưng này thường không
có ý nghĩa trong phân loại
Đặc trưng rời rạc : vector d
i
có rất nhiều giá trị 0 do có nhiều đặc trưng không
xuất hiện trong văn bản d
1.
Hầu hết các văn bản có thể được phân chia một cách tuyến tính bằng các hàm
tuyến tính.
Việc phân loại sẽ tốt hơn nếu các thuật toán tận dụng được những đặc trưng
này. Phần tiếp theo sẽ nói rõ hơn về các thuật toán phân loại.
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 15 Ngành: Công nghệ thông tin
+ Support vector Machine(SVM)
SVM là phương pháp tiếp cận phân loại rất hiệu quả được Vapnik giới thiệu
năm 1995 [Vapnik, 1995] để giải quyết vấn đề nhận dạng mẫu 2 lớp sử dụng
nguyên lý Cực tiểu hóa Rủi ro có Cấu trúc (Structural Risk Minimization) [Vapnik,
Cortes, 1995].
Ý tưởng :
Cho trước một tập huấn luyện được biểu diễn trong không gian vector trong
đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng h quyết

định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tương
ứng lớp + và lớp –. Chất lượng của siêu mặt phẳng này được quyết định bởi khoảng
cách (gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này.
Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân
loại càng chính xác. Mục đích thuật toán SVM tìm được khoảng cách biên lớn nhất.
Hình sau minh họa cho thuật toán này :
Hình 1.2 Siêu mặt phẳng h phân chia dữ liệu huấn huyện thành 2 lớp + và –
với khoảng cách biên lớn nhất. Các điểm gần h nhất là các vector hỗ trợ,Support
Vector (được khoanh tròn)
Công thức chính :
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 16 Ngành: Công nghệ thông tin
SVM thực chất là một bài toán tối ưu, mục tiêu của thuật toán này là tìm
được một không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số phân
loại là thấp nhất.
Phương trình siêu mặt phẳng chứa vector
id
trong không gian như sau :
id
∙
w
+ b= 0
Như thế h(
i
d
) biểu diễn sự phân lớp của
i
d

vào hai lớp như đã nói. Gọi
y
i
={± 1}, y
i
= +1, văn bản
i
d
∈ lớp +; y
i
=-1, văn bản
i
d
∈ lớp – Khi này để có siêu
mặt phẳng h ta sẽ phải giải quyết bài toán sau :
Tìm Min
w
với
w
và b thoả mãn điều kiện sau :
∀ i ∈
n,1
: yi(sign(
id
∙
w
+ b))≥1
Bài toán SVM có thể giải bằng kỹ thuật sử dụng toán tử Lagrange để biến đổi
thành đẳng thức.
Điểm thú vị ở SVM là mặt phẳng quyết định chỉ phụ thuộc vào các vector hỗ

trợ (Support Vector) có khoảng cách đến mặt phẳng quyết định là
w
1
. Khi các
điểm khác bị xóa đi thì thuật toán vẫn cho kết quả giống như ban đầu. Chính đặc
điểm này làm cho SVM khác với các thuật toán khác như kNN,LLSF, NNet và NB
vì tất cả dữ liệu trong tập huấn luyện đều được dùng để tối ưu hóa kết quả. Các
phiên bản SVM tốt có thể kể đến là SVM
Light
[Joachims, 1998] và Sequential
Minimal Optimization (SMO) [Platt, 1998]
K–Nearest Neighbor (kNN):
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 17 Ngành: Công nghệ thông tin
kNN là phương pháp truyền thống khá nổi tiếng về hướng tiếp cận dựa trên
thống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỷ qua [Dasarathy,
1991]. kNN được đánh giá là một trong những phương pháp tốt nhất (áp dụng trên
tập dữ liệu Reuters phiên bản 21450), được sử dụng từ những thời kỳ đầu của việc
phân loại văn bản [Marsand et al, 1992] [Yang, 1994] [Iwayama, Tokunaga, 1995].
Ý tưởng :
Khi cần phân loại một văn bản mới, thuật toán sẽ tính khoảng cách (khoảng
cách Euclide, Cosine ) của tất cả các văn bản trong tập huấn luyện đến văn bản
này để tìm ra k văn bản gần nhất (gọi là k “láng giềng”), sau đó dùng các khoảng
cách này đánh trọng số cho tất cả chủ đề. Trọng số của một chủ đề chính là tổng tất
cả khoảng cách ở trên của các văn bản trong k láng giềng có cùng chủ đề, chủ đề
nào không xuất hiện trong k láng giềng sẽ có trọng số bằng 0. Sau đó các chủ đề sẽ
được sắp xếp theo mức độ trọng số giảm dần và các chủ đề có trọng số cao sẽ được
chọn là chủ đề của văn bản cần phân loại.

Công thức chính
Trọng số của chủ đề c
j
đối với văn bản
x
),(
j
cxw
=
j
kNNd
jii
bcdydxsim
i
−
∑
∈
),().,(
}{
Trong đó
y(
i
d
,c
j
) ∈ {0,1}, với
y=0 : văn bản
i
d
không thuộc về chủ đề c

j
y=1 : văn bản
i
d
thuộc về chủ đề c
j
sim (
x
,
i
d
) : độ giống nhau giữa văn bản cần phân loại
x
và văn bản
i
d
.
Có thể sử dụng độ đo cosine để tính sim (
x
,
i
d
)
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 18 Ngành: Công nghệ thông tin
sim (
x
,

i
d
) = cos(
x
,
i
d
) =
i
i
dx
dx
.
.
b
j
là ngưỡng phân loại của chủ đề c
j
được tự động học sử dụng một tập văn
bản hợp lệ được chọn ra từ tập huấn luyện
Để chọn được tham số k tốt nhất cho việc phân loại, thuật toán phải được
chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật toán càng
ổn định và sai sót càng thấp [Yang, 1997]. Giá trị tốt nhất được sử dụng tương ứng
trên hai bộ dữ liệu Reuter và Oshumed là k = 45 [Joachims, 1997].
Naïve Bayes (NB)
NB là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong
lĩnh vực máy học [Mitchell, 1996] [Joachims, 1997] [Jason, 2001] được sử dụng lần
đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 [Maron, 1961] sau đó trở
nên phổ biến dùng trong nhiều lĩnh vực như trong các công cụ tìm kiếm [Rijsbergen
et al, 1970], các bộ lọc mail [Sahami et al, 1998]

Ý tưởng
Ý tưởng cơ bản của cách tiếp cận Naïve Bayes là sử dụng xác suất có điều
kiện giữa từ và chủ đề để dự đoán xác suất chủ đề của một văn bản cần phân loại.
Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của
tất cả các từ trong văn bản đều độc lập với nhau. Như thế NB không tận dụng được
sự phụ thuộc của nhiều từ vào một chủ đề cụ thể. Giả định đó làm cho việc tính toán
NB hiệu quả và nhanh chóng hơn các phương pháp khác với độ phức tạp theo số mũ
vì nó không sử dụng việc kếp hợp các từ để đưa ra phán đoán chủ đề.
Công thức chính
Mục đích chính là tính được xác suất Pr(C
j
,d′), xác suất để văn bản d′ nằm
trong lớp C
j
. Theo luật Bayes, văn bản d′ sẽ được gán vào lớp C
j
nào có xác suất
Pr(C
j,
d′) cao nhất. Công thức sau dùng để tính Pr(C
j,
d′) [Joachims, 1997]
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 19 Ngành: Công nghệ thông tin
Với
TF(w
i
,d’) là số lần xuất hiện từ w

i
trong văn bản d’
'd
là số lượng các từ trong văn bản d’
w
i
là một từ trong không gian đặc trưng F với số chiều là
F
Pr(C
j
) được tính dựa trên tỷ lệ phần trăm của số văn bản mỗi lớp tương ứng
trong tập dữ liệu luyện :
Pr(w
i
|C
j
) được tính sử dụng phép ước lượng Laplace [Napnik, 1982] :
Ngoài ra còn có các phương pháp NB khác có thể kể ra như sau ML Naive
Bayes, MAP Naive Bayes, Expected Naive Bayes, Bayesian Naive Bayes [Jason,
2001]. Naive Bayes là một công cụ rất hiệu quả trong một số trường hợp. Kết quả
có thể rất tồi nếu dữ liệu huấn luyện nghèo nàn và các tham số dự đoán (như không
gian đặc trưng) có chất lượng kém. Nhìn chung đây là một thuật toán phân loại
tuyến tính thích hợp trong phân loại văn bản nhiều chủ đề. NB có ưu điểm là cài đặt
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 20 Ngành: Công nghệ thông tin
đơn giản, tốc độ nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và có tính độc lập
cao với tập huấn luyện, có thể sử dụng kết hợp nhiều tập huấn luyện khác nhau. Tuy
nhiên NB ngoài giả định tính độc lập giữa các từ còn phải cần đến một ngưỡng tối

ưu để cho kết quả khả quan. Nhằm mục đích cải thiện hiệu năng của NB, các
phương pháp như multiclass-boosting, ECOC [Berger, 1999] [Ghani, 2000] có thể
được dùng kết hợp
Neural Network (NNet)
Nnet được nghiên cứu mạnh trong hướng trí tuệ nhân tạo. Wiener là người đã
sử dụng Nnet để phân loại văn bản, sử dụng 2 hướng tiếp cận : kiến trúc phẳng
(không sử dụng lớp ẩn) và mạng nơron 3 lớp (bao gồm một lớp ẩn)[Wiener et al,
1995].
Cả hai hệ thống trên đều sử dụng một mạng nơron riêng rẽ cho từng chủ đề,
NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mô hình
vector của một văn bản vào một chủ đề cụ thể.
Khuyết điểm của phương pháp NNet là tiêu tốn nhiều thời gian dành cho việc
huấn luyện mạng nơron.
Mô hình mạng neural gồm có ba thành phần chính như sau: kiến trúc
(architecture), hàm chi phí (cost function), và thuật toán tìm kiếm (search
algorithm). Kiến trúc định nghĩa dạng chức năng (functional form) liên quan giá trị
nhập (inputs) đến giá trị xuất (outputs).
Kiến trúc phẳng (flat architecture) : Mạng phân loại đơn giản nhất ( còn gọi
là mạng logic) có một đơn vị xuất là kích hoạt kết quả (logistic activation) và không
có lớp ẩn, kết quả trả về ở dạng hàm (functional form) tương đương với mô hình hồi
quy logic. Thuật toán tìm kiếm chia nhỏ mô hình mạng để thích hợp với việc điều
chỉnh mô hình ứng với tập huấn luyện. Ví dụ, chúng ta có thể học trọng số trong
mạng kết quả (logistic network) bằng cách sử dụng không gian trọng số giảm dần
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 21 Ngành: Công nghệ thông tin
(gradient descent in weight space) hoặc sử dụng thuật toán interated-reweighted
least squares là thuật toán truyền thống trong hồi quy (logistic regression).
Kiến trúc mô dun (modular architecture ): Việc sử dụng một hay nhiều lớp ẩn

của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệ
giữa những biến nhập và biến xuất. Mỗi lớp ẩn học để biểu diễn lại dữ liệu đầu vào
bằng cách khám phá ra những đặc trưng ở mức cao hơn từ sự kết hợp đặc trưng ở
mức trước.
Hình 1.3 Kiến trúc mô đun (Modular architecture). Các kết quả của mạng
con sẽ là giá trị đầu vào cho mạng siêu chủ đề và được nhân lại với nhau để dự đoán
chủ đề cuối cùng
Công thức chính
Trong công trình của Wiener et al (1995) dựa theo khung của mô hình hồi
quy, liên quan từ đặc trưng đầu vào cho đến kết quả gán chủ đề tương ứng được học
từ tập dữ liệu. Do vậy, để phân tích một cách tuyến tính, tác giả dùng hàm sigmoid
sau làm hàm truyền trong mạng neural :
p=
n
e
−
+1
1
Trong đó,
x
T
βη
=
là sự là sự kết hợp của những đặc trưng đầu vào và p phải
thỏa điều kiện p∈ (0,1)
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 22 Ngành: Công nghệ thông tin
Linear Least Square Fit (LLSF)

LLSF là một cách tiếp cận ánh xạ được phát triển bởi Yang và Chute vào
năm 1992 [Yang & Chute, 1992] Đầu tiên, LLSF được Yang và Chute thử nghiệm
trong lĩnh vực xác định từ đồng nghĩa sau đó sử dụng trong phân loại vào năm 1994
[Yang & Chute, 1994]. Các thử nghiệm của Ỵang cho thấy hiệu suất phân loại của
LLSF có thể ngang bằng với phương pháp kNN kinh điển.
Ý tưởng
LLSF sử dụng phương pháp hồi quy để học từ tập huấn luyện và các chủ đề
có sẵn [Yang & Chute, 1994]. Tập huấn luyện được biểu diễn dưới dạng một cặp
vector đầu vào và đầu ra như sau :
Vector đầu vào một văn bản bao gồm các từ và trọng số
Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân của văn bản ứng
với vector đầu vào
Giải phương trình các cặp vector đầu vào/ đầu ra, ta sẽ được ma trận đồng
hiện của hệ số hồi quy của từ và chủ đề(matrix of word-category regression
coefficients)
Công thức chính
Trong đó
A, B là ma trận đại diện tập dữ liệu huấn luyện ( các cột trong ma trận tương
ứng là các vector đầu vào và đầu ra )
F
LS
là ma trận kết quả chỉ ra một ánh xạ từ một văn bản bất kỳ vào vector của
chủ đề đã gán trọng số
Nhờ vào việc sắp xếp trọng số của các chủ đề, ta được một danh sách chủ đề
có thể gán cho văn bản cần phân loại. Nhờ đặt ngưỡng lên trọng số của các chủ đề
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 23 Ngành: Công nghệ thông tin
mà ta tìm được chủ đề thích hợp cho văn bản đầu vào. Hệ thống tự động học các

ngưỡng tối ưu cho từng chủ đề, giống với kNN. Mặc dù LLSF và kNN khác nhau về
mặt thống kê, nhưng ta vẫn tìm thấy điểm chung ở hoạt động của hai phương pháp
là việc học ngưỡng tối ưu.
Centroid- based vector
Là một phương pháp phân loại đơn giản, dễ cài đặt và tốc độ nhanh do có độ
phức tạp tuyến tính O(n) [Han, Karypis 2000]
Ý tưởng
Mỗi lớp trong dữ liệu luyện sẽ được biểu diễn bởi một vector trọng tâm. Việc
xác định lớp của một văn bản thử bất kì sẽ thông qua viêc tìm vector trọng tâm nào
gần với vector biểu diễn văn bản thử nhất. Lớp của văn bản thử chính là lớp mà
vector trọng tâm đại diện. Khoảng cách được tính theo độ đo cosine.
Công thức chính
Công thức tính vector trọng tâm của lớp i
∑
∈
=
}{
}{
1
id
ji
j
d
i
C
Độ đo khoảng cách giữa vector
x
và
i
C

Trong đó :
x
là vector văn bản cần phân loại
{i} là tập hợp các văn bản thuộc chủ đề
i
C
Chủ để của
x
là C
x
thoả mãn cos(
x
,
Cx
)=argmax(cos(
x
,
i
C
))
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 24 Ngành: Công nghệ thông tin
3.1.3 Các phương pháp tóm tắt văn bản tiếng Việt
Trong sự bùng nổ của công nghệ thông tin như hiện nay, vấn đề khai thác các
dữ liệu càng trở lên khó khăn, mục đích của việc xây dựng hệ thống tóm tắt văn bản
tự động, cụ thể là văn bản báo cáo tiếng Việt sẽ mang tới cho mọi người những
luồng thông tin cô đọng hơn. Tóm tắt văn bản tức là giữ lại được phần trọng tâm của
văn bản, dễ dàng hơn trong việc chắt lọc những thông tin, đồng thời góp phần nhanh

chóng hơn trong việc sắp xếp, phân loại, tìm kiếm các văn bản theo các chủ đề khác
nhau (thay vì dựa trên các văn bản gốc vừa phức tạp và mất thời gian). Hiện nay,
trên thế giới nhiều tác giả đề ra các phương pháp tóm tắt văn bản dựa trên những
thuật toán khác nhau: Edmundson [6], Kupiec et al [12], Teufel and Moens [12],
Mani and Bloedorn [12], Myaeng and Yang[12], phương pháp chủ yếu khi tóm tắt
nhiều văn bản theo nhiều chủ đề khác nhau là tiến hành phân loại văn bản theo chủ
đề (áp dụng thuật toán phân loại Naïve Bayes[2] hoặc thuật toán Edmundson ) rồi
tiến hành tóm tắt văn bản. Bên cạnh đó một số công trình nghiên cứu về tạo tóm tắt
tự động các văn bản tiếng Anh, Nhật, Hoa [1], [8] tiêu biểu như: William B.Cavnar
(1994) đã biểu diễn văn bản dựa trên n-gram thay cho cách biểu diễn truyền thống
bằng từ khóa. Chinatsu Aone (1997) đã phát triển hệ DimSum để tóm tắt văn bản sử
dụng xử lý ngôn ngữ tự nhiên và kỹ thuật thống kê dựa trên hệ số tf-idf. Tác giả
cũng đã sử dụng WordNet để xem xét ngữ nghĩa của từ và đề xuất một số kỹ thuật
lượng giá. Jaine Carbonell (1998) đã tóm tắt văn bản bằng cách xếp hạng các câu
trội (câu chứa các ý chính của văn bản) và rút ra các câu trội. Jade Goldstein (1999)
đã phân loại tóm tắt dựa trên độ đo liên quan. Phương pháp sử dụng kết hợp giữa
ngữ học, thống kê. Mỗi câu được đặc trưng bằng các đặc tính ngữ học và độ đo
thống kê. J Larocca Neto (2000) đã tạo tóm tắt văn bản dựa trên các dãy từ trong
câu được chọn theo hệ số tf (term frequency), sau đó dùng kỹ thuật gom cụm
(clustering) để tạo tóm tắt. D. Radev (2000) đã tạo tóm tắt văn bản dựa trên trọng
tâm sau đó rút trích câu quan trọng. Yihong Gong (2001) đã đề xuất hai phương
pháp tạo tóm tắt văn bản đơn giản: tiếp cận độ đo dựa trên thống kê, tần suất và tiếp
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận
Luận văn tốt nghiệp Trang 25 Ngành: Công nghệ thông tin
cận phân tích latent semantic. J.Kathleen R (2001) sử dụng tiếp cận kiến trúc đẳng
cấp cụm và chọn câu trội trong mỗi cụm. Yoshio Nakao (2001) đã tạo tóm tắt văn
bản tiếng Nhật. Có hai phương pháp là rút câu dựa trên từ khóa và rút câu dựa trên
kiến trúc ngữ nghĩa trong đó có xây dựng độ đo mối liên kết giữa hai từ. M. Mitra

(2002) đã đề xuất phương pháp tạo tóm tắt dựa trên việc trích rút các đoạn văn quan
trọng bao gồm việc tạo bản đồ quan hệ văn bản dùng các đoạn văn, phân tích bản đồ
quan hệ của các văn bản để ấn định đoạn văn nào là quan trọng nhất. Trong lĩnh vực
xử lý văn bản tiếng Việt, cũng có nhiều thành tựu như các công trình của Nguyễn
Minh Huyền (2003) về cách gán nhãn từ loại, công trình của Đinh Điền, Hoàng
Kiếm, Nguyễn Văn Toàn (2001) về tách từ tiếng Việt, công trình của Đỗ Phúc và
Trần Thế Lân (2004) về phân loại văn bản tiếng Việt dựa trên tập thô. Công trình
của Đỗ Phúc và Hoàng Kiếm nghiên cứu về trích rút các ý chính từ văn bản hỗ trợ
tạo tóm tắt văn bản tiếng Việt dựa trên việc sử dụng cây hậu tố để phát hiện các dãy
từ phổ biến trong các câu của văn bản.
Kết luận
Các thuật toán phân loại, tóm tắt trên từ thuật toán phân loại 2 lớp (SVM)
đến các thuật toán phân loại đa lớp (kNN) đều có điểm chung là yêu cầu văn bản
phải được biểu diễn dưới dạng vector đặc trưng. Ngoài ra các thuật toán như
kNN,NB,LLSF đều phải sử dụng các ước lượng tham số và ngưỡng tối ưu trong khi
đó thuật toán SVM có thể tự tìm ra các tham số tối ưu này. Trong các phương pháp
SVM là phương pháp sử dụng không gian vector đặc trưng lớn nhất (hơn 10000
chiều) trong khi đó chỉ là 2000 đối với NB, 2415 cho kNN và LLSF, 1000 cho Nnet
[Yang, 1997]. Thời gian huấn luyện cũng khác nhau đối với từng phương pháp,
Nnet (sử dụng mỗi mạng tương ứng một chủ đề) và SVM là hai phương pháp có
thời gian huấn luyện lâu nhất trong khi đó kNN,NB,LLSF và Centroid là các
phương pháp có tốc độ (thời gian huấn luyện, phân loại) nhanh và cài đặt dễ dàng.
Về hiệu suất, dựa vào thử nghiệm của Yang [Yang, Liu, 1997] trên tập dữ liệu
Sinh viên thực hiện:
Đỗ Đức Cường Lớp C4 -Tin
Nguyễn Đình Luận

Xây dựng mô hình khai phá văn bản tiếng Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về