Tải bản đầy đủ (.doc) (92 trang)

XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.36 MB, 92 trang )

Website: Email : Tel : 0918.775.368
XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG
VĂN BẢN TIẾNG VIỆT
DANH MỤC TỪ VIẾT TẮT
STT Từ viết tắt Giải nghĩa
1. KDD
Knowledge Discovery in Databases
Phát hiện tri thức trong cơ sở dữ liệu
2. TFxIDF
Term Frequency times Inverse Document Frequency
3 IR
Hệ thu thập thông tin
Information Retrieval
4. NLP
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
5. SVM
Support Vector Machine
Mô hình máy vector hỗ trợ
6. CFG
Context Free Grammar
Văn phạm phi ngữ cảnh
7. CSDL Cơ sở dữ liệu
8. POS
Part of Speech
Từ loại
9. RST
Rhetorical Structure Theory
Lý thuyết cấu trúc tu từ
1
Website: Email : Tel : 0918.775.368


STT Từ viết tắt Giải nghĩa
10 HMM
Hidden Markov Model
Mô hình Markov ẩn
2
Website: Email : Tel : 0918.775.368
DANH MỤC HÌNH VẼ
3
Website: Email : Tel : 0918.775.368
MỤC LỤC
DANH MỤC TỪ VIẾT TẮT...............................................................................1
DANH MỤC HÌNH VẼ.......................................................................................3
MỤC LỤC............................................................................................................4
LỜI NÓI ĐẦU......................................................................................................8
Chương 1. KHAI PHÁ VĂN BẢN...................................................................11
1.1. Khai phá dữ liệu................................................................................................11
1.2. Khai phá văn bản..............................................................................................12
1.3. Biểu diễn văn bản..............................................................................................13
1.3.1. Mô hình boolean........................................................................................................14
1.3.2. Mô hình không gian vector.......................................................................................14
a. Mô hình không gian vector chuẩn...................................................................14
b. Kỹ thuật TFxIDF.............................................................................................15
c. Mô hình vector thưa và các mô hình không gian vector khác.........................16
1.3.3. Các mô hình biểu diễn văn bản khác.....................................................................17
a. Mô hình Xác suất.............................................................................................17
b. Mô hình Mạng Bayes......................................................................................17
c. Mô hình tập thô dung sai.................................................................................18
1.4. Các bài toán Khai phá văn bản điển hình.........................................................18
1.4.1. Bài toán Phân lớp văn bản......................................................................................18
1.4.2. Bài toán Phân nhóm văn bản..................................................................................19

1.4.3. Bài toán Đánh chỉ mục - Tìm kiếm........................................................................20
1.4.4. Bài toán Tóm tắt văn bản .......................................................................................20
1.5. Kết chương........................................................................................................21
Chương 2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN..................................................22
2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên............................................................22
2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên..............................................24
2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu......................................................24
2.2.2. Gán nhãn từ loại........................................................................................................25
2.2.3. Phân tích cú pháp......................................................................................................26
4
Website: Email : Tel : 0918.775.368
2.2.4. Phân tích ngữ nghĩa...................................................................................................27
2.3. Các đặc trưng ngôn ngữ của tiếng Việt............................................................27
2.3.1 Đặc trưng về ngữ âm và âm vị..................................................................................27
2.3.2 Đặc trưng về từ pháp và hình thái...........................................................................28
2.3.3. Đặc trưng về ngữ pháp............................................................................................29
2.4. Kết chương........................................................................................................31
Chương 3. BÀI TOÁN TÓM TẮT VĂN BẢN................................................32
3.1. Giới thiệu chung................................................................................................32
3.1.1. Tóm tắt văn bản là gì ?.............................................................................................33
3.1.2. Các tiêu chí đánh giá.................................................................................................35
3.1.3. Phân loại bài toán Tóm tắt văn bản........................................................................36
3.2. Mô hình Tóm tắt văn bản..................................................................................39
3.2.1. Mô hình chung...........................................................................................................39
3.2.2. Các phương pháp áp dụng trong pha Phân tích....................................................41
3.2.2.1. Phương pháp thống kê (Statistical Methods)...........................................42
3.2.2.2 . Phương pháp cấu trúc.............................................................................43
3.2.2.3. Kết luận về các phương pháp trong pha Phân tích..................................45
3.2.3. Các phương pháp áp dụng trong pha Biến đổi......................................................46
3.2.3.1. Giản lược về cấu trúc câu ( Syntactic Condensation ).............................46

3.2.3.2. Giản lược về mặt ngữ nghĩa ( Semantic Condensation).........................47
3.2.3.3. Kết luận về các phương pháp trong pha Biến đổi...................................49
3.2.4. Các phương pháp áp dụng trong pha Generation.................................................49
3.2.4.1. Phương pháp hiển thị phân đoạn ( Segmental Display ).........................50
3.2.4.2. Phương pháp Hiển thị..............................................................................51
3.2.4.3. Kết luận về các phương pháp trong pha Hiển thị....................................51
3.3. Đánh giá kết quả tóm tắt...................................................................................52
3.3.1. Đánh giá bên trong (Intrinsic Evaluation).............................................................53
3.3.1.1. Độ chặt chẽ mạch lạc ( Coherence ).......................................................53
3.3.1.2. Độ hàm chứa thông tin ( Informationess )...............................................53
3.3.2. Đánh giá bên ngoài ( Extrinsic Evaluation )...........................................................53
3.3.2.1. Độ phù hợp ( Relevance )........................................................................53
5
Website: Email : Tel : 0918.775.368
3.3.2.2. Độ dễ đọc dễ hiểu ( Reading Comprehence ).........................................53
3.3.3. So sánh đánh giá bên trong - bên ngoài ................................................................54
3.3.4. Các phương pháp đánh giá.......................................................................................54
3.3.4.1. Độ chính xác (Precision ) và độ hồi tưởng (Recall)................................54
3.3.4.2. Đánh giá độ tương tự về nội dung (Content-based Similarity)...............55
3.3.4.2. Độ tương quan phù hợp (Relevance Correlation)...................................55
3.3.6. Các hệ đánh giá ứng dụng tóm tắt văn bản..........................................................56
3.4. Một số hệ thống tóm tắt văn bản trên thế giới...................................................56
3.5. Kết chương........................................................................................................59
Chương 4. XÂY DỰNG ỨNG DỤNG TÓM LƯỢC VĂN BẢN TIẾNG
VIỆT....................................................................................................................60
4.1. Mô hình xây dựng ứng dụng.............................................................................60
4.2. Cài đặt tiền xử lý văn bản tiếng Việt.................................................................62
4.2.1. Chuẩn hóa văn bản....................................................................................................62
4.2.2. Mô hình hóa văn bản.................................................................................................62
4.2.3. Tách thuật ngữ...........................................................................................................63

4.3. Lựa chọn, cài đặt các kĩ thuật sử dụng trong bài toán Tóm tắt .......................67
4.3.1. Các phương pháp trong pha Phân tích...................................................................67
a. Phương pháp Title............................................................................................67
b. Phương pháp Heading......................................................................................68
c. Phương pháp NamedEntity - NE.....................................................................69
d. Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence).............................70
e. Phương pháp Tần suất xuất hiện của thuật ngữ................................................71
f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency)
..............................................................................................................................72
4.3.2. Các phương pháp trong pha Biến đổi.....................................................................73
4.3.2.1. Biến đổi nhờ vào rút gọn câu.................................................................73
4.3.2.2. Giản lược câu về mặt ngữ nghĩa..............................................................75
4.3.3. Các phương pháp trong pha Hiển thị.....................................................................76
4.4. Kết chương........................................................................................................76
6
Website: Email : Tel : 0918.775.368
Chương 5. KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG...................................77
5.1. Giao diện kết quả thực nghiệm.........................................................................77
5.2. Tập kiểm thử.....................................................................................................82
5.3. Kết quả kiểm thử và đánh giá............................................................................83
5.3.1. Kiểm thử thuật toán tách term tiếng Việt..............................................................83
5.3.2. Kiểm thử thuật toán tách named Entity.................................................................84
5.3.3. Kiểm thử, đánh giá module chọn câu quan trọng................................................84
5.3.3.1. Phương pháp truyền thống......................................................................85
5.3.3.2. Phương pháp đánh giá theo độ tương tự nội dung..................................86
5.3.4. Kiểm thử đánh giá rút gọn câu................................................................................87
7
Website: Email : Tel : 0918.775.368
LỜI NÓI ĐẦU
Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin. Chính sự phát

triển nhanh chóng của Công nghệ thông tin và Truyền thông đã đem lại cho thế giới của
chúng ta bộ mặt mới. Các ứng dụng của Công nghệ thông tin - Truyền thông đã hiện
diện trong hầu hết các ngành, các lĩnh vực của cuộc sống, kéo theo chúng là những thay
đổi đáng kể. Nền kinh tế tri thức, hợp tác toàn cầu, những công việc quản lý, vận hành
những hoạt động từ vi mô tới vĩ mô của doanh nghiệp, tin học hóa quy trình hành chính,
điều khiển tác nghiệp, giải trí, liên lạc, trợ giúp... là những ứng dụng tiêu biểu của Công
nghệ Thông tin và Truyền thông. Đặc biệt, sự ra đời của Internet - Mạng thông tin toàn
cầu - được coi là nguyên nhân chính, thúc đẩy sự bùng nổ thông tin trên toàn thế giới.
Những lợi ích mà Internet mang lại quá lớn khiến chúng ta phụ thuộc nhiều vào nó.
Những người biết sử dụng linh hoạt và đúng đắn những lợi thế này sẽ phần nào vượt lên
trên những thách thức của nền kinh tế tri thức toàn cầu để thu được những thành công
trong công việc cũng như cuộc sống. Thông qua Internet, những thông tin quý giá về
mọi lĩnh vực đều sẵn sàng đợi chúng ta khám phá và lĩnh hội.
Trong thế giới thông tin đa dạng phong phú như vậy, nhu cầu thu thập được
những thông tin cần thiết, có giá trị đồng thời xử lý chúng thành dạng dữ liệu mong
muốn là nhu cầu chính đáng và cấp thiết của nhân loại. Lĩnh vực của Công nghệ thông
tin có thể đáp ứng những nhu cầu to lớn này là Khai phá dữ liệu.
Khai phá dữ liệu, vốn chỉ là một giai đoạn trong bảy giai đoạn của quá trình Phát
hiện tri thức trong cơ sở dữ liệu, tuy nhiên, do là giai đoạn chính yếu, nên chúng ta
thường đồng nhất, hay nói chính xác hơn là lấy Khai phá dữ liệu làm đại diện cho cả quá
trình Phát hiện tri thức trong cơ sở dữ liệu. Và vì vậy, Khai phá dữ liệu được hiểu như
một quá trình lấy ra các thông tin quan trọng từ các dạng CSDL, biến đổi, xử lý chúng
nhằm phục vụ những mục đích cụ thể của con người. Các phương pháp thường dùng
trong Khai phá dữ liệu là các phương pháp Trích chọn, Thống kê hay Phân loại... Do
phần lớn dữ liệu ở dạng văn bản nên một lĩnh vực nhỏ hơn là Khai phá văn bản được
quan tâm chú ý hơn cả. Và trong đồ án này, em xin đề cập tới Khai phá văn bản như là
tiền đề cho việc giải quyết bài toán Tóm tắt văn bản.
Khai phá dữ liệu - Khai phá văn bản tuy ra đời muộn nhưng đã đạt được nhiều
thành tựu đáng kể và tất nhiên cũng đóng góp rất nhiều cho ngành Khoa học máy tính.
Trên thế giới cũng như ở Việt Nam, các vấn đề của Khai phá văn bản đã và đang được

tìm hiểu nghiên cứu cũng như xây dựng các ứng dụng mang tính thực tiễn cao. Tuy
nhiên, vẫn còn rất nhiều vấn đề cần phải giải quyết, đặc biệt là ở Việt Nam, khi Khai phá
văn bản mới được chúng ta quan tâm tới trong khoảng chục năm trở lại đây. Các bài toán
điển hình của Khai phá văn bản như Phân lớp văn bản, Phân nhóm văn bản hiện mới
trong quá trình nghiên cứu, chưa có một sản phẩm nào mang tính thương mại trên thị
8
Website: Email : Tel : 0918.775.368
trường. Một bài toán khác của Khai phá văn bản là Thu thập thông tin đã được cài đặt
thành các ứng dụng tìm kiếm trên mạng như các bộ máy tìm kiếm của Netnam
(PanVietNam) hay Tinh Vân (Vinaseek). Nhưng những ứng dụng như vậy còn quá ít và
chưa đáp ứng đầy đủ cho các nhu cầu to lớn của nền Công nghệ thông tin Việt Nam.
Trong khi lĩnh vực Khai phá dữ liệu mới trở thành đề tài nóng bỏng, cấp thiết gần
đây do sự bùng nổ thông tin toàn cầu thì trong ngành Khoa học máy tính, có một lĩnh
vực khác đã ra đời cách đây khá lâu, và cũng đã có nhiều thành tựu trong suốt quá trình
phát triển của mình. Đó là lĩnh vực Xử lý ngôn ngữ tự nhiên. Mục đích của Xử lý ngôn
ngữ tự nhiên là giúp cho máy tính và con người hiểu nhau hơn, thuận tiện hơn trong quá
trình làm việc và đem lại lợi ích tối đa cho con người. Thông qua các giao tiếp thân
thiện, dễ hiểu giữa người và máy, việc đưa Công nghệ thông tin thật sự đi vào đời sống
nhân loại là mục tiêu lớn nhất mà Xử lý ngôn ngữ tự nhiên hướng tới.
Xử lý ngôn ngữ tự nhiên là quá trình xử lý sao cho máy tính có thể hiểu được một
thông tin giống như cách mà con người hiểu thông tin đó thông qua các khía cạnh ngôn
ngữ bao hàm trong nó. Theo định nghĩa này thì Xử lý ngôn ngữ tự nhiên là một phần của
Trí tuệ nhân tạo - làm cho máy tính nắm bắt, thao tác, mô phỏng cách mà con người thực
hiện. Vì vậy các phương pháp của Trí tuệ nhân tạo thường được dùng trong lĩnh vực Xử
lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng của ngành ngôn ngữ học như hình thái,
ngữ pháp, ngữ nghĩa… Các bài toán điển hình của Xử lý ngôn ngữ tự nhiên là Trả lời tự
động, Dịch máy, Sinh văn bản tự động, Kiểm tra chính tả…
Như vậy, hai lĩnh vực Khai phá dữ liệu và Xử lý ngôn ngữ tự nhiên có nhiều
điểm khác biệt mặc dù cùng sử dụng một số các phương pháp của Trí tuệ nhân tạo. Nói
đến Khai phá dữ liệu là nói đến việc tìm ra thông tin quan trọng, thông tin mong muốn

từ một lượng lớn dữ liệu, còn nói đến Xử lý ngôn ngữ tự nhiên là nói đến việc máy tự
phân tích và hiểu những khía cạnh ngôn ngữ trong thông tin cụ thể. Tuy nhiên, có một
bài toán điển hình của Khai phá dữ liệu có sử dụng rất nhiều những khái niệm, mô hình,
phương pháp của Xử lý ngôn ngữ tự nhiên, đó là bài toán Tóm tắt văn bản.
Bài toán tóm tắt văn bản thật ra đã được coi là một vấn đề của Xử lý ngôn ngữ tự
nhiên khi nó lần đầu tiên được đề cập và nghiên cứu một cách nghiêm túc trong bài báo
khoa học của Luhn vào năm 1958 [17] và tiếp đó là của Edminson vào năm 1969 [21].
Như vậy, Tóm tắt văn bản đã ra đời trước khi có sự ra đời của Khai phá văn bản ! Và khi
Khai phá văn bản ra đời, dựa trên những đặc điểm của nó, người ta mới xếp Tóm tắt văn
bản vào lĩnh vực mới mẻ này.
Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một
nguồn để tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ
thể. Tóm tắt văn bản làm nhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan
trọng nên về bản chất nó thuộc lĩnh vực của Khai phá văn bản. Tuy nhiên trong quá trình
chắt lọc, rút gọn thì cần có sự áp dụng của các phương pháp Xử lý ngôn ngữ tự nhiên
nếu muốn kết quả ra là một văn bản dễ đọc, dễ hiểu và mang ý nghĩa ngôn ngữ tự nhiên
9
Website: Email : Tel : 0918.775.368
như đầu vào của nó. Tóm tắt văn bản có rất nhiều ứng dụng trong ngành Công nghệ
thông tin cũng như Ngôn ngữ học và một số ngành khác. Trên thế giới đã có rất nhiều
các ứng dụng Tóm tắt văn bản, với những mục đích nghiên cứu cũng như thương mại.
Mặc dù vậy, do những khó khăn và thách thức riêng, Tóm tắt văn bản hiện nay chưa
được nghiên cứu nhiều ở Việt Nam so với các bài toán điển hình khác trong lĩnh vực
Khai phá văn bản. Chính vì lý do này em đã chọn Tóm tắt văn bản tiếng Việt là đề tài đồ
án tốt nghiệp, mong muốn góp một phần công sức cho sự phát triển của Khai phá văn
bản tiếng Việt nói riêng và Công nghệ thông tin Việt Nam nói chung.
Trong đồ án này em muốn trình bày những kết quả tìm hiểu về bài toán Tóm tắt
văn bản và bước đầu xây dựng một Ứng dụng tóm tắt văn bản tiếng Việt, sử dụng kết
hợp các phương pháp của Khai phá văn bản và Xử lý ngôn ngữ tự nhiên có xét tới những
đặc trưng về ngôn ngữ của tiếng Việt.

Đồ án gồm các phần sau :
Chương 1. Trình bày về lĩnh vực Khai phá dữ liệu nói chung và Khai phá văn bản
nói riêng, các vấn đề mô hình hóa văn bản cũng như đề cập sơ qua một số bài toán Khai
phá văn bản điển hình.
Chương 2. Trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên, các vấn đề chung của
Xử lý ngôn ngữ tự nhiên, các đặc trưng ngôn ngữ tiếng Việt cũng như các vấn đề riêng
khi xử lý tự động văn bản tiếng Việt.
Chương 3. Trình bày những vấn đề cơ bản về bài toán Tóm tắt văn bản, bao gồm
mô tả khái niệm chung và phân loại một bài toán Tóm tắt văn bản, lịch sử phát triển và
những ứng dụng của Tóm tắt văn bản, mô hình chung và các phương pháp xây dựng
một ứng dụng Tóm tắt văn bản…
Chương 4. Trình bày việc thiết kế và xây dựng ứng dụng tóm lược văn bản tiếng
Việt VTAS dựa trên một số phương pháp trong các phương pháp đã nêu ở chương 3.
Ngoài ra trong chương này, những cài đặt tiền xử lý văn bản cũng được em đề cập đến
với những nét mới so với các công việc tương tự trước đây của một số nhà nghiên cứu
lĩnh vực Khai phá văn bản tiếng Việt.
Chương 5. Trình bày việc kiểm thử và đánh giá ứng dụng VTAS, các kết quả
thực nghiệm của chương trình.
Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này.
Cuối cùng là phần tài liệu tham khảo và các phụ lục của đồ án.
10
Website: Email : Tel : 0918.775.368
Chương 1. KHAI PHÁ VĂN BẢN
Trong chương này em xin trình bày những vấn đề cơ bản của lĩnh vực Khai
phá dữ liệu và Khai phá văn bản :
 Khái niệm chung về Khai phá dữ liệu và Khai phá văn bản
 Các mô hình biểu diễn văn bản
 Một số bài toán điển hình của lĩnh vực Khai phá văn bản
1.1. Khai phá dữ liệu
Khai phá dữ liệu, thuật ngữ mới ra đời từ đầu những năm 90 của thế kỷ trước,

ban đầu được dùng để nói đến quá trình phát hiện, trích rút ra những thông tin hữu dụng
từ một lượng lớn dữ liệu lưu trữ trong các loại cơ sở dữ liệu khác nhau [22].
Vào những năm trở lại đây, một khái niệm mới ra đời, đó là khái niệm Phát hiện
tri thức trong cơ sở dữ liệu ( Knowledge Discovery in Databases). Quá trình Phát hiện
tri thức trong cơ sở dữ liệu gồm bảy giai đoạn [22]:
• Làm sạch dữ liệu trước khi thu thập (Data cleaning)
• Tích hợp dữ liệu từ các nguồn khác nhau (Data Integration)
• Chọn lựa dữ liệu ứng viên (Data Selection)
• Biến đổi dữ liệu thành dạng chuẩn để xử lý (Data Transformation)
• Khai phá dữ liệu (Data Mining)
• Đánh giá kết quả (Evaluation)
• Biểu diễn tri thức (Knowledge Presentation)
Như vậy Khai phá dữ liệu chỉ là một trong bảy giai đoạn của quá trình Phát hiện
tri thức trong cơ sở dữ liệu. Tuy nhiên đây là giai đoạn chính nên sau này người ta
thường đồng nhất hai khái niệm Khai phá dữ liệu và Phát hiện tri thức trong cơ sở dữ
liệu. Cả hai thuật ngữ này hiện nay dùng để chỉ quá trình phân tích một lượng lớn dữ liệu
để tìm ra tri thức tiềm ẩn trong đó.
Định nghĩa này hàm chứa nhiều điều. Tri thức, khái niệm ở mức cao nhất trong
mục phân cấp Dữ liệu - Thông tin - Tri thức, dùng để chỉ những dữ liệu có quan hệ với
nhau, mang tính định hướng tập trung (thông tin), đồng thời qua đó chúng ta có thể thấy
được tính chủ động và những vận động quá khứ cũng như xu hướng tương lai của thông
tin đó. Quá trình Khai phá dữ liệu không chỉ dừng ở mức độ phát hiện mà nó thực hiện
việc phân tích dữ liệu, để tìm ra những tri thức chưa từng được biết đến trước đó. Người
11
Website: Email : Tel : 0918.775.368
ta không xếp những câu truy vấn cơ sở dữ liệu vào các kỹ thuật Khai phá dữ liệu bởi vì
chúng chỉ giúp ta lấy ra những dữ liệu đã được xác định, tiền xử lý sắp xếp từ trước
trong một không gian lưu trữ rộng lớn như các cơ sở dữ liệu mà thôi. Điều này cũng có
nghĩa là, một bộ máy tìm kiếm (Search Engine) nếu chỉ thực hiện chức năng tìm kiếm
đơn thuần trên các cơ sở dữ liệu phẳng thì không thực sự là một ứng dụng Khai phá dữ

liệu như chúng ta vẫn từng nghĩ từ trước đến nay.
Các ứng dụng Khai phá dữ liệu hiện tại đã tiến xa trong các môi trường thương
mại cũng là vì khả năng dự đoán được các xu hướng tương lai của một thông tin cần
quan tâm - khía cạnh nổi bật của tri thức. Oracle, IBM, Yahoo, Microsoft đã tích hợp
những nghiên cứu Khai phá dữ liệu hết sức nghiêm túc và thành công của mình vào các
họ sản phẩm, các nền tảng (Platform) dành cho các doanh nghiệp cỡ lớn cũng như các
ứng dụng phổ biến cho cá nhân người dùng. Các kỹ thuật của Khai phá dữ liệu cũng
được áp dụng rộng rãi trong Data warehousing - quá trình lưu trữ và quản lý tập trung
các cơ sở dữ liệu khác nhau bằng các công cụ quản lý tiên tiến trong việc lưu trữ, truyền
tải, phân tích và khai thác dữ liệu với dung lượng lưu trữ cực lớn và tốc độ xử lý cực
mạnh.
1.2. Khai phá văn bản
Trong cơ sở dữ liệu, phần lớn dữ liệu ở dạng văn bản. Lĩnh vực con của Khai phá
dữ liệu áp dụng với dữ liệu văn bản phi cấu trúc được gọi là Khai phá văn bản (Text
Mining). Các kỹ thuật chính của Khai phá văn bản là Nhận dạng mẫu, Trích rút đặc
trưng, Thống kê tần suất từ khóa, Phân loại…, các phương pháp Trí tuệ Nhân tạo như
Học máy, Mạng Nơ-ron, Giải thuật Di truyền…, các phương pháp Xử lý ngôn ngữ tự
nhiên…
Khai phá văn bản do làm việc với các dữ liệu phi cấu trúc nên cần phải có
phương tiện để mô hình hóa chúng, tiền xử lý cho các bước tiếp theo. Nói chung Khai
phá văn bản gồm các bước: Thu thập dữ liệu ở dạng văn bản, làm sạch chúng, phân tích
biến đổi, lấy thông tin và hiển thị thông tin.
Mô hình chung của Khai phá văn bản :
12
Website: Email : Tel : 0918.775.368
Hình 1.1: Mô hình khai phá văn bản chung
Công việc thu thập và công việc làm sạch dữ liệu văn bản có thể diễn ra theo thứ
tự thu thập trước, làm sạch sau và cũng có thể ngược lại tùy yêu cầu. Thậm chí, việc thu
thập và làm sạch còn được lặp đi lặp lại nhiều lần để có được một kết quả tối ưu cho các
bước tiếp. Do vậy quá trình thu thập – làm sạch là quá trình chung và hết sức quan trọng

của các bài toán thuộc lĩnh vực Khai phá văn bản.
Ngoài việc thu thập và làm sạch dữ liệu văn bản thì việc tìm kiếm đối sánh văn
bản cũng là một công việc cốt lõi, không thể thiếu trong tất cả các bài toán Khai phá văn
bản. Trong đó các văn bản được thu thập thường có sự liên quan hay tương tự với nhau.
Độ liên quan hay tương tự thường được định lượng thông qua sự giống nhau về từ ngữ,
về nghĩa hoặc theo một tiêu chí nào đó.
Các bài toán điển hình của lĩnh vực Khai phá văn bản bao gồm : Phân lớp văn
bản, Phân loại văn bản, Đánh chỉ mục - Tìm kiếm và Tóm tắt văn bản. Các bài toán này
chúng ta sẽ đi sâu hơn ở phần sau.
1.3. Biểu diễn văn bản
Như chúng ta đã nói ở phần trước, văn bản thông thường là dạng dữ liệu phi cấu
trúc, do vậy muốn xử lý chúng, trước hết phải biểu diễn chúng thành những dạng có cấu
trúc. Bên cạnh đó, việc xác định mối liên quan và thực hiện các phép biến đổi, ánh xạ
văn bản cũng đòi hỏi những dạng này phải có khả năng thao tác bằng những phép toán
cơ bản như các phép cộng, nhân, đại số quan hệ…và các phép toán phức tạp khác. Trên
13
Website: Email : Tel : 0918.775.368
thực tế, có ba mô hình thường được sử dụng để biểu diễn văn bản, tất nhiên các mô hình
này đều thỏa mãn những yêu cầu kể trên. Đó là Mô hình boolean, Mô hình không gian
vector và Mô hình tập thô dung sai.
1.3.1. Mô hình boolean
Trong mô hình boolean, văn bản, vốn là tập hợp của các term ( thuật ngữ ), được
biểu diễn bởi chỉ số từng term và trọng số của chúng. Trọng số của từng term - dùng để
đánh giá độ quan trọng của chúng - trong mô hình này chỉ mang hai giá trị 0 và 1, tùy
theo sự xuất hiện của term đó trong văn bản. Trong khi đó, câu truy vấn bao gồm các
văn bản tìm kiếm liên hệ với nhau thông qua các phép đại số quan hệ cơ bản như NOT
(phủ định), AND (và) hay OR (hoặc). Thông qua mô hình Dạng chuẩn phân biệt
(Disjunctive Normal Form), câu truy vấn có thể biểu diễn thành dạng vector với các
thành phần liên kết và các phép toán quan hệ cơ bản như trên [1,6].
Từ đây, độ liên quan giữa một văn bản và truy vấn được xác định thông qua các

thành phần liên kết. Độ liên quan này chỉ có thể mang hai giá trị : 0 – văn bản không phù
hợp với truy vấn và 1 – văn bản phù hợp.
Do vậy có thể thấy rằng hạn chế lớn nhất của mô hình này đó là việc đánh giá độ
liên quan chỉ trả về hai kết quả, hoặc phù hợp hoặc không, như vậy yêu cầu của hệ thống
khi cần sắp xếp và chọn lựa các văn bản theo mức độ liên quan đến truy vấn sẽ không
đạt. Độ liên quan của mô hình này không thể phân chia thành các mức khác nhau, do vậy
không phản ánh được thực tế là việc liên quan giữa văn bản và truy vấn có thể là mờ,
không chắn chắn. Hạn chế này được gỡ bỏ khi ta sử dụng một mô hình tổng quát hơn –
Mô hình không gian vector (Vector Space Model).
1.3.2. Mô hình không gian vector
a. Mô hình không gian vector chuẩn
Như trên đã đề cập, mô hình không gian vector là mô hình tổng quát hơn mô hình
Boolean. Các văn bản được biểu diễn thành các vector nhiều chiều, với trọng số không
chỉ mang hai giá trị là 0 hay 1 mà có thể mang các giá trị khác tùy theo cách đánh giá,
tính toán. Một khác biệt nữa so với mô hình boolean là các phép toán cơ bản của mô
hình không gian vector. Các phép toán đại số quan hệ dĩ nhiên không phù hợp nữa, thay
vào đó là các phép toán vector như cộng hai vector, nhân hai vector, tích vô hướng…
Khi biểu diễn văn bản thành các vector, vấn đề về truy vấn và xác định độ liên
quan hoàn toàn được giải quyết. Truy vấn là kết quả của các phép toán vector giữa các
vector biểu diễn cho những văn bản cấu thành nên truy vấn, như vậy, truy vấn trong
trường hợp này cũng là một văn bản đặc biệt. Việc xác định độ liên quan giữa truy vấn
và văn bản được quy thành độ liên quan giữa văn bản và văn bản. Hai văn bản là hai
vector, vậy khoảng cách hay góc giữa chúng đều có thể đại diện cho sự liên quan giữa
hai văn bản này. Tất nhiên, để áp dụng được các phép toán vector cơ bản, hai vector cần
chuẩn hóa về số chiều (độ dài).
14
Website: Email : Tel : 0918.775.368
Biểu diễn hai văn bản lần lượt là hai vector :
x(w
1,x

,w
2,x
,….,w
n,x
) và y (w
1,y
,w
2,y
,…,w
n,y
).
Góc giữa hai vector này có thể xác địng thông qua công thức Cosine như sau :
cosine(x,y) =
∑∑

==
=


n
i
n
i
n
i
yizi
w
w
ww
yi

xi
1
2
1
2
1
,,
)(
)(
,
,
Theo cách biểu diễn như trên người ta không quan tâm đến chỉ số của một term,
vì vốn nó đã được sắp thứ tự ngay trong vector biểu diễn văn bản. Nghĩa là với vector
x(w
1,x
,w
2,x
,….,w
n,x
) kể trên, w
1,x
chính là trọng số của term có chỉ số là 1, w
2.x
là trọng số
của term có chỉ số là 2,…Việc đánh chỉ số cho term thường dựa vào một danh sách thuật
ngữ. Do vậy ta sẽ quan tâm đến việc trọng số của term được xác định ra sao. Trọng số
của term, ngoài cách gán giá trị là 0 hay 1 tùy vào sự xuất hiện của term như mô hình
boolean, người ta còn có thể gán các giá trị tần suất cho chúng. Việc gán các giá trị tần
suất cho trọng số của term cũng là một điều hợp lý vì người ta có thể đánh giá độ quan
trọng của một term thông qua tấn suất xuất hiện của term đó trong văn bản. Giá trị này

có thể đơn giản chỉ là số lần xuất hiện cuả term đó, tần suất của term đó ( số lần xuất
hiện chia cho tổng số lần xuất hiện của tất cả các term ) hay một giá trị nào khác tối ưu
hơn. Thông thường, số lần xuất hiện của một term thường được dùng như trọng số của
term trong vector văn bản chứa nó. Số lần xuất hiện này thường được biểu diễn thông
qua các hàm logarithm cơ số tự nhiên hoặc cơ số mười. Đây chính là kỹ thuật đánh trọng
số TF (Term Frequency).
b. Kỹ thuật TFxIDF
Khi nói đến sự liên quan, người ta thường dùng một kỹ thuật, được coi là tin cậy
và phản ánh chính xác độ liên quan. Đó là kỹ thuật TFxIDF.
TFxIDF, viết tắt của Term Frequency times Inverse Document Frequency, dựa
trên một nhận xét thực tế là : trong một tập các văn bản, khi xét riêng một văn bản thì
một term càng quan trọng nếu nó xuất hiện nhiều trong văn bản đó và xuất hiện ít trong
các văn bản còn lại. Rõ ràng nếu có được những điều kiện kể trên, thì term đó sẽ là một
trong những đặc trưng của văn bản, và độ quan trọng của nó càng lớn.
Gọi f
t,d
là số lần xuất hiện của term t trong văn bản d. Tần suất của term t trong
văn bản d có thể được đánh giá qua các công thức sau
Gọi N là tổng số các văn bản đang xét, n
i
là số văn bản mà trong đó term t xuất
hiện. ta có n
i
/N là tấn suất xuất hiện của t trong tất cả các văn bản. Nghịch đảo của giá
trị này, sau khi được chuẩn hóa, nhân với TF ta có :
15
Website: Email : Tel : 0918.775.368
i
ji
n

N
tf
idftfw
log
,
×=
×=

Như vậy giá trị TFxIDF có thể đại diện cho sự quan trọng, mối liên quan của term
t với một tập hợp các văn bản cho trước.
Quay lại với mô hình không gian vector, chúng ta hoàn toàn có thể dùng giá trị
TFxIDF gán cho trọng số của term. Tất nhiên khi làm như vậy thì vector biểu diễn của
một văn bản không những phụ thuộc vào từ điển và bản thân văn bản đó mà nó còn phụ
thuộc vào những văn bản còn lại trong hệ thống đang xét. Việc tính độ liên quan hoàn
toàn có thể thực hiện theo các công thức tính khoảng cách Euclidean hay Cosine như đã
nêu ở trên, tuy nhiên với một tập các văn bản ổn định, không đổi của hệ thống thì chúng
ta có thể tối ưu việc xác định độ liên quan của một văn bản và các văn bản khác.
Một trong những kỹ thuật tối ưu như sau : giả sử ta muốn xác định độ liên quan
của một văn bản d và một văn bản Di trong tập các văn bản của hệ thống, ta sẽ tính trước
độ liên quan TFxIDF của tất cả các term có trong từ điển với D
i
, lưu trữ ở đâu đó. Sau
này, ta xem các term nào có mặt trong d, tính độ liên quan của term đó với D
i
bằng cách
nhân số lần xuất hiện của nó trong d với các giá trị TFxIDF đã tính sẵn, sau đó cộng tất
cả kết quả này lại ta sẽ có được độ liên quan của văn bản d và Di. Tất nhiên, cách này sẽ
làm giảm thời gian tính toán khi xử lý nhưng đổi lại, chúng ta sẽ phải mất chi phí về tài
nguyên và thời gian khi lưu trữ các giá trị TFxIDF của tất cả các term trong từ điển với
tất cả các văn bản trong tập văn bản D. Kỹ thuật này được gọi là kỹ thuật ngoại tuyến -

offline. Khi thời gian xử lý cần phải nhanh, kỹ thuật ngoại tuyến được sử dụng. Chúng ta
sử dụng nhiều tài nguyên để lưu trữ trước một lượng lớn dữ liệu đã tính toán trước, sau
đó khi xử lý chỉ cần thực hiện một khối lượng nhỏ hơn rất nhiều, để đảm bảo mặt hiệu
suất thực thi của ứng dụng. Kỹ thuật ngoại tuyến còn được sử dụng rất rộng rãi trong các
bài toán khác của lĩnh vực Khai phá văn bản nói chung và Khai phá dữ liệu nói riêng.
Kỹ thuật TFxIDF không những dùng để biểu diễn văn bản theo mô hình vector
mà còn ứng dụng vào rất nhiều các giai đoạn khác trong những bài toán Khai phá văn
bản. Kỹ thuật này ra đời đã lâu nhưng hiện vẫn đang được dùng phổ biến bởi sự phản
ánh chính xác và tin cậy của độ đặc trưng, độ riêng biệt, độ quan trọng của các thành
phần dữ liệu. Người ta cũng đã đưa ra một số các công thức khác thuộc dạng TFxIDF và
đều mang lại những kết quả tốt.
c. Mô hình vector thưa và các mô hình không gian vector khác
Khi đề cập đến chỉ số của một term trong vector biểu diễn văn bản, chúng ta đã
nói rằng chúng đã được xác định đối với một từ điển cho trước. Tuy nhiên, theo mô hình
không gian vector chuẩn thì việc lưu trữ một vector như vậy sẽ rất lãng phí tài nguyên.
Một vector chuẩn sẽ có số chiều là số term có trong từ điển. Với một từ điển trung bình
16
Website: Email : Tel : 0918.775.368
thì số term là khoảng bảy mươi ngàn. Trong khi đó một văn bản với độ dài trung bình có
số term ít hơn rất nhiều. Các term không xuất hiện trong văn bản sẽ có trọng số là 0 và
như vậy vector biểu diễn văn bản sẽ gồm rất nhiều giá trị 0, gấp nhiều lần các giá trị
khác 0. Điều này có thể khắc phục bằng mô hình vector thưa. Một vector biểu diễn văn
bản gồm các cặp chỉ số - trọng số của các term xuất hiện trong văn bản đó (tất nhiên
trọng số trong trường hợp này luôn khác 0). Như vậy tuy ta tốn thêm tài nguyên lưu trữ
chỉ số của term nhưng chỉ phải lưu trữ số lượng term ít hơn rất nhiều. Biểu diễn là vậy,
nhưng ta hoàn toàn có thể chuyển đổi giữa mô hình vector thưa và mô hình không gian
vector chuẩn một cách nhanh chóng. Việc tính toán độ tương tự vẫn không đổi. Bản chất
của mô hình này thật đơn giản : Mỗi cặp i - di đại diện cho một vector chuẩn có trọng số
của term thứ i là di và tất cả các trọng số thành phần còn lại là 0. Vector biểu diễn văn
bản là tổng của các vector trên.

Như vậy, thay vì biểu diễn vector văn bản dạng chuẩn, chúng ta còn có thể biểu
diễn chúng thành tuyến tính các vector thành phần. Các vector này có thể là các vector
đơn vị, các vectơ trực giao, trực chuẩn. Mỗi cách chọn các vector thành phần đưa lại cho
chúng ta các mô hình không gian vector tiên tiến hơn nhằm phục vụ tốt hơn những mục
đích hay những kết quả cho các bước xử lý văn bản tiếp sau.
Một trong những cách biểu diễn tuyến tính vector thành phần đó là kỹ thuật Đánh
chỉ mục khái niệm (Concept Indexing). Thay vì đơn vị văn bản là các term, đơn vị theo
kỹ thuật này là khái niệm. Mỗi khái niệm cũng là một vector. Vector biểu diễn văn bản
là tuyến tính của các vector này. Kỹ thuật Đánh chỉ mục khái niệm không dừng lại ở việc
mô tả văn bản mà thật sự nó là một kỹ thuật mới được nghiên cứu và đưa vào áp dụng
gần đây nhằm xây dựng các giải thuật tiên tiến cho các bài toán như Phân lớp văn bản,
Phân loại văn bản v.v...
1.3.3. Các mô hình biểu diễn văn bản khác
a. Mô hình Xác suất
Mô hình xác suất biểu diễn và sắp xếp văn bản thu được theo thứ tự giảm dần
của xác suất độ liên quan giữa truy vấn và các văn bản đối tượng [3].
Mô hình xác suất thường được dùng trong bài toán Tìm kiếm văn bản truyền
thống cũng như bài toán Thu thập thông tin ( Information Retrieval - IR ).
b. Mô hình Mạng Bayes
Mô hình mạng Bayes là sự kết hợp phần nào của mô hình xác suất và lý thuyết đồ
thị. Mạng Bayes được mô tả bởi một đồ thị có hướng, trong đó các nút là các biến ngẫu
nhiên, các cung là quan hệ nhân quả giữa các biến này. Trên cung có ghi các xác suất có
điều kiện [3,6].
Mô hình mạng Bayes thường được dùng cho các phương pháp học Bayes dựa
theo lý thuyết phân loại Bayes ( Naive Bayes Classify ).
17
Website: Email : Tel : 0918.775.368
c. Mô hình tập thô dung sai
Mô hình tập thô dung sai (Tolerance Rough Set Model) là một mô hình mới, tiên
tiến dựa trên lý thuyết về logic mờ và tập mờ (Fuzzy Set). Điều cốt lõi của lý thuyết này

là việc xác định chính xác một giả thiết nào đó (ví dụ như hai văn bản này có phù hợp,
có giống nhau không...) là một điều rất khó. Tuy nhiên chúng ta có thể chỉ ra một cặp
xấp xỉ trên và xấp xỉ dưới để khẳng định được giả thiết đó là đúng. Sử dụng các suy diễn
hợp lý để xác định và "làm đẹp" các ngưỡng này. Lý thuyết Logic mờ đã và đang được
ứng dụng rất mạnh mẽ trong lĩnh vực Trí tuệ nhân tạo [3].
Mô hình tập thô gần đây được sử dụng nhiều cho các bài toán tìm kiếm cũng như
phân nhóm văn bản.. Lý thuyết tập thô được các nhà nghiên cứu Trí tuệ nhân tạo phát
triển và ngày càng thể hiện được tính ưu việt không chỉ trong việc biểu diễn và thao tác
văn bản mà còn trong các vấn đề khác của lĩnh vực này.
1.4. Các bài toán Khai phá văn bản điển hình
1.4.1. Bài toán Phân lớp văn bản
Bài toán phân lớp văn bản (Text Categorization) là một bài toán hay, có nhiều
ứng dụng trong thực tế. Đầu vào của bài toán là tập các văn bản đã được phân lớp sẵn,
cho một văn bản mới, ứng dụng phải chỉ ra văn bản đó thuộc lớp nào trong các lớp có
sẵn ban đầu. Thuật toán thường được dùng là Cây quyết định (Decision Tree), K - Láng
giềng gần nhất (K - Nearest Neighbor), các thuật toán hồi quy (Regression-based
Algorithms)... Văn bản đầu vào sau khi được biểu diễn theo một mô hình nào đó, được
theo dõi đối sánh với các văn bản đã phân lớp : có liên quan tới văn bản hoặc các văn
bản nào nhất thì sẽ thuộc lớp tương ứng. Người ta gọi đây là phương pháp học có giám
sát. (Supervised Learning Approach) [5,14].
18
Website: Email : Tel : 0918.775.368
Hình 1.2: Mô tả các bài toán phân lớp văn bản
1.4.2. Bài toán Phân nhóm văn bản
Bài toán Phân nhóm văn bản (Text Clustering) có điểm khác so với bài toán
Phân lớp văn bản ở chỗ cho một tập văn bản chưa được phân loại gì cả, yêu cầu bài toán
này là phân tập văn bản này thành các nhóm dựa trên độ tương đồng giữa chúng. Đây là
phương pháp học không có giám sát (Unsupervised Learning Approach). Các thuật toán
hay được dùng để giải quyết bài toán này là : Các thuật toán Phân chia, thuật toán Phân
cấp, Mô hình SVM (Support Vector Machine) và các thuật toán xây dựng tập thuật ngữ

thường xuyên (Frequent Term Set).
19
Website: Email : Tel : 0918.775.368
Hình 1.3: Mô tả bài toán Phân nhóm văn bản
1.4.3. Bài toán Đánh chỉ mục - Tìm kiếm
Một tên gọi khác phổ biến hơn của bài toán này là Thu thập thông tin
(Information Retrieval). Nói chính xác hơn bài toán Thu thập thông tin là bài toán cơ bản
của Khai phá dữ liệu, và là bài toán tổng quát hơn của bài toán Đánh chỉ mục - Tìm kiếm
(Indexing - Searching). Yêu cầu bài toán là tìm kiếm trong kho dữ liệu những văn bản
phù hợp với câu truy vấn đưa vào. Bước đánh chỉ mục thường giúp tìm kiếm nhanh hơn.
Bài toán này là cơ sở cho các Search Engine - những bộ máy tìm kiếm và trả về thông tin
- một trong những công cụ hũu ích nhất trên Internet giúp chúng ta có thể tìm được
thông tin cần thiết chỉ thông qua một câu truy vấn đơn giản. Hiện nay các ứng dụng tìm
kiếm kiểu này thường áp dụng các phương pháp truy hồi để tăng khả năng chính xác cho
dữ liệu tìm được. Bài toán này còn là đầu vào cho một số các bài toán khác [2,3,6].
1.4.4. Bài toán Tóm tắt văn bản
Quá trình tóm tắt là quá trình rút ra những thông tin quan trọng nhất từ một hay
nhiều nguồn văn bản để tạo ra một văn bản gọn hơn phục vụ cho một số nhiệm vụ hay
người dùng cụ thể. Bài toán tóm tắt văn bản (Text Summarization) là một trong những
bài toán khó cài đặt nhất nhưng cũng hữu ích nhất của lĩnh vực Khai phá văn bản. Một
số biến thể của bài toán này như sinh phụ đề tự động (Subtitling), sinh ý chính tài liệu
(Document Gisting), sinh tiêu đề văn bản (Header Generating)... Những thuật toán của
20
Website: Email : Tel : 0918.775.368
bài toán này cũng được dùng trong các bài toán tương tự như tóm tắt hình ảnh, âm thanh
- những dữ liệu đa phương tiện.
1.5. Kết chương
Trong chương này em đã đề cập đến những khái niệm cơ bản về Khai phá dữ
liệu, Khai phá văn bản, các mô hình biểu diễn văn bản và các bài toán điển hình của
Khai phá văn bản. Các chương sau em sẽ đi sâu vào việc trình bày những hiểu biết bài

toán Tóm tắt văn bản, đặc biệt là xem xét khả năng phát triển trong môi trường tiếng
Việt và qua đó cài đặt một ứng dụng tóm tắt văn bản tiếng Việt dựa trên những tìm hiểu
và nghiên cứu về Xử lý tiếng Việt.
21
Website: Email : Tel : 0918.775.368
Chương 2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Trong chương này em xin trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên
 Tổng quan về Xử lý ngôn ngữ tự nhiên
 Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên
 Đặc trưng ngôn ngữ tiếng Việt và ảnh hưởng của nó tới quá trình xử lý văn bản
tiếng Việt tự động
2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên.
Xử lý ngôn ngữ tự nhiên như chúng ta đã đề cập, là lĩnh vực thuộc ngành Khoa
học máy tính, và đã xuất hiện từ rất lâu. Với việc sử dụng các phương pháp Trí tuệ nhân
tạo, Xử lý ngôn ngữ tự nhiên cũng thường được coi là ngành nghiên cứu hẹp hơn của
lĩnh vực này.
Ngôn ngữ tự nhiên (Natural Language) là thuật ngữ dùng để chỉ các ngôn ngữ
giao tiếp giữa con người với nhau như tiếng Việt, tiếng Anh, tiếng Nhật…, để phân biệt
với ngôn ngữ nhân tạo (Artificial Language) hay còn gọi là ngôn ngữ lập trình
(Programming Language) để cjỏ các ngôn ngữ con nguời giao tiếp với máy tính như
Pascal, C/C++, Java… Lĩnh vực Xử lý ngôn ngữ tự nhiên ra đời đã lâu, trải qua nhiều
nghiên cứu và ứng dụng, ngày nay được hiểu như là lĩnh vực giúp máy tính xử lý các
vấn đề về ngôn ngữ tự nhiên, không ngoài mục đích là để giúp cho giao tiếp giữa người
và máy thuận tiện và thân thiện hơn.
Xử lý ngôn ngữ tự nhiên có rất nhiều hướng ứng dụng và mỗi hướng ứng dụng đó
lại là một ngành nghiên cứu hết sức thú vị. Khi nói đến Xử lý ngôn ngữ tự nhiên thì
chúng ta phải nói đến cơ sở ngôn ngữ tự nhiên. Đó là những vấn đề cơ bản của ngôn ngữ
mà lĩnh vực Xử lý ngôn ngữ tự nhiên bám sát và nghiên cứu làm sao cho máy tính phân
tích và hiểu ngôn ngữ tự nhiên giống như con người hiểu hoặc chí ít cũng là gần như
cách con người hiểu. Các vấn đề cơ bản của ngôn ngữ tự nhiên bao gồm :

• Phonology & Phonetics (Âm vị và Ngữ âm)
• Morphology (Hình thái học)
• Grammar (Ngữ pháp)
• Stôiantic (Ngữ nghĩa)
• Pragmatics (Ngữ dụng)
22
Website: Email : Tel : 0918.775.368
Âm vị và ngữ âm học là các ngành nghiên cứu của Ngôn ngữ học, chuyên
nghiên cứu về đơn vị phát âm, cách phát âm và các biến thái của chúng. Hướng ứng
dụng tương ứng của chúng thuộc Xử lý ngôn ngữ tự nhiên là ngành Xử lý - Nhận dạng
tiếng nói.
Hình thái học là ngành nghiên cứu về hình thái của từ, nghĩa là tùy thuộc vào
thời, thể, cách mà các từ có sự biến đổi hay kết hợp khác nhau. Các thành tựu của hình
thái học được các nhà khoa học về Máy tính sử dụng trong các nghiên cứu mà họ lấy từ
hay chữ là đơn vị để xử lý như Nhận dạng chữ viết, Kiểm tra và sửa chính tả…
Grammar là ngành nghiên cứu về ngữ pháp, bao gồm từ pháp và cú pháp. Từ
pháp đề cập đến các đặc tính từ loại (Part Of Speech), giống, số của từ. Một số nhà ngôn
ngữ cũng xếp Hình thái học vào vấn đề Từ pháp học. Cú pháp (Syntactic) đề cập đến sự
liên kết giữa các từ, các ngữ trong câu. Ngữ pháp và ngữ nghĩa là hai vấn đề mà Xử lý
ngôn ngữ tự nhiên quan tâm nhất và cũng đạt được nhiều kết quả nghiên cứu nhất cho
đến hiện tại.
Syntactic đề cập đến vấn đề ngữ nghĩa : một từ, ngữ hay câu được “hiểu” như
thế nào, hàm chứa ý gì, quan hệ về nghĩa giữa các từ với nhau thế nào... Đối với tiếng
Anh đã có nhiều nghiên cứu về ngữ nghĩa và thậm chí nhiều mạng ngữ nghĩa - mô tả
quan hệ về nghĩa giữa các từ theo nhiều khía cạnh - đã được xây dựng. Nổi tiếng nhất có
lẽ là WordNet [9,18,24]. Mạng ngữ nghĩa này là một kho tri thức khổng lồ được cung
cấp miễn phí cho việc nghiên cứu. Hiện tại nhiều mạng Wordnet cho các thứ tiếng khác
ngoài tiếng Anh cũng đã được xây dựng, tuy nhiên mạng Wordnet Việt nam hiện tại vẫn
chưa được chính thức nghiên cứu và xây dựng.
Pragmatic - Ngữ dụng học - là ngành nghiên cứu việc dùng các từ, các ngữ

trong các lĩnh vực khác nhau. Các thống kê về việc tần suất sử dụng của các từ trong các
lĩnh vực khác nhau là những thông số quan trọng cần thiết cho những phương pháp
thống kê của Xử lý ngôn ngữ tự nhiên.
Trên các mức này, máy tính cần phải hiểu được ngôn ngữ ở mức cao hơn. Đó là
mức ngữ đoạn (Discourse) và mức tri thức (World Knowledge).
Mức ngữ đoạn là các quan hệ về mặt ngữ pháp và ngữ nghĩa, thậm chí ngữ dụng
của các đoạn văn bản. Đã có nhiều nghiên cứu về vấn đề này, nổi tiếng nhất là Lý thuyết
cấu trúc tu từ (Rhetorical Structure Theory - RST). RST biểu thị các quan hệ ngữ pháp
và ngữ nghĩa giữa các câu với nhau, giữa các đoạn với nhau thông qua các quan hệ được
định nghĩa sẵn. Lý thuyết này thường được áp dụng trong việc phân tích ngữ đoạn cũng
như sinh văn bản tự động.
Mức tri thức là mức rộng nhất, máy phải hiểu được tất cả các vấn đề của một
tiếng, một từ, một ngữ, một câu, một khái niệm, một thông tin, một tri thức... Tất nhiên
chưa có một nghiên cứu nào đạt được mức này tuy nhiên cũng đã có một số nghiên cứu
23
Website: Email : Tel : 0918.775.368
đặt ra tham vọng sẽ mô hình hóa về tất cả mọi đặc tính của ngôn ngữ cho một đơn vị nào
đó, có thể là từ, câu, đoạn...
Ngôn ngữ tự nhiên là một vấn đề phức tạp ngay cả với con người, vì vậy, đối với
máy tính việc xử lý ngôn ngữ tự nhiên là một công việc hết sức khó khăn. Chúng ta phải
đối mặt với các bài toán kinh điển của Khoa học máy tính và Trí tuệ nhân tạo - các bài
toán đòi hỏi chi phí tính toán cực lớn. Chính vì điều này, Xử lý ngôn ngữ tự nhiên trước
đây phát triển chậm và có xu hướng áp dụng các thuật toán dựa luật và suy diễn. Tuy
nhiên vào những thập kỷ gần đây, sự phát triển nhanh chóng của phần cứng máy tính
kéo theo sự ra đời của các máy tính nhỏ gọn, giá thành rẻ mà lại có hiệu suất tính toán
cao đã mở ra những triển vọng sáng sủa cho lĩnh vực Trí tuệ nhân tạo nói chung và Xử
lý ngôn ngữ tự nhiên nói riêng. Các thuật toán thống kê cũng đang từng ngày được áp
dụng nhiều hơn và cho những kết quả khả quan. Các thành tựu của Xử lý ngôn ngữ tự
nhiên không chỉ áp dụng trong nghiên cứu mà đã được dùng để xây dựng các ứng dụng
mang tính thương mại và đạt được nhiều thành công trên thị trường.

2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên
Như chúng ta đã đề cập, ngữ pháp và ngữ nghĩa là các vấn đề được quan tâm nhất
và có ứng dụng nhiều nhất trong các bài toán điển hình của lĩnh vực Xử lý ngôn ngữ tự
nhiên như Tóm tắt, Dịch máy, Trả lời tự động… Sau đây là các bài toán cơ bản thuộc về
ngữ pháp và ngữ nghĩa mà các nhà Xử lý ngôn ngữ tự nhiên thường phải giải quyết.
2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu
Phân tách thuật ngữ (Word Segmentation) là công việc tách một chuỗi văn bản ra
thành các term (tạm dịch : thuật ngữ) xem các term nào có trong từ điển, term nào không
có trong từ điển (các tên riêng, ký hiệu, chữ viết tắt…). Công việc này làm tiền đề cho
việc mô hình hóa văn bản. Chúng ta phải thực hiện việc này trước thì mới có thể vector
hóa một văn bản, đối sánh hay xác định độ liên quan…
Đối với các ngôn ngữ Latin giống như tiếng Anh và tiếng Pháp thì vấn đề này
không phức tạp bằng các ngôn ngữ khác như tiếng Việt, tiếng Trung Quốc hay tiếng
Nhật… do các từ của tiếng Anh hay tiếng Pháp được tách nhau bởi một hay nhiều dấu
cách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa các dấu cách không phải là từ
mà là tiếng (chữ) - một đơn vị nhỏ hơn từ.
Ví dụ: Xét câu tiếng Anh sau :
We announced that we have captured him.
Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :
We | announced | that | we | have | captured | him.
Tuy nhiên ta xem câu tiếng Việt tương ứng :
Chúng em xin thông báo rằng chúng em đã bắt được hắn ta.
24
Website: Email : Tel : 0918.775.368
Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này. Kết quả
phân tách thuật ngữ đúng phải là như sau :
Chúng em | xin | thông báo | rằng | chúng em | đã | bắt được | hắn ta.
Để giải quyết vấn đề này các nhà Xử lý ngôn ngữ tự nhiên của Việt Nam, Trung
Quốc, Nhật Bản… thường sử dụng một số phương pháp như : Đối sánh thuật ngữ dài
nhất (Maximum Length Matching), Đồ thị chuyển trạng thái (Transducing Graph), dựa

cú pháp (Syntax-based Approach)… Mỗi phương pháp có ưu và nhược điểm riêng
nhưng phương pháp nào cũng sử dụng một từ điển hoặc danh sách từ vựng. Do vậy sự
chính xác của từ điển hay danh sách từ vựng là yếu tố quan trọng ảnh hưởng đến sự
chính xác của bộ phân tách thuật ngữ. Ngoài ra vì có những nhập nhằng trong ngôn ngữ
nên bài toán này cũng như các bài toán khác của Xử lý ngôn ngữ tự nhiên chưa được giải
quyết một cách trọn vẹn. Hiện tại các bộ phân tách thuật ngữ thường đạt được kết quả từ
85% đến 98% các từ phân tách chính xác [15].
Bộ đoán nhận danh từ riêng, chữ viết tắt cũng có thể coi là một phần của bộ phân
tách thuật ngữ và được áp dụng rộng rãi. Nhiều bài toán coi đây là một công việc cơ bản
vì danh từ riêng, chữ viết tắt… có tần suất xuất hiện khá cao trong văn bản và chúng
cũng hàm chứa mức độ quan trọng lớn. Ngoài ra việc đoán nhận danh từ riêng, chữ viết
tắt còn là một phần của việc hợp giải tham chiếu (Coreference Resolution) - được dùng
nhiều trong các ứng dụng tóm tắt và sinh ngôn ngữ tự nhiên (Natural Language
Generating).
Xét về phạm vi lớn hơn thì chúng ta phải đối mặt với một vấn đề khác, đó là Phân
tách đoạn-câu (Sentence Segmentation) là công việc phân tách một văn bản thành những
đoạn và câu nhằm tạo tiền đề cho việc phân tích cú pháp sau này của văn bản đó. Bài
toán này không phân biệt ngôn ngữ vì hầu hết các ngôn ngữ thường phân tách câu dựa
trên những dấu hiệu là các dấu ngắt câu như dấu chấm, chấm hỏi, chấm than... Tuy vậy,
nếu văn bản đưa vào không chuẩn thì kết quả cũng không thể đạt 100%. Ví dụ như lỗi
sau các dấu chấm câu không viết hoa sẽ dẫn đến việc hiểu nhầm thành dấu ba chấm.
Ngoài ra, một số phần trăm sai sót khác còn do hiện tượng những dấu chấm câu được
dùng như là ký hiệu thực hiện chức năng khác khác gây ra. Ví dụ như dấu chấm được
dùng để phân tách phần nguyên và phần thập phân của một con số. Nói chung phân tách
đoạn-câu có khả năng đạt được độ chính xác cao hơn và cũng dễ dàng cài đặt hơn phân
tách từ nhưng phạm vi áp dụng của chúng thì không rộng bằng.
2.2.2. Gán nhãn từ loại
Gán nhãn từ loại là công việc gán cho mỗi từ trong câu, hay đoạn thông tin về từ
loại (Part of speech) của chúng.
Ví dụ : xét câu tiếng Việt sau :

Học sinh học sinh học
25

×