XLNN trình Phát hiện tri thức trong cơ sở dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.99 MB, 66 trang )

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

MỤC LỤC
MỞ ĐẨU................................................................................................................................... 5
MỞ ĐẨU................................................................................................................................... 5
1.

CƠ SỞ LÝ THUYẾT........................................................................................................ 8
1.1.

Tổng quan về Xử lý ngôn ngữ tự nhiên...............................................................8

1.2.

Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên...............................................9

1.2.1.

Phân tách thuật ngữ - Phân tách đoạn và câu......................................................9

1.2.2.

Gán nhãn từ loại...................................................................................................11

1.2.3.

Phân tích cú pháp.................................................................................................11

1.2.4.

Phân tích ngữ nghĩa.............................................................................................12

1.3.

2.

1.3.1.

Ngữ âm và âm vị..................................................................................................13

1.3.2.

Từ pháp và hình thái............................................................................................14

1.3.3.

Ngữ pháp..............................................................................................................15

KHAI PHÁ VĂN BẢN..................................................................................................... 16
2.1.

Tổng quan khai phá dữ liệu................................................................................16

2.2.

Khai phá văn bản................................................................................................. 18

2.3.

Biểu diễn văn bản................................................................................................19

2.3.1.

Mô hình boolean...................................................................................................19

2.3.2.

Mô hình không gian vector...................................................................................20

2.3.3.

Mô hình tập thô dung sai......................................................................................21

2.4.

3.

Các bài toán Khai phá văn bản điển hình..........................................................22

2.4.1.

Bài toán Phân nhóm văn bản...............................................................................22

2.4.2.

Bài toán Đánh chỉ mục - Tìm kiếm......................................................................22

2.4.3.

Bài toán Tóm tắt văn bản.....................................................................................22

BÀI TOÁN TÓM TẮT VĂN BẢN....................................................................................24
3.1.

Giới thiệu chung.................................................................................................. 24

3.1.1.

Tóm tắt văn bản là gì ?.........................................................................................24

3.1.2.

Các tiêu chí đánh giá............................................................................................25

3.1.3.

Phân loại bài toán Tóm tắt văn bản.....................................................................26

3.2.

Mô hình Tóm tắt văn bản.....................................................................................29

3.2.1.

Mô hình chung......................................................................................................29

3.2.2.

Các phương pháp áp dụng trong các pha...........................................................30

3.2.3.

Đánh giá kết quả tóm tắt......................................................................................40

3.3.
4.

Các đặc trưng ngôn ngữ của tiếng Việt.............................................................12

Một số hệ thống tóm tắt văn bản phổ biến........................................................44

XÂY DỰNG HỆ THỐNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT - SUMMARIZER..........46
4.1.

Mô hình xây dựng ứng dụng..............................................................................46
2

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

4.2.

4.2.1.

Chuẩn hóa văn bản..............................................................................................47

4.2.2.

Mô hình hóa văn bản............................................................................................48

4.2.3.

Tách thuật ngữ.....................................................................................................49

4.3.

Các phương pháp trong pha Phân tích.............................................................52

4.3.1.

Phương pháp Title................................................................................................53

4.3.2.

Phương pháp Heading.........................................................................................54

4.3.3.

Phương pháp NamedEntity - NE........................................................................55

4.3.4.

Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence).............................56

4.3.5.

Phương pháp Tần suất xuất hiện của thuật ngữ................................................56

4.3.6.

Phương pháp TFxIPF...........................................................................................57

4.4.

5.

Giai đoạn tiền xử lý văn bản tiếng Việt..............................................................47

Các phương pháp trong pha Biến đổi...............................................................58

4.4.1.

Biến đổi nhờ vào rút gọn câu...............................................................................58

4.4.2.

Giản lược câu về mặt ngữ nghĩa.........................................................................60

4.5.

Các phương pháp trong pha Hiển thị................................................................61

4.6.

Xây dựng chương trình Summarizer.................................................................62

CHƯƠNG TRÌNH ỨNG DỤNG......................................................................................63
5.1.

Một số giao diện chương trình...........................................................................63

5.2.

Kiểm thử............................................................................................................... 64

6.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN..........................................................................67

7.

TÀI LIỆU THAM KHẢO................................................................................................. 68
7.1.

Links..................................................................................................................... 68

7.2.

Books.................................................................................................................... 68

3

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

MỤC LỤC HÌNH VẼ
Hình 1: Phân tích cú pháp..........................................................................................................12
Hình 2: Các bước của quá trình phát hiện tri thức....................................................................17
Hình 3: Mô hình khai phá văn bản chung..................................................................................18
Hình 4: Mô tả bài toán Phân nhóm văn bản..............................................................................22
Hình 5: Tóm tắt trang tin.............................................................................................................25

Hình 6: Mô hình chung của tóm tắt văn bản..............................................................................29
Hình 7: Mô hình trích rút văn bản...............................................................................................30
Hình 8: Mô hình phương pháp quan hệ lẫn nhau......................................................................32
Hình 9: Ví dụ về liên kết từ vựng................................................................................................33
Hình 10: Mô hình liên kết tham chiếu.........................................................................................33
Hình 11: Mô hình hệ thống tóm tắt văn bản...............................................................................47
Hình 12: Mô hình hoá văn bản...................................................................................................48
Hình 13: Cấu trúc chương trình Summarizer.............................................................................62
Hình 14: Giao diện chính............................................................................................................63
Hình 15: Form cấu hình tóm tắt..................................................................................................63
Hình 16: Giao diện kiểm thử.......................................................................................................64
Hình 17: Giao diện phân tách đoạn và câu................................................................................65
Hình 18: Giao diện phân tách thuật ngữ của đoạn....................................................................65
Hình 19: Kết quả thực thi phương pháp TFxIPF.......................................................................66
Hình 20: Kết quả thực thi phương pháp Title.............................................................................66

4

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

1. MỞ ĐẨU
Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin. Chính sự phát triển nhanh
chóng của Công nghệ thông tin và Truyền thông đã đem lại cho thế giới bộ mặt mới. Các ứng dụng
Công nghệ thông tin - Truyền thông đã hiện diện trong hầu hết các ngành, các lĩnh vực của cuộc
sống: kinh tế tri thức, hợp tác toàn cầu, những công việc quản lý, vận hành những hoạt động từ vi mô
tới vĩ mô của doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc,
trợ giúp... Đặc biệt, sự ra đời của Internet - Mạng thông tin toàn cầu - được coi là nguyên nhân chính,
thúc đẩy sự bùng nổ thông tin trên toàn thế giới. Thông qua Internet, những thông tin quý giá về mọi
lĩnh vực đều sẵn sàng đợi chúng ta khám phá và lĩnh hội.

Trong thế giới thông tin đa dạng phong phú như vậy, nhu cầu thu thập được những thông tin
cần thiết, có giá trị đồng thời xử lý chúng thành dạng dữ liệu mong muốn là nhu cầu chính đáng và
cấp thiết của nhân loại. Lĩnh vực của Công nghệ thông tin có thể đáp ứng những nhu cầu to lớn này
là Khai phá dữ liệu.
Khai phá dữ liệu, vốn chỉ là một giai đoạn trong bảy giai đoạn của quá trình Phát hiện tri
thức trong cơ sở dữ liệu, tuy nhiên, do là giai đoạn chính yếu, nên chúng ta thường đồng nhất, hay
nói chính xác hơn là lấy Khai phá dữ liệu làm đại diện cho cả quá trình Phát hiện tri thức trong cơ sở
dữ liệu. Và vì vậy, Khai phá dữ liệu được hiểu như một quá trình lấy ra các thông tin quan trọng từ
các dạng CSDL, biến đổi, xử lý chúng nhằm phục vụ những mục đích cụ thể của con người. Các
phương pháp thường dùng trong Khai phá dữ liệu là các phương pháp Trích chọn, Thống kê hay
Phân loại... Do phần lớn dữ liệu ở dạng văn bản nên một lĩnh vực nhỏ hơn là Khai phá văn bản
được quan tâm chú ý hơn cả.
Trong khi lĩnh vực Khai phá dữ liệu mới trở thành đề tài nóng bỏng, cấp thiết gần đây do sự
bùng nổ thông tin toàn cầu thì trong ngành Khoa học máy tính, có một lĩnh vực khác đã ra đời cách
đây khá lâu, và cũng đã có nhiều thành tựu trong suốt quá trình phát triển của mình. Đó là lĩnh vực
Xử lý ngôn ngữ tự nhiên. Mục đích của Xử lý ngôn ngữ tự nhiên là giúp cho máy tính và con người
hiểu nhau hơn, thuận tiện hơn trong quá trình làm việc và đem lại lợi ích tối đa cho con người. Thông
qua các giao tiếp thân thiện, dễ hiểu giữa người và máy, việc đưa Công nghệ thông tin thật sự đi vào
đời sống nhân loại là mục tiêu lớn nhất mà Xử lý ngôn ngữ tự nhiên hướng tới.
Xử lý ngôn ngữ tự nhiên là quá trình xử lý sao cho máy tính có thể hiểu được một thông tin
giống như cách mà con người hiểu thông tin đó thông qua các khía cạnh ngôn ngữ bao hàm trong
nó. Theo định nghĩa này thì Xử lý ngôn ngữ tự nhiên là một phần của Trí tuệ nhân tạo - làm cho máy
tính nắm bắt, thao tác, mô phỏng cách mà con người thực hiện. Vì vậy các phương pháp của Trí tuệ
nhân tạo thường được dùng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng của
ngành Ngôn ngữ học như hình thái, ngữ pháp, ngữ nghĩa… Các bài toán điển hình của Xử lý ngôn
ngữ tự nhiên là Trả lời tự động, Dịch máy, Sinh văn bản tự động, Kiểm tra chính tả…

5

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Như vậy, hai lĩnh vực Khai phá dữ liệu và Xử lý ngôn ngữ tự nhiên có nhiều điểm khác biệt
mặc dù cùng sử dụng một số các phương pháp của Trí tuệ nhân tạo. Nói đến Khai phá dữ liệu là nói
đến việc tìm ra thông tin quan trọng, thông tin mong muốn từ một lượng lớn dữ liệu, còn nói đến Xử
lý ngôn ngữ tự nhiên là nói đến việc máy tự phân tích và hiểu những khía cạnh ngôn ngữ trong thông
tin cụ thể. Tuy nhiên, có một bài toán điển hình của Khai phá dữ liệu có sử dụng rất nhiều những khái
niệm, mô hình, phương pháp của Xử lý ngôn ngữ tự nhiên, đó là bài toán Tóm tắt văn bản.
Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn để tạo ra
một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ thể. Tóm tắt văn bản làm
nhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan trọng nên về bản chất nó thuộc lĩnh vực
của Khai phá văn bản. Tuy nhiên trong quá trình chắt lọc, rút gọn thì cần có sự áp dụng của các
phương pháp Xử lý ngôn ngữ tự nhiên nếu muốn kết quả ra là một văn bản dễ đọc, dễ hiểu và mang
ý nghĩa ngôn ngữ tự nhiên như đầu vào của nó. Trên thế giới đã có rất nhiều các ứng dụng Tóm tắt
văn bản, với những mục đích nghiên cứu cũng như thương mại. Nhưng với những khó khăn và thách
thức riêng, Tóm tắt văn bản hiện chưa được nghiên cứu nhiều ở Việt Nam. Chính vì lý do này chúng
tôi đã chọn Tóm tắt văn bản tiếng Việt là đề tài tiểu luận, mong muốn góp một phần công sức cho sự
phát triển của Khai phá văn bản tiếng Việt nói riêng và Công nghệ thông tin Việt Nam nói chung.
Trong tiểu luận này chúng tôi muốn trình bày những kết quả tìm hiểu về bài toán Tóm tắt văn
bản và bước đầu xây dựng một Ứng dụng tóm tắt văn bản tiếng Việt, sử dụng kết hợp các phương
pháp của Khai phá văn bản và Xử lý ngôn ngữ tự nhiên đồng thời xét tới những đặc trưng về ngôn
ngữ của tiếng Việt.
Tiểu luận gồm các phần sau :
 Chương 1. Trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên, các vấn đề chung của Xử lý ngôn ngữ
tự nhiên, các đặc trưng ngôn ngữ tiếng Việt cũng như các vấn đề riêng khi xử lý tự động văn bản
tiếng Việt.
 Chương 2. Trình bày về lĩnh vực Khai phá dữ liệu nói chung và Khai phá văn bản nói riêng, các
vấn đề mô hình hóa văn bản cũng như đề cập sơ qua một số bài toán Khai phá văn bản điển hình.
 Chương 3. Trình bày những vấn đề cơ bản về bài toán Tóm tắt văn bản, khái niệm và phân loại
một bài toán Tóm tắt văn bản, lịch sử phát triển và những ứng dụng của Tóm tắt văn bản, mô

hình chung và các phương pháp xây dựng một ứng dụng Tóm tắt văn bản…
 Chương 4. Trình bày việc thiết kế và xây dựng ứng dụng Tóm lược văn bản tiếng Việt
SUMMARIZER dựa trên một số phương pháp trong các phương pháp đã nêu ở chương ba.
Ngoài ra trong chương này, những cài đặt tiền xử lý văn bản cũng được chúng tôi đề cập đến với
những nét mới so với các công việc tương tự trước đây của một số nhà nghiên cứu lĩnh vực Khai
phá văn bản tiếng Việt.
 Chương 5. Trình bày việc kiểm thử và đánh giá ứng dụng SUMMARIZER, các kết quả thực
nghiệm của chương trình.
6

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

 Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này.
 Cuối cùng là phần tài liệu tham khảo.

7

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

2. CƠ SỞ LÝ THUYẾT
2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên là lĩnh vực thuộc ngành Khoa học máy tính và đã xuất hiện từ rất
lâu. Với việc sử dụng các phương pháp Trí tuệ nhân tạo, Xử lý ngôn ngữ tự nhiên cũng thường được
coi là ngành nghiên cứu hẹp hơn của lĩnh vực này.
Ngôn ngữ tự nhiên (Natural Language) là thuật ngữ dùng để chỉ các ngôn ngữ giao tiếp giữa
con người với nhau như tiếng Việt, tiếng Anh, tiếng Nhật…, để phân biệt với ngôn ngữ nhân tạo
(Artificial Language) hay còn gọi là ngôn ngữ lập trình (Programming Language) để chỉ các ngôn ngữ
con nguời giao tiếp với máy tính như Pascal, C/C++, Java… Lĩnh vực Xử lý ngôn ngữ tự nhiên ra đời

đã lâu, trải qua nhiều nghiên cứu và ứng dụng, ngày nay được hiểu như là lĩnh vực giúp máy tính xử
lý các vấn đề về ngôn ngữ tự nhiên, không ngoài mục đích giúp cho giao tiếp giữa người-máy thuận
tiện và thân thiện hơn.
Xử lý ngôn ngữ tự nhiên có rất nhiều hướng ứng dụng và mỗi hướng ứng dụng đó lại là một
ngành nghiên cứu hết sức thú vị. Khi nói đến Xử lý ngôn ngữ tự nhiên thì chúng ta phải nói đến cơ sở
ngôn ngữ tự nhiên. Đó là những vấn đề cơ bản của ngôn ngữ mà lĩnh vực Xử lý ngôn ngữ tự nhiên
bám sát và nghiên cứu làm sao cho máy tính phân tích và hiểu ngôn ngữ tự nhiên giống như con
người hiểu hoặc chí ít cũng là gần như cách con người hiểu. Các vấn đề cơ bản của ngôn ngữ tự
nhiên bao gồm :
 Phonology & Phonetics (Âm vị và Ngữ âm): các ngành nghiên cứu của Ngôn ngữ học, chuyên
nghiên cứu về đơn vị phát âm, cách phát âm và các biến thái của chúng. Hướng ứng dụng tương
ứng của chúng thuộc Xử lý ngôn ngữ tự nhiên là ngành Xử lý - Nhận dạng tiếng nói.
 Morphology (Hình thái học): ngành nghiên cứu về hình thái của từ, nghĩa là tùy thuộc vào thời,
thể, cách mà các từ có sự biến đổi hay kết hợp khác nhau. Các thành tựu của hình thái học được
các nhà khoa học về Máy tính sử dụng trong các nghiên cứu mà họ lấy từ hay chữ là đơn vị để xử
lý như Nhận dạng chữ viết, Kiểm tra và sửa chính tả…
 Grammar (Ngữ pháp): ngành nghiên cứu về từ pháp và cú pháp. Từ pháp đề cập đến các đặc
tính từ loại (Part Of Speech), giống, số của từ. Một số nhà ngôn ngữ cũng xếp Hình thái học vào
vấn đề Từ pháp học. Cú pháp (Syntactic) đề cập đến sự liên kết giữa các từ, các ngữ trong câu.
Ngữ pháp và ngữ nghĩa là hai vấn đề mà Xử lý ngôn ngữ tự nhiên quan tâm nhất và cũng đạt
được nhiều kết quả nghiên cứu nhất cho đến hiện tại.
 Semantic (Ngữ nghĩa): đề cập đến vấn đề ngữ nghĩa: một từ, ngữ hay câu được “hiểu” như thế
nào, hàm chứa ý gì, quan hệ về nghĩa giữa các từ với nhau thế nào... Đặc biệt tiếng Anh đã xây
dựng được nhiều nghiên cứu về ngữ nghĩa và thậm chí nhiều mạng ngữ nghĩa - mô tả quan hệ về
nghĩa giữa các từ theo nhiều khía cạnh. Nổi tiếng nhất có lẽ là WordNet. Mạng ngữ nghĩa này là
một kho tri thức khổng lồ được cung cấp miễn phí cho việc nghiên cứu. Hiện tại nhiều mạng
8

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Wordnet cho các thứ tiếng khác ngoài tiếng Anh cũng đã được xây dựng, tuy nhiên Wordnet Việt
nam hiện tại vẫn chưa được chính thức nghiên cứu và xây dựng.
 Pragmatics (Ngữ dụng): ngành nghiên cứu việc dùng các từ, các ngữ trong các lĩnh vực khác
nhau. Các thống kê về việc tần suất sử dụng của các từ trong các lĩnh vực khác nhau là những
thông số quan trọng cần thiết cho những phương pháp thống kê của Xử lý ngôn ngữ tự nhiên.
Trên các lĩnh vực này, máy tính cần phải hiểu được ngôn ngữ ở mức cao hơn. Đó là mức
ngữ đoạn (Discourse) và mức tri thức (World Knowledge).
Mức ngữ đoạn là các quan hệ về mặt ngữ pháp và ngữ nghĩa, thậm chí ngữ dụng của các
đoạn văn bản. Đã có nhiều nghiên cứu về vấn đề này, nổi tiếng nhất là Lý thuyết cấu trúc tu từ
(Rhetorical Structure Theory - RST). RST biểu thị các quan hệ ngữ pháp và ngữ nghĩa giữa các câu
với nhau, giữa các đoạn với nhau thông qua các quan hệ được định nghĩa sẵn. Lý thuyết này thường
được áp dụng trong việc phân tích ngữ đoạn cũng như sinh văn bản tự động.
Mức tri thức là mức rộng nhất, máy phải hiểu được tất cả các vấn đề của một tiếng, một từ,
một ngữ, một câu, một khái niệm, một thông tin, một tri thức... Tất nhiên chưa có một nghiên cứu nào
đạt được mức này tuy nhiên cũng đã có một số nghiên cứu đặt ra tham vọng sẽ mô hình hóa về tất
cả các đặc tính của ngôn ngữ cho một đơn vị nào đó như từ, câu hoặc đoạn...
Ngôn ngữ tự nhiên là một vấn đề phức tạp ngay cả với con người, vì vậy, đối với máy tính
việc xử lý ngôn ngữ tự nhiên là một công việc hết sức khó khăn, thuộc lớp các bài toán kinh điển của
Khoa học máy tính và Trí tuệ nhân tạo - các bài toán đòi hỏi chi phí tính toán rất lớn. Vì vậy, Xử lý
ngôn ngữ tự nhiên trước đây phát triển chậm và có xu hướng áp dụng các thuật toán dựa luật và suy
diễn. Tuy nhiên vào những thập kỷ gần đây, sự phát triển nhanh chóng của phần cứng máy tính kéo
theo sự ra đời của các máy tính nhỏ gọn, giá thành rẻ mà lại có hiệu suất tính toán cao đã mở ra triển
vọng mới cho lĩnh vực Trí tuệ nhân tạo nói chung và Xử lý ngôn ngữ tự nhiên nói riêng. Các thuật
toán thống kê cũng đang từng ngày được áp dụng nhiều hơn và cho những kết quả khả quan. Những
thành tựu của Xử lý ngôn ngữ tự nhiên không chỉ áp dụng trong nghiên cứu mà đã được dùng để xây
dựng các ứng dụng mang tính thương mại và đạt được nhiều thành công trên thị trường.

2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên
Như chúng ta đã đề cập, ngữ pháp và ngữ nghĩa là các vấn đề được quan tâm nhất và có

ứng dụng nhiều nhất trong các bài toán điển hình của lĩnh vực Xử lý ngôn ngữ tự nhiên như Tóm tắt,
Dịch máy, Trả lời tự động… Sau đây là các bài toán cơ bản thuộc về ngữ pháp và ngữ nghĩa mà các
nhà Xử lý ngôn ngữ tự nhiên thường phải giải quyết.

2.2.1.

Phân tách thuật ngữ - Phân tách đoạn và câu
Phân tách thuật ngữ (Word Segmentation) là công việc tách một chuỗi văn bản ra thành các

term (thuật ngữ) xem các term nào có trong từ điển, term nào không có trong từ điển (các tên riêng,
ký hiệu, chữ viết tắt…). Công việc này làm tiền đề cho việc mô hình hóa văn bản. Chúng ta phải thực
hiện việc này trước thì mới có thể vector hóa một văn bản, đối sánh hay xác định độ liên quan…
9

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Các ngôn ngữ Latin như tiếng Anh hay tiếng Pháp thì vấn đề này không phức tạp bằng các
ngôn ngữ khác như tiếng Việt, tiếng Hoa hay tiếng Nhật… do các từ của tiếng Anh hay tiếng Pháp
được tách nhau bởi một hay nhiều dấu cách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa các
dấu cách không phải là từ mà là tiếng (chữ) - một đơn vị nhỏ hơn từ.
Ví dụ: Xét câu tiếng Anh sau :
We announced that we have captured him.
Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :
We | announced | that | we | have | captured | him.
Tuy nhiên ta xem câu tiếng Việt tương ứng :
Chúng tôi xin thông báo rằng chúng tôi đã bắt được hắn ta.
Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này. Kết quả phân tách
thuật ngữ đúng phải là như sau :
Chúng tôi | xin | thông báo | rằng | chúng tôi | đã | bắt được | hắn ta.

Để giải quyết vấn đề này các nhà Xử lý ngôn ngữ tự nhiên của Việt Nam, Trung
Quốc, Nhật Bản… thường sử dụng những phương pháp như: Đối sánh thuật ngữ dài nhất (Maximum
Length Matching), Đồ thị chuyển trạng thái (Transducing Graph), dựa cú pháp (Syntax-based
Approach)… Mỗi phương pháp có ưu và nhược điểm riêng nhưng phương pháp nào cũng sử dụng
một từ điển hoặc danh sách từ vựng. Do vậy sự chính xác của từ điển hay danh sách từ vựng là yếu
tố quan trọng ảnh hưởng đến sự chính xác của bộ phân tách thuật ngữ. Ngoài ra vì có những nhập
nhằng trong ngôn ngữ nên bài toán này cũng như các bài toán khác của Xử lý ngôn ngữ tự nhiên
chưa được giải quyết một cách trọn vẹn. Hiện tại các bộ phân tách thuật ngữ thường đạt được kết
quả từ 85% đến 98% các từ phân tách chính xác.
Bộ đoán nhận danh từ riêng, chữ viết tắt cũng có thể coi là một phần của bộ phân tách thuật
ngữ và được áp dụng rộng rãi. Nhiều bài toán coi đây là một công việc cơ bản vì danh từ riêng, chữ
viết tắt… có tần suất xuất hiện khá cao trong văn bản và chúng cũng hàm chứa mức độ quan trọng
lớn. Ngoài ra việc đoán nhận danh từ riêng, chữ viết tắt còn là một phần của việc hợp giải tham chiếu
(Coreference Resolution) - được dùng nhiều trong các ứng dụng tóm tắt và sinh ngôn ngữ tự nhiên
(Natural Language Generating).
Xét về phạm vi lớn hơn thì ta phải đối mặt với một vấn đề khác, đó là Phân tách đoạn-câu
(Sentence Segmentation) là công việc phân tách một văn bản thành những đoạn và câu nhằm tạo
tiền đề cho việc phân tích cú pháp sau này của văn bản đó. Bài toán này không phân biệt ngôn ngữ
vì hầu hết các ngôn ngữ thường phân tách câu dựa trên những dấu hiệu là các dấu ngắt câu như
dấu chấm, chấm hỏi, chấm than... Tuy vậy, nếu văn bản đưa vào không chuẩn thì kết quả cũng không
thể đạt 100%. Ví dụ, sau các dấu chấm câu không viết hoa sẽ dẫn đến việc hiểu nhầm thành dấu ba
chấm. Ngoài ra, một số phần trăm sai sót khác còn do hiện tượng những dấu chấm câu được dùng
như là ký hiệu thực hiện chức năng khác khác gây ra. Ví dụ, dấu chấm dùng để phân tách phần
nguyên và phần thập phân của một con số. Nói chung phân tách đoạn-câu có khả năng đạt được độ
10

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

chính xác cao hơn và cũng dễ dàng cài đặt hơn phân tách từ nhưng phạm vi áp dụng thì không rộng

bằng.

2.2.2.

Gán nhãn từ loại
Gán nhãn từ loại là công việc gán cho mỗi từ trong câu, hay đoạn thông tin về từ loại ( Part of

speech) của chúng.
Ví dụ : xét câu tiếng Việt sau :
Học sinh học sinh học
Câu này nếu gán nhãn từ loại đúng sẽ là :
[Học sinh]N[học]V [sinh học]N
Tuy nhiên làm sao để máy có thể hiểu và gán đúng nhãn từ loại là một vấn đề. Sự nhập
nhằng trong ngôn ngữ cản trở việc máy đoán nhận đúng. Ngoài ra việc phân tách thuật ngữ cũng ảnh
hưởng tới việc gán nhãn vì các danh sách thuật ngữ của một câu là đầu vào cho một bộ gán nhãn từ
loại. Với ví dụ trên có khá nhiều bộ gán nhãn từ loại gán sai dẫn tới kết luận sai về cú pháp.
Các phương pháp thường dùng để cài đặt bộ gán nhãn từ loại bao gồm : Mô hình Markov ẩn
- Giải thuật Viterbi, Dựa luật cú pháp (Rule-based), Dựa bộ nhớ (Memory-based), Độ hỗn loạn lớn
nhất (Maximum Entropy)… Trong đó các phương pháp áp dụng mô hình Markov ẩn (Hidden Markov
Model - HMM) được sử dụng nhiều nhất. Các phương pháp như Bigram, Trigram hay CFG (Context
Free Grammar) đều thuộc loại này. Hiện nay bộ gán nhãn từ loại (POS Tagger) chính xác nhất đạt tới
khả năng gán nhãn đúng 98% số từ.

2.2.3.

Phân tích cú pháp
Phân tích cú pháp là bài toán tổng quát của gán nhãn từ loại. Ngoài việc gán từ loại cho từng

từ, bộ phân tích cú pháp (Syntax Analyzer hay Parser) phải nhận biết được các ngữ và gán kiểu cho
các ngữ làm sao để có được một câu hoàn chỉnh về mặt ngữ pháp. Nếu không câu đó là câu không

hoàn chỉnh. Xét về ngôn ngữ học, đó sẽ không phải là câu. Kết quả việc gán từ, ngữ này thường
được biểu diễn thành cây, gọi là cây cú pháp (Syntax Tree).
Với ví dụ trên ta có :

Hình 1: Phân tích cú pháp

11

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Các bộ phân tích cú pháp thường được cài đặt bởi các thuật toán dựa trên luật hay ngữ liệu
(Corpus-based). Việc kiểm tra xem một câu có phải là câu hoàn chỉnh hay không thường dựa vào
việc duyệt cây và cấu trúc chính của một ngôn ngữ. Ở tiếng Anh, cấu trúc chính tạo nên câu hoàn
chỉnh về mặt ngữ pháp là cấu trúc S + V + (O) : Chủ ngữ + Động từ + (Tân ngữ). Tuy nhiên trong
tiếng Việt cấu trúc “nòng cốt” tạo bởi quan hệ “đề - thuyết” (hay quan hệ “chủ - vị”) là cấu trúc của một
câu hoàn chỉnh về mặt ngữ pháp.
Việc phân tích cú pháp là một công việc cơ bản của các bài toán Xử lý ngôn ngữ tự nhiên,
nhưng do tính chất phức tạp của ngôn ngữ và các đặc thù riêng của quá trình máy học, các bộ phân
tích cú pháp chưa đạt được độ chính xác cao như mong đợi.

2.2.4.

Phân tích ngữ nghĩa
Như chúng ta đã đề cập ở trên, phân tích ngữ nghĩa giúp cho máy có thể “hiểu” được một từ,

một câu, một đoạn... hàm chứa ý nghĩa gì hay mối quan hệ về nghĩa giữa chúng... Các phương pháp
dùng để phân tích ngữ nghĩa hay được dùng đó là các phương pháp dựa trên tri thức hay dựa trên
ngữ liệu. Dựa trên tri thức (Knowledge-based) là phương pháp dựa trên các kho tri thức ngữ nghĩa
có sẵn (như WordNet) để phân tích ngữ nghĩa. Dựa trên ngữ liệu (Corpus-based) là phương pháp

dựa trên những thống kê các kho ngữ liệu để đưa ra được ngữ nghĩa của đối tượng đang xét. Các
phương pháp này nói chung đòi hỏi phải có kho tri thức hoặc kho ngữ liệu lớn, càng lớn càng chính
xác nhưng đối với tiếng Việt thì đây là hạn chế lớn do chúng ta không có được các nguồn tài nguyên
này. Một cách khắc phục là xây dựng các kho ngữ liệu song ngữ (Parallel Corpora) và từ các nghiên
cứu tương ứng của một ngôn ngữ mà dẫn ra một số kết quả thích hợp cho ngôn ngữ còn lại

2.3. Các đặc trưng ngôn ngữ của tiếng Việt
Ngôn ngữ là một hiện tượng xã hội: không phải hiện tượng tự nhiên, cá nhân mà là hiện
tượng xã hội đặc biệt. Ngôn ngữ là phương tiện giao tiếp quan trọng nhất của con người: các
phương tiện khác được diễn giải qua ngôn ngữ. Ngôn ngữ là hiện tượng trực tiếp của tư tưởng: ngôn
ngữ là phương tiện của tư duy. Quan hệ “ngôn ngữ – tư duy (ý thức) – hiện thực”  “từ – khái niệm –
sự vật”. Ngôn ngữ - lời nói - hoạt động lời nói: “ngôn ngữ” có tính xã hội, “lời nói” có tính cá nhân, “l ời
nói” là ngôn ngữ đang hành chức. Hay nói một cách đơn giản hơn: “Ngôn ngữ là hệ thống ký hiệu
đặc biệt dùng để làm phương tiện giao tiếp quan trọng nhất của con người”.
Theo quan điểm của F.de.Saussure (cha đẻ của ngôn ngữ học hiện đại): “Ngôn ngữ giống
như bàn cờ: giá trị của quân cờ không phải là do nó làm bằng gì, cấu tạo/hình dáng như thế nào, mà
giá trị của nó là do hệ thống bàn cờ, do các quân cờ khác qui định/gán cho nó. Nên nếu ta mất một
con xe/con pháo nào đó, thì ta vẫn có thể qui ước với nhau là thay thế nó bằng một cục phấn/hạt sỏi/
… mà giá trị của nó vẫn không đổi”.
Theo bảng phân loại loại hình ngôn ngữ, Tiếng Việt được xếp vào loại hình đơn lập (isolate)
hay còn gọi là loại hình phi hình thái, không biến hình, ngôn ngữ đơn âm tiết hay phân tiết,…với
những đặc điểm chính như sau:
12

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết



Trong hoạt động ngôn ngữ, từ không biến đổi hình thái. Ý nghĩa ngữ pháp nằm ở

ngoài từ. Ví dụ: Tôi nhìn anh ấy và Anh ấy nhìn tôi (I see him và He sees me)



Phương thức ngữ pháp chủ yếu là : trật tự từ và từ hư. Ví dụ : Gạo xay và Xay gạo ;
đang học và học rồi (learning và learned).

Tồn tại một loại đơn vị đặc biệt, là “hình tiết” mà vỏ ngữ âm của chúng trùng khít với âm tiết,
và đơn vị vị đó cũng chính là “hình vị” (morpheme) hay còn gọi là “tiếng” (tiếng Việt sử dụng khoảng
8000 tiếng). Các hình vị kết hợp với nhau một cách lỏng lẻo, linh động. Không có hiện tượng cấu tạo
từ bằng cách ghép thêm phụ tố (affix) vào gốc từ. (trong khi đó ở tiếng Anh, hiện tượng này rất phổ
biến, như: anticomputerizational = anti-compute-er-ize-ation-al).
Tiếng Việt thuộc loại ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời
nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ
vựng, ngữ pháp.

2.3.1.

Ngữ âm và âm vị
Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng". Về mặt ngữ âm, mỗi tiếng là một âm

tiết. Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếng Việt
trong việc thể hiện các đơn vị có nghĩa. Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặc sắc.
Khi tạo câu, tạo lời, người Việt rất chú ý đến sự hài hoà về ngữ âm, đến nhạc điệu của câu văn.
Mỗi âm tiết tiếng Việt gồm ba phần : phần đầu, phần sau và thanh điệu. Phần đầu của âm tiết
được xác định là Âm đầu, vì ở vị trí này chỉ có một âm vị tham gia cấu tạo. Phần sau của âm tiết
được gọi là phần Vần. Phần Vần gồm các loại âm vị được gọi là Âm đệm, Âm chính và Âm cuối.
Thanh điệu có sáu loại ngang, hỏi, huyền, sắc, ngã, nặng. Thanh điệu được đặt ở trên nguyên âm
trong âm tiết. Tuy nhiên phần Vần có thể có nhiều nguyên âm do vậy việc bỏ dấu ở nguyên âm nào là
vấn đề đã được đặt ra từ lâu trong các hội thảo về chuẩn hóa ngôn ngữ và công nghệ thông tintruyền thông. Ngoài ra, do sự có mặt của dấu phụ - các dấu không phải là thanh điệu, đi kèm với một

số nguyên âm để tạo ra các nguyên âm mới (ví dụ: “^” với â, ê, ô hay “’” với ơ, ư…) - nên vị trí đặt
thanh điệu cũng phải hòa hợp với các dấu phụ này.
Khi Công nghệ thông tin phát triển, việc bỏ dấu chính xác chính là một phần trong quá trình
lưu trữ các âm tiết, chữ viết trong các tài liệu điện tử và tất nhiên đòi hỏi một sự chính xác tuyệt đối.
Các quy tắc chuẩn hóa về vị trí thanh điệu cũng như vấn đề i-y đã được một số nhà ngôn ngữ học
đưa ra và nói chung đã được ngành ngôn ngữ học thống nhất. Nhưng trong các văn bản điện tử thì
hiện tại chưa có được các chuẩn hóa này. Bản thân các bộ gõ tiếng Việt thường được dùng hiện nay
như Vietkey hay Unikey cũng có các tùy chọn bỏ dấu.

2.3.2.

Từ pháp và hình thái
Khi tìm hiểu các đặc trưng tiếng Việt ta cần chú ý tiếng Việt là một ngôn ngữ đơn lập - đơn

âm tiết (monosyllable). Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ
13

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định
danh sự vật, hiện tượng..., chủ yếu nhờ phương thức ghép và phương thức láy.
Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quy luật kết
hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát... Hiện nay, đây là phương
thức chủ yếu để sản sinh ra các đơn vị từ vựng. Theo phương thức này, tiếng Việt triệt để sử dụng
các yếu tố cấu tạo từ thuần Việt hay vay mượn từ các ngôn ngữ khác để tạo ra các từ, ngữ mới, ví
dụ: tiếp thị, karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản (version), xa lộ thông tin,
siêu liên kết văn bản, truy cập ngẫu nhiên, v.v.
Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chi phối chủ
yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn,

lúng lá lúng liếng, v.v. Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết,
một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo điều kiện
thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động. Cùng
một sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thể có nhiều từ ngữ khác nhau biểu thị.
Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức năng ngôn
ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật. Hiện nay, do sự phát triển vượt bậc của khoa
học - kĩ thuật, đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn.
Dựa trên “tiếng” - đơn vị rất dễ nhận biết thông qua các dấu cách - chúng ta phân biệt được
đâu là từ ghép, đâu là từ đơn. Từ đơn là từ chỉ có một tiếng, từ ghép là từ có hai tiếng trở lên. Đây
chính là vấn đề của các ngôn ngữ như tiếng Việt : rất khó khăn khi thực hiện việc phân tách thuật
ngữ. Cách tốt nhất là dựa trên từ điển để đối sánh và rút ra kết luận (Bên ngành ngôn ngữ học có
một số phương pháp để xác định xem đó là một từ hay nhiều từ như khảo sát về hiện tượng tách,
lặp, hay đối chiếu…, tuy nhiên các phương pháp này không thể áp dụng được đối với máy tính !).
Xét về mặt hình thái, khác với phần lớn các ngôn ngữ hệ Latin, tiếng Việt thường không có
hiện tượng biến cách hay dẫn xuất khi câu thay đổi về thời, thể, cách. Thay vào đó là việc sử dụng
kết hợp với hư từ (từ công cụ) để phản ánh sự thay đổi này.
Điều này ảnh hưởng trực tiếp đến quá trình tiền xử lý văn bản cũng như đoán nhận ngữ
nghĩa. Việc chuẩn hóa hình thái từ của các hệ tiếng Latin là cả một vấn đề trong khi đó tiếng Việt
chúng ta không cần quan tâm đến. Ngược lại, khi xét đến ngữ nghĩa chúng ta phải thông qua các hư
từ hay danh từ số lượng đi kèm để hiểu được nghĩa đầy đủ của một từ hay cụm từ.

2.3.3.

Ngữ pháp
Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp

khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự
từ và hư từ. Tiếng Việt có khá nhiều khác biệt so với các ngôn ngữ khác, trong đó cần nói đến việc
tạo câu dựa trên cấu trúc nòng cốt và trật tự từ

14

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Cấu trúc nòng cốt, dựa trên quan hệ “đề thuyết” của tiếng Việt đề cập đến một quy tắc chung
nhất của tiếng Việt khi tạo câu, đó là một câu hoàn chỉnh về mặt ngữ pháp phải có phần đề và phần
thuyết. Phần đề cấu thành bởi danh ngữ. Phần thuyết cấu thành bởi hoặc là động ngữ hoặc tính ngữ
hoặc một đoản ngữ khác. Đây chính là sự khác biệt chính về ngữ pháp với một số ngôn ngữ khác,
tiếng Anh chẳng hạn. Trong tiếng Anh, cấu trúc chính là S-V-(O). Một câu hoàn chỉnh của tiếng Anh
cần phải có một động ngữ trong đó động từ đóng vai trò chính. Tiếng Việt thì không chắc vậy. Một
câu hoàn chỉnh có thể không có động từ
Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú
pháp. Trong tiếng Việt khi nói "Anh ta lại đến" là khác với "Lại đến anh ta". Khi các từ cùng loại kết
hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ.
Nhờ trật tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình". Trật tự chủ
ngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt.
Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng Việt. Nhờ hư từ mà tổ
hợp "anh của em" khác với ttổ hợp "anh và em", "anh vì em". Hư từ cùng với trật tự từ cho phép tiếng
Việt tạo ra nhiều câu cùng có nội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểu
cảm. Ví dụ, so sánh các câu sau đây:
 Ông ấy không hút thuốc.
 Thuốc, ông ấy không hút.
 Thuốc, ông ấy cũng không hút.
Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu. Ngữ điệu giữ vai trò
trong việc biểu hiện quan hệ cú pháp của các yếu tố trong câu, nhờ đó nhằm đưa ra nội dung muốn
thông báo. Trên văn bản, ngữ điệu thường được biểu hiện bằng dấu câu. Chúng ta thử so sánh 2 câu
sau để thấy sự khác nhau trong nội dung thông báo:
 Đêm hôm qua, cầu gãy.
 Đêm hôm, qua cầu gãy.

Qua một số đặc điểm nổi bật vừa nêu trên đây, chúng ta có thể hình dung được phần nào
bản sắc và tiềm năng của tiếng Việt.

3. KHAI PHÁ VĂN BẢN
3.1. Tổng quan khai phá dữ liệu
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh
vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được
các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng
trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ
15

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ
phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ
rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường
cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định
và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ
liệu khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu
truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật
mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data
Mining).
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong
nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ
tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng
Quá trình phát hiện tri thức gồm các bước sau:

Hình 2: Các bước của quá trình phát hiện tri thức
Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định

cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích
hợp với mục đích ứng dụng và bản chất của dữ liệu.
16

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu,
xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm
nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức.
Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình
ẩn dưới các dữ liệu.
Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Các
bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các
lần thực hiện.
Với hai đích chính của khai phá dữ liệu là Dự đoán (Prediction) và Mô tả (Description), người
ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:
 Phân loại (Classification)
 Hồi qui (Regression)
 Phân nhóm (Clustering)
 Tổng hợp (Summarization)
 Mô hình ràng buộc (Dependency modeling)
 Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)
 Biểu diễn mô hình (Model Representation)
 Kiểm định mô hình (Model Evaluation)
 Phương pháp tìm kiếm (Search Method)
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí
tuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độ cao, thu thập tri thức cho
các hệ chuyên gia, quan sát dữ liệu... Đặc biệt Phát hiện tri thức và khai phá dữ liệu rất gần gũi với
lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,

luật... Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP) cũng liên
quan rất chặt chẽ với Phát hiện tri thức và khai phá dữ liệu. Trong phạm vi tiểu luận này chúng tôi

3.2. Khai phá văn bản
Trong cơ sở dữ liệu, phần lớn dữ liệu ở dạng văn bản (text). Lĩnh vực con của Khai phá dữ
liệu áp dụng với dữ liệu văn bản phi cấu trúc được gọi là Khai phá văn bản ( Text Mining). Các kỹ
thuật chính của Khai phá văn bản là Nhận dạng mẫu, Trích rút đặc trưng, Thống kê tần suất từ khóa,

17

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Phân loại…, các phương pháp Trí tuệ Nhân tạo như Học máy, Mạng Nơ-ron, Giải thuật Di truyền…,
các phương pháp Xử lý ngôn ngữ tự nhiên…
Khai phá văn bản do làm việc với các dữ liệu phi cấu trúc nên cần phải có phương tiện để mô
hình hóa chúng, tiền xử lý cho các bước tiếp theo. Nói chung Khai phá văn bản gồm các bước: Thu
thập dữ liệu ở dạng văn bản, làm sạch chúng, phân tích biến đổi, lấy thông tin và hiển thị thông tin.
Mô hình chung của Khai phá văn bản :

Hình 3: Mô hình khai phá văn bản chung
Công việc thu thập và công việc làm sạch dữ liệu văn bản có thể diễn ra theo thứ tự thu thập
trước, làm sạch sau và cũng có thể ngược lại tùy yêu cầu. Thậm chí, việc thu thập và làm sạch còn
được lặp đi lặp lại nhiều lần để có được một kết quả tối ưu cho các bước tiếp. Do vậy quá trình thu
thập – làm sạch là quá trình chung và hết sức quan trọng của các bài toán thuộc lĩnh vực Khai phá
văn bản.
Ngoài việc thu thập và làm sạch dữ liệu văn bản thì việc tìm kiếm đối sánh văn bản cũng là
một công việc cốt lõi, không thể thiếu trong tất cả các bài toán Khai phá văn bản. Trong đó các văn
bản được thu thập thường có sự liên quan hay tương tự với nhau. Độ liên quan hay tương tự thường
được định lượng thông qua sự giống nhau về từ ngữ, về nghĩa hoặc theo một tiêu chí nào đó.

Các bài toán điển hình của lĩnh vực Khai phá văn bản bao gồm:


Phân lớp văn bản



Phân nhóm văn bản



Đánh chỉ mục - Tìm kiếm



Tóm tắt văn bản.

Các bài toán này chúng ta sẽ đi sâu hơn ở phần sau.

3.3. Biểu diễn văn bản
18

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Như chúng ta đã nói ở phần trước, văn bản thông thường là dạng dữ liệu phi cấu trúc, do vậy
muốn xử lý chúng, trước hết phải biểu diễn chúng thành những dạng có cấu trúc. Bên cạnh đó, việc
xác định mối liên quan và thực hiện các phép biến đổi, ánh xạ văn bản cũng đòi hỏi những dạng này
phải có khả năng thao tác bằng những phép toán cơ bản như các phép cộng, nhân, đại số quan hệ…
và các phép toán phức tạp khác. Trên thực tế, có ba mô hình thường được sử dụng để biểu diễn văn

bản, tất nhiên các mô hình này đều thỏa mãn những yêu cầu kể trên. Đó là Mô hình boolean, Mô hình
không gian vector và Mô hình tập thô dung sai.

3.3.1.

Mô hình boolean
Trong mô hình boolean, văn bản, vốn là tập hợp của các term ( thuật ngữ ), được biểu diễn

bởi chỉ số từng term và trọng số của chúng. Trọng số của từng term - dùng để đánh giá độ quan trọng
của chúng - trong mô hình này chỉ mang hai giá trị 0 và 1, tùy theo sự xuất hiện của term đó trong văn
bản.

1
wi 
0

ti  D
ti  D

Trong đó wi là trọng số của term ti trong văn bản D.
Đối với vấn đề truy vấn, trong mô hình này câu truy vấn bao gồm các văn bản tìm kiếm liên
hệ với nhau thông qua các phép đại số quan hệ cơ bản như NOT (phủ định), AND (và) hay OR
(hoặc). Câu truy vấn có thể biểu diễn thành dạng vector với các thành phần liên kết và các phép toán
quan hệ cơ bản. Từ đây, độ liên quan giữa một văn bản và truy vấn được xác định thông qua các
thành phần liên kết. Độ liên quan này chỉ có thể mang hai giá trị : 0 – văn bản không phù hợp với truy
vấn và 1 – văn bản phù hợp.
Do vậy có thể thấy rằng hạn chế lớn nhất của mô hình này đó là việc đánh giá độ liên quan
chỉ trả về hai kết quả, hoặc phù hợp hoặc không, như vậy yêu cầu của hệ thống khi cần sắp xếp và
chọn lựa các văn bản theo mức độ liên quan đến truy vấn sẽ không đạt. Độ liên quan của mô hình
này không thể phân chia thành các mức khác nhau, do vậy không phản ánh được thực tế là việc liên

quan giữa văn bản và truy vấn có thể là mờ, không chắn chắn. Hạn chế này được loại bỏ khi ta sử
dụng một mô hình tổng quát hơn – Mô hình không gian vector (Vector Space Model).

3.3.2.

Mô hình không gian vector
Như trên đã đề cập, mô hình không gian vector là mô hình tổng quát hơn mô hình Boolean.

Các văn bản được biểu diễn thành các vector nhiều chiều, với trọng số không chỉ mang hai giá trị là 0
hay 1 mà có thể mang các giá trị khác tùy theo cách đánh giá, tính toán. Một khác biệt nữa so với mô
hình boolean là các phép toán cơ bản của mô hình không gian vector. Các phép toán đại số quan hệ

19

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

dĩ nhiên không phù hợp nữa, thay vào đó là các phép toán vector như cộng hai vector, nhân hai
vector, tích vô hướng…
Khi biểu diễn văn bản thành các vector, vấn đề về truy vấn và xác định độ liên quan hoàn
toàn được giải quyết. Truy vấn là kết quả của các phép toán vector giữa các vector biểu diễn cho
những văn bản cấu thành nên truy vấn, như vậy, truy vấn trong trường hợp này cũng là một văn bản
đặc biệt. Việc xác định độ liên quan giữa truy vấn và văn bản được quy thành độ liên quan giữa văn
bản và văn bản. Hai văn bản là hai vector, vậy khoảng cách hay góc giữa chúng đều có thể đại diện
cho sự liên quan giữa hai văn bản này. Tất nhiên, để áp dụng được các phép toán vector cơ bản, hai
vector cần chuẩn hóa về số chiều (độ dài).
Biểu diễn hai văn bản lần lượt là hai vector :
x(w1,x,w2,x,….,wn,x) và y (w1,y,w 2,y,…,wn,y).
Góc giữa hai vector này có thể xác địng thông qua công thức Cosine như sau :
n

cosine(x,y) =

 w w
 (wi, x)   (wi, y)
i,z

i 1

n

2

i 1

i, y

n

2

i 1

Theo cách biểu diễn như trên người ta không quan tâm đến chỉ số của một term, vì vốn nó đã
được sắp thứ tự ngay trong vector biểu diễn văn bản. Nghĩa là với vector x(w 1,x,w2,x,….,wn,x) kể trên,
w1,x chính là trọng số của term có chỉ số là 1, w 2.x là trọng số của term có chỉ số là 2,…Việc đánh chỉ
số cho term thường dựa vào một danh sách thuật ngữ. Do vậy ta sẽ quan tâm đến việc trọng số của
term được xác định ra sao. Trọng số của term, ngoài cách gán giá trị là 0 hay 1 tùy vào sự xuất hiện
của term như mô hình boolean, người ta còn có thể gán các giá trị tần suất cho chúng. Việc gán các
giá trị tần suất cho trọng số của term cũng là một điều hợp lý vì người ta có thể đánh giá độ quan

trọng của một term thông qua tấn suất xuất hiện của term đó trong văn bản. Giá trị này có thể đơn
giản chỉ là số lần xuất hiện cuả term đó, tần suất của term đó ( số lần xuất hiện chia cho tổng số lần
xuất hiện của tất cả các term ) hay một giá trị nào khác tối ưu hơn. Thông thường, số lần xuất hiện
của một term thường được dùng như trọng số của term trong vector văn bản chứa nó. Số lần xuất
hiện này thường được biểu diễn thông qua các hàm logarithm cơ số tự nhiên hoặc cơ số mười. Đây
chính là kỹ thuật đánh trọng số TF (Term Frequency) :
wi = 1 + log(fi)
Trong đó wi là trọng số của term ti trong văn bản D.
fi là số lần xuất hiện của term ti trong văn bản D.

20

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

3.3.3.

Mô hình tập thô dung sai
Mô hình tập thô dung sai (Tolerance Rough Set Model) là một mô hình mới, tiên tiến

dựa trên lý thuyết về logic mờ và tập mờ (Fuzzy Set). Điều cốt lõi của lý thuyết này là việc xác định
chính xác một giả thiết nào đó (ví dụ như hai văn bản này có phù hợp, có giống nhau không...) là một
điều rất khó. Tuy nhiên chúng ta có thể chỉ ra một cặp xấp xỉ trên và xấp xỉ dưới để khẳng định được
giả thiết đó là đúng. Sử dụng các suy diễn hợp lý để xác định và "làm đẹp" các ngưỡng này. Các
phép toán cơ bản trong mô hình tập thô dựa trên các quan hệ tương đương các tính chất như đối
xứng, phản xạ, bắc cầu... Lý thuyết logic mờ đã và đang được ứng dụng rất mạnh mẽ trong lĩnh vực
Trí tuệ nhân tạo.
Mô hình tập thô gần đây được sử dụng nhiều cho các bài toán tìm kiếm cũng như phân nhóm
văn bản.. Tuy nhiên khi áp dụng mô hình tập thô cho quá trình xử lý văn bản thì tính chất bắc cầu
không còn phù hợp. Nhóm tác giả Hồ Tú Bảo, Saori Kawasaki, Nguyễn Ngọc Bình đã đề xuất ra mô

hình tập thô dung sai trong đó bỏ đi tính chất bắc cầu trong quá trình xử lý văn bản. Lý thuyết tập thô
được các nhà nghiên cứu Trí tuệ nhân tạo phát triển và ngày càng thể hiện được tính ưu việt không
chỉ trong việc biểu diễn và thao tác văn bản mà còn trong các vấn đề khác của lĩnh vực này.

3.4. Các bài toán Khai phá văn bản điển hình
3.4.1.

Bài toán Phân nhóm văn bản
Bài toán Phân nhóm văn bản (Text Clustering) có điểm khác so với bài toán Phân lớp văn

bản ở chỗ cho một tập văn bản chưa được phân loại gì cả, yêu cầu bài toán này là phân tập văn bản
này thành các nhóm dựa trên độ tương đồng giữa chúng. Đây là phương pháp học không có giám
sát (Unsupervised Learning Approach). Các thuật toán hay được dùng để giải quyết bài toán này là :
Các thuật toán Phân chia, thuật toán Phân cấp, Mô hình SVM (Support Vector Machine) và các thuật
toán xây dựng tập thuật ngữ thường xuyên (Frequent Term Set - Frequent Item Set ).

21

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Hình 4: Mô tả bài toán Phân nhóm văn bản

3.4.2.

Bài toán Đánh chỉ mục - Tìm kiếm
Một tên gọi khác phổ biến hơn của bài toán này là Thu thập thông tin (Information Retrieval).

Nói chính xác hơn bài toán Thu thập thông tin là bài toán cơ bản của Khai phá dữ liệu, và là bài toán
tổng quát hơn của bài toán Đánh chỉ mục - Tìm kiếm (Indexing - Searching). Yêu cầu bài toán là tìm

kiếm trong kho dữ liệu những văn bản phù hợp với câu truy vấn đưa vào. Bước đánh chỉ mục thường
giúp tìm kiếm nhanh hơn. Bài toán này là cơ sở cho các Search Engine - những bộ máy tìm kiếm và
trả về thông tin - một trong những công cụ hũu ích nhất trên Internet giúp chúng ta có thể tìm được
thông tin cần thiết chỉ thông qua một câu truy vấn đơn giản. Hiện nay các ứng dụng tìm kiếm kiểu này
thường áp dụng các phương pháp truy hồi để tăng khả năng chính xác cho dữ liệu tìm được. Bài
toán này còn là đầu vào cho một số các bài toán khác.

3.4.3.

Bài toán Tóm tắt văn bản
Quá trình tóm tắt là quá trình rút ra những thông tin quan trọng nhất từ một hay nhiều nguồn

văn bản để tạo ra một văn bản gọn hơn phục vụ cho một số nhiệm vụ hay người dùng cụ thể. Bài
toán tóm tắt văn bản (Text Summarization) là một trong những bài toán khó cài đặt nhất nhưng cũng
hữu ích nhất của lĩnh vực Khai phá văn bản. Một số biến thể của bài toán này như sinh phụ đề tự
động (Subtitling), sinh ý chính tài liệu (Document Gisting), sinh tiêu đề văn bản (Header Generating)...
Những thuật toán của bài toán này cũng được dùng trong các bài toán tương tự như tóm tắt hình
ảnh, âm thanh - những dữ liệu đa phương tiện.

22

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

4. BÀI TOÁN TÓM TẮT VĂN BẢN
4.1. Giới thiệu chung
Ở Việt Nam hiện nay, hầu như tất cả các bài toán tiếng Việt điển hình của Khai phá văn bản
đều đã được nghiên cứu và cài đặt thành ứng dụng như Tìm kiếm văn bản, Phân lớp & Phân nhóm
văn bản..., đóng góp rất nhiều vào sự phát triển của lĩnh vực Xử lý văn bản tự động tiếng Việt. Song
bài toán Tóm tắt văn bản thì chưa có nhiều nghiên cứu tiến hành đề xuất và xây dựng thành công

ứng dụng. Có thể vì bài toán này không chỉ cần những công cụ và phương pháp của Khai phá văn
bản mà còn phải lưu ý đến những vấn đề về Xử lý ngôn ngữ tự nhiên ( Natural Language
Processing). Điều này thật không tương xứng với nền thông tin tri thức hiện tại của Việt Nam, khi mà
đang có hàng ngàn nhu cầu khác nhau cần đến những ứng dụng trợ giúp tóm lược văn bản hay sinh
tiêu đề và hiển thị chúng theo những dạng mong muốn.
Chính sự dễ dàng khi truy cập vào kho dữ liệu Internet khổng lồ và phong phú lại là nhược
điểm cho việc tìm kiếm những thông tin mà chúng ta cần đến bởi chúng quá nhiều và không thống
nhất về định dạng lưu trữ và hiển thị. Kể cả khi đã lấy được những thông tin đó thông qua các hệ
thống phân loại, tìm kiếm thì cũng không thể nắm bắt toàn bộ vì thời gian có hạn mà số lượng thông
tin trả về quá lớn. Đấy là chưa kể đến việc những thông tin này liệu đã chính xác như mong muốn
hay chưa, liệu có nên bỏ thời gian để đọc chúng? Một hệ thống Tóm tắt văn bản sẽ giúp chúng ta giải
quyết phần lớn các nhu cầu vừa nêu. Hệ thống sẽ giúp chúng ta đọc nhanh hơn, nắm bắt những tri
thức cần thiết trong một tài liệu khoa học hàng trăm trang bằng cách tóm lược tài liệu đó lại thành một
đoạn văn bản vài ba chục trang. Những văn bản tìm thấy từ Internet, ta nhờ hệ thống quyết định liệu
nên đọc văn bản nào để có đúng thông tin ta cần. Những tóm lược ngắn gọn các công việc mà cô thư
ký đưa, những bản giới thiệu nội dung phim truyện tuần tới, những bức email thương mại chỉ vài
dòng... Đó là những khả năng mà một hệ thống Tóm tắt văn bản có thể mang lại.

4.1.1.

Tóm tắt văn bản là gì ?
Hệ thống Tóm tắt văn bản, như chúng ta đề cập tới trong tiểu luận này, có tên đầy đủ là Hệ

thống Tóm tắt văn bản tự động. Một hệ thống Tóm tắt văn bản tự động là một ứng dụng sinh tự động
một mô tả ngắn gọn của một hay nhiều văn bản sao cho vẫn giữ lại được các nội dung quan trọng và
hiển thị ra theo dạng yêu cầu của người sử dụng.
Điều cốt lõi của một hệ thống Tóm tắt văn bản xét theo lĩnh vực Khai phá văn bản là việc tìm
ra những thành phần quan trọng trong văn bản cần tóm tắt. Các thành phần này được gọi là các đơn
vị ngữ liệu. Đơn vị ngữ liệu ở đây có thể hiểu là đơn vị nhỏ nhất có nghĩa mà ta chọn để trích rút, tóm
lược như câu hoặc đoạn. Các đơn vị ngữ liệu quan trọng sẽ có xác suất lớn để chứa ý chính hay nội

dung quan trọng của cả đoạn văn hay văn bản. Và sau khi chọn được các đơn vị ngữ liệu quan trọng,
23

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

hệ thống Tóm tắt có thể tóm lược chúng, biến đổi chúng và sau cùng hiển thị ra màn hình, thống kê
kết quả hay sinh ra các dữ liệu mới cho các hệ thống nào khác.
Một số ứng dụng của hệ thống Tóm tắt văn bản tiếng Việt tự động :


Tóm tắt tự động các tin tức trên báo điện tử.



Trợ giúp thông minh việc đọc và khai thác thông tin.



Tóm lược danh sách tìm kiếm từ các Search Engine.



Giản lược nội dung trình bày cho các thiết bị cầm tay.



Sinh tự động chủ đề, tiêu đề, dẫn đường văn bản.



Hỗ trợ tóm lược nội dung cuộc họp, website, chương trình phát thanh và truyền hình, sổ tay
công việc.
Ngoài ra, một số module và kết quả của hệ thống cũng là đầu vào hay những bước tiền xử lý

cho các bài toán khác của Khai phá văn bản

Hình 5: Tóm tắt trang tin

4.1.2.

Các tiêu chí đánh giá
Các tiêu chí đánh giá kết quả của một hệ thống tóm tắt văn bản, còn là những tham số mà

người dùng có thể đưa vào hệ thống để phục vụ mục đích của mình, thường gồm các giá trị như sau:

24

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

 Độ rút gọn (độ nén)


Là tỉ số giữa số lượng đơn vị ngữ liệu của văn bản kết quả trên số lượng đơn vị ngữ
liệu của tập văn bản vào.



Tỉ lệ này có thể là là câu/câu, từ/từ, tiếng/tiếng, hoặc đơn giản hơn là ký tự/ký tự,

thường tính bằng %.



Độ rút gọn tỉ lệ thuận với độ khó thuật toán.

 Độ chính xác


Thể hiện mối quan hệ giữa văn bản kết quả với tập văn bản đầu vào và câu truy vấn.
Nói cách khác, nó thể hiện sự phù hợp giữa kết quả và truy vấn.



Được đánh giá dựa trên các hệ thống đánh giá tóm tắt như DUC, SUMMAC,
ROUGE… và các tập dữ liệu, kiểm thử mẫu (Corpus).



Độ chính xác tỉ lệ thuận với độ khó thuật toán.

 Mức độ liên kết


Thể hiện sự liên kết giữa các đơn vị ngữ liệu của văn bản kết quả với nhau.



Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và cú pháp.



Mức độ liên kết cũng tỉ lệ thuận với độ khó của thuật toán tóm tắt.



Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay thế cho tiêu chí
mức độ liên kết này.

4.1.3.

Phân loại bài toán Tóm tắt văn bản
Bài toán Tóm tắt văn bản được chia thành nhiều loại. Mỗi loại được sử dụng cho các mục

đích khác nhau, các yêu cầu khác nhau. Mỗi bài toán cũng phải áp dụng các phương pháp và kỹ
thuật riêng. Không có một ứng dụng Tóm tắt văn bản nào có thể cài đặt và đáp ứng được hết các
dạng yêu cầu đó.
 Tóm tắt một văn bản và Tóm tắt nhiều văn bản: Khi xét đầu vào một hệ thống Tóm tắt văn bản,
ta có thể chia thành hai dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt nhiều văn
bản (Multi-Document). Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của
văn bản đó. Nguợc lại, tóm tắt nhiều văn bản là từ nhiều văn bản nguồn cũng chỉ cho ra một đoạn
tóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bản đồng thời cho nhiều văn
bản khác nhau. Rõ ràng, tóm tắt nhiều văn bản thì khó hơn, vì ngoài những công việc của tóm tắt
đơn văn bản, tóm tắt nhiều văn bản còn phải thực hiện các công việc như tiền xử lý trích rút, tích
hợp thống nhất khuôn dạng và hiển thị kết quả theo cách riêng. Ngoài ra, tóm tắt nhiều văn bản
còn phải đối mặt với các vấn đề như dư thừa trùng lặp dữ liệu giữa các văn bản nguồn, nội dung
25

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

các văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự
phức tạp trong xử lý lớn.
 Trích rút và Tóm lược: Khi xét đến đầu ra một hệ thống Tóm tắt văn bản, chúng ta có thể có hai
dạng tóm tắt. Đó là Trích rút (Extraction) và Tóm lược (Abstraction). Việc phân biệt hai dạng tóm
tắt này là rất cơ bản và quan trọng. Trích rút là quá trình thu gọn văn bản mà trong kết quả ra
chứa các đơn vị ngữ liệu văn bản nguồn. Tóm lược là quá trình thu gọn văn bản mà trong kết quả
ra có một số các đơn vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn.
Ví dụ, có đoạn văn sau (được đánh số thứ tự câu) :
"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ 1. Ba anh chúng tôi chúng tôi đã
chờ những ngày này khá lâu rồi 2. Chả là anh cả tôi được về phép thăm gia đình nhân dịp Tết 3. Bố mẹ
tôi rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn 4. Căn phòng nhỏ tràn ngập tiếng cười và
không khí gia đình5. Bữa ăn đã làm nên một cuối tuần tuyệt vời 6"
Văn bản kết quả của quá trình Trích rút :
"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ. Bữa ăn đã làm nên một cuối
tuần tuyệt vời".
Văn bản kết quả của quá trình Tóm lược :
"Một buổi cuối tuần vui vẻ của gia đình tôi".
Chúng ta có thể thấy văn bản kết quả của quá trình Trích rút thực ra là câu 1 và câu 6 của
đoạn văn bản nguồn, và có cảm giác như đoạn kết quả không được trôi chảy lắm. Còn câu duy nhất
của văn bản kết quả sau quá trình Tóm lược không hề trùng với bất cứ câu nào trong sáu câu của
văn bản nguồn. Tuy nhiên nó vẫn thu gọn và giữ được ý chính của cả đoạn. Đây chính là sự khác
biệt lớn giữa Trích rút và Tóm lược.
Qua ví dụ này chúng ta cũng nhận ra rằng, để xây dựng một hệ thống Tóm lược khó hơn là
xây dựng một hệ thống Trích rút. Khi xem xét mô hình chung của một hệ thống Tóm tắt văn bản ta sẽ
thấy rõ hơn điều này.
 Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá
Phân chia về chức năng, có ba loại ứng dụng tóm tắt sau :


Tóm tắt chỉ định (Indicative): Là kiểu tóm tắt giúp người đọc quyết định xem có nên
đọc tiếp, đọc sâu nữa không. Ví dụ như loại ứng dụng sinh tiêu đề, tóm lược kết quả
tìm kiếm…



Tóm tắt thông tin (Informative): Là kiểu tóm tắt tóm lược tất cả các nội dung quan trọng
nhất của văn bản gốc, văn bản tạo ra có thể thay thế được cho văn bản gốc. Ví dụ như
tóm tắt một tiểu thuyết thành đoạn văn năm bảy trang.

26

XLNN trình Phát hiện tri thức trong cơ sở dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về