Tải bản đầy đủ (.doc) (66 trang)

XLNN trình Phát hiện tri thức trong cơ sở dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.99 MB, 66 trang )

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

MỤC LỤC
MỞ ĐẨU................................................................................................................................... 5
MỞ ĐẨU................................................................................................................................... 5
1.

CƠ SỞ LÝ THUYẾT........................................................................................................ 8
1.1.

Tổng quan về Xử lý ngôn ngữ tự nhiên...............................................................8

1.2.

Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên...............................................9

1.2.1.

Phân tách thuật ngữ - Phân tách đoạn và câu......................................................9

1.2.2.

Gán nhãn từ loại...................................................................................................11

1.2.3.

Phân tích cú pháp.................................................................................................11

1.2.4.

Phân tích ngữ nghĩa.............................................................................................12



1.3.

2.

1.3.1.

Ngữ âm và âm vị..................................................................................................13

1.3.2.

Từ pháp và hình thái............................................................................................14

1.3.3.

Ngữ pháp..............................................................................................................15

KHAI PHÁ VĂN BẢN..................................................................................................... 16
2.1.

Tổng quan khai phá dữ liệu................................................................................16

2.2.

Khai phá văn bản................................................................................................. 18

2.3.

Biểu diễn văn bản................................................................................................19


2.3.1.

Mô hình boolean...................................................................................................19

2.3.2.

Mô hình không gian vector...................................................................................20

2.3.3.

Mô hình tập thô dung sai......................................................................................21

2.4.

3.

Các bài toán Khai phá văn bản điển hình..........................................................22

2.4.1.

Bài toán Phân nhóm văn bản...............................................................................22

2.4.2.

Bài toán Đánh chỉ mục - Tìm kiếm......................................................................22

2.4.3.

Bài toán Tóm tắt văn bản.....................................................................................22


BÀI TOÁN TÓM TẮT VĂN BẢN....................................................................................24
3.1.

Giới thiệu chung.................................................................................................. 24

3.1.1.

Tóm tắt văn bản là gì ?.........................................................................................24

3.1.2.

Các tiêu chí đánh giá............................................................................................25

3.1.3.

Phân loại bài toán Tóm tắt văn bản.....................................................................26

3.2.

Mô hình Tóm tắt văn bản.....................................................................................29

3.2.1.

Mô hình chung......................................................................................................29

3.2.2.

Các phương pháp áp dụng trong các pha...........................................................30

3.2.3.


Đánh giá kết quả tóm tắt......................................................................................40

3.3.
4.

Các đặc trưng ngôn ngữ của tiếng Việt.............................................................12

Một số hệ thống tóm tắt văn bản phổ biến........................................................44

XÂY DỰNG HỆ THỐNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT - SUMMARIZER..........46
4.1.

Mô hình xây dựng ứng dụng..............................................................................46
2


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

4.2.

4.2.1.

Chuẩn hóa văn bản..............................................................................................47

4.2.2.

Mô hình hóa văn bản............................................................................................48

4.2.3.


Tách thuật ngữ.....................................................................................................49

4.3.

Các phương pháp trong pha Phân tích.............................................................52

4.3.1.

Phương pháp Title................................................................................................53

4.3.2.

Phương pháp Heading.........................................................................................54

4.3.3.

Phương pháp NamedEntity - NE........................................................................55

4.3.4.

Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence).............................56

4.3.5.

Phương pháp Tần suất xuất hiện của thuật ngữ................................................56

4.3.6.

Phương pháp TFxIPF...........................................................................................57


4.4.

5.

Giai đoạn tiền xử lý văn bản tiếng Việt..............................................................47

Các phương pháp trong pha Biến đổi...............................................................58

4.4.1.

Biến đổi nhờ vào rút gọn câu...............................................................................58

4.4.2.

Giản lược câu về mặt ngữ nghĩa.........................................................................60

4.5.

Các phương pháp trong pha Hiển thị................................................................61

4.6.

Xây dựng chương trình Summarizer.................................................................62

CHƯƠNG TRÌNH ỨNG DỤNG......................................................................................63
5.1.

Một số giao diện chương trình...........................................................................63


5.2.

Kiểm thử............................................................................................................... 64

6.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN..........................................................................67

7.

TÀI LIỆU THAM KHẢO................................................................................................. 68
7.1.

Links..................................................................................................................... 68

7.2.

Books.................................................................................................................... 68

3


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

MỤC LỤC HÌNH VẼ
Hình 1: Phân tích cú pháp..........................................................................................................12
Hình 2: Các bước của quá trình phát hiện tri thức....................................................................17
Hình 3: Mô hình khai phá văn bản chung..................................................................................18
Hình 4: Mô tả bài toán Phân nhóm văn bản..............................................................................22
Hình 5: Tóm tắt trang tin.............................................................................................................25

Hình 6: Mô hình chung của tóm tắt văn bản..............................................................................29
Hình 7: Mô hình trích rút văn bản...............................................................................................30
Hình 8: Mô hình phương pháp quan hệ lẫn nhau......................................................................32
Hình 9: Ví dụ về liên kết từ vựng................................................................................................33
Hình 10: Mô hình liên kết tham chiếu.........................................................................................33
Hình 11: Mô hình hệ thống tóm tắt văn bản...............................................................................47
Hình 12: Mô hình hoá văn bản...................................................................................................48
Hình 13: Cấu trúc chương trình Summarizer.............................................................................62
Hình 14: Giao diện chính............................................................................................................63
Hình 15: Form cấu hình tóm tắt..................................................................................................63
Hình 16: Giao diện kiểm thử.......................................................................................................64
Hình 17: Giao diện phân tách đoạn và câu................................................................................65
Hình 18: Giao diện phân tách thuật ngữ của đoạn....................................................................65
Hình 19: Kết quả thực thi phương pháp TFxIPF.......................................................................66
Hình 20: Kết quả thực thi phương pháp Title.............................................................................66

4


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

1. MỞ ĐẨU
Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin. Chính sự phát triển nhanh
chóng của Công nghệ thông tin và Truyền thông đã đem lại cho thế giới bộ mặt mới. Các ứng dụng
Công nghệ thông tin - Truyền thông đã hiện diện trong hầu hết các ngành, các lĩnh vực của cuộc
sống: kinh tế tri thức, hợp tác toàn cầu, những công việc quản lý, vận hành những hoạt động từ vi mô
tới vĩ mô của doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc,
trợ giúp... Đặc biệt, sự ra đời của Internet - Mạng thông tin toàn cầu - được coi là nguyên nhân chính,
thúc đẩy sự bùng nổ thông tin trên toàn thế giới. Thông qua Internet, những thông tin quý giá về mọi
lĩnh vực đều sẵn sàng đợi chúng ta khám phá và lĩnh hội.

Trong thế giới thông tin đa dạng phong phú như vậy, nhu cầu thu thập được những thông tin
cần thiết, có giá trị đồng thời xử lý chúng thành dạng dữ liệu mong muốn là nhu cầu chính đáng và
cấp thiết của nhân loại. Lĩnh vực của Công nghệ thông tin có thể đáp ứng những nhu cầu to lớn này
là Khai phá dữ liệu.
Khai phá dữ liệu, vốn chỉ là một giai đoạn trong bảy giai đoạn của quá trình Phát hiện tri
thức trong cơ sở dữ liệu, tuy nhiên, do là giai đoạn chính yếu, nên chúng ta thường đồng nhất, hay
nói chính xác hơn là lấy Khai phá dữ liệu làm đại diện cho cả quá trình Phát hiện tri thức trong cơ sở
dữ liệu. Và vì vậy, Khai phá dữ liệu được hiểu như một quá trình lấy ra các thông tin quan trọng từ
các dạng CSDL, biến đổi, xử lý chúng nhằm phục vụ những mục đích cụ thể của con người. Các
phương pháp thường dùng trong Khai phá dữ liệu là các phương pháp Trích chọn, Thống kê hay
Phân loại... Do phần lớn dữ liệu ở dạng văn bản nên một lĩnh vực nhỏ hơn là Khai phá văn bản
được quan tâm chú ý hơn cả.
Trong khi lĩnh vực Khai phá dữ liệu mới trở thành đề tài nóng bỏng, cấp thiết gần đây do sự
bùng nổ thông tin toàn cầu thì trong ngành Khoa học máy tính, có một lĩnh vực khác đã ra đời cách
đây khá lâu, và cũng đã có nhiều thành tựu trong suốt quá trình phát triển của mình. Đó là lĩnh vực
Xử lý ngôn ngữ tự nhiên. Mục đích của Xử lý ngôn ngữ tự nhiên là giúp cho máy tính và con người
hiểu nhau hơn, thuận tiện hơn trong quá trình làm việc và đem lại lợi ích tối đa cho con người. Thông
qua các giao tiếp thân thiện, dễ hiểu giữa người và máy, việc đưa Công nghệ thông tin thật sự đi vào
đời sống nhân loại là mục tiêu lớn nhất mà Xử lý ngôn ngữ tự nhiên hướng tới.
Xử lý ngôn ngữ tự nhiên là quá trình xử lý sao cho máy tính có thể hiểu được một thông tin
giống như cách mà con người hiểu thông tin đó thông qua các khía cạnh ngôn ngữ bao hàm trong
nó. Theo định nghĩa này thì Xử lý ngôn ngữ tự nhiên là một phần của Trí tuệ nhân tạo - làm cho máy
tính nắm bắt, thao tác, mô phỏng cách mà con người thực hiện. Vì vậy các phương pháp của Trí tuệ
nhân tạo thường được dùng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng của
ngành Ngôn ngữ học như hình thái, ngữ pháp, ngữ nghĩa… Các bài toán điển hình của Xử lý ngôn
ngữ tự nhiên là Trả lời tự động, Dịch máy, Sinh văn bản tự động, Kiểm tra chính tả…

5



Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Như vậy, hai lĩnh vực Khai phá dữ liệu và Xử lý ngôn ngữ tự nhiên có nhiều điểm khác biệt
mặc dù cùng sử dụng một số các phương pháp của Trí tuệ nhân tạo. Nói đến Khai phá dữ liệu là nói
đến việc tìm ra thông tin quan trọng, thông tin mong muốn từ một lượng lớn dữ liệu, còn nói đến Xử
lý ngôn ngữ tự nhiên là nói đến việc máy tự phân tích và hiểu những khía cạnh ngôn ngữ trong thông
tin cụ thể. Tuy nhiên, có một bài toán điển hình của Khai phá dữ liệu có sử dụng rất nhiều những khái
niệm, mô hình, phương pháp của Xử lý ngôn ngữ tự nhiên, đó là bài toán Tóm tắt văn bản.
Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn để tạo ra
một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ thể. Tóm tắt văn bản làm
nhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan trọng nên về bản chất nó thuộc lĩnh vực
của Khai phá văn bản. Tuy nhiên trong quá trình chắt lọc, rút gọn thì cần có sự áp dụng của các
phương pháp Xử lý ngôn ngữ tự nhiên nếu muốn kết quả ra là một văn bản dễ đọc, dễ hiểu và mang
ý nghĩa ngôn ngữ tự nhiên như đầu vào của nó. Trên thế giới đã có rất nhiều các ứng dụng Tóm tắt
văn bản, với những mục đích nghiên cứu cũng như thương mại. Nhưng với những khó khăn và thách
thức riêng, Tóm tắt văn bản hiện chưa được nghiên cứu nhiều ở Việt Nam. Chính vì lý do này chúng
tôi đã chọn Tóm tắt văn bản tiếng Việt là đề tài tiểu luận, mong muốn góp một phần công sức cho sự
phát triển của Khai phá văn bản tiếng Việt nói riêng và Công nghệ thông tin Việt Nam nói chung.
Trong tiểu luận này chúng tôi muốn trình bày những kết quả tìm hiểu về bài toán Tóm tắt văn
bản và bước đầu xây dựng một Ứng dụng tóm tắt văn bản tiếng Việt, sử dụng kết hợp các phương
pháp của Khai phá văn bản và Xử lý ngôn ngữ tự nhiên đồng thời xét tới những đặc trưng về ngôn
ngữ của tiếng Việt.
Tiểu luận gồm các phần sau :
 Chương 1. Trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên, các vấn đề chung của Xử lý ngôn ngữ
tự nhiên, các đặc trưng ngôn ngữ tiếng Việt cũng như các vấn đề riêng khi xử lý tự động văn bản
tiếng Việt.
 Chương 2. Trình bày về lĩnh vực Khai phá dữ liệu nói chung và Khai phá văn bản nói riêng, các
vấn đề mô hình hóa văn bản cũng như đề cập sơ qua một số bài toán Khai phá văn bản điển hình.
 Chương 3. Trình bày những vấn đề cơ bản về bài toán Tóm tắt văn bản, khái niệm và phân loại
một bài toán Tóm tắt văn bản, lịch sử phát triển và những ứng dụng của Tóm tắt văn bản, mô

hình chung và các phương pháp xây dựng một ứng dụng Tóm tắt văn bản…
 Chương 4. Trình bày việc thiết kế và xây dựng ứng dụng Tóm lược văn bản tiếng Việt
SUMMARIZER dựa trên một số phương pháp trong các phương pháp đã nêu ở chương ba.
Ngoài ra trong chương này, những cài đặt tiền xử lý văn bản cũng được chúng tôi đề cập đến với
những nét mới so với các công việc tương tự trước đây của một số nhà nghiên cứu lĩnh vực Khai
phá văn bản tiếng Việt.
 Chương 5. Trình bày việc kiểm thử và đánh giá ứng dụng SUMMARIZER, các kết quả thực
nghiệm của chương trình.
6


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

 Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này.
 Cuối cùng là phần tài liệu tham khảo.

7


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

2. CƠ SỞ LÝ THUYẾT
2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên là lĩnh vực thuộc ngành Khoa học máy tính và đã xuất hiện từ rất
lâu. Với việc sử dụng các phương pháp Trí tuệ nhân tạo, Xử lý ngôn ngữ tự nhiên cũng thường được
coi là ngành nghiên cứu hẹp hơn của lĩnh vực này.
Ngôn ngữ tự nhiên (Natural Language) là thuật ngữ dùng để chỉ các ngôn ngữ giao tiếp giữa
con người với nhau như tiếng Việt, tiếng Anh, tiếng Nhật…, để phân biệt với ngôn ngữ nhân tạo
(Artificial Language) hay còn gọi là ngôn ngữ lập trình (Programming Language) để chỉ các ngôn ngữ
con nguời giao tiếp với máy tính như Pascal, C/C++, Java… Lĩnh vực Xử lý ngôn ngữ tự nhiên ra đời

đã lâu, trải qua nhiều nghiên cứu và ứng dụng, ngày nay được hiểu như là lĩnh vực giúp máy tính xử
lý các vấn đề về ngôn ngữ tự nhiên, không ngoài mục đích giúp cho giao tiếp giữa người-máy thuận
tiện và thân thiện hơn.
Xử lý ngôn ngữ tự nhiên có rất nhiều hướng ứng dụng và mỗi hướng ứng dụng đó lại là một
ngành nghiên cứu hết sức thú vị. Khi nói đến Xử lý ngôn ngữ tự nhiên thì chúng ta phải nói đến cơ sở
ngôn ngữ tự nhiên. Đó là những vấn đề cơ bản của ngôn ngữ mà lĩnh vực Xử lý ngôn ngữ tự nhiên
bám sát và nghiên cứu làm sao cho máy tính phân tích và hiểu ngôn ngữ tự nhiên giống như con
người hiểu hoặc chí ít cũng là gần như cách con người hiểu. Các vấn đề cơ bản của ngôn ngữ tự
nhiên bao gồm :
 Phonology & Phonetics (Âm vị và Ngữ âm): các ngành nghiên cứu của Ngôn ngữ học, chuyên
nghiên cứu về đơn vị phát âm, cách phát âm và các biến thái của chúng. Hướng ứng dụng tương
ứng của chúng thuộc Xử lý ngôn ngữ tự nhiên là ngành Xử lý - Nhận dạng tiếng nói.
 Morphology (Hình thái học): ngành nghiên cứu về hình thái của từ, nghĩa là tùy thuộc vào thời,
thể, cách mà các từ có sự biến đổi hay kết hợp khác nhau. Các thành tựu của hình thái học được
các nhà khoa học về Máy tính sử dụng trong các nghiên cứu mà họ lấy từ hay chữ là đơn vị để xử
lý như Nhận dạng chữ viết, Kiểm tra và sửa chính tả…
 Grammar (Ngữ pháp): ngành nghiên cứu về từ pháp và cú pháp. Từ pháp đề cập đến các đặc
tính từ loại (Part Of Speech), giống, số của từ. Một số nhà ngôn ngữ cũng xếp Hình thái học vào
vấn đề Từ pháp học. Cú pháp (Syntactic) đề cập đến sự liên kết giữa các từ, các ngữ trong câu.
Ngữ pháp và ngữ nghĩa là hai vấn đề mà Xử lý ngôn ngữ tự nhiên quan tâm nhất và cũng đạt
được nhiều kết quả nghiên cứu nhất cho đến hiện tại.
 Semantic (Ngữ nghĩa): đề cập đến vấn đề ngữ nghĩa: một từ, ngữ hay câu được “hiểu” như thế
nào, hàm chứa ý gì, quan hệ về nghĩa giữa các từ với nhau thế nào... Đặc biệt tiếng Anh đã xây
dựng được nhiều nghiên cứu về ngữ nghĩa và thậm chí nhiều mạng ngữ nghĩa - mô tả quan hệ về
nghĩa giữa các từ theo nhiều khía cạnh. Nổi tiếng nhất có lẽ là WordNet. Mạng ngữ nghĩa này là
một kho tri thức khổng lồ được cung cấp miễn phí cho việc nghiên cứu. Hiện tại nhiều mạng
8


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết


Wordnet cho các thứ tiếng khác ngoài tiếng Anh cũng đã được xây dựng, tuy nhiên Wordnet Việt
nam hiện tại vẫn chưa được chính thức nghiên cứu và xây dựng.
 Pragmatics (Ngữ dụng): ngành nghiên cứu việc dùng các từ, các ngữ trong các lĩnh vực khác
nhau. Các thống kê về việc tần suất sử dụng của các từ trong các lĩnh vực khác nhau là những
thông số quan trọng cần thiết cho những phương pháp thống kê của Xử lý ngôn ngữ tự nhiên.
Trên các lĩnh vực này, máy tính cần phải hiểu được ngôn ngữ ở mức cao hơn. Đó là mức
ngữ đoạn (Discourse) và mức tri thức (World Knowledge).
Mức ngữ đoạn là các quan hệ về mặt ngữ pháp và ngữ nghĩa, thậm chí ngữ dụng của các
đoạn văn bản. Đã có nhiều nghiên cứu về vấn đề này, nổi tiếng nhất là Lý thuyết cấu trúc tu từ
(Rhetorical Structure Theory - RST). RST biểu thị các quan hệ ngữ pháp và ngữ nghĩa giữa các câu
với nhau, giữa các đoạn với nhau thông qua các quan hệ được định nghĩa sẵn. Lý thuyết này thường
được áp dụng trong việc phân tích ngữ đoạn cũng như sinh văn bản tự động.
Mức tri thức là mức rộng nhất, máy phải hiểu được tất cả các vấn đề của một tiếng, một từ,
một ngữ, một câu, một khái niệm, một thông tin, một tri thức... Tất nhiên chưa có một nghiên cứu nào
đạt được mức này tuy nhiên cũng đã có một số nghiên cứu đặt ra tham vọng sẽ mô hình hóa về tất
cả các đặc tính của ngôn ngữ cho một đơn vị nào đó như từ, câu hoặc đoạn...
Ngôn ngữ tự nhiên là một vấn đề phức tạp ngay cả với con người, vì vậy, đối với máy tính
việc xử lý ngôn ngữ tự nhiên là một công việc hết sức khó khăn, thuộc lớp các bài toán kinh điển của
Khoa học máy tính và Trí tuệ nhân tạo - các bài toán đòi hỏi chi phí tính toán rất lớn. Vì vậy, Xử lý
ngôn ngữ tự nhiên trước đây phát triển chậm và có xu hướng áp dụng các thuật toán dựa luật và suy
diễn. Tuy nhiên vào những thập kỷ gần đây, sự phát triển nhanh chóng của phần cứng máy tính kéo
theo sự ra đời của các máy tính nhỏ gọn, giá thành rẻ mà lại có hiệu suất tính toán cao đã mở ra triển
vọng mới cho lĩnh vực Trí tuệ nhân tạo nói chung và Xử lý ngôn ngữ tự nhiên nói riêng. Các thuật
toán thống kê cũng đang từng ngày được áp dụng nhiều hơn và cho những kết quả khả quan. Những
thành tựu của Xử lý ngôn ngữ tự nhiên không chỉ áp dụng trong nghiên cứu mà đã được dùng để xây
dựng các ứng dụng mang tính thương mại và đạt được nhiều thành công trên thị trường.

2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên
Như chúng ta đã đề cập, ngữ pháp và ngữ nghĩa là các vấn đề được quan tâm nhất và có

ứng dụng nhiều nhất trong các bài toán điển hình của lĩnh vực Xử lý ngôn ngữ tự nhiên như Tóm tắt,
Dịch máy, Trả lời tự động… Sau đây là các bài toán cơ bản thuộc về ngữ pháp và ngữ nghĩa mà các
nhà Xử lý ngôn ngữ tự nhiên thường phải giải quyết.

2.2.1.

Phân tách thuật ngữ - Phân tách đoạn và câu
Phân tách thuật ngữ (Word Segmentation) là công việc tách một chuỗi văn bản ra thành các

term (thuật ngữ) xem các term nào có trong từ điển, term nào không có trong từ điển (các tên riêng,
ký hiệu, chữ viết tắt…). Công việc này làm tiền đề cho việc mô hình hóa văn bản. Chúng ta phải thực
hiện việc này trước thì mới có thể vector hóa một văn bản, đối sánh hay xác định độ liên quan…
9


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Các ngôn ngữ Latin như tiếng Anh hay tiếng Pháp thì vấn đề này không phức tạp bằng các
ngôn ngữ khác như tiếng Việt, tiếng Hoa hay tiếng Nhật… do các từ của tiếng Anh hay tiếng Pháp
được tách nhau bởi một hay nhiều dấu cách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa các
dấu cách không phải là từ mà là tiếng (chữ) - một đơn vị nhỏ hơn từ.
Ví dụ: Xét câu tiếng Anh sau :
We announced that we have captured him.
Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :
We | announced | that | we | have | captured | him.
Tuy nhiên ta xem câu tiếng Việt tương ứng :
Chúng tôi xin thông báo rằng chúng tôi đã bắt được hắn ta.
Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này. Kết quả phân tách
thuật ngữ đúng phải là như sau :
Chúng tôi | xin | thông báo | rằng | chúng tôi | đã | bắt được | hắn ta.

Để giải quyết vấn đề này các nhà Xử lý ngôn ngữ tự nhiên của Việt Nam, Trung
Quốc, Nhật Bản… thường sử dụng những phương pháp như: Đối sánh thuật ngữ dài nhất (Maximum
Length Matching), Đồ thị chuyển trạng thái (Transducing Graph), dựa cú pháp (Syntax-based
Approach)… Mỗi phương pháp có ưu và nhược điểm riêng nhưng phương pháp nào cũng sử dụng
một từ điển hoặc danh sách từ vựng. Do vậy sự chính xác của từ điển hay danh sách từ vựng là yếu
tố quan trọng ảnh hưởng đến sự chính xác của bộ phân tách thuật ngữ. Ngoài ra vì có những nhập
nhằng trong ngôn ngữ nên bài toán này cũng như các bài toán khác của Xử lý ngôn ngữ tự nhiên
chưa được giải quyết một cách trọn vẹn. Hiện tại các bộ phân tách thuật ngữ thường đạt được kết
quả từ 85% đến 98% các từ phân tách chính xác.
Bộ đoán nhận danh từ riêng, chữ viết tắt cũng có thể coi là một phần của bộ phân tách thuật
ngữ và được áp dụng rộng rãi. Nhiều bài toán coi đây là một công việc cơ bản vì danh từ riêng, chữ
viết tắt… có tần suất xuất hiện khá cao trong văn bản và chúng cũng hàm chứa mức độ quan trọng
lớn. Ngoài ra việc đoán nhận danh từ riêng, chữ viết tắt còn là một phần của việc hợp giải tham chiếu
(Coreference Resolution) - được dùng nhiều trong các ứng dụng tóm tắt và sinh ngôn ngữ tự nhiên
(Natural Language Generating).
Xét về phạm vi lớn hơn thì ta phải đối mặt với một vấn đề khác, đó là Phân tách đoạn-câu
(Sentence Segmentation) là công việc phân tách một văn bản thành những đoạn và câu nhằm tạo
tiền đề cho việc phân tích cú pháp sau này của văn bản đó. Bài toán này không phân biệt ngôn ngữ
vì hầu hết các ngôn ngữ thường phân tách câu dựa trên những dấu hiệu là các dấu ngắt câu như
dấu chấm, chấm hỏi, chấm than... Tuy vậy, nếu văn bản đưa vào không chuẩn thì kết quả cũng không
thể đạt 100%. Ví dụ, sau các dấu chấm câu không viết hoa sẽ dẫn đến việc hiểu nhầm thành dấu ba
chấm. Ngoài ra, một số phần trăm sai sót khác còn do hiện tượng những dấu chấm câu được dùng
như là ký hiệu thực hiện chức năng khác khác gây ra. Ví dụ, dấu chấm dùng để phân tách phần
nguyên và phần thập phân của một con số. Nói chung phân tách đoạn-câu có khả năng đạt được độ
10


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

chính xác cao hơn và cũng dễ dàng cài đặt hơn phân tách từ nhưng phạm vi áp dụng thì không rộng

bằng.

2.2.2.

Gán nhãn từ loại
Gán nhãn từ loại là công việc gán cho mỗi từ trong câu, hay đoạn thông tin về từ loại ( Part of

speech) của chúng.
Ví dụ : xét câu tiếng Việt sau :
Học sinh học sinh học
Câu này nếu gán nhãn từ loại đúng sẽ là :
[Học sinh]N[học]V [sinh học]N
Tuy nhiên làm sao để máy có thể hiểu và gán đúng nhãn từ loại là một vấn đề. Sự nhập
nhằng trong ngôn ngữ cản trở việc máy đoán nhận đúng. Ngoài ra việc phân tách thuật ngữ cũng ảnh
hưởng tới việc gán nhãn vì các danh sách thuật ngữ của một câu là đầu vào cho một bộ gán nhãn từ
loại. Với ví dụ trên có khá nhiều bộ gán nhãn từ loại gán sai dẫn tới kết luận sai về cú pháp.
Các phương pháp thường dùng để cài đặt bộ gán nhãn từ loại bao gồm : Mô hình Markov ẩn
- Giải thuật Viterbi, Dựa luật cú pháp (Rule-based), Dựa bộ nhớ (Memory-based), Độ hỗn loạn lớn
nhất (Maximum Entropy)… Trong đó các phương pháp áp dụng mô hình Markov ẩn (Hidden Markov
Model - HMM) được sử dụng nhiều nhất. Các phương pháp như Bigram, Trigram hay CFG (Context
Free Grammar) đều thuộc loại này. Hiện nay bộ gán nhãn từ loại (POS Tagger) chính xác nhất đạt tới
khả năng gán nhãn đúng 98% số từ.

2.2.3.

Phân tích cú pháp
Phân tích cú pháp là bài toán tổng quát của gán nhãn từ loại. Ngoài việc gán từ loại cho từng

từ, bộ phân tích cú pháp (Syntax Analyzer hay Parser) phải nhận biết được các ngữ và gán kiểu cho
các ngữ làm sao để có được một câu hoàn chỉnh về mặt ngữ pháp. Nếu không câu đó là câu không

hoàn chỉnh. Xét về ngôn ngữ học, đó sẽ không phải là câu. Kết quả việc gán từ, ngữ này thường
được biểu diễn thành cây, gọi là cây cú pháp (Syntax Tree).
Với ví dụ trên ta có :

Hình 1: Phân tích cú pháp

11


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Các bộ phân tích cú pháp thường được cài đặt bởi các thuật toán dựa trên luật hay ngữ liệu
(Corpus-based). Việc kiểm tra xem một câu có phải là câu hoàn chỉnh hay không thường dựa vào
việc duyệt cây và cấu trúc chính của một ngôn ngữ. Ở tiếng Anh, cấu trúc chính tạo nên câu hoàn
chỉnh về mặt ngữ pháp là cấu trúc S + V + (O) : Chủ ngữ + Động từ + (Tân ngữ). Tuy nhiên trong
tiếng Việt cấu trúc “nòng cốt” tạo bởi quan hệ “đề - thuyết” (hay quan hệ “chủ - vị”) là cấu trúc của một
câu hoàn chỉnh về mặt ngữ pháp.
Việc phân tích cú pháp là một công việc cơ bản của các bài toán Xử lý ngôn ngữ tự nhiên,
nhưng do tính chất phức tạp của ngôn ngữ và các đặc thù riêng của quá trình máy học, các bộ phân
tích cú pháp chưa đạt được độ chính xác cao như mong đợi.

2.2.4.

Phân tích ngữ nghĩa
Như chúng ta đã đề cập ở trên, phân tích ngữ nghĩa giúp cho máy có thể “hiểu” được một từ,

một câu, một đoạn... hàm chứa ý nghĩa gì hay mối quan hệ về nghĩa giữa chúng... Các phương pháp
dùng để phân tích ngữ nghĩa hay được dùng đó là các phương pháp dựa trên tri thức hay dựa trên
ngữ liệu. Dựa trên tri thức (Knowledge-based) là phương pháp dựa trên các kho tri thức ngữ nghĩa
có sẵn (như WordNet) để phân tích ngữ nghĩa. Dựa trên ngữ liệu (Corpus-based) là phương pháp

dựa trên những thống kê các kho ngữ liệu để đưa ra được ngữ nghĩa của đối tượng đang xét. Các
phương pháp này nói chung đòi hỏi phải có kho tri thức hoặc kho ngữ liệu lớn, càng lớn càng chính
xác nhưng đối với tiếng Việt thì đây là hạn chế lớn do chúng ta không có được các nguồn tài nguyên
này. Một cách khắc phục là xây dựng các kho ngữ liệu song ngữ (Parallel Corpora) và từ các nghiên
cứu tương ứng của một ngôn ngữ mà dẫn ra một số kết quả thích hợp cho ngôn ngữ còn lại

2.3. Các đặc trưng ngôn ngữ của tiếng Việt
Ngôn ngữ là một hiện tượng xã hội: không phải hiện tượng tự nhiên, cá nhân mà là hiện
tượng xã hội đặc biệt. Ngôn ngữ là phương tiện giao tiếp quan trọng nhất của con người: các
phương tiện khác được diễn giải qua ngôn ngữ. Ngôn ngữ là hiện tượng trực tiếp của tư tưởng: ngôn
ngữ là phương tiện của tư duy. Quan hệ “ngôn ngữ – tư duy (ý thức) – hiện thực”  “từ – khái niệm –
sự vật”. Ngôn ngữ - lời nói - hoạt động lời nói: “ngôn ngữ” có tính xã hội, “lời nói” có tính cá nhân, “l ời
nói” là ngôn ngữ đang hành chức. Hay nói một cách đơn giản hơn: “Ngôn ngữ là hệ thống ký hiệu
đặc biệt dùng để làm phương tiện giao tiếp quan trọng nhất của con người”.
Theo quan điểm của F.de.Saussure (cha đẻ của ngôn ngữ học hiện đại): “Ngôn ngữ giống
như bàn cờ: giá trị của quân cờ không phải là do nó làm bằng gì, cấu tạo/hình dáng như thế nào, mà
giá trị của nó là do hệ thống bàn cờ, do các quân cờ khác qui định/gán cho nó. Nên nếu ta mất một
con xe/con pháo nào đó, thì ta vẫn có thể qui ước với nhau là thay thế nó bằng một cục phấn/hạt sỏi/
… mà giá trị của nó vẫn không đổi”.
Theo bảng phân loại loại hình ngôn ngữ, Tiếng Việt được xếp vào loại hình đơn lập (isolate)
hay còn gọi là loại hình phi hình thái, không biến hình, ngôn ngữ đơn âm tiết hay phân tiết,…với
những đặc điểm chính như sau:
12


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết



Trong hoạt động ngôn ngữ, từ không biến đổi hình thái. Ý nghĩa ngữ pháp nằm ở

ngoài từ. Ví dụ: Tôi nhìn anh ấy và Anh ấy nhìn tôi (I see him và He sees me)



Phương thức ngữ pháp chủ yếu là : trật tự từ và từ hư. Ví dụ : Gạo xay và Xay gạo ;
đang học và học rồi (learning và learned).

Tồn tại một loại đơn vị đặc biệt, là “hình tiết” mà vỏ ngữ âm của chúng trùng khít với âm tiết,
và đơn vị vị đó cũng chính là “hình vị” (morpheme) hay còn gọi là “tiếng” (tiếng Việt sử dụng khoảng
8000 tiếng). Các hình vị kết hợp với nhau một cách lỏng lẻo, linh động. Không có hiện tượng cấu tạo
từ bằng cách ghép thêm phụ tố (affix) vào gốc từ. (trong khi đó ở tiếng Anh, hiện tượng này rất phổ
biến, như: anticomputerizational = anti-compute-er-ize-ation-al).
Tiếng Việt thuộc loại ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời
nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ
vựng, ngữ pháp.

2.3.1.

Ngữ âm và âm vị
Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng". Về mặt ngữ âm, mỗi tiếng là một âm

tiết. Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếng Việt
trong việc thể hiện các đơn vị có nghĩa. Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặc sắc.
Khi tạo câu, tạo lời, người Việt rất chú ý đến sự hài hoà về ngữ âm, đến nhạc điệu của câu văn.
Mỗi âm tiết tiếng Việt gồm ba phần : phần đầu, phần sau và thanh điệu. Phần đầu của âm tiết
được xác định là Âm đầu, vì ở vị trí này chỉ có một âm vị tham gia cấu tạo. Phần sau của âm tiết
được gọi là phần Vần. Phần Vần gồm các loại âm vị được gọi là Âm đệm, Âm chính và Âm cuối.
Thanh điệu có sáu loại ngang, hỏi, huyền, sắc, ngã, nặng. Thanh điệu được đặt ở trên nguyên âm
trong âm tiết. Tuy nhiên phần Vần có thể có nhiều nguyên âm do vậy việc bỏ dấu ở nguyên âm nào là
vấn đề đã được đặt ra từ lâu trong các hội thảo về chuẩn hóa ngôn ngữ và công nghệ thông tintruyền thông. Ngoài ra, do sự có mặt của dấu phụ - các dấu không phải là thanh điệu, đi kèm với một

số nguyên âm để tạo ra các nguyên âm mới (ví dụ: “^” với â, ê, ô hay “’” với ơ, ư…) - nên vị trí đặt
thanh điệu cũng phải hòa hợp với các dấu phụ này.
Khi Công nghệ thông tin phát triển, việc bỏ dấu chính xác chính là một phần trong quá trình
lưu trữ các âm tiết, chữ viết trong các tài liệu điện tử và tất nhiên đòi hỏi một sự chính xác tuyệt đối.
Các quy tắc chuẩn hóa về vị trí thanh điệu cũng như vấn đề i-y đã được một số nhà ngôn ngữ học
đưa ra và nói chung đã được ngành ngôn ngữ học thống nhất. Nhưng trong các văn bản điện tử thì
hiện tại chưa có được các chuẩn hóa này. Bản thân các bộ gõ tiếng Việt thường được dùng hiện nay
như Vietkey hay Unikey cũng có các tùy chọn bỏ dấu.

2.3.2.

Từ pháp và hình thái
Khi tìm hiểu các đặc trưng tiếng Việt ta cần chú ý tiếng Việt là một ngôn ngữ đơn lập - đơn

âm tiết (monosyllable). Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ
13


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định
danh sự vật, hiện tượng..., chủ yếu nhờ phương thức ghép và phương thức láy.
Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quy luật kết
hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát... Hiện nay, đây là phương
thức chủ yếu để sản sinh ra các đơn vị từ vựng. Theo phương thức này, tiếng Việt triệt để sử dụng
các yếu tố cấu tạo từ thuần Việt hay vay mượn từ các ngôn ngữ khác để tạo ra các từ, ngữ mới, ví
dụ: tiếp thị, karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản (version), xa lộ thông tin,
siêu liên kết văn bản, truy cập ngẫu nhiên, v.v.
Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chi phối chủ
yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn,

lúng lá lúng liếng, v.v. Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết,
một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo điều kiện
thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động. Cùng
một sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thể có nhiều từ ngữ khác nhau biểu thị.
Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức năng ngôn
ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật. Hiện nay, do sự phát triển vượt bậc của khoa
học - kĩ thuật, đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn.
Dựa trên “tiếng” - đơn vị rất dễ nhận biết thông qua các dấu cách - chúng ta phân biệt được
đâu là từ ghép, đâu là từ đơn. Từ đơn là từ chỉ có một tiếng, từ ghép là từ có hai tiếng trở lên. Đây
chính là vấn đề của các ngôn ngữ như tiếng Việt : rất khó khăn khi thực hiện việc phân tách thuật
ngữ. Cách tốt nhất là dựa trên từ điển để đối sánh và rút ra kết luận (Bên ngành ngôn ngữ học có
một số phương pháp để xác định xem đó là một từ hay nhiều từ như khảo sát về hiện tượng tách,
lặp, hay đối chiếu…, tuy nhiên các phương pháp này không thể áp dụng được đối với máy tính !).
Xét về mặt hình thái, khác với phần lớn các ngôn ngữ hệ Latin, tiếng Việt thường không có
hiện tượng biến cách hay dẫn xuất khi câu thay đổi về thời, thể, cách. Thay vào đó là việc sử dụng
kết hợp với hư từ (từ công cụ) để phản ánh sự thay đổi này.
Điều này ảnh hưởng trực tiếp đến quá trình tiền xử lý văn bản cũng như đoán nhận ngữ
nghĩa. Việc chuẩn hóa hình thái từ của các hệ tiếng Latin là cả một vấn đề trong khi đó tiếng Việt
chúng ta không cần quan tâm đến. Ngược lại, khi xét đến ngữ nghĩa chúng ta phải thông qua các hư
từ hay danh từ số lượng đi kèm để hiểu được nghĩa đầy đủ của một từ hay cụm từ.

2.3.3.

Ngữ pháp
Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp

khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự
từ và hư từ. Tiếng Việt có khá nhiều khác biệt so với các ngôn ngữ khác, trong đó cần nói đến việc
tạo câu dựa trên cấu trúc nòng cốt và trật tự từ


14


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Cấu trúc nòng cốt, dựa trên quan hệ “đề thuyết” của tiếng Việt đề cập đến một quy tắc chung
nhất của tiếng Việt khi tạo câu, đó là một câu hoàn chỉnh về mặt ngữ pháp phải có phần đề và phần
thuyết. Phần đề cấu thành bởi danh ngữ. Phần thuyết cấu thành bởi hoặc là động ngữ hoặc tính ngữ
hoặc một đoản ngữ khác. Đây chính là sự khác biệt chính về ngữ pháp với một số ngôn ngữ khác,
tiếng Anh chẳng hạn. Trong tiếng Anh, cấu trúc chính là S-V-(O). Một câu hoàn chỉnh của tiếng Anh
cần phải có một động ngữ trong đó động từ đóng vai trò chính. Tiếng Việt thì không chắc vậy. Một
câu hoàn chỉnh có thể không có động từ
Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú
pháp. Trong tiếng Việt khi nói "Anh ta lại đến" là khác với "Lại đến anh ta". Khi các từ cùng loại kết
hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ.
Nhờ trật tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình". Trật tự chủ
ngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt.
Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng Việt. Nhờ hư từ mà tổ
hợp "anh của em" khác với ttổ hợp "anh và em", "anh vì em". Hư từ cùng với trật tự từ cho phép tiếng
Việt tạo ra nhiều câu cùng có nội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểu
cảm. Ví dụ, so sánh các câu sau đây:
 Ông ấy không hút thuốc.
 Thuốc, ông ấy không hút.
 Thuốc, ông ấy cũng không hút.
Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu. Ngữ điệu giữ vai trò
trong việc biểu hiện quan hệ cú pháp của các yếu tố trong câu, nhờ đó nhằm đưa ra nội dung muốn
thông báo. Trên văn bản, ngữ điệu thường được biểu hiện bằng dấu câu. Chúng ta thử so sánh 2 câu
sau để thấy sự khác nhau trong nội dung thông báo:
 Đêm hôm qua, cầu gãy.
 Đêm hôm, qua cầu gãy.

Qua một số đặc điểm nổi bật vừa nêu trên đây, chúng ta có thể hình dung được phần nào
bản sắc và tiềm năng của tiếng Việt.

3. KHAI PHÁ VĂN BẢN
3.1. Tổng quan khai phá dữ liệu
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh
vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được
các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng
trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ
15


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ
phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ
rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường
cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định
và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ
liệu khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu
truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật
mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data
Mining).
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong
nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ
tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng
Quá trình phát hiện tri thức gồm các bước sau:

Hình 2: Các bước của quá trình phát hiện tri thức
Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định

cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích
hợp với mục đích ứng dụng và bản chất của dữ liệu.
16


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu,
xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm
nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức.
Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình
ẩn dưới các dữ liệu.
Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Các
bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các
lần thực hiện.
Với hai đích chính của khai phá dữ liệu là Dự đoán (Prediction) và Mô tả (Description), người
ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:
 Phân loại (Classification)
 Hồi qui (Regression)
 Phân nhóm (Clustering)
 Tổng hợp (Summarization)
 Mô hình ràng buộc (Dependency modeling)
 Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)
 Biểu diễn mô hình (Model Representation)
 Kiểm định mô hình (Model Evaluation)
 Phương pháp tìm kiếm (Search Method)
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí
tuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độ cao, thu thập tri thức cho
các hệ chuyên gia, quan sát dữ liệu... Đặc biệt Phát hiện tri thức và khai phá dữ liệu rất gần gũi với
lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,

luật... Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP) cũng liên
quan rất chặt chẽ với Phát hiện tri thức và khai phá dữ liệu. Trong phạm vi tiểu luận này chúng tôi

3.2. Khai phá văn bản
Trong cơ sở dữ liệu, phần lớn dữ liệu ở dạng văn bản (text). Lĩnh vực con của Khai phá dữ
liệu áp dụng với dữ liệu văn bản phi cấu trúc được gọi là Khai phá văn bản ( Text Mining). Các kỹ
thuật chính của Khai phá văn bản là Nhận dạng mẫu, Trích rút đặc trưng, Thống kê tần suất từ khóa,

17


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Phân loại…, các phương pháp Trí tuệ Nhân tạo như Học máy, Mạng Nơ-ron, Giải thuật Di truyền…,
các phương pháp Xử lý ngôn ngữ tự nhiên…
Khai phá văn bản do làm việc với các dữ liệu phi cấu trúc nên cần phải có phương tiện để mô
hình hóa chúng, tiền xử lý cho các bước tiếp theo. Nói chung Khai phá văn bản gồm các bước: Thu
thập dữ liệu ở dạng văn bản, làm sạch chúng, phân tích biến đổi, lấy thông tin và hiển thị thông tin.
Mô hình chung của Khai phá văn bản :

Hình 3: Mô hình khai phá văn bản chung
Công việc thu thập và công việc làm sạch dữ liệu văn bản có thể diễn ra theo thứ tự thu thập
trước, làm sạch sau và cũng có thể ngược lại tùy yêu cầu. Thậm chí, việc thu thập và làm sạch còn
được lặp đi lặp lại nhiều lần để có được một kết quả tối ưu cho các bước tiếp. Do vậy quá trình thu
thập – làm sạch là quá trình chung và hết sức quan trọng của các bài toán thuộc lĩnh vực Khai phá
văn bản.
Ngoài việc thu thập và làm sạch dữ liệu văn bản thì việc tìm kiếm đối sánh văn bản cũng là
một công việc cốt lõi, không thể thiếu trong tất cả các bài toán Khai phá văn bản. Trong đó các văn
bản được thu thập thường có sự liên quan hay tương tự với nhau. Độ liên quan hay tương tự thường
được định lượng thông qua sự giống nhau về từ ngữ, về nghĩa hoặc theo một tiêu chí nào đó.

Các bài toán điển hình của lĩnh vực Khai phá văn bản bao gồm:


Phân lớp văn bản



Phân nhóm văn bản



Đánh chỉ mục - Tìm kiếm



Tóm tắt văn bản.

Các bài toán này chúng ta sẽ đi sâu hơn ở phần sau.

3.3. Biểu diễn văn bản
18


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Như chúng ta đã nói ở phần trước, văn bản thông thường là dạng dữ liệu phi cấu trúc, do vậy
muốn xử lý chúng, trước hết phải biểu diễn chúng thành những dạng có cấu trúc. Bên cạnh đó, việc
xác định mối liên quan và thực hiện các phép biến đổi, ánh xạ văn bản cũng đòi hỏi những dạng này
phải có khả năng thao tác bằng những phép toán cơ bản như các phép cộng, nhân, đại số quan hệ…
và các phép toán phức tạp khác. Trên thực tế, có ba mô hình thường được sử dụng để biểu diễn văn

bản, tất nhiên các mô hình này đều thỏa mãn những yêu cầu kể trên. Đó là Mô hình boolean, Mô hình
không gian vector và Mô hình tập thô dung sai.

3.3.1.

Mô hình boolean
Trong mô hình boolean, văn bản, vốn là tập hợp của các term ( thuật ngữ ), được biểu diễn

bởi chỉ số từng term và trọng số của chúng. Trọng số của từng term - dùng để đánh giá độ quan trọng
của chúng - trong mô hình này chỉ mang hai giá trị 0 và 1, tùy theo sự xuất hiện của term đó trong văn
bản.

1
wi 
0

ti  D
ti  D

Trong đó wi là trọng số của term ti trong văn bản D.
Đối với vấn đề truy vấn, trong mô hình này câu truy vấn bao gồm các văn bản tìm kiếm liên
hệ với nhau thông qua các phép đại số quan hệ cơ bản như NOT (phủ định), AND (và) hay OR
(hoặc). Câu truy vấn có thể biểu diễn thành dạng vector với các thành phần liên kết và các phép toán
quan hệ cơ bản. Từ đây, độ liên quan giữa một văn bản và truy vấn được xác định thông qua các
thành phần liên kết. Độ liên quan này chỉ có thể mang hai giá trị : 0 – văn bản không phù hợp với truy
vấn và 1 – văn bản phù hợp.
Do vậy có thể thấy rằng hạn chế lớn nhất của mô hình này đó là việc đánh giá độ liên quan
chỉ trả về hai kết quả, hoặc phù hợp hoặc không, như vậy yêu cầu của hệ thống khi cần sắp xếp và
chọn lựa các văn bản theo mức độ liên quan đến truy vấn sẽ không đạt. Độ liên quan của mô hình
này không thể phân chia thành các mức khác nhau, do vậy không phản ánh được thực tế là việc liên

quan giữa văn bản và truy vấn có thể là mờ, không chắn chắn. Hạn chế này được loại bỏ khi ta sử
dụng một mô hình tổng quát hơn – Mô hình không gian vector (Vector Space Model).

3.3.2.

Mô hình không gian vector
Như trên đã đề cập, mô hình không gian vector là mô hình tổng quát hơn mô hình Boolean.

Các văn bản được biểu diễn thành các vector nhiều chiều, với trọng số không chỉ mang hai giá trị là 0
hay 1 mà có thể mang các giá trị khác tùy theo cách đánh giá, tính toán. Một khác biệt nữa so với mô
hình boolean là các phép toán cơ bản của mô hình không gian vector. Các phép toán đại số quan hệ

19


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

dĩ nhiên không phù hợp nữa, thay vào đó là các phép toán vector như cộng hai vector, nhân hai
vector, tích vô hướng…
Khi biểu diễn văn bản thành các vector, vấn đề về truy vấn và xác định độ liên quan hoàn
toàn được giải quyết. Truy vấn là kết quả của các phép toán vector giữa các vector biểu diễn cho
những văn bản cấu thành nên truy vấn, như vậy, truy vấn trong trường hợp này cũng là một văn bản
đặc biệt. Việc xác định độ liên quan giữa truy vấn và văn bản được quy thành độ liên quan giữa văn
bản và văn bản. Hai văn bản là hai vector, vậy khoảng cách hay góc giữa chúng đều có thể đại diện
cho sự liên quan giữa hai văn bản này. Tất nhiên, để áp dụng được các phép toán vector cơ bản, hai
vector cần chuẩn hóa về số chiều (độ dài).
Biểu diễn hai văn bản lần lượt là hai vector :
x(w1,x,w2,x,….,wn,x) và y (w1,y,w 2,y,…,wn,y).
Góc giữa hai vector này có thể xác địng thông qua công thức Cosine như sau :
n


cosine(x,y) =

 w w
 (wi, x)   (wi, y)
i,z

i 1

n

2

i 1

i, y

n

2

i 1

Theo cách biểu diễn như trên người ta không quan tâm đến chỉ số của một term, vì vốn nó đã
được sắp thứ tự ngay trong vector biểu diễn văn bản. Nghĩa là với vector x(w 1,x,w2,x,….,wn,x) kể trên,
w1,x chính là trọng số của term có chỉ số là 1, w 2.x là trọng số của term có chỉ số là 2,…Việc đánh chỉ
số cho term thường dựa vào một danh sách thuật ngữ. Do vậy ta sẽ quan tâm đến việc trọng số của
term được xác định ra sao. Trọng số của term, ngoài cách gán giá trị là 0 hay 1 tùy vào sự xuất hiện
của term như mô hình boolean, người ta còn có thể gán các giá trị tần suất cho chúng. Việc gán các
giá trị tần suất cho trọng số của term cũng là một điều hợp lý vì người ta có thể đánh giá độ quan

trọng của một term thông qua tấn suất xuất hiện của term đó trong văn bản. Giá trị này có thể đơn
giản chỉ là số lần xuất hiện cuả term đó, tần suất của term đó ( số lần xuất hiện chia cho tổng số lần
xuất hiện của tất cả các term ) hay một giá trị nào khác tối ưu hơn. Thông thường, số lần xuất hiện
của một term thường được dùng như trọng số của term trong vector văn bản chứa nó. Số lần xuất
hiện này thường được biểu diễn thông qua các hàm logarithm cơ số tự nhiên hoặc cơ số mười. Đây
chính là kỹ thuật đánh trọng số TF (Term Frequency) :
wi = 1 + log(fi)
Trong đó wi là trọng số của term ti trong văn bản D.
fi là số lần xuất hiện của term ti trong văn bản D.

20


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

3.3.3.

Mô hình tập thô dung sai
Mô hình tập thô dung sai (Tolerance Rough Set Model) là một mô hình mới, tiên tiến

dựa trên lý thuyết về logic mờ và tập mờ (Fuzzy Set). Điều cốt lõi của lý thuyết này là việc xác định
chính xác một giả thiết nào đó (ví dụ như hai văn bản này có phù hợp, có giống nhau không...) là một
điều rất khó. Tuy nhiên chúng ta có thể chỉ ra một cặp xấp xỉ trên và xấp xỉ dưới để khẳng định được
giả thiết đó là đúng. Sử dụng các suy diễn hợp lý để xác định và "làm đẹp" các ngưỡng này. Các
phép toán cơ bản trong mô hình tập thô dựa trên các quan hệ tương đương các tính chất như đối
xứng, phản xạ, bắc cầu... Lý thuyết logic mờ đã và đang được ứng dụng rất mạnh mẽ trong lĩnh vực
Trí tuệ nhân tạo.
Mô hình tập thô gần đây được sử dụng nhiều cho các bài toán tìm kiếm cũng như phân nhóm
văn bản.. Tuy nhiên khi áp dụng mô hình tập thô cho quá trình xử lý văn bản thì tính chất bắc cầu
không còn phù hợp. Nhóm tác giả Hồ Tú Bảo, Saori Kawasaki, Nguyễn Ngọc Bình đã đề xuất ra mô

hình tập thô dung sai trong đó bỏ đi tính chất bắc cầu trong quá trình xử lý văn bản. Lý thuyết tập thô
được các nhà nghiên cứu Trí tuệ nhân tạo phát triển và ngày càng thể hiện được tính ưu việt không
chỉ trong việc biểu diễn và thao tác văn bản mà còn trong các vấn đề khác của lĩnh vực này.

3.4. Các bài toán Khai phá văn bản điển hình
3.4.1.

Bài toán Phân nhóm văn bản
Bài toán Phân nhóm văn bản (Text Clustering) có điểm khác so với bài toán Phân lớp văn

bản ở chỗ cho một tập văn bản chưa được phân loại gì cả, yêu cầu bài toán này là phân tập văn bản
này thành các nhóm dựa trên độ tương đồng giữa chúng. Đây là phương pháp học không có giám
sát (Unsupervised Learning Approach). Các thuật toán hay được dùng để giải quyết bài toán này là :
Các thuật toán Phân chia, thuật toán Phân cấp, Mô hình SVM (Support Vector Machine) và các thuật
toán xây dựng tập thuật ngữ thường xuyên (Frequent Term Set - Frequent Item Set ).

21


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

Hình 4: Mô tả bài toán Phân nhóm văn bản

3.4.2.

Bài toán Đánh chỉ mục - Tìm kiếm
Một tên gọi khác phổ biến hơn của bài toán này là Thu thập thông tin (Information Retrieval).

Nói chính xác hơn bài toán Thu thập thông tin là bài toán cơ bản của Khai phá dữ liệu, và là bài toán
tổng quát hơn của bài toán Đánh chỉ mục - Tìm kiếm (Indexing - Searching). Yêu cầu bài toán là tìm

kiếm trong kho dữ liệu những văn bản phù hợp với câu truy vấn đưa vào. Bước đánh chỉ mục thường
giúp tìm kiếm nhanh hơn. Bài toán này là cơ sở cho các Search Engine - những bộ máy tìm kiếm và
trả về thông tin - một trong những công cụ hũu ích nhất trên Internet giúp chúng ta có thể tìm được
thông tin cần thiết chỉ thông qua một câu truy vấn đơn giản. Hiện nay các ứng dụng tìm kiếm kiểu này
thường áp dụng các phương pháp truy hồi để tăng khả năng chính xác cho dữ liệu tìm được. Bài
toán này còn là đầu vào cho một số các bài toán khác.

3.4.3.

Bài toán Tóm tắt văn bản
Quá trình tóm tắt là quá trình rút ra những thông tin quan trọng nhất từ một hay nhiều nguồn

văn bản để tạo ra một văn bản gọn hơn phục vụ cho một số nhiệm vụ hay người dùng cụ thể. Bài
toán tóm tắt văn bản (Text Summarization) là một trong những bài toán khó cài đặt nhất nhưng cũng
hữu ích nhất của lĩnh vực Khai phá văn bản. Một số biến thể của bài toán này như sinh phụ đề tự
động (Subtitling), sinh ý chính tài liệu (Document Gisting), sinh tiêu đề văn bản (Header Generating)...
Những thuật toán của bài toán này cũng được dùng trong các bài toán tương tự như tóm tắt hình
ảnh, âm thanh - những dữ liệu đa phương tiện.

22


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

4. BÀI TOÁN TÓM TẮT VĂN BẢN
4.1. Giới thiệu chung
Ở Việt Nam hiện nay, hầu như tất cả các bài toán tiếng Việt điển hình của Khai phá văn bản
đều đã được nghiên cứu và cài đặt thành ứng dụng như Tìm kiếm văn bản, Phân lớp & Phân nhóm
văn bản..., đóng góp rất nhiều vào sự phát triển của lĩnh vực Xử lý văn bản tự động tiếng Việt. Song
bài toán Tóm tắt văn bản thì chưa có nhiều nghiên cứu tiến hành đề xuất và xây dựng thành công

ứng dụng. Có thể vì bài toán này không chỉ cần những công cụ và phương pháp của Khai phá văn
bản mà còn phải lưu ý đến những vấn đề về Xử lý ngôn ngữ tự nhiên ( Natural Language
Processing). Điều này thật không tương xứng với nền thông tin tri thức hiện tại của Việt Nam, khi mà
đang có hàng ngàn nhu cầu khác nhau cần đến những ứng dụng trợ giúp tóm lược văn bản hay sinh
tiêu đề và hiển thị chúng theo những dạng mong muốn.
Chính sự dễ dàng khi truy cập vào kho dữ liệu Internet khổng lồ và phong phú lại là nhược
điểm cho việc tìm kiếm những thông tin mà chúng ta cần đến bởi chúng quá nhiều và không thống
nhất về định dạng lưu trữ và hiển thị. Kể cả khi đã lấy được những thông tin đó thông qua các hệ
thống phân loại, tìm kiếm thì cũng không thể nắm bắt toàn bộ vì thời gian có hạn mà số lượng thông
tin trả về quá lớn. Đấy là chưa kể đến việc những thông tin này liệu đã chính xác như mong muốn
hay chưa, liệu có nên bỏ thời gian để đọc chúng? Một hệ thống Tóm tắt văn bản sẽ giúp chúng ta giải
quyết phần lớn các nhu cầu vừa nêu. Hệ thống sẽ giúp chúng ta đọc nhanh hơn, nắm bắt những tri
thức cần thiết trong một tài liệu khoa học hàng trăm trang bằng cách tóm lược tài liệu đó lại thành một
đoạn văn bản vài ba chục trang. Những văn bản tìm thấy từ Internet, ta nhờ hệ thống quyết định liệu
nên đọc văn bản nào để có đúng thông tin ta cần. Những tóm lược ngắn gọn các công việc mà cô thư
ký đưa, những bản giới thiệu nội dung phim truyện tuần tới, những bức email thương mại chỉ vài
dòng... Đó là những khả năng mà một hệ thống Tóm tắt văn bản có thể mang lại.

4.1.1.

Tóm tắt văn bản là gì ?
Hệ thống Tóm tắt văn bản, như chúng ta đề cập tới trong tiểu luận này, có tên đầy đủ là Hệ

thống Tóm tắt văn bản tự động. Một hệ thống Tóm tắt văn bản tự động là một ứng dụng sinh tự động
một mô tả ngắn gọn của một hay nhiều văn bản sao cho vẫn giữ lại được các nội dung quan trọng và
hiển thị ra theo dạng yêu cầu của người sử dụng.
Điều cốt lõi của một hệ thống Tóm tắt văn bản xét theo lĩnh vực Khai phá văn bản là việc tìm
ra những thành phần quan trọng trong văn bản cần tóm tắt. Các thành phần này được gọi là các đơn
vị ngữ liệu. Đơn vị ngữ liệu ở đây có thể hiểu là đơn vị nhỏ nhất có nghĩa mà ta chọn để trích rút, tóm
lược như câu hoặc đoạn. Các đơn vị ngữ liệu quan trọng sẽ có xác suất lớn để chứa ý chính hay nội

dung quan trọng của cả đoạn văn hay văn bản. Và sau khi chọn được các đơn vị ngữ liệu quan trọng,
23


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

hệ thống Tóm tắt có thể tóm lược chúng, biến đổi chúng và sau cùng hiển thị ra màn hình, thống kê
kết quả hay sinh ra các dữ liệu mới cho các hệ thống nào khác.
Một số ứng dụng của hệ thống Tóm tắt văn bản tiếng Việt tự động :


Tóm tắt tự động các tin tức trên báo điện tử.



Trợ giúp thông minh việc đọc và khai thác thông tin.



Tóm lược danh sách tìm kiếm từ các Search Engine.



Giản lược nội dung trình bày cho các thiết bị cầm tay.



Sinh tự động chủ đề, tiêu đề, dẫn đường văn bản.




Hỗ trợ tóm lược nội dung cuộc họp, website, chương trình phát thanh và truyền hình, sổ tay
công việc.
Ngoài ra, một số module và kết quả của hệ thống cũng là đầu vào hay những bước tiền xử lý

cho các bài toán khác của Khai phá văn bản

Hình 5: Tóm tắt trang tin

4.1.2.

Các tiêu chí đánh giá
Các tiêu chí đánh giá kết quả của một hệ thống tóm tắt văn bản, còn là những tham số mà

người dùng có thể đưa vào hệ thống để phục vụ mục đích của mình, thường gồm các giá trị như sau:

24


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết

 Độ rút gọn (độ nén)


Là tỉ số giữa số lượng đơn vị ngữ liệu của văn bản kết quả trên số lượng đơn vị ngữ
liệu của tập văn bản vào.



Tỉ lệ này có thể là là câu/câu, từ/từ, tiếng/tiếng, hoặc đơn giản hơn là ký tự/ký tự,

thường tính bằng %.



Độ rút gọn tỉ lệ thuận với độ khó thuật toán.

 Độ chính xác


Thể hiện mối quan hệ giữa văn bản kết quả với tập văn bản đầu vào và câu truy vấn.
Nói cách khác, nó thể hiện sự phù hợp giữa kết quả và truy vấn.



Được đánh giá dựa trên các hệ thống đánh giá tóm tắt như DUC, SUMMAC,
ROUGE… và các tập dữ liệu, kiểm thử mẫu (Corpus).



Độ chính xác tỉ lệ thuận với độ khó thuật toán.

 Mức độ liên kết


Thể hiện sự liên kết giữa các đơn vị ngữ liệu của văn bản kết quả với nhau.



Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và cú pháp.




Mức độ liên kết cũng tỉ lệ thuận với độ khó của thuật toán tóm tắt.



Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay thế cho tiêu chí
mức độ liên kết này.

4.1.3.

Phân loại bài toán Tóm tắt văn bản
Bài toán Tóm tắt văn bản được chia thành nhiều loại. Mỗi loại được sử dụng cho các mục

đích khác nhau, các yêu cầu khác nhau. Mỗi bài toán cũng phải áp dụng các phương pháp và kỹ
thuật riêng. Không có một ứng dụng Tóm tắt văn bản nào có thể cài đặt và đáp ứng được hết các
dạng yêu cầu đó.
 Tóm tắt một văn bản và Tóm tắt nhiều văn bản: Khi xét đầu vào một hệ thống Tóm tắt văn bản,
ta có thể chia thành hai dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt nhiều văn
bản (Multi-Document). Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của
văn bản đó. Nguợc lại, tóm tắt nhiều văn bản là từ nhiều văn bản nguồn cũng chỉ cho ra một đoạn
tóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bản đồng thời cho nhiều văn
bản khác nhau. Rõ ràng, tóm tắt nhiều văn bản thì khó hơn, vì ngoài những công việc của tóm tắt
đơn văn bản, tóm tắt nhiều văn bản còn phải thực hiện các công việc như tiền xử lý trích rút, tích
hợp thống nhất khuôn dạng và hiển thị kết quả theo cách riêng. Ngoài ra, tóm tắt nhiều văn bản
còn phải đối mặt với các vấn đề như dư thừa trùng lặp dữ liệu giữa các văn bản nguồn, nội dung
25


Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn bản tiếng Viết


các văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự
phức tạp trong xử lý lớn.
 Trích rút và Tóm lược: Khi xét đến đầu ra một hệ thống Tóm tắt văn bản, chúng ta có thể có hai
dạng tóm tắt. Đó là Trích rút (Extraction) và Tóm lược (Abstraction). Việc phân biệt hai dạng tóm
tắt này là rất cơ bản và quan trọng. Trích rút là quá trình thu gọn văn bản mà trong kết quả ra
chứa các đơn vị ngữ liệu văn bản nguồn. Tóm lược là quá trình thu gọn văn bản mà trong kết quả
ra có một số các đơn vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn.
Ví dụ, có đoạn văn sau (được đánh số thứ tự câu) :
"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ 1. Ba anh chúng tôi chúng tôi đã
chờ những ngày này khá lâu rồi 2. Chả là anh cả tôi được về phép thăm gia đình nhân dịp Tết 3. Bố mẹ
tôi rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn 4. Căn phòng nhỏ tràn ngập tiếng cười và
không khí gia đình5. Bữa ăn đã làm nên một cuối tuần tuyệt vời 6"
Văn bản kết quả của quá trình Trích rút :
"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ. Bữa ăn đã làm nên một cuối
tuần tuyệt vời".
Văn bản kết quả của quá trình Tóm lược :
"Một buổi cuối tuần vui vẻ của gia đình tôi".
Chúng ta có thể thấy văn bản kết quả của quá trình Trích rút thực ra là câu 1 và câu 6 của
đoạn văn bản nguồn, và có cảm giác như đoạn kết quả không được trôi chảy lắm. Còn câu duy nhất
của văn bản kết quả sau quá trình Tóm lược không hề trùng với bất cứ câu nào trong sáu câu của
văn bản nguồn. Tuy nhiên nó vẫn thu gọn và giữ được ý chính của cả đoạn. Đây chính là sự khác
biệt lớn giữa Trích rút và Tóm lược.
Qua ví dụ này chúng ta cũng nhận ra rằng, để xây dựng một hệ thống Tóm lược khó hơn là
xây dựng một hệ thống Trích rút. Khi xem xét mô hình chung của một hệ thống Tóm tắt văn bản ta sẽ
thấy rõ hơn điều này.
 Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá
Phân chia về chức năng, có ba loại ứng dụng tóm tắt sau :



Tóm tắt chỉ định (Indicative): Là kiểu tóm tắt giúp người đọc quyết định xem có nên
đọc tiếp, đọc sâu nữa không. Ví dụ như loại ứng dụng sinh tiêu đề, tóm lược kết quả
tìm kiếm…



Tóm tắt thông tin (Informative): Là kiểu tóm tắt tóm lược tất cả các nội dung quan trọng
nhất của văn bản gốc, văn bản tạo ra có thể thay thế được cho văn bản gốc. Ví dụ như
tóm tắt một tiểu thuyết thành đoạn văn năm bảy trang.

26


×