Tải bản đầy đủ (.pdf) (99 trang)

Luận Văn Xây Dựng Hệ Thống Rút Trích Các Nội Dung Chính Của Văn Bản Khoa Học Dựa Trên Cấu Trúc.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 99 trang )

BỘ GIÁO DỤC ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
********

BÁO CÁO
NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI :

XÂY DỰNG HỆ THỐNG RÚT TRÍCH
CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN
KHOA HỌC DỰA TRÊN CẤU TRÚC

TẠ NGUYỄN

Biên Hòa, Tháng 6/2012


MỤC LỤC
Trang
Mở đầu....................................................................................................................... 1
1.

Tóm lược đề tài ................................................................................................... 1

2.

Mục tiêu đề tài..................................................................................................... 2

3.

Nội dung thực hiện đề tài..................................................................................... 2



4.

Phạm vi ứng dụng ............................................................................................... 3

Chương 1 : Tổng quan về tóm tắt văn bản tự động ................................................ 4
1.1. Giới thiệu ............................................................................................................. 4
1.2. Mơ hình tóm tắt văn bản ....................................................................................... 5
1.3. Phân loại bài tốn tóm tắt văn bản ........................................................................ 6
1.4. Các phương pháp tóm tắt văn bản......................................................................... 9
1.5. Tình hình nghiên cứu trong và ngoài nước ......................................................... 10
1.5.1. Ngoài nước ................................................................................................. 10
1.5.2. Trong nước .................................................................................................. 12
1.6. Một số hệ thống tóm tắt văn bản trên thế giới ..................................................... 13
Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản tiếng Việt ...................... 16
2.1. Một số đặc điểm của ngôn ngữ tiếng Việt ........................................................... 16
2.1.1. Văn bản, chủ đề văn bản và cấu trúc văn bản ............................................. 16
2.1.2. Tiêu đề của văn bản...................................................................................... 17
2.1.3. Đoạn văn ...................................................................................................... 18
2.1.4. Câu và cấu trúc câu tiếng Việt ..................................................................... 19
2.1.5. Từ ................................................................................................................ 23
2.2. Bài toán tách câu ................................................................................................ 24
2.2.1. Giới thiệu bài toán........................................................................................ 24
2.2.2. Dấu hiệu đặc trưng nhận dạng câu ................................................................ 25
2.3. Bài toán tách từ tiếng việt ................................................................................... 26
2.3.1. Giới thiệu bài toán........................................................................................ 26
2.3.2. Các phương pháp tách từ .............................................................................. 28
2.3.2.1. Phương pháp dựa trên otomat .............................................................. 28
2.3.2.2. Dùng mơ hình n-gram và phương pháp xác suất thống kê ..................... 30
2.3.2.3. Sử dụng giải thuật di truyền và thống kê trên Internet ........................... 31



2.4. Các thách thức của q trình rút trích văn bản khoa học ..................................... 32
2.4.1. Văn phong.................................................................................................... 32
2.4.2. Lỗi văn phạm ............................................................................................... 32
Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt .................. 33
3.1. Các phương pháp rút trích .................................................................................. 33
3.1.1. Các phương pháp thống kê (Statistical Methods).......................................... 33
3.1.1.1. Phương pháp vị trí (Position-Based) ..................................................... 34
3.1.1.2. Phương pháp cụm từ gợi ý (Cue phrases-Based) ................................... 35
3.1.1.3. Phương pháp thống kê tần suất từ (Word frequency-Based) .................. 36
3.1.2 . Phương pháp mạng ngữ nghĩa ..................................................................... 36
3.1.2.1. Phương pháp quan hệ lẫn nhau ............................................................. 36
3.1.2.2. Phương pháp liên kết từ vựng ( Lexical Chains ) .................................. 36
3.1.2.3. Phương pháp Liên kết tham chiếu ( Word Coreferences ) ..................... 36
3.1.2.4. Phương pháp quan hệ câu ( Discourse-Based )...................................... 37
3.1.3. Kết luận về các phương pháp trong giai đoạn phân tích ................................ 37
3.1.4. Hướng tiếp cận của đề tài ............................................................................. 38
3.2. Mơ hình rút trích ý chính của văn bản khoa học ................................................. 39
3.2.1. Mơ hình tổng qt ........................................................................................ 39
3.2.1.1. Giai đoạn tiền xử lý văn bản ................................................................. 41
3.2.1.2. Giai đoạn tách và lọc câu ...................................................................... 41
3.2.1.3. Giai đoạn rút trích cơ sở........................................................................ 45
3.2.1.4. Giai đoạn phân lớp câu ......................................................................... 55
3.2.1.5. Tính độ quan trọng của câu ................................................................... 56
3.2.2. Đánh giá kết quả tóm tắt, rút trích ................................................................ 59
3.2.2.1. Phương pháp thủ công .......................................................................... 61
3.2.2.2. Các phương pháp đánh giá khác............................................................ 61
Chương 4 : Thử nghiệm và đánh giá kết quả ........................................................ 65
4.1. Kiến trúc và các chức năng chương trình ............................................................ 65

4.1.1. Tiền xử lý..................................................................................................... 65
4.1.2. Tách từ tồn văn bản .................................................................................... 65
4.1.3. Tách câu....................................................................................................... 66
4.1.4. Lọc câu ........................................................................................................ 66
4.1.5. Rút trích cơ sở .............................................................................................. 67


4.1.6. Phân lớp câu................................................................................................. 68
4.1.7. Đánh giá câu ................................................................................................ 68
4.1.8. Hiển thị kết quả xử lý ................................................................................... 69
4.2. Thực nghiệm chương trình ................................................................................. 69
4.2.1. Giao diện tiền xử lý, tách từ và huấn luyện văn bản ..................................... 70
4.2.2. Giao diện tách câu ........................................................................................ 71
4.2.3. Giao diện phân lớp câu................................................................................. 72
4.2.4. Giao diện hiển thị kết quả............................................................................. 73
4.2.5. Giao diện hiển thị thành phần quan trọng của bài báo khoa học.................... 73
4.3. Đánh giá kết quả................................................................................................. 74
4.3.1. Đánh giá kết quả xử lý tổng quát .................................................................. 74
4.3.2. Đánh giá kết quả thực nghiệm từ hai công thức sử dụng............................... 76
4.3.3. Đánh giá từ phía người đọc .......................................................................... 83
Kết Luận .................................................................................................................. 89
Tài liệu tham khảo .................................................................................................. 91


DANH MỤC HÌNH ẢNH

Hình 1.1 : Mơ hình hệ thống tóm tắt văn bản ........................................................................ 5
Hình 1.2: Mơ hình một hệ thống rút trích văn bản ................................................................. 6
Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word .................................. 14
Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngơn ngữ ........................................... 15

Hình 2. 1 Xây dựng ơtơmát âm tiết....................................................................................... 28
Hình 2. 2 Xây dựng ơtơmát từ vựng ..................................................................................... 29
Hình 2. 3 Một tình huống nhập nhằng .................................................................................. 29
Hình 3. 1 Quy trình tổng quát rút trích ý chính văn bản khoa học ......................................... 40
Hình 4. 1 Mơ hình tách từ tiếng Việt và huấn luyện ............................................................. 65
Hình 4. 2 Mơ hình huấn luyện từ ghép ................................................................................ 66
Hình 4. 3 Mơ hình tách câu .................................................................................................. 66
Hình 4. 4 Mơ hình lọc câu.................................................................................................... 67
Hình 4. 5 Mơ hình Rút trích cơ sở ........................................................................................ 67
Hình 4. 6 Mơ hình phân lớp câu ........................................................................................... 68
Hình 4. 7 Mơ hình đánh giá câu .......................................................................................... 69
Hình 4. 8 Giao diện tiền xử lý, tách từ và huấn luyện ........................................................... 70
Hình 4. 9 Giao diện tách câu ................................................................................................ 71
Hình 4. 10 Giao diện phân lớp và đánh giá câu .................................................................... 72
Hình 4. 11 Giao diện hiển thị kết quả ................................................................................... 73
Hình 4. 12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học .......................... 73
Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara ...................... 80


DANH MỤC BẢNG BIỂU

Bảng 3.1 Các ký hiệu kết thúc câu ....................................................................................... 41
Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu ........................................... 42
Bảng 3.3 Thống kê theo độ dài của từ trong từ điển .......................... 44
Bảng 3.4 Các thành phần trong bài báo khoa học ................................................................ 46
Bảng 3.5 Khảo sát về sự xuất hiện các thành phần bài báo khoa học .................................... 50
Bảng 3.6 Ví dụ về độ hồi tưởng ........................................................................................... 62
Bảng 4. 1 Lọc kết quả theo tỷ lệ 4.21% ................................................................................ 74
Bảng 4. 2 Lọc kết quả theo tỷ lệ 7% ..................................................................................... 75
Bảng 4. 3 Kết quả 10 câu điểm cao nhất của ISS .................................................................. 77

Bảng 4. 4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường ............... 78
Bảng 4. 5 Kết quả khác nhau của ISS ................................................................................... 79
Bảng 4. 6 Kết quả khác nhau của Tf*Idf theo quan niệm thông thường ................................ 79
Bảng 4. 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C.
Balabantara .......................................................................................................................... 81
Bảng 4. 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C.
Balabantara .......................................................................................................................... 82
Bảng 4. 9 Kết quả khác nhau của Tf*Idf theo quan niệm Makoto và R.C. Balabantara ......... 82
Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara ......... 83
Bảng 4. 11 Chi tiết kết quả rút trích...................................................................................... 84
Bảng 4. 12 Kết quả và tỷ lệ rút trích giữa người và EMIS .................................................... 87


1

Mở đầu

1. Tóm lược đề tài
Hiện nay, với sự phát triển khơng ngừng của cơng nghệ, máy tính nói chung
hay Word Wide Web (www) nói riêng là một mơi trường phổ biến dùng để lưu trữ các
thông tin. Với hàng tỷ trang web đang tồn tại, đi kèm với nó là một khối lượng thông
tin vô cùng to lớn. Lượng thơng tin khổng lồ đó đem lại lợi ích khơng nhỏ dành cho
con người. Chính vì sự khổng lồ của thơng tin đó dẫn đến việc tìm kiếm và tổng hợp
thơng tin khơng thuận lợi, gây nhiều khó khăn để có được một kết quả tìm kiếm đúng
mục đích và ít tốn kém thời gian. Người ta mất quá nhiều thời gian để có thể đọc hết
một tài liệu điện tử vài chục trang thậm chí nhiều hơn chỉ để cuối cùng rút ra kết luận
là nội dung tài liệu đó khơng đúng mục đích tìm kiếm của mình.
Rút trích các ý chính trong văn bản một cách tự động là một bài toán được đặt
ra trước nhu cầu thực tế đó, việc tự động rút trích ý chính các tài liệu sẽ giúp người
dùng tiết kiệm thời gian trong việc sàng lọc và tổng hợp tri thức , nâng cao chất lượng

và tăng hiệu quả đánh chỉ mục cho máy tìm kiếm. Đồng thời cũng là cơ sở cho các bài
tốn tóm tắt văn bản, truy hồi thơng tin,…
Các dạng rút trích văn bản thường do con người xử lý, nghĩa là do những người
có hiểu biết tốt về chuyên ngành đọc rồi rút ra các tri thức, nhưng cũng không khỏi
mang ý niệm chủ quan của người xử lý văn bản, trong khi đặc điểm của văn bản khoa
học là trong mỗi văn bản, tác giả – nhà khoa học – ln mong muốn trình bày, thậm
chí là khẳng định một ý tưởng khoa học, cần được trình bày lại dù là dưới dạng tóm tắt
một cách hết sức khách quan[27].
Khác với việc chúng ta đọc rồi tự rút ra cho mình những ý chính trong tồn bộ
văn bản như lâu nay mọi người thường làm, ở đây đề tài muốn đề cập đến một quy
trình cho phép máy tính có thể tự động rút trích ý chính từ văn bản tương đối chính
xác nhất mà cụ thể là các văn bản khoa học trong ngành công nghệ thơng tin như bài
báo khoa học và tồn văn báo cáo.
Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng của nhiều ứng


2

dụng thực tế và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để
nghiên cứu việc rút trích ý chính của nhiều loại văn bản khác nhau thuộc các lĩnh vực
khác nhau. Nên tác giả quyết định chọn đề tài Xây dựng hệ thống rút trích các nội
dung chính của văn bản khoa học dựa trên cấu trúc để làm đề tài nghiên cứu. Đề
tài tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp
rút trích ý chính của văn bản khoa học phù hợp với ngơn ngữ tiếng Việt, bên cạnh đó
áp dụng phương pháp này vào việc xây dựng một hệ thống rút trích văn bản khoa học
với kết quả đầu ra tốt nhất.
2. Mục tiêu đề tài
Đề xuất một quy trình rút trích các câu có nội dung mang thơng tin quan trọng
trong văn bản khoa học dựa trên phương pháp thống kê và cấu trúc tài liệu một cách
chặt chẽ, đưa ra thuật tốn phù hợp từ đó xây dựng ứng dụng phát triển hệ thống rút

trích văn bản khoa học trong lĩnh vực công nghệ thông tin.
3. Nội dung thực hiện đề tài
-

Nghiên cứu hệ thống từ vựng, câu trong tiếng Việt.

-

Thu thập số lượng lớn các bài báo khoa học, các tin tức và tồn văn báo cáo
trong lĩnh vực cơng nghệ phần mềm ngành công nghệ thông tin. Khảo sát cách
viết và cấu trúc các loại tài liệu đó.

-

Tìm hiểu các cơng cụ xử lý văn bản của nước ngồi.

-

Tìm hiểu cách thức tương tác với văn bản.

-

Tìm hiểu các vấn đề với văn bản tiếng Việt và cách giải quyết.

-

Xây dựng quy trình rút trích ý chính trong văn bản khoa học :
§ Xác định, phân loại đối tượng văn bản : bài báo khoa học, tồn văn …
§ Tiền xử lý, chuẩn hóa văn bản
§ Xác định thơng tin văn bản : tên tác giả, năm phát hành, tên văn bản, số

trang, số từ ...
§ Xác định cấu trúc của tồn bộ văn bản : chương, phần, đoạn,…
§ Xác định các chuỗi từ vựng quan trọng, từ khóa, chủ đề của văn bản.
§ Xác định những câu chứa các từ có trong tên đề tài. Xác định câu nào
hay đoạn nào có cùng lúc các từ thuộc chủ đề xuất hiện nhiều nhất.


3

§ Xác định các vị trí quan trọng trong văn bản thường chứa ý chính.
§ Xây dựng bộ từ điển các cụm từ đặc trưng xác định ý chính (Các cụm từ
mà theo sau nó hay đứng trước nó là ý chính) .
§ Chọn lựa câu chứa ý chính làm kết quả đầu ra tốt nhất.
-

Xác định các ý chính của các tài liệu thu thập được theo chủ quan bản thân.
Khảo sát cách xác định ý chính của những người có kinh nghiệm trong việc viết
các tài liệu, các văn bản khoa học, từ đó đưa ra đánh giá, nhận xét về các ý
chính trong văn bản khoa học.

-

Nghiên cứu các thuật tốn rút trích văn bản từ đó đưa ra giải pháp phù hợp.

-

Xây dựng hệ thống rút trích ý chính văn bản khoa học tự động.

-


Thử nghiệm hệ thống trên dữ liệu thực tế để đánh giá tính hiệu quả cũng như độ
chính xác của quy trình đề xuất.

4. Phạm vi ứng dụng
Chương trình được xây dựng có thể áp dụng xử lý tất cả các văn bản khoa học
tiếng Việt như bài báo khoa học và tồn văn báo cáo thuộc lĩnh vực Cơng nghệ thơng
tin.


4

Chương 1 : Tổng quan về tóm tắt văn bản tự động

1.1. Giới thiệu
Tóm tắt văn bản tự động là một trong những nội dung quan trọng trong lĩnh
vực xử lý ngơn ngữ tự nhiên. Qua việc tóm tắt, các ý chính trong tài liệu được sàng lọc
và trình bày một cách cơ đọng góp phần tạo ra một văn bản ngắn gọn xúc tích nhưng
vẫn mang đầy đủ thơng tin mà tài liệu muốn đề cập, vì thế nó có giá trị thực tiễn to lớn
và được ứng dụng hiệu quả trong các hệ thống tìm kiếm, trích lọc thông tin.
Theo Inderjeet Mani tác giả của đề tài Advances in AutomaticText
Summarization, mục đích của tóm tắt văn bản tự động là: “Tóm tắt văn bản tự động
nhằm mục đích trích xuất nội dung từ một nguồn thơng tin và trình bày các nội dung
quan trọng nhất cho người sử dụng theo một khn dạng súc tích và gây cảm xúc đối
với người sử dụng hoặc một chương trình cần đến”[12]. Và để thực hiện được cơng
việc tóm tắt địi hỏi người đọc phải rút ra được những ý chính của văn bản, chính vì
thế có thể nói đây là q trình quan trọng nhất trong cơng đoạn tóm tắt.
Bài tốn tóm tắt văn bản là một trong những bài toán mang lại ứng dụng to lớn
nhất trong lĩnh vực khai phá văn bản. Một số biến thể của bài tốn này như sinh
mục lục tự động, sinh ý chính tài liệu, sinh tiêu đề văn bản... Những thuật toán dùng
trong tóm tắt văn bản cũng được áp dụng trong các bài tốn tương tự như tóm tắt hình

ảnh, âm thanh hay nói chung là những dữ liệu đa phương tiện.
Điểm cốt lõi của một hệ thống tóm tắt văn bản là tìm ra những thành phần
quan trọng trong văn bản cần tóm tắt. Các thành phần này được gọi là các đơn vị
văn bản. Đơn vị văn bản ở đây có thể hiểu là đơn vị nhỏ nhất mà ta chọn để trích
rút như mệnh đề hoặc câu. Các đơn vị văn bản quan trọng sẽ có xác suất lớn để chứa ý
chính hay nội dung quan trọng của cả đoạn văn hay văn bản. Sau khi chọn được các
đơn vị văn bản quan trọng, hệ thống có thể trích rút và biến đổi chúng và sau cùng
hiển thị ra màn hình, thống kê kết quả hay sinh ra các dữ liệu mới cho các hệ thống
khác.


5

1.2. Mơ hình tóm tắt văn bản
Một hệ thống tóm tắt văn bản thông thường bao gồm những giai đoạn sau (Hình
1.1) :
Đầu vào : Văn bản

Đầu ra : Bản tóm tắt

Phân tích

Rút trích

Biến đổi

Trình bày

Hình 1.1 : Mơ hình hệ thống tóm tắt văn bản
• Phân tích ( Analysis )

Phân tích văn bản đầu vào để đưa ra những thơng tin dùng để tìm kiếm, đánh
giá các thành phần quan trọng cũng như các tham số đầu vào cho việc tóm tắt.
• Rút trích (Extraction)
Rút trích các phần thơng tin quan trọng theo mục đích của hệ thống.
• Biến đổi ( Transformation )
Từ các thông tin rút được, biến đổi để giản lược và thống nhất, kết quả là các
thành phần dùng để tóm tắt.
• Trình bày ( Presentation )
Từ các thành phần dùng để tóm tắt, liên kết chúng lại thành đoạn theo một thứ
tự nào đó hoặc theo cấu trúc văn bản rồi hiển thị phù hợp với yêu cầu người dùng.


6

Một hệ thống tóm tắt thơng thường bao gồm đầy đủ các giai đoạn trên, nhưng
một hệ thống trích rút văn bản chỉ gồm giai đoạn phân tích, rút trích và trình bày (Hình
1.2), khơng có giai đoạn biến đổi nhằm bảo toàn ngữ nghĩa cho từng câu trong văn
bản.
Đầu vào : Văn bản

Đầu ra : Các thành phần trích chọn

Phân tích

Rút trích

Trình bày

Hình 1.2: Mơ hình một hệ thống rút trích văn bản


Chúng ta có thể thấy rằng một hệ thống rút trích thì thường thực hiện ít bước hơn,
tập trung vào giai đoạn phân tích là chính. Các phương pháp thường dùng trong hệ
thống rút trích văn bản thường là các phương pháp thống kê, học trên ngữ liệu. Tuy
thực hiện ít giai đoạn hơn nhưng các giai đoạn trong hệ này mang tính quan trọng cao
vì nó ảnh hưởng đến kết quả tóm tắt văn bản. Chính vì thế để có thể mang lại một diễn
giải tóm tắt tốt thì yêu cầu mặc nhiên là phải tạo ra hệ thống rút trích tốt.
1.3. Phân loại bài tốn tóm tắt văn bản
Bài tốn tóm tắt văn bản được chia thành nhiều loại, mỗi loại được sử dụng cho
các mục đích khác nhau, các yêu cầu khác nhau. Mỗi bài toán cũng phải áp dụng các
phương pháp và kỹ thuật riêng. Khơng có một thuật tốn hay quy trình nào có thể đáp
ứng yêu cầu của tất cả các bài tốn đó. Vì vậy để mang lại sự chính xác trong tóm tắt
hay rút trích u cầu phải nghiên cứu thật kỹ cấu trúc văn bản, dữ liệu, mục đích bài
tốn.


7

• Tóm tắt đơn văn bản và Tóm tắt đa văn bản
Khi xét dữ liệu đầu vào một hệ thống tóm tắt văn bản, ta có thể chia thành hai
dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt đa văn bản (MultiDocument).
-

Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của văn bản
đó.

-

Tóm tắt đa văn bản là từ nhiều văn bản nguồn cũng cho ra một đoạn tóm tắt.
Tóm tắt đa văn bản thì có độ phức tạp hơn, vì ngồi những cơng việc của tóm
tắt đơn văn bản, tóm tắt đa văn bản cịn phải thực hiện các cơng việc như phân

tích, thống nhất dạng trình bày, …. Ngồi ra, tóm tắt đa văn bản cịn phải đối
mặt với các vấn đề như dư thừa trùng lặp dữ liệu giữa các văn bản nguồn, nội
dung các văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần
phải nhanh trong khi sự phức tạp trong xử lý lớn. Chính vì thế việc xét độ tương
đồng ngữ nghĩa giữa các thành phần sau khi rút trích là một vấn đề quan trọng
mà tóm tắt đa văn bản cần quan tâm.
• Rút trích và tóm tắt
Khi xét đến kết quả đầu ra một hệ thống tóm tắt văn bản, chúng ta có thể chia

thành hai dạng tóm tắt là trích rút (Extraction) và tóm tắt (Abstraction). Việc phân biệt
hai dạng tóm tắt này là rất cơ bản và quan trọng.
-

Trích rút là q trình thu gọn văn bản mà trong đó kết quả ra chứa các đơn vị
ngữ liệu ngun gốc có thơng tin quan trọng của văn bản nguồn.

-

Tóm tắt là q trình thu gọn văn bản mà trong đó kết quả ra có một số các đơn
vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn. Nhằm tạo ra
sự trơi chảy và mạch lạc trong kết quả tóm tắt nhưng vẫn giữ ngun ý chính
của văn bản.
• Tóm tắt chỉ định, tóm tắt thơng tin và tóm tắt đánh giá
Khi xét đến chức năng của ứng dụng tóm tắt chúng ta có thể chia thành ba loại

ứng dụng tóm tắt sau :
-

Tóm tắt chỉ định ( Indicative ) : Là kiểu tóm tắt giúp người đọc quyết định
xem có nên đọc tiếp nữa khơng. Ví dụ như loại ứng dụng sinh tiêu đề, tóm



8

lược kết quả tìm kiếm, tóm lược tin tức…
-

Tóm tắt thơng tin ( Informative ) : Là kiểu tóm tắt tóm lược tất cả các nội
dung quan trọng nhất của văn bản gốc, văn bản tạo ra có thể thay thế được
cho văn bản gốc. Ví dụ như tóm tắt một truyện dài thành đoạn văn một hai
trang

-

Tóm tắt đánh giá ( Evaluative ) : Là kiểu tóm tắt mà trong kết quả ra có cả
đánh giá của người tóm tắt. Ví dụ như lời tựa một quyển sách hay bản thảo
một bài báo. Kiểu tóm tắt này khơng gặp trong một hệ tóm tắt văn bản tự
động.

• Tóm tắt chung và tóm tắt hướng truy vấn
Nếu xét về mục đích, chúng ta có thể chia thành hai loại là tóm tắt chung và
tóm tắt hướng truy vấn.
- Tóm tắt chung ( Generic ) : Tóm tắt theo quan điểm ban đầu của tác giả văn
bản gốc (khách quan).
-

Tóm tắt hướng truy vấn ( Query-Oriented ) : Tóm tắt theo quan điểm mong
muốn của người dùng ứng dụng thông qua các tham số truyền vào câu truy
vấn. Tóm tắt hướng truy vấn được cài đặt và áp dụng nhiều hơn nhưng
trong lĩnh vực hẹp hơn, đi sâu vào các chuyên ngành cụ thể.


• Tóm tắt cơ bản và Tóm tắt chun mơn
Nếu xét theo trình độ người dùng thì chúng ta có thể chia thành hai dạng là tóm
tắt cơ bản và tóm tắt chun mơn.
• Tóm tắt cơ bản : dành cho người thơng thường.
Ví dụ : Các ứng dụng tóm tắt thơng thường, chung chung như tóm tắt trang
tin, tóm tắt tiểu thuyết văn học…
• Tóm tắt chun mơn : dành cho người đã có nền tảng, chun mơn. Những
bản tóm tắt ra chứa đựng những thuật ngữ, khái niệm, cơng việc chun
mơn.
Ví dụ : ứng dụng hỗ trợ thơng minh giúp bác sĩ tóm lược và so sánh các
phương pháp điều trị, ứng dụng tóm tắt các bài báo về toán học…


9

• Tóm tắt đơn ngơn ngữ, tóm tắt đa ngơn ngữ và tóm tắt đan xen ngơn
ngữ
Dựa vào số lượng các ngôn ngữ trong văn bản nguồn và văn bản kết quả, có ba
loại ứng dụng tóm tắt :
- Tóm tắt đơn ngơn ngữ : Văn bản nguồn chỉ có một loại ngôn ngữ. Kết quả
ra là văn bản ngôn ngữ đó.
- Tóm tắt đa ngơn ngữ : Mỗi văn bản nguồn chỉ có một loại ngơn ngữ. Nhưng
ứng dụng có khả năng tóm tắt trên nhiều loại ngơn ngữ. Tùy vào văn bản
nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngơn ngữ được
chọn.
- Tóm tắt đan xen ngôn ngữ : Trong văn bản nguồn chứa hai hay nhiều ngơn
ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng
và tóm tắt cho phù hợp. Đây là loại tóm tắt phức tạp nhất trong ba loại phân
chia theo số lượng ngơn ngữ

1.4. Các phương pháp tóm tắt văn bản
Việc tóm tắt bằng máy là một vấn đề hết sức khó khăn bởi nó yêu cầu phải
hiểu cả nội dung của văn bản và những thông tin liên quan đến vấn đề ngữ nghĩa,
tu từ học, quan hệ giữa các câu trong một đoạn văn cho trước.
Cho đến thời điểm này đã có rất nhiều các cơng trình nghiên cứu về việc trích
rút văn bản, chủ yếu là xử lý ngơn ngữ tiếng Anh và đa số các cơng trình nghiên cứu
sử dụng phương pháp học có giám sát. Ở Việt Nam hay đối với ngơn ngữ tiếng Việt
thì việc tóm tắt văn bản để đảm bảo độ chính xác như mong muốn thì vẫn phải làm
bằng tay. Tuy nhiên, ngày nay với khối lượng thông tin quá lớn việc xử lý nhiều văn
bản một cách thủ công là một trở ngại vơ cùng khó khăn. Cùng với sự phong phú của
tiếng Việt và với sự đa dạng trong cách viết hay nói cách khác là cấu trúc đa dạng của
văn bản càng làm cho độ phức tạp của bài tốn gia tăng.
Các phương pháp tóm tắt văn bản khác nhau chủ yếu ở cách đánh giá và xác định
các đơn vị văn bản (ĐVVB) quan trọng. Phần lớn các phương pháp tóm tắt văn bản cổ
điển đều dựa trên kết quả thống kê như :
-

Phương pháp dựa trên tần suất xuất hiện từ (TFxIDF)


10

-

Phương pháp sử dụng tiêu đề (title-based)

-

Phương pháp dựa trên vị trí (position) của câu trong đoạn, của đoạn trong
văn bản,...


-



Các phương pháp như vậy đều được đưa ra dựa trên ý tưởng: các ĐVVB quan
trọng nói nhiều tới nội dung chính của văn bản, do đó trong các ĐVVB này phải xuất
hiện nhiều từ ngữ liên quan tới nội dung của văn bản. Tùy theo từng phương pháp, các
từ ngữ quan trọng là các từ ngữ xuất hiện nhiều lần trong văn bản, các từ ngữ xuất hiện
trong tiêu đề của văn bản, hoặc các từ ngữ xuất hiện ở câu đầu, câu cuối của văn
bản,…Trong các nghiên cứu gần đây về tóm tắt văn bản, người ta thường sử dụng
t h ê m các phương pháp dựa trên ngữ nghĩa để nâng cao độ chính xác. Song, trong
phạm vi tóm tắt văn bản tiếng Việt, đến nay đa phần các nghiên cứu đều sử dụng hoặc
cải tiến các phương pháp dựa trên thống kê. [22]
Để tự động hóa q trình tóm tắt một văn bản tiếng Việt thơng thường trải qua
hai giai đoạn. Trước tiên, các yếu tố chính của văn bản như tiêu đề, các phân đoạn
chính, các câu quan trọng sẽ được trích rút ra từ văn bản gốc bằng các phương pháp
ngữ học hoặc thống kê, sau đó các phần rút ra sẽ được xét độ tương đồng, sắp xếp,
thêm các từ, ngữ chuyển câu, chuyển đoạn để tạo ra một bản tóm tắt cơ động và đầy đủ
ý. Với đề tài này đề tài tiếp cận với việc tóm tắt văn bản tự động theo dạng tóm tắt
trích lọc sử dụng phương pháp thống kê tính tốn độ quan trọng của các đơn vị văn
bản đồng thời kết hợp khảo sát cấu trúc tài liệu để trích rút trực tiếp các phần quan
trọng trong văn bản gốc làm tiền đề hỗ trợ việc tóm tắt văn bản tự động với đối tượng
tập trung vào các văn bản khoa học trong lĩnh vực công nghệ thơng tin, ngành cơng
nghệ phần mềm.
1.5. Tình hình nghiên cứu trong và ngồi nước
1.5.1. Ngồi nước
Vấn đề rút trích tự động các ý chính trong văn bản cũng nhận được nhiều sự
quan tâm của các nhà công nghệ thông tin trên thế giới. Có thể thấy rõ nhất là qua
cơng cụ AutoSummarize trong phần mềm Microsoft Word của tập đoàn Microsoft. Có

thể nói sơ qua cơ chế làm việc của cơng cụ này là nó sẽ tính điểm cho các câu chứa từ
được lặp lại nhiều lần. Những câu được nhiều điểm nhất sẽ được gợi ý đưa ra cho


11

người dùng. Tuy nhiên đối với các văn bản tiếng Việt thì cơng cụ này cho kết quả
khơng có tính chính xác cao.
Ngồi ra cũng có các bài báo đề cập đến các cơng trình nghiên cứu liên quan
đến vấn đề xử lý ngôn ngữ tự nhiên trong việc rút trích tự động ý chính trong văn bản
như :
- Đề tài Extracting Sentence Segments for Text Summarization : A Machine
Learning Approach - tạm dịch là rút trích các phân đoạn câu phục vụ cho việc
tóm tắt văn bản : một phương pháp tiếp cận học máy - của Wesley T.Chuang
làm việc tại Computer Science Department, UCLA, Los Angeles, CA 90095,
USA và Jihoon Yang làm việc tại HRL Laboratories, LLC, 3011 Malibu
Canyon Road, CA 90265, USA. [28]
- Đề tài Automatic Evaluation of Summaries Using N-gram Co-Occurrence
Statistics - tạm dịch là Đánh giá tự động phần tóm tắt sử dụng N-gram kết hợp
với thống kê tần suất - của tác giả Chin-Yew Lin and Eduard Hovy vào năm
2003.[2]
-

Đề tài A Frequent Term and Semantic Similarity based Single Document Text
Summarization Algorithm - tạm dịch là tóm tắt đơn văn bản dựa trên tần suất và
sự tương đồng ngữ nghĩa - của Naresh Kumar Nagwani and Shrish Verma vào
năm 2011.[17]

-


Đề tài Challeging issues of automatic summarization: Relevance Detection and
quality-based evaluation - tạm dịch là Các thách thức trong việc tóm tắt tự động
: Mức độ phát hiện phù hợp và việc đánh giá dựa trên chất lượng - của Elena
Lloret và Manuel Palomar vào năm 2010.[8]

-

Đề tài Citation Summarization Through Keyphrase Extraction - tạm dịch là
Trích dẫn tóm tắt thơng qua việc rút trích cm t - ca Vahed
Qazvinian,Dragomir R. Radev,Arzucan ăOzgăur c ng trong Proceedings
of the 23rd International Conference on Computational Linguistics (Coling
2010), trang 895–903, tháng 8/2010


12

-

Đề tài A Survey of Text Summarization Extractive Techniques, tạm dịch là Một
khảo sát về kỹ thuật rút trích tóm tắt văn bản, của tác giả Vishal Gupta và
Gurpreet Singh Lehal vào năm 2010.[26]

-

Đề tài Corpus based Automatic Text Summarization System with HMM Tagger,
tạm dịch là Kho ngữ liệu dựa trên hệ thống tóm tắt văn bản tự động với việc gán
nhãn dùng mơ hình Markov ẩn, của tác giả M.Suneetha, S. Sameen Fatima vào
năm 2011.[14]
Các đề tài trên đều có ưu điểm nhất định nhưng hầu hết các đề tài đều tập trung


xử lý ngơn ngữ tiếng nước ngồi, đa số là các văn bản tiếng Anh. Để áp dụng cho các
tài liệu tiếng Việt thì khơng có được độ chính xác mong muốn do đặc điểm ngơn ngữ
tiếng Việt phức tạp và có rất nhiều điểm khác biệt so với ngơn ngữ khác.
1.5.2. Trong nước
Trong nước có thể kể đến cơng trình nghiên cứu của GS.TSKH Hồng Kiếm và
TS. Đỗ Phúc về đề tài Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội
dung dựa trên việc sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu
của văn bản, dùng từ điển để tìm các dãy từ có nghĩa để giải quyết vấn đề ngữ nghĩa
của các từ..Cuối cùng dùng kỹ thuật gom cụm để gom các câu trong văn bản và hình
thành các vector đặc trưng cụm.[5]
Ngồi ra, trong nước hiện cũng có một đề tài nữa là Xây dựng hệ thống tự động
rút trích nội dung chính trong các văn bản điện tử tiếng Việt của Đỗ Văn Long, Châu
Thu Trân, Dương Quốc Thắng và Trần Minh Vũ [6] làm việc tại Phân viện công nghệ
thơng tin tại Thành phố Hồ Chí Minh thuộc Viện Khoa học và công nghệ Việt Nam.
Đề tài là sự kết hợp giữa việc phân loại văn bản theo cấu trúc của nhà ngôn ngữ với kỹ
thuật xử lý ngôn ngữ tự nhiên của tin học. Ý tưởng chính của hệ thống là rút trích nội
dung chính của văn bản từ việc xác định những đặc trưng và cấu trúc văn bản thông
dụng. Phương pháp này tạo ra một bản tóm tắt cơ động, đủ ý thơng qua việc thu thập
và tập hợp các câu, cụm từ mang nội dung chính trong văn bản.
Bên cạnh đó bài báo Thử đề xuất quy trình tự động tóm tắt văn bản khoa học,
của PGS.TS Vương Toàn (2007) [27] cũng là một trong các đề tài liên quan trong
lĩnh vực này. Tác giả đã thử đề xuất quy trình làm việc để máy tính có thể tiến hành


13

tự động tóm tắt văn bản khoa học (tỉ lệ 1/10). Cơng việc đã được thử nghiệm ở một số
ví dụ kiểu như trên cho thấy kết quả là đáng khích lệ. Tuy nhiên, trong một số trường
hợp tương tự, do những câu được cắt tự động rất có thể trở thành câu cụt hoặc thừa từ
nên gây mất mát thơng tin.

Các đề tài trên đều có những ưu điểm nhất định của nó, tuy nhiên phạm vi xử lý
văn bản của nó q rộng, hầu như khơng xác định cụ thể cho một loại văn bản nào.
Nếu đầu vào là một truyện ngắn, một quyển tiểu thuyết hay một bài báo khoa học
thuộc những lĩnh vực khác nhau thì kết quả đầu ra có độ chính xác như thế nào ? Đó
chính là vấn đề mà đề tài này sẽ tập trung tìm hiểu vào một loại hình tài liệu, đó là văn
bản khoa học trong ngành cơng nghệ thơng tin nhằm đem lại kết quả có độ chính xác
tốt nhất với yêu cầu của người dùng.
1.6.

Một số hệ thống tóm tắt văn bản trên thế giới
Hiện tại, trên thế giới đã có rất nhiều nghiên cứu và dự án xây dựng các ứng

dụng tóm tắt văn bản. Các ứng dụng này có thể đáp ứng rất nhiều các mục đích khác
nhau. Có thể kể ra một số ứng dụng tóm tắt văn bản tiêu biểu như sau :
• SumUM [11]
Hệ thống Tóm lược văn bản kỹ thuật của nhóm nghiên cứu xử lý ngơn ngữ tự
nhiên trường Đại học Montréal, Canada. SumUM có thể thực hiện cả chức năng tóm
tắt chỉ định và tóm tắt thơng tin rất tốt.
• Microsoft Word AutoSummaryTool
Microsoft cũng cài đặt chức năng Trích rút và sinh tiêu đề trong Microsoft
Word từ phiên bản Word '97. Chúng ta có thể thử bằng cách chọn Tools AutoSummarize trên thanh cơng cụ (có thể khác tùy vào phiên bản). Công cụ này cho
phép chúng ta chọn thơng số về độ rút gọn, trích rút hay sinh tiêu đề...


14

Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word

• SUMMARIST [9]
Một hệ thống Trích rút văn bản năm thứ tiếng (tiếng Anh, tiếng Nhật, tiếng Tây

Ban Nha, tiếng Ả-rập và tiếng Hàn Quốc). Hiện tại SUMMARIST đang nghiên cứu để
cải tiến trở thành một hệ thống Tóm lược văn bản và hỗ trợ nhiều ngơn ngữ hơn như
tiếng Pháp và Indonesia.
• MEAD [7]
Nền tảng cho các hệ thống Tóm tắt nhiều văn bản và đa ngôn ngữ. Đây là một
bộ công cụ xây dựng trên nền Linux và Solaris, sử dụng ngôn ngữ Perl - Một ngơn ngữ
có khả năng xử lý văn bản rất linh hoạt và mạnh mẽ. MEAD biểu diễn, lưu trữ dữ liệu
ở dạng XML, cung tấp cho chúng ta khung ứng dụng để cài đặt các ứng dụng Tóm tắt
văn bản cho ngơn ngữ mà ta muốn. Ngồi ra MEAD cũng cung cấp các công cụ để xây
dựng các ứng dụng đánh giá hệ thống tóm tắt theo các tiêu chí và các tập mẫu nổi
tiếng. MEAD được xây dựng bởi các chuyên gia nổi tiếng về Xử lý ngôn ngữ ở khắp
nơi trên thế giới dưới sự tài trợ của Chương trình Nghiên cứu Cơng nghệ thơng tin của
Tổ chức Khoa học quốc gia Mỹ. MEAD được cung cấp ở dạng mã nguồn mở để
nghiên cứu và kế thừa. Hiện tại phiên bản mới nhất của MEAD là MEAD v3.07..


15

• SweSUM [16]
Ứng dụng Tóm tắt văn bản đa ngơn ngữ của Học viện cơng nghệ hồng gia
Thụy Điển. SweSUM có thể tóm tắt các văn bản có ngơn ngữ vùng Scandinavi như
Thụy Điển, Đan Mạch, Na Uy và các ngôn ngữ khác như tiếng Anh, Pháp, Đức, Tây
Ban Nha và cả tiếng Iran.

Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngơn ngữ

Ngồi ra cịn các hệ thống Tóm tắt văn bản nổi tiếng khác như ANES hay
SUMMONS. Tuy nhiên tại Việt Nam hiện nay chưa có một hệ thống ứng dụng tóm tắt
cũng như rút trích ý chính từ văn bản chính thức nào.



16

Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản
tiếng Việt
2.1. Một số đặc điểm của ngôn ngữ tiếng Việt
2.1.1. Văn bản, chủ đề văn bản và cấu trúc văn bản [1]
Văn bản (Text) là một sản phẩm hoàn chỉnh của một hành vi phát ngôn, mang
một nội dung giao tiếp cụ thể, gắn liền với một đối tượng giao tiếp, mục đích giao tiếp
và hoàn cảnh giao tiếp xác định, thể hiện dưới dạng âm thanh hay chữ viết, ở đây
chúng ta đề cập đến văn bản dưới dạng chữ viết. Theo quan niệm vừa nêu thì văn bản
có thể là một câu nói, một câu tục ngữ, một tin vắn, một bài thơ, một truyện ngắn, một
bài nghiên cứu, một quyển sách, .v.v.
Văn bản dù ngắn hay dài đều đề cập đến một hay vài đối tượng nào đó trong
hiện thực khách quan hay trong hiện thực tâm lý. Đối tượng này chính là đề tài của
văn bản (Subject Matter). Gắn liền với đề tài là sự triển khai của người viết về đề tài,
tức sự miêu tả, trần thuật hay bàn luận về đề tài. Nội dung miêu tả, trần thuật hay bàn
luận cơ bản, bao trùm lên toàn văn bản là chủ đề của đề tài.
Cần lưu ý rằng, đề tài của văn bản thường mang tính hiển ngơn, cịn chủ đề của
văn bản có thể mang tính hàm ngơn hay hiển ngơn. Tính hiển ngơn hay hàm ngơn của
chủ đề văn bản có thể do phong cách ngơn ngữ văn bản hay do phong cách tác giả chi
phối. Nhìn chung, trong các loại hình văn bản phi hư cấu (văn bản thuộc phong cách
khoa học, chính luận, hành chánh), chủ đề thường được hiển ngơn. Trong các loại hình
văn bản hư cấu văn bản thuộc phong cách nghệ thuật), chủ đề thường mang tính hàm
ngơn, nhiều tầng, nhiều lớp. Tùy theo quy mơ, văn bản có thể bao gồm một câu, vài
câu hay bao gồm nhiều đoạn, nhiều chương, nhiều phần,… Câu, đoạn, chương, phần
khi tham gia vào tổ chức của văn bản đều có một chức năng nào đó và chúng có mối
quan hệ ràng buộc, nương tựa lẫn nhau. Toàn bộ các bộ phận hợp thành văn bản cùng
với trình tự sắp xếp chúng dựa trên cơ sở chức năng và các mối quan hệ qua lại giữa
chúng chính là cấu trúc văn bản.

Thơng thường, trong một văn bản có chủ đề mang tính hiển ngơn, được cấu tạo
bằng vài câu, thì câu mở đầu của văn bản có thể là câu nêu lên chủ đề của nó, gọi là
câu chủ đề (Thesis sentence). Và câu cuối của văn bản có thể đúc kết, khẳng định lại


17

chủ đề, gọi là câu kết đề. Trong trường hợp chủ đề của văn bản không được nêu lên ở
câu mở đầu mà được nêu ở câu cuối, thì câu cuối chính là câu kết đề, đồng thời cũng là
câu nêu lên chủ đề của văn bản. Điều này đúng trong nhiều văn bản tiếng Anh và một
số thể loại văn bản tiếng Việt, nhưng trong các thể loại như văn bản khoa học thì việc
mở ý hay kết ý thường quy vào đoạn hơn là câu.
Trong văn bản được cấu tạo gồm ba bộ phận, tiêu biểu là các bài học trong sách
giáo khoa, các bài văn nghị luận trong nhà trường, ba phần này thường có chức năng
như sau:
-

Phần Mở đầu (Nhập đề) là phần chủ yếu có chức năng dẫn nhập và nêu chủ
đề, có thể được cấu tạo bằng một hay vài đoạn văn bản.

-

Phần Khai triển (Thân bài) là phần triển khai, làm sáng tỏ chủ đề của văn
bản bằng cách miêu tả, trần thuật, trình bày hay bàn luận. Phần này bao gồm
nhiều đoạn văn, trong đó, mỗi đoạn triển khai, làm sáng tỏ một khía cạnh
nào đó của chủ đề tồn văn bản.

-

Phần Kết luận là phần có chức năng đúc kết, khẳng định lại chủ đề, đồng

thời nó có thể mở rộng, liên hệ đến những vấn đề có liên quan. Phần này có
thể được cấu tạo bằng một vài đoạn văn.

Trong những văn bản gồm ba phần như vừa nêu trên, chủ đề của văn bản
thường được phát biểu trực tiếp trong phần Mở đầu, cụ thể là trong câu chủ đề, thường
là câu cuối hay câu áp cuối trong phần Mở đầu. Chủ đề của văn bản cũng thường được
đúc kết, khẳng định lại ở phần Kết luận, trong câu kết đề, thường là câu mở đầu của
phần này. Tuy nhiên, câu kết đề cũng có thể xuất hiện ở giữa hay cuối phần Kết luận.
2.1.2. Tiêu đề của văn bản
Tiêu đề (Title) hay đầu đề của văn bản là tên gọi của văn bản và là một bộ phận
cấu thành văn bản. Tuy nhiên, một số loại văn bản có thể khơng có tiêu đề, tiêu biểu
như tin vắn, các sáng tác dân ca như ca dao v.v...
Xét mối quan hệ giữa tiêu đề với nội dung cơ bản của văn bản, có hai loại tiêu
đề:


18

-

Tiêu đề mang tính dự báo : phản ảnh một phần hay toàn bộ nội dung cơ
bản của văn bản. Qua tiêu đề thuộc loại này, người đọc có thể suy đoán
trước đề tài hay chủ đề của văn bản,

-

Tiêu đề mang tính nghệ thuật : khơng gợi ra điều gì về đề tài và chủ đề
của văn bản,

Xét mối quan hệ giữa hai loại tiêu đề vừa nêu với các phong cách ngôn ngữ

văn bản, chúng ta thấy các loại văn bản thuộc phong cách khoa học, hành chánh và
chính luận thường có tiêu đề mang tính dự báo. Còn các loại văn bản thuộc phong cách
nghệ thuật thường có tiêu đề mang tính chất nghệ thuật hơn là tính chất dự báo.
2.1.3. Đoạn văn
Ðoạn văn là một tập hợp câu liên kết chặt chẽ với nhau về nội dung và hình
thức, diễn đạt hồn chỉnh hay tương đối hoàn chỉnh một chủ đề bộ phận ở cấp độ nhỏ
nhất nào đó trong chủ đề hay hệ thống chủ đề toàn thể của văn bản.
Nếu đoạn văn là một tập hợp thì câu chính là phần tử. Do đó, về số lượng câu,
đoạn văn có ba khả năng:
-

Đoạn văn gồm nhiều câu, tức là từ hai trở lên (tập hợp nhiều phần tử)

-

Đoạn văn một câu (tập hợp một phần tử)

-

Đoạn văn khơng có câu nào (tập hợp rỗng).

Ðoạn văn nhiều câu là hiện tượng phổ biến trong văn bản. Ðoạn văn một câu
chỉ xuất hiện rải rác trong văn bản. Ðoạn văn không câu nào là trường hợp đặc biệt,
chỉ xuất hiện ở các bài văn tuyển. Ðó là những đoạn văn đã bị lược bỏ, được báo hiệu
bằng dấu chấm ngang dịng.
Trong đoạn văn, tính liên kết cũng thể hiện ở cả hai bình diện: liên kết nội dung
và liên kết hình thức như ở cấp độ văn bản.
Một đoạn văn được xem là hoàn chỉnh khi nội dung biểu đạt của nó mang tính
tự nghĩa và xác định. Ðoạn văn chỉ hoàn chỉnh tương đối khi nội dung biểu đạt của nó
mang tính hợp nghĩa và/hay không xác định.

Khái niệm chủ đề bộ phận ở cấp độ nhỏ nhất mà đoạn văn diễn đạt. Ðiều này có
nghĩa là những chuỗi câu dưới đoạn chỉ có chức năng triển khai chủ đề của đoạn; dưới
đoạn khơng cịn chủ đề bộ phận ở cấp độ nhỏ hơn.


19

Dựa vào đặc điểm về nội dung biểu đạt, có tất cả bốn loại đoạn văn cơ bản :
-

Đoạn miêu tả : có nội dung thể hiện sự vật, hiện tượng một cách chi tiết, cụ thể,
sinh động như nó tồn tại trong thực tại khách quan hay theo trí tưởng tượng của
người viết. Ðây là đoạn văn cơ bản, xuất hiện rất phổ biến trong các loại văn
bản thuộc phong cách nghệ thuật như truyện, thơ trữ tình, kí sự.

-

Đoạn thuật sự : có nội dung trình bày diễn biến của sự việc, sự kiện như nó đã
xảy ra hay theo trí tưởng tượng của người viết. Loại đoạn văn này có khả năng
xuất hiện trong nhiều phong cách ngơn ngữ văn bản: hành chánh, khoa học,
chính luận và nghệ thuật.

-

Đoạn lập luận : có nội dung trình bày suy nghĩ, ý kiến, quan điểm của người
viết về một vấn đề, một hiện tượng nào đó. Ðây là loại đoạn văn cơ bản, xuất
hiện rất phổ biến trong các loại văn bản thuộc phong cách khoa học, chính luận.
Văn bản thuộc phong cách hành chánh cũng có thể vận dụng loại đoạn văn này,
nhưng ít phổ biến hơn.


-

Đoạn hội thoại : có nội dung phản ánh lời nói trực tiếp của con người tham gia
giao tiếp. Ðoạn văn hội thoại xuất hiện rất phổ biến trong khẩu ngữ tự nhiên
hàng ngày, trong các văn bản thuộc phong cách nghệ thuật như truyện và hầu
như không xuất hiện trong thể loại văn bản khoa học.
2.1.4. Câu và cấu trúc câu tiếng Việt [1]
Câu là một tập hợp từ, ngữ kết hợp với nhau theo những quan hệ cú pháp xác

định, được tạo ra trong q trình tư duy,giao tiếp, có giá trị thơng báo, gắn liền với
mục đích giao tiếp nhất định.
Nói đến cấu trúc câu là nói đến các thành phần tạo câu cùng với chức năng, mối
quan hệ qua lại và sự phân bố chúng trong tổ chức nội bộ câu.
Dựa vào vai trò tạo câu, các thành phần câu được chia thành ba loại lớn: thành
phần nòng cốt, thành phần phụ và thành phần biệt lập.
• Thành phần nòng cốt của câu.
Thành phần nòng cốt là loại thành phần cơ bản, cốt lõi của câu mà dựa vào nó
câu mới có thể tồn tại. Thành phần nịng cốt bao gồm hai loại nhỏ: chủ ngữ và vị ngữ.


×