Xây dựng hệ thống tóm tắt văn bản tiếng việt sử dụng mạng nơ ron cho việc huấn luyện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (783.76 KB, 50 trang )

MỤC LỤC
LỜI NÓI ĐẦU

2

DANH MỤC BẢNG

DANH MỤC HÌNH

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

4

DANH MỤC TỪ VIẾT TẮT

TỪ VIẾT

TÊN ĐẦY ĐỦ

SVM

Support vector machines

Ý NGHĨA

TẮT
Bộ phân loại máy vector

hỗ trợ
HMM

Hidden Makov Model

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Mô hình makov ẩn

Sinh viên thực hiện: Trịnh Thị Lan

6

LỜI NÓI ĐẦU
1.

Tính cấp thiết của đề tài
Ngày nay với sự phong phú của tài liệu văn bản có sẵn trên Internet. Thông tin

trên internet nhiều hơn các thông tin mà người dùng cần. Vì vậy, một vấn đề đang gặp
phải: tìm kiếm các tài liệu liên quan thông qua một số lượng lớn của các tài liệu sẵn có,
và tiếp thu một số lượng lớn thông tin có liên quan.
Tóm tắt là một công cụ hữu ích cho việc lựa chọn văn bản có liên quan, và để
trích xuất các điểm chính của mỗi văn bản. Nó đã thu hút nhiều chuyên gia trong khai
phá dữ liệu và lĩnh vực xử lý ngôn ngữ tự nhiên. Một công cụ tóm tắt văn bản sẽ là cực
kỳ hữu ích. Nó sẽ giúp chúng ta tìm kiếm thông tin một cách nhanh chóng và gần mục
tiêu hơn thay vì phải đọc lần lượt tất cả các văn bản mất rất nhiều thời gian, công sức
và là một công việc nhàm chán, không khả thi.
Đối với tiếng việt, một số phương pháp tóm tắt văn bản dựa vào phương pháp đã

được đề xuất cho tiếng anh cũng mang lại một số kết quả đáng kể. Tuy nhiên, vẫn còn
một số vấn đề khó khăn để nghiên cứu với xử lý ngôn ngữ tiếng việt. Bởi vì đặc điểm
ngôn ngữ khác nhau giữa tiếng anh và tiếng việt. Tiếng việt là ngôn ngữ đơn âm tiết.
Không giống như tiếng anh, từ trong văn bản tiếng việt không thể được xác định bởi
không gian.
Với sự phát triển của nhiều kỹ thuật máy học trong xử lý ngôn ngữ, một số nhà
nghiên cứu đã ứng dụng các kỹ thuật này vào trong tóm tắt văn bản tự động. Một số
nghiên cứu điển hình của phương pháp này là : Naïve-Bayes, Decision Tree, Hidden
Makov Model, Log-Linear, Mạng nơ-ron, SVM.
Nhờ các khả năng: Học, nhớ lại và khái quát hoá từ các mẫu huấn luyện hoặc dữ
liệu, mạng nơ-ron nhân tạo trở thành một phát minh mới đầy hứa hẹn của hệ thống
xử lý thông tin. Các tính toán mạng nơ-ron cho phép giải quyết tốt những bài

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

8

toán đặc trưng. Mạng nơ-ron có thể được huấn luyện và ánh xạ từ các dữ liệu vào
tới các dữ liệu ra mà không yêu cầu các dữ liệu phải đầy đủ.
Trong đề tài thực tập này, em đã lựa chọn đề tài: “Xây dựng hệ thống tóm tắt
văn bản tiếng việt sử dụng mạng nơ ron cho việc huấn luyện”.
2. Mục

3.

tiêu đề tài:
-

Tìm hiểu về khai phá dữ liệu, tóm tắt văn bản

-

Trình bày ứng dụng mạng nơ ron vào trong tóm tăt văn bản

-

Phân tích thiết kế và xây dựng chương trình tóm tắt văn bản

Kết quả đạt được:
•

•

Về lý thuyết :
-

Tìm hiểu về khai phá dữ liệu, tóm tắt văn bản

-

Trình bày ứng dụng mạng nơ ron vào trong tóm tăt văn bản

-

Phân tích thiết kế và xây dựng chương trình tóm tắt văn bản

Về thực nghiệm :

-

4.

Chương trình thực nghiệm

Bố cục đồ án gồm 4 chương
Chương 1 Trình bày tổng quan về khai phá dữ liệu, tóm tắt văn bản
Chương 2 Ứng dụng mạng nơ ron trong tóm tăt văn bản
Chương 3 Phân tích thiết kế và xây dựng chương trình tóm tắt văn bản
Chương 4 Kết quả thực nghiệm

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

9

Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN
Các tiến bộ gần đây trong công nghệ thông tin và truyền thông đã dẫn đến sự tăng
trưởng chưa từng thấy trong dữ liệu và thông tin có sẵn. Do vậy một phương pháp mới
xử lý lượng dữ liệu và thông tin lớn đó là vô cùng cần thiết. Chúng ta cần có phương
pháp khai thác hiệu quả thông tin văn bản để phân loại, phân cụm, tổng hợp thông tin
sẵn đó. Chương này trình bày tổng quan về khai phá thông tin văn bản và đặc biệt là
tóm tắt văn bản.
1.1.Khai phá văn bản
1.1.1.

Khái niệm

Khai phá dữ liệu là một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá

trị tiềm ẩn trong các tập dữ liệu lớn như các kho dữ liệu, các cơ sở dữ liệu có dung
lượng rất lớn. Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và
sử dụng các kỹ thuật để tìm ra các mẫu có tính hệ thống trong tập dữ liệu.
Cũng như khai phá dữ liệu khai phá văn bản có thể được mô tả như tìm kiếm các
mẫu trong dữ liệu, khai phá văn bản tìm kiếm các mẫu trong văn bản[4]. Tuy nhiên,
khai phá dữ liệu có thể được đặc tả đầy đủ như khai thác thông tin tiềm ẩn, và có khả
năng hữu ích từ dữ liệu. Các thông tin tiềm ẩn trong các dữ liệu đầu vào: nó là ẩn, chưa
biết, và khó có thể được trích xuất mà không truy đòi kỹ thuật tự động của khai phá dữ
liệu. Với khai phá văn bản, thông tin được trích xuất rõ ràng và quy định rõ ràng trong
văn bản. Khai phá văn bản cố gắng tách nó ra khỏi các văn bản trong một hình thức
phù hợp để các máy tính trực tiếp xử lý, không cần một trung gian của con người.
Khai phá văn bản là một lĩnh vực mới đang phát triển cố gắng để thu thập thông
tin có ý nghĩa từ văn bản ngôn ngữ tự nhiên. Nó như là quá trình phân tích các văn bản
để trích xuất thông tin hữu ích cho các mục đích cụ thể. Sử dụng các kỹ thuật khai phá
dữ liệu, máy học, xử lý ngôn ngữ tự nhiên…[5]

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

10

Trong các ứng dụng khai phá dữ liệu, chìa khóa cho sự thành công là thông tin
chiết xuất phải được hiểu ở chỗ nó giúp giải thích dữ liệu. Điều này là cần thiết, kết
quả thông tin đó là để dành cho con người chứ không phải là một cơ sở cho hành động
tự động. Tiêu chuẩn này không áp dụng đối với khai phá văn bản bởi vì, không giống
như khai phá dữ liệu, đầu vào của khai phá văn bản là dễ hiểu. Khai phá văn bản với

đầu ra dễ hiểu đồng nghĩa với việc tóm tắt các tính năng nổi bật từ một nội dung lớn
các văn bản, một trường con trong của nó: tóm tắt văn bản.
1.1.2.

Các kỹ thuật khai phá văn bản
Phân loại văn bản: là một nhiệm vụ chủ yếu của khai phá văn bản[3]. Phân loại

văn bản là sự sắp xếp các văn bản ngôn ngữ tự nhiên với các chuyên mục xác định
trước theo nội dung của chúng. Tập hợp các chuyên mục thường được gọi là một ” từ
vựng có kiểm soát”. Phân loại văn bản là kỹ thuật truyền thống lâu đời để lấy thông tin
trong các thư viện, nơi mà tác giả chuyên ngành như một cổng vào chiếm ưu thế với
nội dung của thư viện.
Phân cụm văn bản: Phân loại văn bản là sự sắp xếp các văn bản ngôn ngữ tự
nhiên với các chuyên mục hoặc lớp không được xác đinh trước nhưng nhóm của văn
bản cùng loại sẽ được tìm kiếm.
Tóm tắt văn bản: Tóm tắt văn bản cố gắng để tạo ra một đại diện cô đọng của
đầu vào. Giúp cho con người dễ dàng nắm bắt được tri thức có thể đọc ít ma hiểu
nhiều.
Tra cứu văn bản: Với một ngữ liệu của văn bản và thông tin của người dùng cần
hiển thị như một số liệu truy vấn, tìm kiếm văn bản là nhiệm vụ nhận biết và đưa ra các
văn bản phù hợp nhất.
1.2.Tóm tắt văn bản
1.2.1.

Định nghĩa

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

11

Tóm tắt văn bản là quá trình rút trích những thông tin quan trọng nhất từ một văn
bản để tạo thành một văn bản cô đọng, ngắn gọn phục vụ cho yêu cầu một hoặc nhiều
người dùng cụ thể, hay một hoặc nhiều nhiệm vụ cụ thể [1].
1.2.2.

Đặc điểm của văn bản tóm tắt
Tóm tắt văn bản phải làm cho lượng nội dung trong bản tóm tắt ít hơn so với

bản gốc, nhưng phải đảm bảo vẫn còn những thông tin quan trọng, nổi bật. Mức độ
giảm nội dung thông tin được đo bằng tỷ lệ nén. Các bản tóm tắt thường có một chiều
dài nhất định được mong muốn.
Nội dung thông tin phải trung thực hoặc tương đương với văn bản nguồn và liên
quan, phù hợp với yêu cầu người dùng.
Phải có định dạng tốt về ngữ pháp và cấu trúc diễn ngôn (cấu trúc nội dung của
từng loại văn bản). Có thể đọc và hiểu được đối với người dùng.
1.2.3.

Phân loại tóm tắt
Tóm tắt văn bản được chia thành nhiều kiểu khác nhau:
+

Theo kết quả: Tóm tăt rút trích, tóm tắt tóm lược.

+

Theo mục đích hay chức năng: Tóm tắt chỉ thị, tóm tắt thông tin, tóm tắt
đánh giá.

+

Theo nội dung: Tóm tắt chung, tóm tăt hướng truy vấn.

+

Theo miền dữ liệu: Tóm tắt trên một miền dữ liệu, tóm tắt trên một thể loại,

tóm tắt độc lập.
+

Theo mức độ chi tiết: Tóm tắt tổng quan, tóm tắt tập trung sự kiện.

+

Theo số lượng: Tóm tắt đơn văn bản, tóm tắt đa văn bản.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

12

+

Theo ngôn ngữ: Tóm tắt đơn ngôn ngữ, tóm tắt đa ngôn ngữ, tóm tắt xuyên
ngôn ngữ.

1.2.4.

Các thuật ngữ
Tỷ lệ nén (Compression Ratio): là độ đo thể hiện bao nhiêu thông tin được cô

đọng trong văn bản tóm tắt. Nó được tính bằng:

Độ nổi bật hay liên quan (Salient or Relevance): trọng số được gán cho thông tin
trong văn bản thể hiện độ quan trọng của thông tin đó đối với toàn văn bản hay để chỉ
sự liên quan của thông tin đó đối với yêu cầu truy vấn của người dùng.
Sự mạch lạc (coherence): một văn bản được gọi là mạch lạc nếu tất cả các thành
phần trong nó tuân theo một thể thống nhất về mặt nội dung và không có sự trùng lặp
nào giữa các thành phần.
1.2.5.

Các giai đoạn của hệ thống tóm tắt
Hệ thống tóm tắt văn bản tự động được chia thành 3 giai đoạn chính[1] :
-

Phân tích (Analysis or Interpretation) : biểu diễn và hiểu văn bản nguồn

-

Biến đổi (Transformation) : trích chọn những nội dung quan trọng

-

Tổng hợp (Synthesis or Realization) : tạo văn bản mới chứa những điểm chính,
quan trọng của văn bản gốc.

1.3.Một số phương pháp tiếp cận tóm tắt và ngôn ngữ tiếng việt
Có 2 loại tóm tắt là tóm tắt rút trích và tóm tắt tóm lược. Để thực hiện tóm lược
cần có một lượng tri thức đầy đủ về lĩnh vực cần tóm tắt. Điều này hiện nay còn hạn
chế nhiều, do đó các hướng tiếp cận đa số tập trung vào dạng tóm tắt rút trích câu.
1.3.1.

Phương pháp thống kê

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

13

Hầu hết các nghiên cứu đầu tiên cho tóm tắt đơn văn bản đều tập trung trên
những văn bản kỹ thuật (các bài báo khoa học). Các phương pháp cổ điển thường tập
trung vào các đặc trưng hình thái để tính điểm cho các câu và rút trích các câu quan
trọng để đưa vào tóm tắt.
Ý tưởng chính của hướng tiếp cận :
-

Thu tập ngữ liệu

-

Tạo các bản tóm tắt thủ công

-

Thiết kế các công thức toán hay logic để tính điểm cho các câu

-

Lặp cho đến khi tóm tắt tự động đạt được tính tương đương với tóm tắt thủ
công: Tính điểm cho từng câu để tạo ra bản tóm tắt cho từng văn bản trong
ngữ liệu dựa vào các đặc trưng về hình thái. Từ đó so sánh tóm tắt được tạo
tự động với tóm tắt được tạo thủ công. Cải thiện lại phương thức tính điểm
cho câu

Phương pháp khá chính xác nhưng quá chủ quan. Phương pháp này được xử dụng
khá nhiều vào các hệ thống máy học sau này. Nó là phương pháp điển hình nhất trong
phương pháp cổ điển.
1.3.2.

Phương pháp máy học
Máy học là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kĩ

thuật cho phép các máy có thể học. Máy học là một phương pháp để tạo ra các chương
trình máy tính bằng việc phân tích các tập dữ liệu. Máy học có liên quan lớn đến thống
kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê,
máy học tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán.
Nhiều bài toán suy luận được xếp vào loại bài toán khó, vì thế một phần của học máy
là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lí được.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

14

Một số nghiên cứu điển hiển của phương phát này là: Naïve-Bayes, Decision
Tree, Hidden Makov Model, Log-Linear, Neural Network, Support vector machines
(SVM).
•

Phương pháp Naïve-Bayes
Phương pháp này giả định rằng các đặc trưng của văn bản độc lập nhau. Sử dụng

bộ phân lớp Naïve-Bayes để xác định câu nào thuộc về tóm tắt và ngược lại:
Cho s là các câu cần xác định. F1,F2…Fk là các đặc trưng đã được chọn, và giả
định các thuộc tính độc lập nhau. Xác suất của câu s thuộc về tóm tắt được tính như
sau:

Sau khi tính xác suất các câu, n câu có xác suất cao nhất sẽ được rút trích.
•

Phương pháp Decision Tree
Decision Tree là một cây phân cấp có cấu trúc được dùng để phân lớp các đối

tượng dựa vào dãy các luật.
Phương pháp dựa trên giả định các đặc trưng không độc lập với nhau, ảnh hưởng
của đặc trưng lên quá trình rút trích. Hệ thống tóm tắt là loại tóm tắt hướng về truy vấn.
Các đặc trưng : vị trí (position), số thông tin(numeric data), danh từ riêng(proper
name), danh từ và tính từ(pronoun & adjective), ngày tháng(weekday or month. Cùng
với 2 đăc trưng mới : query signature (số từ truy vấn có trong câu) và số thông tin tìm
kiếm có trong câu(IR signature).
•

Phương pháp Hidden Makov Model(HMM)
Những hướng tiếp cận trước đều dựa trên những đặc trưng và không tuần tự.

Hướng tiếp cận dựa trên mô hình HMM với ý tưởng cơ bản là sử dụng một chuỗi tuần
tự các câu. Và sử dụng mô hình HMM để xác định sự phụ thuộc cục bộ giữa các câu.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

15

•

Phương pháp gom cụm chủ đề và hợp nhất thông tin
McKeown (1999) đã cải tiến hệ thống SUMMONS cũng như Barzilay (1999)

bằng một hướng tiếp cận dựa trên gom cụm và hợp nhất thông tin.
Hướng tiếp cận mới bao gồm 2 giai đoạn :
- Gom cụm các đơn vị văn bản (clustering) : các đơn vị văn bản được biểu diễn
bằng vector với các đặc trưng như tần suất, nhóm danh từ(noun-phrase),danh từ
riêng( proper noun), tập đồng nghĩa từ Wordnet(synset). Từng cặp đơn vị văn bản sẽ
được tính độ tương đồng với nhau để phân loại cho các các cụm theo từng chủ đề.
- Hợp nhất thông tin : sau khi phân cụm,các cụm sẽ được so sánh với nhau bằng
một giải thuật để tìm sự trùng lặp thông tin. Sau cùng hệ thống rút trích câu nổi bật
trong từng cụm để làm tóm tắt, nếu trùng lắp thì câu suất hiện ở văn bản mới hơn sẽ
dược rút trích.
- Giải thuật để tìm sự trùng lắp là sử dụng bộ phân tích thống kê của Collin
(1999) xây dựng cây phụ thuộc (dependency tree).

•

Phương pháp mạng Neural và đặc trưng
Là phương pháp áp dụng mạng nơ ron vào huấn luyện với thuật toán của mạng để

tìm ra đầu ra thỏa mãn điều kiện mong muốn.
Các đặc trưng sử dụng : vị trí, tần suất từ, thông tin quan trọng...
•

Phương pháp phân tích ngôn ngữ tự nhiên
Phương pháp tiếp theo xử dụng các kỹ thuật phân tích ngôn ngữ tự nhiên phức

tạp. Không phải tất cả các phương pháp phân tích ngôn ngữ tự nhiên đều xử dụng máy
học, đôi khi phương pháp chỉ sử dụng một số các biến đổi để tạo rút trích.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

16

Hầu hết các phương pháp này đều dựa trên cấu trúc diễn ngôn hay cấu trúc diễn
đạt của văn bản, như : cấu trúc các phần của văn bản, liên kết ngữ pháp (trùng lặp, tĩnh
lược, liên hợp), liên kết từ vựng (đồng nghĩa, bao hàm, lặp lại), cấu trúc chính phụ.
1.4. Kết luận
Trong chương này đồ án đã giới thiệu một số khái niệm và kỹ thuật cơ bản tóm
tắt văn bản. Bên cạnh đó đồ án cũng trình bày một số khái niệm về khai phá dữ liệu
văn bản. Để nâng cao hiệu quả tóm tắt, đồ án tập trung vào phương pháp tóm tắt văn
bản tiếng việt sử dụng mạng nơ ron.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

17

Chương 2 MẠNG NƠRON VÀ TÓM TẮT VĂN BẢN SỬ DỤNG
MẠNG NƠRON
Mạng nơ ron đã được sử dụng thành công trong một loạt các vấn đề phân loại.
Mục đích của đồ án này là áp dụng mạng trong vấn đề tóm tắt. Trong chương này sẽ
trình bày sơ lược về mạng nơ ron. Các mô hình, phương pháp, thuật toán của mạng và
ứng dụng mạng nơ ron vào tóm tắt văn bản tiếng việt.
2.1.

Mạng nơron

2.1.1.

Giới thiệu mạng nơron
Mạng nơron được giới thiệu đầu tiên năm 1943 bởi nhà thần kinh học Warren

McCulloch và nhà logic học Walter Pits. Dựa trên quan điểm cho rằng bộ não người là
bộ điều khiển. Mạng nơron nhân tạo được thiết kế tương tự như nơron sinh học sẽ có
khả năng giải quyết hàng loạt các bài toán như tính toán tối ưu, điều khiển, công nghệ
robot… Nhưng với những kỹ thuật trong thời gian này chưa cho phép họ nghiên cứu
được nhiều.
Qua quá trình nghiên cứu về bộ não, người ta thấy rằng: bộ não con người bao
gồm khoảng nơron tham gia vào khoảng kết nối trên các đường truyền [6]. Mỗi

đường truyền này dài khoảng hơn một mét. Các nơron có nhiều đặc điểm chung với
các tế bào khác trong cơ thể, ngoài ra chúng còn có những khả năng mà các tế bào khác
không có được, đó là khả năng nhận, xử lý và truyền các tín hiệu điện hóa trên các
đường mòn nơron, các con đường này tạo nên hệ thống giao tiếp của bộ não.
Mỗi nơron sinh học có 4 thành phần cơ bản:
-

Thân nơron (soma),

-

Nhánh hình cây (dendrite),

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

18

-

Sợi trục (axon) và

-

Khớp (synapse).

Các nhánh hình cây truyền tín hiệu vào đến thân nơron. Thân nơron tổng hợp và
xử lý cho tín hiệu đi ra. Sợi trục truyền tín hiệu ra từ thân nơron này sang nơron khác.

Liên kết giữa các nơron và độ nhạy của mỗi khớp được xác định bởi quá trình hóa học
phức tạp. Một số cấu trúc của nơron được xác định trước lúc sinh ra. Một số cấu trúc
được phát triển thông qua quá trình học. Trong cuộc đời cá thể, một số liên kết mới
được hình thành, một số khác bị hủy bỏ.
Nơron sinh học hoạt động theo cách thức sau: nhận tín hiệu đầu vào(input), xử lý
các tín hiệu này và cho ra một tín hiệu đầu ra(output). Tín hiệu output này sau đó được
truyền đi làm tín hiệu đầu vào cho các nơron khác.
Dựa trên những hiểu biết về nơron sinh học, con người đã xây dựng nơron nhân
tạo với hy vọng tạo nên một mô hình có sức mạnh như bộ não.

Hình 2.1 Mô phỏng nơ ron sinh học
Định nghĩa: Mạng nơron nhân tạo (Artificial Neural Network -ANN) gọi tắt là
mạng nơron là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của
các hệ nơron sinh học. Nó được tạo lên từ một số lượng lớn các phần tử (gọi là các

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

19

nơron) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như
một thể thống nhất để giải quyết một vấn đề cụ thể nào đó.
Một mạng nơron nhân tạo được cấu hình cho một ứng dụng cụ thể như nhận dạng
mẫu, phân loại dữ liệu,... thông qua một quá trình học từ tập các mẫu huấn luyện. Về
bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơron.
2.1.2.

Các tính chất của mạng nơ ron

Là hệ phi tuyến: Mạng nơron có khả năng to lớn trong lĩnh vực nhận dạng và điều

khiển các đối tượng phi tuyến.
Là hệ xử lý song song: Mạng nơron có cấu trúc song song, do đó có tốc độ tính
toán rất cao giúp nâng cao hiệu quả tính toán.
Là hệ học và thích nghi: Mạng được luyện từ các số liệu quá khứ, có khả năng tự
chỉnh khi số liệu đầu vào bị mất, rất phù hợp với các hệ thống máy học.
Là hệ nhiều biến, là hệ nhiều đầu vào, nhiều đầu ra (Many Input Many Output MIMO), rất tiện dùng khi đối tượng có nhiều biến.
2.1.3.

Các thành phần nơron nhân tạo
Một nơron là một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng

nơron. Cấu trúc của một nơron được mô tả trên.

Hình 2.2 Cấu trúc một nơron

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

20

Các thành phần cơ bản của một nơron nhân tạo bao gồm:
-

Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này
thường được đưa vào dưới dạng một vector n chiều.

-

Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số (gọi là trọng số
liên kết – Synaptic weight). Trọng số liên kết giữa tín hiệu vào thứ j với nơron n
thường được kí hiệu là wnj. Thông thường, các trọng số này được khởi tạo một
cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá
trình học mạng.

-

Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với
trọng số liên kết của nó.

-

Ngưỡng (còn gọi là một độ lệch - bias): Được đưa vào như một thành phần của
hàm truyền.

-

Hàm truyền (Transfer function) : Dùng để giới hạn phạm vi đầu ra của mỗi
nơron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho. Thông
thường, phạm vi đầu ra của mỗi nơron được giới hạn trong đoạn [0,1] hoặc [-1,
1]. Các hàm truyền rất đa dạng, có thể là các hàm tuyến tính hoặc phi tuyến.
Việc lựa chọn hàm truyền nào là tuỳ thuộc vào từng bài toán và kinh nghiệm của
người thiết kế mạng. Một số hàm truyền thường sử dụng trong các mô hình
mạng nơron được đưa ra trong bảng:
Bảng 2.1 Một số hàm truyền trong mạng nơ ron
Hàm truyền

Đồ thị

Định nghĩa

Hàm bước nhị
phân

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

21

Linear

y=x

Hàm đồng nhất
Saturating Linear
(satlin)

Log-Sigmoid
Hàm sigmoid

Các hàm truyền của đơn vị lớp ẩn là cần thiết để biểu diễn sự phi tuyến
trong mạng. Đối với luật học lan truyền ngược, hàm phải khả vi và sẽ có nếu như
hàm được gán với một khoảng nào đó. Do vậy hàm sigmoid là sự lựa chọn phổ
biến nhất.
Đối với các đơn vị đầu ra, các hàm truyền cần được chọn sao cho phù hợp

với sự phân phối với các giá trị đích mong muốn. Ta thấy rằng đối với các giá trị
trong khoảng [0,1], hàm sigmoid là hữu ích. Với những giá trị không được biết
trước khoảng xác định thì hàm hay được sử dụng là hàm đồng nhất, nếu giá trị
đích là dương nhưng không biết khoảng xác định thì nên sử dụng hàm dạng mũ.
-

Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa là một đầu
ra.
Như vậy tương tự như nơron sinh học, nơron nhân tạo cũng nhận các tín hiệu đầu

vào, xử lý ( nhân các tín hiệu này với trọng số liên kết, tính tổng các tích thu được rồi
gửi kết quả tới hàm truyền), và cho một tín hiệu đầu ra (là kết quả của hàm truyền).
2.1.4.

Mô hình mạng

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

22

Hình trạng của mạng được định nghĩa bởi: số lớp, số đơn vị trên mỗi lớp, và sự
liên kết giữa các lớp như thế nào. Các mạng về tổng thể được chia thành hai loại dựa
trên cách thức liên kết các đơn vị.
Kiến trúc truyền thẳng (feedforward architechture): là kiểu kiến trúc mạng
không có các kết nối ngược trở lại từ các nơron đầu ra về các nơron đầu vào; mạng
không lưu lại các giá trị output trước và các trạng thái kích hoạt của nơron. Các mạng
nơron truyền thẳng cho phép tín hiệu di chuyển theo một đường duy nhất; từ đầu vào

tới đầu ra, đầu ra của một tầng bất kì sẽ không ảnh hưởng tới tầng đó. Các mạng kiểu
Perceptron (là mô hình đơn giản nhất của mạng nơ-ron chỉ có 1 tầng) là mạng truyền
thẳng.
Mạng hồi qui (Feedback architecture): là kiểu kiến trúc mạng có các kết nối từ
nơron đầu ra tới nơron đầu vào. Mạng lưu lại các trạng thái trước đó, và trạng thái tiếp
theo không chỉ phụ thuộc vào các tín hiệu đầu vào mà còn phụ thuộc vào các trạng thái
trước đó của mạng.
2.1.5.

Các phương pháp học
Khái niệm: Học là quá trình thay đổi hành vi của các vật theo một cách nào đó

làm cho chúng có thể thực hiện tốt hơn trong tương lai.
Một mạng nơron được huyấn luyện(học) sao cho với một tập các vector đầu vào
X, mạng có khả năng tạo ra tập các vector đầu ra mong muốn Y của nó. Tập X được sử
dụng cho huấn luyện mạng được gọi là tập huấn luyện (training set). Các phần tử x
thuộc X được gọi là các mẫu huấn luyện (training example). Quá trình huấn luyện bản
chất là sự thay đổi các trọng số liên kết của mạng. Trong quá trình này, các trọng số
của mạng sẽ hội tụ dần tới các giá trị sao cho với mỗi vector đầu vào x từ tập huấn
luyện, mạng sẽ cho ra vector đầu ra y như mong muốn.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

23

Có ba phương pháp học phổ biến là học có giám sát (supervised learning), học
không giám sát (unsupervised learning) và học tăng cường (Reinforcement learning):

Học có giám sát: Là quá trình học có sự tham gia giám sát của một “thầy giáo”.
Cũng giống như việc ta dạy một em nhỏ các chữ cái. Ta đưa ra một chữ “a” và bảo với
em đó rằng đây là chữ “a”. Việc này được thực hiện trên tất cả các mẫu chữ cái. Sau đó
khi kiểm tra ta sẽ đưa ra một chữ cái bất kì và hỏi em đó đây là chữ gì?
Học không giám sát: Là việc học không cần có bất kỳ một sự giám sát nào.
Trong bài toán học không giám sát, tập dữ liệu huấn luyện được cho dưới dạng: D
= {(x1, x2,...,xN)}, với (x1, x2,...,xN) là vector đặc trưng của mẫu huấn luyện. Nhiệm
vụ của thuật toán là phải phân chia tập dữ liệu D thành các nhóm con, mỗi nhóm chứa
các vector đầu vào có đặc trưng giống nhau.
Học tăng cường: là sự tổ hợp của cả hai mô hình trên. Phương pháp này cụ thể
như sau: với vector đầu vào, quan sát vector đầu ra do mạng tính được. Nếu kết quả
được xem là “tốt” thì mạng sẽ được thưởng theo nghĩa tăng các trọng số kết nối lên;
ngược lại các trọng số kết nối không thích hợp sẽ được giảm xuống. Do đó học tăng
cường là học theo nhà phê bình, ngược với học có giám sát là học theo thầy giáo.
2.1.6.

Thuật toán lan truyền ngược
Thuật toán tổng quát cho học có giám sát trong các mạng nơron có nhiều cài đặt
khác nhau, sự khác nhau chủ yếu là cách các trọng số liên kết được thay đổi trong suốt
thời gian học. Trong đó tiêu biểu nhất là thuật toán lan truyền ngược.
Cần có một sự phân biệt giữa kiến trúc của một mạng và thuật toán học của nó,
các mô tả trong các mục trên mục đích là nhằm làm rõ các yếu tố về kiến trúc của
mạng và cách mà mạng tính toán các đầu ra từ tập các đầu vào. Sau đây là mô tả của
thuật toán học sử dụng để điều chỉnh hiệu năng của mạng sao cho mạng có khả năng
sinh ra được các kết quả mong muốn.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

24

Về cơ bản, thuật toán lan truyền ngược là dạng tổng quát của thuật toán trung
bình bình phương tối thiểu (Least Means Square-LMS). Thuật toán này thuộc dạng
thuật toán xấp xỉ để tìm các điểm mà tại đó hiệu năng của mạng là tối ưu. Chỉ số tối ưu
thường được xác định bởi một hàm số của ma trận trọng số và các đầu vào nào đó mà
trong quá trình tìm hiểu bài toán đặt ra.
Xét một mạng nơ-rơn 3 lớp: lớp đầu vào(input), lớp ẩn(hiden), lớp đầu
ra(output).
Hàm kích hoạt của các nơ-ron: logistic sigmoid
g(x)=

(2-1)

Giải thuật lan truyền ngược gồm 2 giai đoạn:
+

Truyền tuyến tính (tính output của các nơ-ron): Dữ liệu từ lớp đầu vào
qua lớp ẩn và đến lớp đẩu ra để thay đổi giá trị của trọng số liên kết w
của các nơ ron trong mạng biểu diễn dữ liệu học. Sự khác nhau giữa giá
trị mong muốn và giá trị mà mạng tính được gọi là lỗi.

+

Truyền ngược (thay đổi trọng số của các cung, dùng thông tin gradient
của hàm lỗi): giá trị lỗi sẽ được truyền ngược lại sao cho quá trình huấn
luyện sẽ tìm ra trọng số để lỗi nhỏ nhất.

Hàm lỗi :

(2-2)

Với t: đầu ra mong muốn
z: đầu ra thực tế.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

25

Hình 2.3 Mạng nơ ron 3 lớp
+

Đạo hàm riêng của hàm lỗi theo trọng số b:

Ta có :

•
•
•
Đặt
Khi đó ta được:
+

Nơ ron tầng ẩn :
y = g(u)
u=

+

Đạo hàm riêng của hàm lỗi theo trọng số a:

Ta có :

•

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

26

•
•
Đặt

q=

Ta được :

Sau khi tính được đạo hàm riêng của hàm lỗi theo từng trọng số. Trọng số sẽ
được điều chỉnh bằng cách trừ bớt 1 lượng bằng tích của đạo hàm riêng và tốc độ học:
(2-3)
2.2.

Tóm tắt văn bản ứng dụng mạng nơ-ron

Tóm tắt văn bản là một công cụ hữu ích để lựa chọn văn bản có liên quan,và trích

những điểm chính của mỗi văn bản. Chẳng hạn như một số bài báo, giấy tờ học tập có
kèm theo tóm tắt, trong đó trình bày các điểm chính của chúng. Tuy nhiên, nhiều văn
bản không có bản tóm tắt kèm theo, và tiêu đề của nó là thường không đủ để chuyển tải
các điểm quan trọng của nó. Vì vậy, một công cụ tóm tắt cho các văn bản sẽ là cực kỳ
hữu ích, kể từ khi cho một chủ đề tin tức hoặc sự kiện, có một số lượng lớn các văn bản
có sẵn từ tin tức và báo chí của cơ quan khác nhau. Bởi vì tin tức bài viết có một hình
thức tài liệu cấu trúc cao, ý tưởng quan trọng có thể được lấy từ văn bản chỉ đơn giản
bằng cách chọn câu dựa vào các thuộc tính và vị trí của nó trong bài viết.
Sử dụng phương pháp máy học để tóm tắt văn bản. Một mạng nơ ron được huấn
luyện trên một ngữ liệu văn bản. Sau khi huấn luyện mạng đưa ra tầm quan trọng của

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

27

các câu khác nhau được sử dụng để xác định bản tóm tắt. Các đầu vào mạng nơ ron là
các đặc trưng của từng câu trong văn bản. Với phương pháp học có giám sát nên hệ
thống có sự tham gia của con người cho việc lựa chọn giá trị câu trong từng văn bản
cho tập dữ liệu huấn luyện.
Hệ thống gồm hai quá trình chính: Huấn luyện và tóm tắt. Quá trình huấn luyện
bao gồm các giai đoạn: tách câu,tính các đặc trưng, đánh giá điểm số(mức độ quan
trọng) cho các câu trong từng văn bản dùng để huấn luyện( sử dụng khả năng con
người), huấn luyện mạng nơ ron với thuật toán lan truyền ngược. Quá trình tóm tắt bao
gồm các giai đoạn: tách câu, tính các đặc trưng câu, tính điểm cho câu theo mạng đã
được huấn luyện,trích rút câu.

Phương pháp tách câu trong văn bản

2.2.1.

Một tập văn bản huấn luyện sẽ được biểu diễn như là một tập gồm các câu

S={s1,s2,…,sn}.
Câu là đơn vị dùng từ hay đúng hơn dùng ngữ mà cấu tạo nên trong quá trình tư
duy, thông báo, có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp, và có tính chất độc lập.
Nhận diện câu với mục đích xác định ranh giới rõ ràng và nhất quán giữa các câu tiếng
Việt. Phân biệt đơn vị câu với các đơn vị nhỏ hơn câu (từ, ngữ…) và lớn hơn câu
(đoạn, văn bản), làm tiêu chí chính để xây dựng nên câu tiếng Việt trong ngữ liệu tiếng
Việt. Ở đồ án này việc tách câu giúp chúng ta đánh giá được giá trị thông tin của từng
câu phục vụ cho việc trích rút những câu quan trọng trong văn bản.
Để tách câu ta dựa vào việc nhận diện câu. Câu được nhân diện thông qua dấu
câu: dấu chấm, dấu chấm than, dấu chấm hỏi...
2.2.2.

Các đặc trưng của câu

Sử dụng kỹ thuật trích rút câu cho văn bản tóm tắt. Vì vậy ta cần sử dụng các đặc
trưng của câu để tính trọng số của câu.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

28

Ba đặc trưng dùng để tính toán trọng số cho câu:
Đặc trưng về thông tin quan trọng của câu : thể hiện thông tin của câu, đó
chính là thông tin quan trọng của các từ(thuật ngữ) xuất hiện trong câu.

(2-4)

Trong đó
-

Finfor: số thông tin của câu.

-

I(wi): thông tin quan trọng từ (thuật ngữ), tính bởi công thức sau:
(2-5)

Trong đó
+

là số từ xuất hiện trong câu .

+

tổng số các từ(thuật ngữ) xuất hiện trong câu .

+

là số văn bản trong tập huấn luyện D xuât hiện từ

+

là số văn bản trong tập huấn luyện D.
: là giá trị lớn nhất của thông tin quan trọng nhất của w i xuất hiện

+

trong câu.
Đặc trưng về vị trí của câu: Đặc trưng về vị trí của câu thể hiện trọng số về vị trí
của câu có ảnh hưởng thế nào đối với văn bản.Đây là đặc trưng dựa trên giả định rằng

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan

Xây dựng hệ thống tóm tắt văn bản tiếng việt sử dụng mạng nơ ron cho việc huấn luyện

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về