Tải bản đầy đủ (.pdf) (38 trang)

TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC Giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (907.59 KB, 38 trang )

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
1

Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến
thầy Hoàng Văn Kiếm, người đã tận tình hướng dẫn, tạo mọi
điều kiện thuận lợi để em hoàn thành tốt chuyên đề này.
Thầy đã định hướng cho chúng em từ cách đặt vấn đề, phương
pháp nghiên cứu khoa học cho đến những công việc cụ thể
nhất.
Em xin chân thành cảm ơn các thầy cô phòng đào tạo sau
đại học, những người đã giúp đỡ, tạo điều kiện tốt cho em
trong quá trình học tập thực hiện chuyên đề.
Xin gửi lời cảm ơn đến gia đình, cảm ơn các anh chị,
bạn bè, những người luôn sát cánh, động viên chúng em trên
bước đường học tập cũng như trong cuộc sống. Xin chân thành
biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý
thầy cô tại trường Đại học Công Nghệ Thông Tin. Tất cả các
kiến thức mà nhà trường và quý thầy cô đã truyền đạt là
hành trang to lớn để chúng em mang theo trên con đường học
tập, làm việc và nghiên cứu cũng như trong quá trình hoàn
thiện nhân cách của mình.

TP HCM, ngày 14 tháng 04 năm 2012
Học viên
Châu Kim Hùng








April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
2

Lời nói đầu
Để có được định hướng, mục tiêu và mong muốn trên con đường nghiên cứu khoa
học, việc tìm hiểu và nắm rõ “Phương pháp luận nghiên cứu Khoa học” là một điều cần
thiết cho những người nghiên cứu để có thể nắm rõ những nguyên tắc, và phương pháp
làm khoa học.
Phương pháp luận nghiên cứu Khoa học là lý thuyết về phương pháp nghiên cứu
khoa học, lý thuyết về con đường nhận thức, khám phá và cải tạo hiện thực.
Phương pháp luận nghiên cứu khoa học là kết quả của quá trình khái quát lý thuyết
và thực tiễn nghiên cứu khoa học và trở thành công cụ sắc bén để chỉ dẫn các nhà khoa
học, các nhà quản lý trong công tác tổ chức, quản lý và thực hành nghiên cứu khoa học
một cách sang tạo.
Nghiên cứu khoa học là một quá trình nhận thức chân lý khoa học, một quá trình lao
động trí tuệ phức tạp, gian khổ nhưng đầy hào hứng, đầy hứa hẹn những triển vọng lớn
lao trong việc nghiên cứu “những điểm trắng” của khoa học.
Nắm vững phương pháp luận nghiên cứu khoa học là nắm vững lý thuyết về con
đường sáng tạo, giúp người nghiên cứu có cách tiếp cận đúng trong việc thiết kế và thi
công công trình nghiên cứu khoa học, tìm chọn phương pháp nghiên cứu hợp lý để thực
hiện nhiệm vụ nghiên cứu và đạt được mục đích nghiên cứu.
Qua những kiến thức và định hướng khoa học, để làm rõ tính chất quan trọng cũng

như ứng dụng của phương pháp luận sáng nghiên cứu khoa học trong việc giải quyết vấn
đề trong tin học, tiểu luận chuyên đề “Phương pháp luận sáng tạo khoa học” sẽ vận dụng
kiến thức về phương pháp luận, phương pháp sáng tạo để giải quyết một vấn đề cụ thể
trong tin học, vấn đề tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt.




April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
3

MỤC LỤC
Phần 1 CƠ SỞ LÝ THUYẾT VÀ PHƢƠNG PHÁP NGHIÊN CỨU KHOA HỌC 5
1.1. Khoa học 5
1.2. Nghiên cứu khoa học 5
1.3. Đề tài nghiên cứu khoa học 5
1.3.1. Khái niệm đề tài 5
1.3.2. Đối tƣợng nghiên cứu và phạm vi nghiên cứu 6
1.3.3. Mục đích và mục tiêu nghiên cứu 6
1.4. Các nguyên tắc sáng tạo cơ bản 7
1.4.1. Tổng quan 7
1.4.2. Ứng dụng thực tiển 9
Phần 2 PHƢƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ - BÀI TOÁN TRONG TIN HỌC 12
2.1. Phƣơng pháp trực tiếp 12
2.2. Phƣơng pháp gián tiếp 13
2.2.1. Phƣơng pháp thử sai 13
2.2.2. Phƣơng pháp Heuristic 14

2.2.3. Phƣơng pháp trí tuệ nhân tạo 14
Phần 3 GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ
NGHĨA 16
3.1. Giới thiệu 16
3.2. Đồ thị khái niệm (conceptual graph) 17
3.3. Ontology 19
3.3.1. Xây dựng ontology 19
3.3.2. Các tiêu chuẩn thiết kế một ontology 20
3.4. Mô hình Named-Entity (thực thể có tên) 21
3.4.1. Định nghĩa Named-Entity 21
3.4.2. Kết cấu của Named-Entity 21
3.4.3. Sự thay đổi mô hình không gian vector truyền thống 22
3.5. Đề xuất các giải pháp kĩ thuật 24
3.5.1. Ontology và cơ sở tri thức 24
3.5.2. Xây dựng chức năng rút trích thông tin và chú giải ngữ nghĩa 26
3.5.3. Xây dựng chức năng hỗ trợ cho chức năng tìm kiếm 26
3.5.4. Xây dựng chức năng truy hồi thông tin theo thực thể có tên 27
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
4

3.5.5. Xây dựng chức năng nhận diện thực thể có tên và quan hệ 28
3.5.6. Đồ thị khái niệm 31
3.5.7. Chức năng xây dựng vá phát triển tri thức 34
3.5.8. Phƣơng pháp ghom cụm tài liệu theo thực thể có tên 34
Phần 4 TỔNG KẾT 36
TÀI LIỆU THAM KHẢO 38
























April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
5

Phần 1
CƠ SỞ LÝ THUYẾT VÀ PHƢƠNG PHÁP NGHIÊN CỨU

KHOA HỌC




1.1. Khoa học
Khoa học là quá trình nghiên cứu nhằm khám phá ra những kiến thức mới, học
thuyết mới,…về tự nhiên và xã hội. Những kiến thức hay học thuyết mới này, tốt hơn, có
thể thay thế dần những cái cũ, không còn phù hợp. Thí dụ: Quan niệm thực vật là vật thể
không có cảm giác được thay thế bằng quan niệm thực vật có cảm nhận.
Như vậy, khoa học bao gồm một hệ thống tri thức về qui luật của vật chất và sự
vận động của vật chất, những qui luật của tự nhiên, xã hội, và tư duy. Hệ thống tri thức
này hình thành trong lịch sử và không ngừng phát triển trên cơ sở thực tiễn xã hội. Phân
biệt ra 2 hệ thống tri thức: tri thức kinh nghiệm và tri thức khoa học.
1.2. Nghiên cứu khoa học
Nghiên cứu khoa học là một họat động tìm kiếm, xem xét, điều tra, hoặc thử
nghiệm. Dựa trên những số liệu, tài liệu, kiến thức,… đạt được từ các thí nghiệm NCKH
để phát hiện ra những cái mới về bản chất sự vật, về thế giới tự nhiên và xã hội, và để
sáng tạo phương pháp và phương tiện kỹ thuật mới cao hơn, giá trị hơn. Con người muốn
làm NCKH phải có kiến thức nhất định về lĩnh vực nghiên cứu và cái chính là phải rèn
luyện cách làm việc tự lực, có phương pháp từ lúc ngồi trên ghế nhà trường.
1.3. Đề tài nghiên cứu khoa học
1.3.1. Khái niệm đề tài
Đề tài là một hình thức tổ chức NCKH do một người hoặc một nhóm người thực
hiện. Một số hình thức tổ chức nghiên cứu khác không hoàn toàn mang tính chất nghiên
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
6


cứu khoa hoc, chẳng hạn như: Chương trình, dự án, đề án. Sự khác biệt giữa các hình
thức NCKH nầy như sau:
* Đề tài: được thực hiện để trả lời những câu hỏi mang tính học thuật, có thể
chưa để ý đến việc ứng dụng trong hoạt động thực tế.
* Dự án: được thực hiện nhằm vào mục đích ứng dụng, có xác định cụ thể hiệu
quả về kinh tế và xã hội. Dự án có tính ứng dụng cao, có ràng buộc thời gian và nguồn
lực.
* Đề án: là loại văn kiện, được xây dựng để trình cấp quản lý cao hơn, hoặc gởi
cho một cơ quan tài trợ để xin thực hiện một công việc nào đó như: thành lập một tổ
chức; tài trợ cho một hoạt động xã hội, Sau khi đề án được phê chuẩn, sẽ thành những
dự án, chương trình, đề tài theo yêu cầu của đề án.
* Chương trình: là một nhóm đề tài hoặc dự án được tập hợp theo một mục đích
xác định. Giữa chúng có tính độc lập tương đối cao. Tiến độ thực hiện đề tài, dự án trong
chương trình không nhất thiết phải giống nhau, nhưng nội dung của chương trình thì phải
đồng bộ.
1.3.2. Đối tƣợng nghiên cứu và phạm vi nghiên cứu
Đối tượng nghiên cứu: là bản chất của sự vật hay hiện tượng cần xem xét và làm
rõ trong nhiệm vụ nghiên cứu.
Phạm vi nghiên cứu: đối tượng nghiên cứu được khảo sát trong trong phạm vi nhất
định về mặt thời gian, không gian và lĩnh vực nghiên cứu.
1.3.3. Mục đích và mục tiêu nghiên cứu
Khi viết đề cương nghiên cứu, một điều rất quan trọng là làm sao thể hiện được
mục tiêu và mục đích nghiên cứu mà không có sự trùng lấp lẫn nhau. Vì vậy, cần thiết để
phân biệt sự khác nhau giữa mục đích và mục tiêu.
* Mục đích: là hướng đến một điều gì hay một công việc nào đó trong nghiên
cứu mà người nghiên cứu mong muốn để hoàn thành, nhưng thường thì mục đích khó có
thể đo lường hay định lượng. Nói cách khác, mục đích là sự sắp đặt công việc hay điều gì
đó được đưa ra trong nghiên cứu. Mục đích trả lời câu hỏi “nhằm vào việc gì?”, hoặc “để
phục vụ cho điều gì?” và mang ý nghĩa thực tiển của nghiên cứu, nhắm đến đối tượng

phục vụ sản xuất, nghiên cứu.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
7

* Mục tiêu: là thực hiện điều gì hoặc hoạt động nào đó cụ thể, rõ ràng mà người
nghiên cứu sẽ hoàn thành theo kế hoạch đã đặt ra trong nghiên cứu. Mục tiêu có thể đo
lường hay định lượng được. Nói cách khác, mục tiêu là nền tảng hoạt động của đề tài và
làm cơ sở cho việc đánh giá kế hoạch nghiên cứu đã đưa ra, và là điều mà kết quả phải
đạt được. Mục tiêu trả lời câu hỏi “làm cái gì?”.
1.4. Các nguyên tắc sáng tạo cơ bản
1.4.1. Tổng quan
Cải tiến công nghệ phục vụ cho cuộc sống là phương châm, động lực phát triển
cho xã hội loài người trong thời gian qua.Từ khi con người có ý thức thì sự tìm tòi học
hỏi và khả năng tư duy chính là đặc điểm đưa loài người ra khỏi lớp động vật. Đặc điểm
nổi bật nhất của sự tìm tòi học hỏi hay khả năng tư duy là sự sáng tạo, tiềm lới giả cho
những vần đề được đặt ra. Hơn 2000 năm qua hàng triệu phát minh cải tiến ra đời thay
đổi gần như toàn bộ cuộc sống của con người. Qua từng thới kỳ các phát minh, sáng kiến
có thể khác nhau tùy thuộc vào từng bối cảnh xã hội nhưng có thể nói đều dựa trên 40
nguyên tắc sáng tạo cơ bản được Alshuller G.S tổng hợp và tác giả Phan Dũng đề cập đến
trong sách Các Thủ Thuật (Nguyên Tắc) Sáng Tạo Cơ Bản được xuất bản 2007. Đây có
thể nói là sự tổng hợp kiến thức của nhân loại trong thời gian qua, vì dựa vào 40 phương
pháp này cộng với khả năng tư duy thì mọi vấn đề rồi sẽ tiềm được lới giải. Công nghệ
thông tin cũng không nằm ngoài quy luật đó, tuy công nghệ thông tin ra đời sau so với
các công nghệ khác nhưng cũng cùng chung quy luật của sự sáng tạo
Có 40 thủ thuật (nguyên tắc) sáng tạo cơ bản:
1. Nguyên tắc phân nhỏ
2. Nguyên tắc “tách khỏi”

3. Nguyên tắc phẩm chất cục bộ
4. Nguyên tắc phản (bất) đối xứng
5. Nguyên tắc kết hợp
6. Nguyên tắc vạn năng
7. Nguyên tắc “chứa trong”
8. Nguyên tắc phản trọng lượng
9. Nguyên tắc gây ứng suất (phản tác động) sơ bộ
10. Nguyên tắc thực hiện sơ bộ
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
8

11. Nguyên tắc dự phòng
12. Nguyên tắc đẳng thế
13. Nguyên tắc đảo ngược
14. Nguyên tắc cầu (tròn) hóa
15. Nguyên tắc năng động
16. Nguyên tắc tác động bộ phận và dư thừa
17. Nguyên tắc bộ xung chiều khác
18. Sự dao động cơ học
19. Nguyên tắc tác đông theo chu kỳ
20. Nguyên tắc tác đông liên tục hữu hiệu
21. Nguyên tắc vượt nhanh
22. Nguyên tắc chuyển hại thành thắng
23. Nguyên tắc quan hệ phản hồi
24. Nguyên tắc sử dụng trung gian
25. Nguyên tắc tự phục vụ
26. Nguyên tắc sao chép (copy)

27. Nguyên tắc rẻ thay cho đắt
28. Nguyên tắc thay thế sơ đồ cơ học
29. Nguyên tắc sử dụng các kết cấu thủy và khí
30. Sử dụng bao mềm dẻo và mềm mỏng
31. Sử dụng vật liệu nhiều lỗ
32. Nguyên tắc đổi màu
33. Nguyên tắc đồng nhất
34. Nguyên tắc loại bỏ và tái sinh từng phần
35. Đổi các thông số hóa lý của đối tượng
36. Sử dụng chuyển pha
37. Sử dụng nở nhiệt
38. Sử dụng các chất oxy hóa
39. Sử dụng môi trường trơ
40. Sử dụng vật liệu tổng hợp (composit)

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
9

1.4.2. Ứng dụng thực tiển
1.4.2.1. Ứng dụng nguyên tắc kết hợp – Bài học từ chiếc Cassette Sony Walkman
Năm 1979, công ty Sony sáng chế ra một sản phẩm mới: máy cassette âm thanh
nổi siêu nhỏ (bỏ túi) với tên ọi là Sony Walkman. Từ lúc ra đời vào năm 1979, đến năm
1981, công ty đã bán được 1,5 triệu chếc. Đến nửa đầu của năm 1982, số lượng đã bán là
4 triệu chiếc. Mức tiêu thụ sản phẩm này tăng vọt gần như theo chiều thẳng đứng.
Vậy nguyên nhân nào làm cho sản phẩm được tiêu thụ nhanh như vậy? Câu trả lời
là công ty Sony đã biết áp dụng một cách linh hoạt nguyên tắc Kết hợp. Vào thời điểm
đó, trong xã hội đang thịnh hành các hoạt động rèn luyện sức khỏe ngoài trời. Công ty

Sony đã tung ra loại máy cassette rất phù hợp với nhu cầu này, tức giúp cho mọi người có
thể vừa tập thể dục, chạy nhảy ngoài trời, vừa thưởng thức âm nhạc. Ở đây, 2 nhu cầu
khác nhau của người tiêu dùng đã được kết hợp một cách khá hoàn hảo.
Trong lĩnh vực sáng tạo, nhằm đưa ra các giải pháp hay các sản phẩm mang tính
đột phá, người ta có thể sữ dụng nguyên tắc kết hợp được đúc kết như sau:
Kết hợp các đối tượng (có thể hiểu là các bộ phận, dụng cụ, nhu cầu, …) hay kết
hợp về mặt thời gian các hoạt động nhằm mang lại tính năng vượt trội cho sản phẩm hay
giải pháp đó.
Nguyên tắc này được vận dụng rất phổ biến trong hầu hết mọi lĩnh vực của cuộc
sống. Trong thực tế, các quá trình, sự kiện, yếu tố thường đan xen và có những mối quan
hệ hữu cơ với nhau, do đó luôn luôn tồn tại khả năng kết hợp để nâng cao hiệu quả. Sau
đây là một số ví dụ cụ thể trong cuộc sống:
 Bút chì có tẩy ở một đầu. Trong ví dụ này, hai yếu tố có chức năng trái ngược
nhau, bút chì và tẩy, được kết hợp với nhau để tăng tính tiện dụng của đối tượng.
 Chúng ta cũng thường sử dụng loại búa đóng đinh có phần để nhổ đinh.
 Hãng Casio của Nhật chế tạo đồng hồ điện tử đeo tay kết hợp với máy tính,rất
tiện dụng cho học sinh, sinh viên.
 Và gần đây, chúng ta đều biết đến các loại điện thoại có kèm theo chức năng
chơi nhạc, chụp hình, xem phim và ti vi…
 Trong lĩnh vực quan sát thiên văn, để đạt được độ phân giả cao, đường kính
gương của kính thiên văn phải rất lớn. Việc xây dựng các kính thiên văn có đường kính
gương lớn lại rất khó khăn và tốn kém. Các chuyên gia của Mỹ và Ý đã xây dựng loại
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
10

kính thiên văn quang học kép trên đỉnh Greham, Arizon (Mỹ) cao 3300 mét. Kính thiên
văn này bao gồm: 2 kính thiên văn thường có đường kính gương 8 mét và cách nhau 22

mét. Kết quả là hình ảnh thu được có độ phân giải tương đương với kính có đường kính
22 mét.
 Các quán cà phê hiện nay ở Tp. Hồ Chí Minh thường kết hợp với các dịch vụ ăn
uống và truy cập wifi miễn phí. Khách có thể ngồi thưởng thức cà phê, nghe nhạc, hoặc
truy cập Internet để cập nhật thông tin …
Ngoài ra còn vô vàn các ví dụ khác trong cuộc sống.
1.4.2.2. Ứng dụng nguyên tắc bất đối xứng – Câu chuyện cải tiến máy bay Boeing
Trong kế hoạch cải tiến máy bay Boeing 737 của hãng Boeing, cần phải thay thế
động cơ hiện hữu bắng các động cơ mạnh hơn. Động cơ càng lớn sẽ cần nhiều không khí
hơn, do đó đường kính của capô (bộ phận bao quanh động cơ) phải càng lớn. Mâu thuẫn
kỹ thuật cần giải quyết là capô của động cơ mạnh hơn sẽ quá gần mặt đất, gây nguy hiểm.
Một nhóm chuyên viên được thành lập và làm việc cật lực trong nhiều tháng với
rất nhiều sự thử nghiệm. Giải pháp được đưa ra là tăng đường kính của capô và làm dẹp
phần đáy của nó để tăng khoảng cách với mặt đất. Sau này, một thành viên của nhóm đã
phát biểu rằng nếu nhóm của anh ta biết được nguyên tắc bất đối xứng vào lúc đó, họ đã
có thể giải quyết được vấn đề một cách nhanh chóng.
Như vậy, quy tắc bất đối xứng là gì? Nó được vận dụng như thế nào trong thực tế?
Trong lĩnh vực sáng tạo ứng dụng, người ta thường dùng 40 nguyên tắc sáng tạo
để giải quyết các mâu thuẫn kỹ thuật và khắc phục tính ì tâm lý. Trong đó, nguyên tắc bất
đối xứng được phát biểu như sau:
- Thay đổi hình dạng của đối tượng hay một bộ phận của nó từ đối xứng sang bất
đối xứng.
- Tăng cường mức độ phản đối xứng.
Nguyên tắc này được vận dụng rất nhiều trong thiết kế kỹ thuật, giúp giải quyết
các mâu thuẫn kỹ thuật một cách nhanh chóng và hiệu quả. Sau đây, là một số ví dụ trong
thực tế:
 Cái kéo khi mới ra đời có dạng đối xứng. Qua quá trình cải tiến dần dần, 2 lưỡi
kéo và tay cầm trở nên bất đối xứng như chúng ta thường gặp hiện nay để phù hợp hơn
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]


GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
11

với tính năng sử dụng. Như ở chiếc kéo thợ may, 2 tay cầm, lệch hẳn về một phía của
trục kéo.
 Các loại chai nước suối có tiết diện hình bát giác hay hình vuông (thay vì hình
tròn) để tiện cho việc cầm trên tay khi uống.
 Khi nối 2 đoạn dây điện với nhau, người ta thường để 2 mối nối lệnh nhau (bất
đối xứng) để tránh bị chạm mạch.
 Trong các thiết bị lò hơi, cửa nồi hơi phải thật kín, chịu lực cao và phải đóng từ
trong ra ngoài để đảm bảo chịu được áp lực hơi. Tuy nhiên, nếu nắp hình tròn thì không
thể đưa vào bên trong thiết bị để lắp ráp vì kích thước của cánh cửa phải lớn hơn kích
thước của cửa lò. Trong thực tế, người ta giải quyết vấn đề bằng cách chế tạo cửa lò hình
oval (tăng tính bất đối xứng). Vì hình oval có 2 trục không bằng nhau nên người ta chỉ
cần xoay cạnh nhỏ và đưa qua cửa lò vào bên trong.
Ngoài ra, còn rất nhiều ví dụ thực tế minh họa cho sự vận dụng quy tắc này. Theo
lối suy nghĩ thông thường, người ta thường thích những cấu trúc có bậc đối xứng cao vì
trông có vẻ hài hòa hơn.

















April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
12

Phần 2
PHƢƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ - BÀI TOÁN TRONG
TIN HỌC





2.1. Phƣơng pháp trực tiếp
Đặc điểm của cách giải quyết vấn đề này là đều xác định trực tiếp được lời giải
qua một thủ tục tính toán (công thức, hệ thức, định luật,…) hoặc qua các bước căn bản để
có được lời giải. Đối với phương pháp này, việc giải quyết vấn đề trên máy tính chỉ là
thao tác lập trình hay là sự chuyển đổi lời giải từ ngôn ngữ bên ngoài sang các ngôn ngữ
được sử dụng trong máy tính. Tìm hiểu về phương pháp này chính là tìm hiểu về kỹ thuật
lập trình trên máy tính.
Các nguyên lý áp dụng trong phương pháp trực tiếp :
 Nguyên lý 1: Chuyển đổi dữ liệu bài toán thành dữ liệu của chương trình, có
nghĩa là “Dữ liệu của bài tóan sẽ được biểu diễn lại dưới dạng các biến của chương trình
thông qua các quy tắc xác định của ngôn ngữ lập trình cụ thể”

 Nguyên lý 2: Chuyển đổi quá trình tính toán của bài toán thành các cấu trúc
của chương trình, có nghĩa là “Mọi quá trình tính toán đều có thể mô tả và thực hiện dựa
trên ba cấu trúc cơ bản : Cấu trúc tuần tự, cấu trúc rẽ nhánh và cấu trúc lặp”.
 Nguyên lý 3: Biểu diễn các tính toán chính xác, có nghĩa là “Chương trình tính
toán theo các biểu thức chính xác không đồng nhất với quá trình tính toán chính xác về
mặt hình thức”.
 Nguyên lý 4: Biểu diễn các tính toán gần đúng bằng cấu trúc lặp, có nghĩa là
“Mọi quá trình tính toán gần đúng đều dựa trên các cấu trúc lặp với tham số xác định”.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
13

 Nguyên lý 5: Phân chi bài toán ban đầu thành những bài toán nhỏ hơn, có
nghĩa là “Mọi vấn đề-bài toán đều có thể giải quyết bằng cách phân chia thành những
vấn đề - bài toán nhỏ hơn”.
 Nguyên lý 6: Biểu diễn các tính toán không tường minh bằng đệ quy, có nghĩa
là “Quá trình đệ quy trong máy tính không đơn giản như các biểu thức quy nạp trong
toán học”.
2.2. Phƣơng pháp gián tiếp
Phương pháp này được sử dụng khi chưa tìm ra lời giải chính xác của vần đề. Đây
cũng chính là cách tiếp cận chủ yếu của loài người từ xưa đến nay. Điểm khác ở đây là
chúng ta đưa ra những giải pháp mang đặc trưng của máy tính, dựa vào sức mạnh tính
toán của máy tính. Tất nhiên, một lời giải trực tiếp bao giờ cũng tốt hơn, nhưng không
phải lúc nào cũng có.
2.2.1. Phƣơng pháp thử sai
Khi xây dựng lời giải bài toán theo phương pháp thử – sai, người ta thường dựa
vào 3 nguyên lý sau :
 Nguyên lý vét cạn: Đây là nguyên lý đơn giản nhất, liệt kê tất cả các trường

hợp có thể xảy ra.
 Nguyên lý ngẫu nhiên: Dựa vào việc thử một số khả năng được chọn một cách
ngẫu nhiên. Khả năng tìm ra lời giải đúng phụ thuộc rất nhiều vào chiến lược chọn ngẫu
nhiên.
 Nguyên lý mê cung: Nguyên lý này được áp dụng khi chúng ta không thể biết
được chính xác “hình dạng” lời giải mà phải xây dựng dần lời giải qua từng bước một
giống như tìm đường đi trong mê cung.
Để thực hiện tốt phương pháp thử - sai, chúng ta nên áp dụng các nguyên lý sau
 Nguyên lý vét cạn toàn bộ: Muốn tìm được cây kim trong đống rơm, hãy lần
lượt rút ra từng cọng rơm cho đến khi rút được cây kim.
 Nguyên lý mắt lưới: Lưới bắt cá chỉ bắt được những con cá có kích thước lớn
hơn kích thước mắt lưới.
 Nguyên lý giảm độ phức tạp của thử và sai: Thu hẹp trường hợp trước và
trong khi duyệt, đồng thời đơn giản hóa tối đa điều kiện chấp nhận một trường hợp.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
14

 Nguyên lý thu gọn không gian tìm kiếm: Loại bỏ những trường hợp hoặc nhóm
trường hợp chắc chắn không dẫn đến lời giải.
 Nguyên lý đánh giá nhánh cận: Nhánh có chứa quả phải nặng hơn trọng lượng
của quả.
2.2.2. Phƣơng pháp Heuristic
Phương pháp Heuristic có đặc điểm là đơn giản và gần gủi với cách suy nghĩ của
con người, cho ra được những lời giải đúng trong đa số các trường hợp áp dụng. Các
thuật giải Heuristic được xây dựng dựa trên một số nguyên lý rất đơn giản như: vét cạn
thông minh, tối ưu cục bộ (Greedy), Hướng đích, sắp thứ tự …Để thực hiện tốt phương
pháp Heuristic, chúng ta nên áp dụng các nguyên lý sau:

 Nguyên lý leo núi: Muốn leo lên đến đỉnh thì bước sau phải “cao hơn” bước
trước.
 Nguyên lý chung : Chọn hướng đi triển vọng nhất trong số những hướng đi đã
biết.
2.2.3. Phƣơng pháp trí tuệ nhân tạo
Phương pháp trí tuệ nhân tạo dựa trên trí thông minh của máy tính. Phương pháp
này, người ta sẽ đưa vào máy trí thông minh nhân tạo giúp máy tính bắt chước một phần
khả năng suy luận như con người, máy tính dựa trên những điều đã được “học“ để tự đưa
ra phương án giải quyết vấn đề.
Sơ đồ mạng tính toán để giải bài toán tam giác

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
15

Trong lĩnh vực “máy học” , các hình thức học có thể phân chia như sau :
- Học vẹt
- Học bằng cách chỉ dẫn
- Học bằng qui nạp
- Học bằng tương tự
- Học dựa trên giải thích
- Học dựa trên tình huống
- Khám phá hay học không giám sát
Các kỹ thuật thường được áp dụng trong “máy học” là: khai khoáng dữ liệu, mạng
nơ ron, thuật giải di truyền…



















April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
16

Phần 3
GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN
TIẾNG VIỆT CÓ NGỮ NGHĨA








3.1. Giới thiệu
Như chúng ta đã thấy, đối với người thường xuyên sử dụng máy tính nói chung và
với các nhà nghiên cứu khoa học nói riêng thì việc lưu trữ các tài liệu văn bản dùng cho
mục đích riêng của từng người là rất quan trọng. Sự tăng nhanh về số lượng tài liệu trong
kho lưu trữ đã đặt ra một vấn đề lớn: làm sao quản lý hiệu quả kho tài liệu để hỗ trợ tốt
cho người dùng máy tính trong việc tổ chức và tìm kiếm thông tin văn bản. Nếu việc làm
này được thực hiện bởi người sử dụng, quả thật là khó khăn cho họ vì quản lý lượng dữ
liệu rất lớn cả về số lượng và nội dung không phải là dễ. Điều chúng ta mong muốn ở đây
là làm sao để máy tính có thể xử lý tự động được chúng. Muốn vậy, trước hết máy tính
phải hiểu được thông tin trên các tài liệu văn bản, trong khi các tài liệu của chúng ta là
các văn bản thô mà chỉ con người mới đọc hiểu được
Bài tiểu luận này trình bày ý tưởng về việc nghiên cứu kĩ thuật tổ chức và tìm
kiếm thông tin văn bản có ngữ nghĩa với hi vọng có thể xây dựng một chương trình máy
tính hỗ trợ tốt cho người dùng trong việc quản lý và tìm kiếm thông tin văn bản. Mục 2,
3, 4 trình bày các khái niệm về Conceptual Graph, Ontology, Named-Entity. Mục 5 trình
bày các đề xuất, tìm hiểu về các phương pháp kĩ thuật để xây dựng chương trình dựa trên
các khái niệm trên. Bài toán này được giải quyết dựa trên phương pháp luận “phương
pháp trí tuệ nhân tạo” và các nguyên tắc sáng tạo cơ bản trong nghiên cứu - sáng tọa
khoa học.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
17

3.2. Đồ thị khái niệm (conceptual graph)
Đồ thị khái niệm (conceptual graph) là một dạng biểu diễn tri thức do John
F.Sowa (1984) phát triển là một ngôn ngữ biểu diễn tri thức dựa trên mạng ngữ nghĩa và
đồ thị tồn tại. Khác với nhiều ngôn ngữ dựa trên đồ thị, đồ thị khái niệm có một nền tảng

logic chặt chẽ. Mặt khác, so với nhiều ngôn ngữ hình thức khác, đồ thị khái niệm gần với
ngôn ngữ tự nhiên hơn, tức có thể ánh xạ tương đối thẳng giữa một đồ thị khái niệm và
một câu tiếng Anh chẳng hạn.
Đồ thị khái niệm là một đồ thị hữu hạn, liên thông, không có hướng, lưỡng phân
với những nút thuộc một loại được gọi là khái niệm (hoặc khái niệm - concepts) và những
nút thuộc loại còn lại được gọi quan hệ khái niệm (conceptual relations). Một đồ thị khái
niệm có thể chứa duy nhất một khái niệm, nhưng nó không thể có những quan hệ khái
niệm không được liên kết. Mỗi khái niệm được vẽ bằng một hình chữ nhật trong đó có
kiểu khái niệm và tham chiếu khái niệm, biểu diễn một thực thể có kiểu và tham chiếu đó.
Mỗi quan hệ được vẽ bằng một hình bầu dục trong đó có kiểu quan hệ, biểu diễn một
quan hệ giữa các thực thể xác định bởi các khái niệm nối với quan hệ đó. Các khái niệm
nối trực tiếp với một quan hệ được gọi là các khái niệm láng giềng của quan hệ đó. Mỗi
cạnh đò thị được gán một con số để định vị khái niệm láng giềng tương ứng, và có thể
được định hướng cho dễ đọc.
Đồ thị khái niệm có khả năng diễn đạt ngữ nghĩa một cách chính xác, dễ hiểu đối
với con người và khả xử lý đối với máy tính. Chính vì vậy, nó thường được dùng như là
một ngôn ngữ trung gian để chuyển đổi giữa ngôn ngữ tự nhiên và những mô hình xử lý
hướng máy tính. Hình 3.1 là ví dụ về đồ thị khái niệm


Hình 3.1: Đồ thị khái niệm
Ví dụ, đồ thị khái niệm ở Hình 3.1 nói rằng “Vân là một sinh viên. Có một môn
học. Khoa học Máy tính là một ngành. Môn học này thuộc ngành Khoa học Máy tính.
Vân học môn này”, hay nói ngắn gọn là “Vân học một môn thuộc ngành Khoa học Máy
tính”. Ở dạng văn bản, các khái niệm và quan hệ có thể được viết trong các dấu ngoặc
vuông và tròn.
SINH_VIÊN: Vân
MÔN_HỌC: *
NGÀNH: Khoa học Máy tính
HỌC

THUỘC
1
2
1
2
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
18

Trong ví dụ này, [SINH_VIÊN: Vân], [MÔN_HỌC: *], [NGÀNH: KhMt] là các
khái niệm, còn (HỌC) và (THUỘC) là các quan hệ với HỌC và THUỘC là các kiểu quan
hệ. Các tham chiếu Vân và KhMt của các khái niệm [SINH_VIÊN: Vân] và [NGÀNH:
KhMt] là cac tham chiếu cá thể. Tham chiếu * của khái niệm [MÔN_HỌC: *] là tham
chiếu chung chỉ đến một thực thể không xác định.
Để biểu thị hai khái niệm với tham chiếu chung chỉ đến cùng một thực thể không
xác định, một liên kết đồng tham chiếu được vẽ bằng các nét đứt đoạn nối hai khái niệm.
Ví dụ, đồ thị khái niệm trong Hình 3.2 thêm vào đồ thị trong Hình 3.1 một sự kiện là “Có
một người học cùng môn học như Vân”. Trong ví dụ này, đồ thị khái niệm có thể được vẽ
lại một cách tương ứng về ngữ nghĩa mà không dùng liên kết đồng tham chiếu, bằng cách
gộp hai khái niệm [MÔN_HOC: *] thành một nút. Tuy nhiên, trong trường hợp các khái
niệm đồng tham chiếu nằm ở các ngữ cảnh khác nhau, như phủ định chẳng hạn, thì không
thể gộp như vậy. Ngoài ra, ở dạng văn bản, một đồ thị khái niệm có thể được phân rã
thành các đồ thị con chỉ gồm một quan hệ, bằng cách sử dụng các tên biến chung cho các
khái niệm đồng tham chiếu, Ví dụ cho đồ thị khái niệm ở Hình 3.1 là:
[SINH_VIÊN: Vân] → (HỌC) → [MÔN_HỌC: *x]
[MÔN_HỌC: *x] → (THUỘC) → [NGÀNH: KhMt]





Hình 3.2 Một đồ thị khái niệm với liên kết đồng tham chiếu
Giữa các kiểu khái niệm có một quan hệ bán phần là kiểu cha con, như trong cây
phân cấp lớp của các ngôn ngữ hướng đối tượng. Ví dụ, SINH_VIÊN là kiểu con
NGƯỜI. Tương tự, các kiểu quan hệ cũng tạo nên một cây phân cấp. Ví dụ, HỌC là kiểu
con của kiểu quan hệ HÀNH_ĐỘNG. Ngoài ra, mỗi kiểu quan hệ có qui định bậc, tức số
lượng khái niệm láng giềng, và kiểu tương ứng cho từng khái niệm láng giềng, và kiểu
tương ứng cho từng khái niệm láng giềng. Ví dụ, kiểu HỌC có thể qui định bậc là 2, và
khái niệm thứ nhất có kiểu NGƯỜI và khái niệm thứ hai có kiểu MÔN_HỌC. Trong một
đồ thị khái niệm hợp lệ, kiểu của một khái niệm láng giềng với một quan hệ phải là kiểu
SINH_VIÊN: Vân
MÔN_HỌC: *
NGÀNH: Khoa học Máy tính
HỌC
THUỘC
NGƯỜI: *
HỌC

MÔN_HỌC: *

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
19

con của kiểu khái niệm tương ứng, hoặc là chính nó, đã được qui định cho kiểu của quan
hệ đó.
Như vậy, ngôn ngữ đồ thị khái niệm dựa trên nền tảng là một cây phân cấp các

kiểu khái niệm, một cây phân cấp các kiểu quan hệ, và các ràng buộc về các kiểu khái
niệm có thể tham gia và một kiểu quan hệ. Chúng được gọi chung là bản thểi (ontology)
của ngôn ngữ. Thực chất, mỗi ontology qui định cái gì tồn tại trong thế giới đang xét, đó
là các kiểu khái niệm và kiểu quan hệ được giả sử tồn tại cùng với quan hệ kiểu cha –
kiểu con giữa chúng, và các kiểu quan hệ được phép giữa các kiểu khái niệm. Ví dụ, một
ontology có thể cấm phát biểu “Có một người ăn một cái bàn”, nếu ontology giả sử rằng
quan hệ “ăn” chỉ có giữa động vật và đồ ăn được.
3.3. Ontology
Trong vài năm gần đây, xuất hiện một lĩnh vực nghiên cứu mới là ontology. Có
một số nguyên nhân đã thôi thúc việc nghiên cứu về ontology: vấn đề biểu diễn tri thức
của trí tuệ nhân tạo (đặc biệt là biểu diễn quan hệ ngữ nghĩa), vấn đề sắp xếp và tìm kiếm
các tài liệu tương tự nhau (đặc biệt là bài toán tìm kiếm trên mạng), vấn đề tìm hình thức
biểu diễn mới cho cơ sở dữ liệu (sự ra đời của cơ sở dữ liệu lai giữa quan hệ và hướng
đối tượng)…Tất cả những vấn đề trên đã dẫn đến việc ra đời lĩnh vực ontology mà mục
tiêu trọng tâm là: phân loại các phạm trù, các khái niệm của tri thức, và biểu diễn mối
liên hệ giữa các phạm trù đó với nhau
3.3.1. Xây dựng ontology
Theo cách dùng thông dụng trong AI, ontology hàm chỉ một quá trình xây dựng,
và tạo thành bởi một tập các từ vựng, và dùng để mô tả một thực tế nào đó; cộng với
những giả định tường minh về nghĩa hàm chỉ của các từ trong tập từ vựng. Tập các giả
định này thường là một dạng lý thuyết logic bậc nhất (first-order logic), còn tập từ vựng
thường là các vị từ (predicate) một ngôi hay hai ngôi; và chúng được gọi tên tương ứng
là: khái niệm và quan hệ.
Trong trường hợp đơn giản nhất, ontology được mô tả như một cấu trúc phân cấp
các khái niệm liên hệ với nhau bởi các quan hệ; trong trường hợp phức tạp hơn, các tiên
đề thích hợp được thêm vào để diễn tả quan hệ giữa các khái niệm cũng như ràng buộc
các diễn dịch có thể có.

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]


GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
20

3.3.2. Các tiêu chuẩn thiết kế một ontology
Gruber (1995) đưa ra các tiêu chuẩn thiết kế một ontology:
- Tính rõ ràng: ontology phải hiệu quả trong các tiến trình giao tiếp, nghĩa là ngữ
nghĩa của các khái niệm phải rõ ràng và mang tính khách quan. Khi có thể, nên đưa ra
một định nghĩa hoàn chỉnh (một mệnh đề với các điều kiện cần và đủ) hơn là đưa ra một
định nghĩa một phần (chỉ đưa ra các điều kiện cần).
- Tính mạch lạc: ontology phải mạch lạc nghĩa là phải thừa nhận các suy luận
đúng từ các định nghĩa. Nếu một câu được suy luận từ các tiên đề mâu thuẩn với một
định nghĩa thì ontology đó là không mạch lạc (nhất quán).
- Tính có thể mở rộng: cung cấp khả năng định nghĩa các thuật ngữ mới từ tập từ
vựng có sẵn mà không phải xem lại định nghĩa của các từ vựng đã có.
- Tối thiểu hóa các mã hóa: để cho phép chọn lựa nhiều tùy chọn mã hóa khác
nhau.
- Tối thiểu hóa các “cam kết” (commitement): ontology cần khẳng định về thế
giới thực nó mô hình càng ít càng tốt, để cho những người sử dụng ontology quyền tự do
được chuyên biệt hóa ontology.
Trong một số ứng dụng, ontology được dùng như là nguồn tri thức duy nhất (như
là trong ứng dụng dịch máy sử dụng cơ sở tri thức), ontology được sử dụng như là:
- Nguồn hỗ trợ ngôn ngữ giải thích các nghĩa của các từ vựng được ghi nhận trong
bộ từ vựng của một ngôn ngữ nào đó.
- Kết cấu mang nghĩa cho một ngôn ngữ biểu diễn ngữ nghĩa.
- Cung cấp các tri thức dạng heuristic cho các tài nguyên tri thức động như: bộ
phân tích hay sản sinh ngữ nghĩa.
Công việc xây dựng ontology thực tế trông đợi nhiều vào các hỗ trợ từ các khía
cạnh hình thức và triết học của ontology. Trong phần này, chúng ta sẽ đúc kết một danh
sách các mục mà khi thực hành, chúng ta cần được hỗ trợ giải quyết:

Vị thế của ontology so với các dạng tài nguyên khác trong một hệ thống, hay trong
một ứng dụng.
Sự lựa chọn các khái niệm cần biểu diễn
Sự lựa chọn các nội dung cần được gán cho mỗi khái niệm
Sự đánh giá chất lượng ontology sử dụng cả hai mô hình hộp trắng và hộp đen.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
21

Trong một số ứng dụng, ontology được dùng như là nguồn tri thức duy nhất (như
là trong ứng dụng dịch máy sử dụng cơ sở tri thức), ontology được sử dụng như là:
Nguồn hỗ trợ ngôn ngữ giải thích các nghĩa của các từ vựng được ghi nhận trong
bộ nhận trong bộ từ vựng của một ngôn ngữ nào đó.
Kết cấu mang nghĩa cho một ngôn ngữ biểu diễn ngữ nghĩa.
Cung cấp các tri thức dạng heuristic cho các tài nguyên tri thức động như: bộ
phân như: bộ phân tích hay sản sinh ngữ nghĩa.
Điều mà người xây dựng ontology cần lưu tâm là việc chọn những khái niệm và
việc biểu diễn chúng. Một ontology tốt sẽ có độ bao quát cần thiết cũng như độ đồng chất
hợp lý. Độ bao quát phụ thuộc vào lĩnh vực và ứng dụng cụ thể trong lĩnh vực đó, và việc
mà ontology hình thức có thể làm là giúp xác định cách tổ chức cấu trúc phân cấp kinh tế
nhất, hay là cách xác định các nút nào không phải là lá? Onotology hình thức không
những cần đặt ra các tính chất mà một ontology cần phải có mà còn phải đặt ra các tiêu
chuẩn trong quá trình thiết kế và các tiêu chí về độ sâu và độ rộng của ontology
3.4. Mô hình Named-Entity (thực thể có tên)
3.4.1. Định nghĩa Named-Entity
Named-Entity (NE) đại diện một thực thể riêng lẻ mà liên quan tới tên như người,
tổ chức và vị trí
Ví dụ:

Đoạn văn sau giới thiệu địa lý của Shenyang:
“Shenyang is located in the first of three Northeast China provinces, in the center
of Liaoning province. It is situated in the inland area of the Liaodong peninsula.
Shenyang is north of the Bohai Sea and southwest of the Changbai mountains.”
Ở đây, Shenyang, Northeast China, Liaoning, Liaodong, Bohai và Changbai là
những thực thể có tên.
Chú ý: sông không phải là 1 thực thể có tên, thành phố không phải là 1 thực thể có
tên. Mà sông Thu Bồn là 1 thực thể có tên, thành phố Nha Trang là 1 thực thể có tên.
3.4.2. Kết cấu của Named-Entity
+ Mỗi NE được nhận dạng và chú giải với “tên, loại” và nếu tồn tại trong cơ sở tri
thức (KB) thì có “định danh”.

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
22

Ví dụ:
Với đoạn văn về Shenyang trên, một chú giải đầy đủ của Liaoning có thể là 1 bộ
ba (“Liaoning”, Province, #Province_123) với Province là loại thực thể và
#Province_123 là định danh.
+ Vì sự phức tạp của nội dung và phương pháp nhận dạng, một thực thể có tên đôi
lúc có chú giải không đầy đủ hoặc có nhiều chú giải.
Ví dụ:
Changbai là một ngọn núi trong ngữ cảnh này, tuy nhiên không tồn tại trong KB
nên không có định danh. Trong khi đó, Shenyang được nhận dạng không rõ ràng, có thể
là thành phố hoặc trường đại học.
Tóm lại, một chú giải NE có thể là 1 trong các dạng sau:
- Chỉ có tên: khi loại không được nhận dạng

- Chỉ có tên hoặc loại: khi định danh không được nhận dạng (không có trong KB)
- Có tên, loại và định danh.
Chú ý rằng tên và loại của 1 thực thể được suy ra từ định danh. Dựa vào ontology
và KB, có thêm 1 chú giải cho thực thể có tên, đó là tên–loại
3.4.3. Sự thay đổi mô hình không gian vector truyền thống
Trong mô hình không gian vector (VSM) dựa trên keyword, mỗi tài liệu được đại
diện bởi 1 vector. Thông thường trọng số tương thích tương ứng với từng term trong
vector là một hàm tần số xác suất của term trong tài liệu, gọi là tf và tần số xác suất đảo
ngược của term thông qua tất cả các tài liệu hiện có gọi là idf. Độ tương tự giữa 2 tài liệu
có thể được định nghĩa là khoảng cách giữa 2 vector.
Với term là keyword, VSM truyền thống không thỏa trong tài liệu ngữ nghĩa dùng
thực thể có tên.
Ví dụ: (1) tài liệu bàn về cities; (2) tài liệu bàn về People’s Republic of China; (3)
tài liệu bàn về Shenyang University, (4) tài liệu bàn về Shenyang Red River. Trường hợp
1, tài liệu đích không cần thiết chứa keyword “city” mà chỉ cần một số thực thể có tên có
loại là City. Trường hợp 2, tài liệu đích có lẽ đề cập về People’s Republic of China nhưng
chứa 1 tên khác như “China”; trái lại những tài liệu chứa những thực thể có tên là
“China” nhưng không có ý nghĩa là People’s Republic of China mà có ý nghĩa khác như
China town thì không phải là tài liệu đích. Trường hợp 3, những tài liệu có keyword là
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
23

Shenyang nhưng không phải là tài liệu đích mà nó có ý nghĩa khác như Shenyang city
hoặc Shenyang hotel. Trong khi đó, trường hợp 4 tài liệu đích là một định danh chính xác
của thực thể có tên, đó là Red river in Shenyang, không phải ở HaNoi VietNam…
 Thay đổi VSM truyền thống cho thực thể có tên (tên, loại, tên-loại, định
danh)

Giả thiết 1: Cho 1 bộ 3 (N, T, I) với N, T và I là tập tương ứng tên, loại, định danh
của thực thể có tên. Lúc đó:
1. Mỗi tài liệu (hoặc query) d được mô hình như là tập con của (N ∪{nil})×
(T∪{nil})×(I∪{nil}), với nil kí hiệu 1 “tên” không xác định, “loại” không xác định,
“định danh” không xác định của thực thể có tên d và
2. d được đại diện bởi bộ 4 (dN, dT, dNT, dI), với dN, dT, dNT, và dI tương ứng là
những vector N, T, N×T và I.
Mỗi vector 4 thành phần ở trên cho 1 tài liệu có thể được định nghĩa như là 1
vector trong mô hình truyền thống tf.idf chỉ với sự khác biệt trong ý nghĩa 1 term. Một
term lúc này chứa 1 tên, 1 loại, 1 cặp tên-loại, 1 định danh của thực thể có tên, thay vì
keyword.
Cho 1 đối tượng vector là dk = (w1d, w2d,…, wmd) với K và m tương ứng đến N,
T, N x T, hoặc I. Trọng số term được suy ra như sau:
Cho N là tổng số tài liệu trong hệ thống, n
i
là số tài liệu mà term k
i
xảy ra, và freq
id

là tần số thô k
i
’s (số lần k
i
xảy ra trong d). Tần số chuẩn hóa của k
i
trong d được định
nghĩa như sau:
tf
id

= freq
id
/ max
j
{freq
jd
}
Với maximum được tính toán là tất cả term xảy ra trong d. Nếu k
i
không xảy ra
trong d, thì tf
id
= 0.
Phụ thuộc K là N, T, N x T hoặc I, k
i
xảy ra trong d khi và chỉ khi:
1. K = N, k
i
là tên và d chứa 1 thực thể có tên mà tên hay kí danh của nó là k
i
hoặc
2. K = T, k
i
là loại và d chứa 1 thực thể có tên mà loại là giống nhau hoặc là 1
trường hợp loại con của k
i
hoặc
3. K = N x T, k
i
=(n,t) và d chứa 1 thực thể có tên mà tên hay kí danh của nó là n và

loại của nó là giống nhau hoặc là 1 trường hợp loại con của t hoặc
4. K = I, k
i
là định danh và d chứa 1 thực thể có tên mà định danh của nó là k
i
.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
24

Trong trường hợp dựa trên keyword, tần số nghịch đảo của tài liệu là k
i
thì:
idf
i
= log(N/ ni)
Trong khi tf
id
là số lượng xuất hiện của k
i
trong tài liệu cụ thể d, idf
i
đo độ quan
trọng xuất hiện của k
i
trong mỗi tài liệu, nếu càng nhiều số lượng tài liệu mà k
i
xuất hiện

thì mức độ quan trọng của k
i
càng ít hơn. Vì thế trọng số của k
i
trong d được tính như sau:
W
id
= tf
id
x idf
i

3.5. Đề xuất các giải pháp kĩ thuật
3.5.1. Ontology và cơ sở tri thức
Để có thể xây dựng bộ tài liệu có ngữ nghĩa phục vụ cho quá trình đánh chỉ mục
và truy vấn thì trước hết, tài liệu cần được chú thích ngữ nghĩa. Để biểu diễn một chú
thích ngữ nghĩa cho thực thể trong tài liệu, chúng ta cần phải :
- Một Ontology định nghĩa các lớp thực thể.
- Cơ sở tri thức chứa các thông tin chi tiết về thực thể.
3.5.1.1. Ontology
Ontology là một tập các khái niệm và quan hệ giữa các khái niệm được định nghĩa
cho một lĩnh vực nào đó nhằm vào việc biểu diễn và trao đổi thông tin. Nó như là khoa
học nghiên cứu những điều tồn tại, và không tồn tại trong thế giới đang xét. Thông
thường Ontology được cấu thành từ các thành phần cơ bản:
 Lớp: tập hợp các thực thể có đặc điểm chung trong miền đang xét.
 Quan hệ: mối liên hệ giữa các lớp.
 Thuộc tính: đặc tính của các lớp thực thể.
Ta có thể xây dựng Ontology theo hướng kết hợp với Ontology của KIM (KIMO),
lấy Ontology của KIM làm cơ sở. Để thực hiện điều này, ta cần phải ánh xạ hợp lý các
khái niệm tiếng Anh với các khái niệm tiếng Việt. Ngoài ra cần bổ sung thêm các thuộc

tính và quan hệ của các thực thể một cách đầy đủ để cho phép các ứng dụng có thể khai
thác hiệu quả cơ sở tri thức.
Ontology bao gồm các lớp thực thể có tên phổ biến như Con_người, Tổ_chức,
Tỉnh, Thành_phố, Huyện, Thị_xã, Tội_phạm, Khoa_học, Xã_hội (phụ thuộc vào loai
tài liệu mà ta cần quản lý: quản lý hành chính, quản lý tài liệu học tập…), các quan hệ
giữa các lớp thực thể, và các thuộc tính của mỗi lớp thực thể.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
25

Ta cũng phải chú khái đến quan hệ cha con, quan hệ bao phủ của các lớp trong
Ontology để phục vụ cho quá trình đánh chỉ mục và tìm kiếm ngữ nghĩa. Ví dụ khi người
dùng muốn truy vấn tài liệu chứa thực thể thuộc lớp Con_người thì các tài liệu chứa lớp
con của lớp Con_người như lớp Nam, Nữ cũng phải được trả về, điều đó thể hiện đúng
việc tìm kiếm tài liệu theo ngữ nghĩa, đây cũng là một trong những sự khác biệt so với
việc tìm kiếm theo từ khóa.
3.5.1.2. Cơ sơ trí thức
Cơ sở tri thức (Knowledge Base – KB) là những thông tin, tri thức hình thức về
thực thể. Nó là tập hợp thông tin về các sự vật hiện tượng trên thế giới.
Việc xây dựng cơ sở tri thức ta tạo một tập hợp các thực thể có tên phổ biến ở Việt
Nam và trên thế giới (phù hợp với nội dung của tài liệu cần quản lý). Các thực thể này
được phân vào các lớp thực thể, giữa các lớp thực thể có quan hệ với nhau theo mối quan
hệ cha/con, tạo thành một cây phân lớp. Các thực thể này chủ yếu thuộc vào các miền
sau:
+ Con người (các nhà lãnh đạo quốc gia, các giám đốc công ty, các văn nghệ sỹ )
+ Tổ chức, công ty (các tổ chức xã hội, tổ chức giáo dục, các công ty )
+ Đơn vị hành chính (các tỉnh, thành phố, quận, huyện, phường, xã ở Việt Nam và
các thành phố lớn trên thế giới)

+ Sông, núi (các sông, núi lớn ở Việt Nam và trên thế giới)
+ Đường (các đường ở TPHCM, Hà Nội, các tỉnh lộ, quốc lộ)
+ Điểm đặc biệt (các di tích lịch sử, danh lam thắng cảnh, khu vui chơi giải trí nổi
tiếng )
Ta cũng nên xây dựng cơ sở tri thức cho từ hoặc cụm từ bổ nghĩa cho các tên thực
thể xuất hiện trong tài liệu. Có thể xem đây như là các thực thể thuộc lớp Ngữ_liệu, dùng
trong các mẫu nhận dạng thực thể thuộc các lớp khác trong Ontology. Ví dụ, trong “thành
phố Hồ Chí Minh” hay “Chủ tịch tỉnh Vũ Hoàng Hà”, “thành phố” và “Chủ tịch tỉnh” là
ngữ liệu. Ngữ liệu cung cấp cho thành phần rút trích thông tin một số dấu hiệu để nhận
dạng thực thể. Các dấu hiệu này bao gồm các tiền tố, hậu tố và một số thành phần cấu
thành nên tên các thực thể thuộc một lớp nhất định trong cơ sở tri thức. Vì vậy, các đặc
điểm và cách thức viết tên thực thể của từng lớp được nghiên cứu để rút ra các cấu trúc
biểu diễn tên cho lớp thực thể đó.

×