Tải bản đầy đủ (.pdf) (10 trang)

NGHIÊN CỨU PHÁT TRIỂN CÁC KỸ THUẬT XÂY DỰNG VÀ KHAI THÁC THÔNG TIN WEB CÓ NGỮ NGHĨA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (405.38 KB, 10 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>Trường đại học bách khoa tp. Hồ chí minh </b>

Báo cáo tổng kết đề tài cấp nhà nước Mã số kc 01.21

Nghiên cứu phát triển các kỹ thuật Xây dựng và khai thác thông tin

Web có ngữ nghĩa

<b>Chủ nhiệm đề tài: pgS. Ts. Cao hồng trụ </b>

<b>6385 </b>

<i>29/5/2007 </i>

<b>TP. Hồ Chí Minh – 12/2006 </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

BỘ KHOA HỌC VÀ CÔNG NGHỆ

TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 268 Lý Thường Kiệt, Q.10, TP.HCM

Báo cáo tổng kết khoa học và kỹ thuật của đề tài:

<b>Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thơng tin Web có ngữ nghĩa </b>

Mã số đề tài: KC.01.21

Chủ nhiệm đề tài: Cao Hoàng Trụ

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>Tóm tắt </b>

Sau gần hai thập niên ra đời và phát triển từ năm 1989, World Wide Web (WWW) đã trở thành một môi trường lưu trữ và chuyển tải thông tin không thể thiếu trong một thời đại mà máy tính là cơng nghệ địn bẩy cho hầu hết mọi lĩnh vực của kinh tế, chính trị, và xã hội. Với sự phát triển vũ bão và bùng nổ thơng tin trên nó, giờ cũng là lúc WWW cần chuyển sang một thế hệ mới để có thể được khai thác một cách hiệu quả phục vụ cho lợi

<i>ích của lồi người. Đó là thế hệ Web có Ngữ nghĩa (Semantic Web), được Tim </i>

Berners-Lee, cha đẻ của WWW, phác thảo ra vào năm 1998.

Ở thế hệ hiện tại, thông tin được lưu trữ trong các trang Web dưới dạng văn bản, hình ảnh, và âm thanh mà chỉ có con người mới đọc, nhìn, nghe và hiểu được. Với lượng thơng tin vô cùng lớn trên WWW như hiện nay, con người khơng thể tự mình tìm kiếm, xử lý, và khai thác chúng, mà cần có sự trợ giúp của máy tính. Muốn vậy, trước hết máy tính phải hiểu được thông tin lưu trữ trong các trang Web để có thể xử lý chúng một cách tự động, tức là các trang Web phải có ngữ nghĩa đối với máy tính. Mục tiêu và viễn cảnh này của Web có ngữ nghĩa đã thu hút sự quan tâm và đầu tư của nhiều nhà nghiên cứu và các tổ chức trên thế giới.

Ngoài những vấn đề về lý thuyết và công nghệ chung, việc đưa ngữ nghĩa vào các trang Web cịn phụ thuộc vào ngơn ngữ tự nhiên và miền tri thức cụ thể của từng quốc gia. Đó cũng là ý nghĩa của đề tài này, nhằm nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thơng tin Web có ngữ nghĩa tiếng Việt. Như là bước khởi đầu, đề tài tập trung vào mức độ ngữ nghĩa cơ bản nhất của một trang Web là lớp của các thực thể có tên, như con người, tổ chức, nơi chốn, xuất hiện trong đó. Trên cơ sở ngữ nghĩa này, đề tài phát triển một ứng dụng cung cấp tự động thông tin về các thực thể cho những người đọc tin trên Web.

Trước hết, đề tài xây dựng một cơ sở tri thức về các thực thể phổ biến nhất ở Việt Nam và trên thế giới. Bước tiếp theo, đề tài nghiên cứu và hiện thực các kỹ thuật để xử lý tiếng Việt và rút trích lớp thực thể trên các trang Web một cách tự động. Đồng thời, đề tài nghiên cứu các độ đo và kỹ thuật xử lý truy vấn để người sử dụng có thể truy hồi chính xác hoặc gần đúng thơng tin từ cơ sở tri thức đã xây dựng và kho tài liệu Web đã được chú thích. Trên các cơ sở này, đề tài phát triển các phần mềm ứng dụng rút trích và truy hồi thơng tin cho người sử dụng đầu cuối, và xây dựng một hệ thống máy chủ để đáp ứng nhiều yêu cầu đồng thời. Các kết quả đạt được tạo nên một nền tảng cho Web có ngữ nghĩa tiếng Việt, đủ để hiện thực một số ứng dụng tiêu biểu và có thể phát triển tiếp thành một cơ sở hạ tầng hoàn chỉnh.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>Mục lục </b>

<b>Danh mục hình ... vii </b>

<b>Danh mục bảng ... ... x </b>

<b>Chương 1 Giới thiệu ... 1 </b>

1.1 Thơng tin tóm tắt về đề tài ... 1

1.2 Động cơ thực hiện đề tài ... 4

1.3 Phạm vi và mục tiêu của đề tài ... 5

1.4 Cấu trúc của quyển báo cáo ... 8

<b>Chương 2 Tham khảo các nghiên cứu liên quan và thiết kế hệ thống ... 11 </b>

2.1 Web có ngữ nghĩa ... 11

2.2 Các công nghệ và ngôn ngữ hỗ trợ ... 17

2.3 Hệ thống KIM ... 28

2.4 Kiến trúc của VN-KIM ... 32

<b>Chương 3 Xây dựng Ontology và cơ sở tri thức ... 39 </b>

3.1 Ontology và cơ sở tri thức của KIM ... 39

3.2 Thiết kế và xây dựng Ontology ... 41

3.3 Xây dựng cơ sở tri thức ... 50

3.4 Vấn đề bí danh ... 55

<b>Chương 4 Rút trích và chú thích lớp của các thực thể có tên ... 57 </b>

4.1 Nhận dạng mã tiếng Việt và khối văn bản tin ... 57

4.2 Gán nhãn từ loại và nhận biết danh từ riêng ... 65

4.3 Nhận biết lớp thực thể ... 70

4.4 Vấn đề đồng tham chiếu và mập mờ thực thể ... 81

<b>Chương 5 Truy vấn cơ sở tri thức và kho các trang Web có ngữ nghĩa ... 89 </b>

5.1 Truy vấn cơ sở tri thức ... 89

5.2 Độ tương tự và độ bao phủ ... 93

5.3 Truy vấn gần đúng ... 101

5.4 Truy vấn kho các trang Web có ngữ nghĩa ... 106

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>Chương 6 Xây dựng hệ thống máy chủ và xử lý song song các yêu cầu ... 111 </b>

6.1 Thiết kế và hiện thực mơ hình xử lý song song ... 111

6.2 Phát triển dịch vụ chú thích ngữ nghĩa ... 115

6.3 Phát triển dịch vụ truy hồi tri thức và tài liệu ... 118

6.4 Thử nghiệm tải của các dịch vụ ... 121

<b>Chương 7 Phát triển các phần mềm công cụ và ứng dụng ... 127 </b>

7.1 Phần mềm xây dựng và quản trị cơ sở tri thức ... 127

7.2 Phần mềm truy hồi thơng tin ... 132

7.3 Plug-in rút trích và truy hồi thông tin ... 141

<b>Phụ lục: Các báo cáo kỹ thuật, hướng dẫn sử dụng phần mềm, bài báo khoa học ... 171 </b>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>Danh mục hình </b>

2.1.1 Các tầng của Web có ngữ nghĩa ... 12

2.1.2 Biểu diễn ngữ nghĩa bằng đồ thị khái niệm ... 15

2.2.1 Kiến trúc của Sesame ... 21

2.2.2 Biểu diễn đồ thị của một truy vấn SeRQL ... 23

2.2.3 Một đồ thị khái niệm ví dụ ... 26

2.2.4 Một đồ thị khái niệm với liên kết đồng tham chiếu ... 27

2.2.5 Một đồ thị khái niệm bị phủ định ... 28

2.2.6 Các đồ thị khái niệm lồng nhau ... 28

2.3.1 Rút trích thơng tin bởi KIM ... 29

2.3.2 Kiến trúc tổng quát của KIM ... 31

2.3.3 Một mẫu truy vấn cố định của KIM ... 32

2.4.1 Kiến trúc của VN-KIM ... 33

2.4.2 Thành phần rút trích thơng tin của VN-KIM ... 35

2.4.3 Truy hồi thông tin trong VN-KIM ... 36

3.2.1 Sơ đồ phân cấp lớp thực thể về tổ chức ... 43

3.2.2 Sơ đồ phân cấp lớp thực thể về tổ chức nhà nước... 44

3.2.3 Sơ đồ phân cấp lớp thực thể về tổ chức giáo dục và đào tạo ... 44

3.2.4 Sơ đồ phân cấp lớp thực thể về tổ chức thương mại ... 45

3.2.5 Sơ đồ phân cấp quản lý của các đơn vị hành chính ở Việt Nam ... 46

3.2.6 Sơ đồ phân cấp lớp thực thể về đơn vị hành chính ... 46

3.2.7 Sơ đồ phân cấp lớp thực thể về điểm đặc biệt ... 48

4.1.1 Một trang Web với các khối văn bản tin tức ... 60

4.1.2 Vị trí các khối văn bản tin tức trong tập tin HTML ... 60

4.1.3 Hai trang Web có cùng khung mẫu ... 62

4.2.1 Phân đoạn từ trong VN-KIM ... 66

4.2.2 Ví dụ về một đồ thị trạng thái trong phân đoạn từ ... 67

4.2.3 Ví dụ về các luật nhận diện ngày tháng ... 68

4.2.4 Mơ hình kết hợp luật và xác suất để gán nhãn từ loại ... 70

4.3.1 Sơ đồ các bước chú thích ngữ nghĩa trong VN-KIM ... 72

4.3.2 Các bước xử lý chi tiết của so trùng mẫu trong VN-KIM IE ... 75

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

4.3.3. Một luật loại bỏ chú thích sai cho chuỗi có viết hoa chữ đầu ... 75

4.3.4 Hai luật nhận diện các tên thực thể phủ lấp nhau ... 76

4.3.5 Một luật nhận diện thực thể dựa trên ngữ liệu ... 77

4.3.6 Một luật nhận diện thực thể dựa trên ngữ cảnh ... 77

4.3.7 Một luật giải quyết các chú thích gây mâu thuẫn ... 78

4.3.8 Một luật sinh ra chú thích cuối cùng ... 78

4.4.1 Kết hợp phân giải đồng tham chiếu và mập mờ trong VN-KIM IE ... 81

4.4.2 Hàm kiểm tra sự đồng tham chiếu trong VN-KIM IE ... 84

4.4.3 Giải thuật loại bỏ nhập nhằng dựa vào mối quan hệ giữa các thực thể ... 86

4.4.4 Các bước loại bỏ mập mờ dựa trên sự đồng tham chiếu ... 87

5.1.1 Một đồ thị khái niệm truy vấn ... 90

5.1.2 Giải thuật dịch đồ thị khái niệm truy vấn sang SeRQL ... 91

5.1.3 Soạn thảo một đồ thị khái niệm truy vấn ... 92

5.1.4 Các phát biểu SeRQL tương đương và kết quả trả về ... 93

5.2.1 Độ bao phủ so với độ tương tự ... 98

5.3.1 Một đồ thị khái niệm truy vấn và sự tổng qt hố của nó ... 102

5.3.2 Giải thuật tổng quát hoá và dịch đồ thị khái niệm truy vấn sang SeRQL ... 103

5.3.3 Một đồ thị trả lời gần đúng ... 104

5.3.4 Một ví dụ khác về đồ thị truy vấn và trả lời ... 104

5.3.5 Đồ thị khái niệm truy vấn và tìm kiếm gần đúng ... 105

5.3.6 Đồ thị khái niệm truy vấn và tìm kiếm chính xác ... 105

5.4.1 Kiến trúc của HTTPLuceneServer ... 106

5.4.2 Cấu trúc XML của kết quả trả về ... 108

6.1.1 Kiến trúc của hệ thống máy chủ xử lý song song SWG cho VN-KIM ... 112

6.1.2 Đoạn mã bằng Java khai báo một lớp trong VOIService ... 114

6.1.3 Mơ hình hoạt động của các dịch vụ và nhóm máy chủ của VN-KIM... 115

6.2.1 Q trình tiếp nhận và xử lý yêu cầu chú thích ... 116

6.2.2 Các bước của dịch vụ chú thích ngữ nghĩa ... 117

6.2.3 Điều khiển các module thực hiện q trình chú thích ... 118

6.3.1 Q trình tiếp nhận và xử lý yêu cầu truy hồi tri thức ... 120

6.3.2 Giải thuật phân tải truy vấn cơ sở tri thức ... 120

6.3.3 Quá trình tiếp nhận và xử lý yêu cầu truy hồi tài liệu ... 121

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

6.4.1 Đáp ứng thời gian của Server chú thích ... 122

6.4.2 Đáp ứng thời gian của Sesame Server ... 124

6.4.3 Đáp ứng thời gian của Lucene Server ... 125

7.1.1 Giao diện soạn thảo lớp của VN-KIM Ontology Builder ... 129

7.1.2 Giao diện soạn thảo thuộc tính của VN-KIM Ontology Builder ... 129

7.1.3 Giao diện chính của VN-KIM KB Access ... 130

7.1.4 Giao diện chính của VN-KIM KB Project ... 131

7.1.5 Giao diện tạo Project mới của VN-KIM KB Project ... 132

7.2.1 Soạn thảo các nút khái niệm trong VN-KIM QER ... 133

7.2.2 Ràng buộc các thuộc tính thực thể trong VN-KIM QER ... 134

7.2.3 Soạn thảo các nút quan hệ trong VN-KIM QER ... 135

7.2.4 Hoàn tất một đồ thị truy vấn với VN-KIM QER ... 135

7.2.5 Tìm kiếm chính xác trong VN-KIM QER ... 136

7.2.6 Tìm kiếm gần đúng trong VN-KIM QER ... 137

7.2.7 Truy vấn bằng SeRQL trong VN-KIM QER ... 138

7.2.8 Truy vấn bằng mẫu cố định trong VN-KIM QER ... 139

7.2.9 Tìm kiếm tài liệu trong VN-KIM QER ... 140

7.2.10 Chọn các thực thể để tìm tài liệu ... 140

7.2.11 Các tài liệu trả về từ VN-KIM QER ... 141

7.3.1 VN-KIM Plug-in và một trang Web sau khi được chú giải ... 142

7.3.2 Duyệt các thực thể đã được nhận diện với VN-KIM Plug-in ... 142

7.3.3 Tìm kiếm thực thể và tài liệu với VN-KIM Plug-in ... 143

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>Danh mục bảng </b>

1.1.1 Thơng tin tóm tắt về đề tài ... 1

1.1.2 Danh sách các thành viên chính của đề tài ... 2

1.1.3 Danh sách các thành viên tham gia thực hiện đề tài ... 3

1.3.1 Danh mục các sản phẩm khoa học công nghệ của đề tài ... 7

3.3.1 Nguồn tài liệu tham khảo cho từng miền thực thể trong cơ sở tri thức ... 51

3.3.2 Thống kê số lượng các thực thể thuộc ba lớp cấp trên ... 54

3.3.3 Thống kê số lượng ngữ liệu tương ứng với ba lớp cấp trên ... 54

3.3.4 Thống kê số lượng thực thể thuộc các lớp chính ... 54

4.1.1 Tốc độ thực thi của module chuyển mã tiếng Việt ... 59

4.1.2 Kết quả thử nghiệm giải thuật nhận dạng khối văn bản tin tức ... 64

4.2.1 Kết quả của phương pháp xác suất và phương pháp kết hợp ... 70

4.3.1 Số liệu thử nghiệm trên ba lớp cơ sở ... 80

4.3.2 Số liệu thử nghiệm trên mười lớp chi tiết ... 80

4.3.3 Số liệu thử nghiệm ở công ty VYC và báo Người lao động ... 80

5.4.1 Các URL để kết nối đến HTTPLuceneServer ... 108

6.4.1 Độ giảm thời gian hoàn thành chú thích ... 123

6.4.2 Độ giảm thời gian hồn thành truy hồi thực thể ... 124

6.4.3 Độ giảm thời gian hoàn thành truy hồi tài liệu ... 125

8.1.1 Các phần mềm chủ yếu của đề tài ... 146

8.1.2 Các bài báo khoa học liên quan đến đề tài ... 149

8.1.3 Các sinh viên và luận án tốt nghiệp liên quan đến đề tài ... 150

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>Chương 1 Giới thiệu </b>

<b>1.1 Thơng tin tóm tắt về đề tài </b>

Bảng 1.1.1 tóm lược các thơng tin cơ bản về đề tài. Bảng 1.1.2 là danh sách các thành viên chính của đề tài và nhóm cơng việc đảm trách. Bảng 1.1.3 là danh sách các thành viên còn lại đã tham gia trong quá trình thực hiện đề tài.

<b>Bảng 1.1.1 Các thông tin cơ bản về đề tài </b>

<i><b>1. Tên đề tài </b></i>

NGHIÊN CỨU PHÁT TRIỂN CÁC KỸ THUẬT XÂY DỰNG VÀ KHAI THÁC THÔNG TIN WEB CĨ NGỮ NGHĨA (SEMANTIC WEB)

<b>5. Kinh phí </b>

2.044 triệu đồng

Trong đó, từ Ngân sách SNKH: 1.600 triệu đồng

(Thuê khoán: 745tr., nguyên vật liệu: 81tr., thiết bị: 1.054tr., chi khác: 164tr.)

</div>

×