Tải bản đầy đủ (.pdf) (86 trang)

Phát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.61 MB, 86 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐỖ XUÂN DUY </b>

<b>PHÁT TRIỂN MỘT SỐ TÍNH NĂNG TRÊN NỀN TẢNG NEXTCLOUD ĐỂ HỖ TRỢ SINH VIÊN CÔNG NGHỆ THÔNG TIN QUẢN LÝ KHO TÀI LIỆU HỌC TẬP CÁ NHÂN </b>

<b>ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) </b>

<b>TP. HỒ CHÍ MINH – NĂM 2024 </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>ĐỖ XUÂN DUY </b>

<b>PHÁT TRIỂN MỘT SỐ TÍNH NĂNG TRÊN NỀN TẢNG NEXTCLOUD ĐỂ HỖ TRỢ SINH VIÊN CÔNG NGHỆ </b>

<b>CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN </b>

MÃ SỐ: <b>WWWWW 8.48.01.04 </b>

<b>ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) </b>

<b>NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ VĂN NHƠN </b>

<b>TP. HỒ CHÍ MINH – NĂM 2024 </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LỜI CAM ĐOAN</b>

<b>Tôi xin khẳng định đề án: “Phát triển một số tính năng trên nền tảng </b>

<b>Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhân” là công trình nghiên cứu của riêng tơi. </b>

Các thơng tin và kết quả trình bày trong đề án này là trung thực và chưa từng được công bố trong bất kỳ cơng trình nào khác.

<i>Tp. HCM, ngày 07 tháng 05 năm 2024 </i>

<b>Học viên thực hiện đề án </b>

<b>Đỗ Xuân Duy </b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LỜI CẢM ƠN </b>

Để hồn thiện đề án thạc sĩ của mình thật tốt, không chỉ dựa vào sự cố gắng và quyết tâm của cá nhân tơi mà cịn được sự giảng dạy đầy tâm huyết từ các Thầy Cô, sự ủng hộ vững chắc từ gia đình và bạn bè trong suốt quãng đường học tập, nghiên cứu và thực hiện đề án.

<b>Đặc biệt, lòng biết ơn sâu sắc của tôi dành cho PGS.TS Đỗ Văn Nhơn, </b>

người đã hướng dẫn tơi với sự chăm sóc và hướng dẫn trong suốt quá trình nghiên

<b>cứu. Kiến thức uyên bác và tinh thần tận hiến của PGS.TS Đỗ Văn Nhơn đã trở </b>

thành nguồn động viên và lực lượng mạnh mẽ, giúp tôi xác định và theo đuổi con đường nghiên cứu của mình, vượt lên trên mọi thử thách để đạt được những thành quả quan trọng.

Tơi cũng muốn bày tỏ lịng biết ơn đến các q Thầy Cơ giảng dạy trong suốt q trình học vì sự chia sẻ kiến thức và kinh nghiệm của q Thầy Cơ. Sự sẵn lịng và đồng hành của các q Thầy Cơ đã góp phần quan trọng vào q trình học tập và phát triển chun mơn của tôi.

Tôi nhận thức rằng trong quyển đề án này, không thể tránh khỏi những hạn chế và thiếu sót. Vì vậy, tơi chân thành mong nhận được ý kiến đóng góp từ q Thầy Cơ và các bạn đọc để làm cho đề án này hoàn thiện hơn.

Một lần nữa, tôi muốn gửi lời cảm ơn sâu sắc nhất!

<i>Tp. HCM, ngày 07 tháng 05 năm 2024 </i>

<b>Học viên thực hiện đề án </b>

<b>Đỗ Xuân Duy </b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI ... 2 </b>

1.1 Tìm hiểu chung và khảo sát thực trạng ... 2

<i>1.1.1 Tìm hiểu về tài liệu học tập ngành công nghệ thông tin ... 2 </i>

<i>1.1.2 Thực trạng lưu trữ tài liệu học học tập hiện nay ... 3 </i>

1.2 Đặt vấn đề ... 4

1.3 Các cơng trình nghiên cứu liên quan ... 5

1.4 Mục tiêu nghiên cứu ... 7

1.5 Đối tượng và phạm vi nghiên cứu ... 7

1.6 Phương pháp nghiên cứu ... 8

1.7 Ý nghĩa của đề tài ... 8

<b>CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ... 10 </b>

2.1 Tổng quan về semantic web và truy hồi thông tin ... 10

<i>2.1.1 Giới thiệu về Semantic web (web ngữ nghĩa)... 10 </i>

<i>2.1.2 Quá trình phát triển Web ngữ nghĩa ... 10 </i>

<i>2.1.3 Cấu trúc phân tầng của Semantic web ... 11 </i>

<i>2.1.4 Nội dung phát triển Web Ngữ nghĩa ... 12 </i>

<i>2.1.5 Truy tìm thơng tin ... 12 </i>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

2.2 Giới thiệu Ontology ... 13

<i>2.2.1 Giới thiệu sơ lược về Ontology ... 13 </i>

<i>2.2.2 Các phần tử trong Ontology ... 14 </i>

<i>2.2.3 Cách xây dựng một ontology ... 15 </i>

2.3 Phương pháp biểu diễn tài liệu dạng đồ thị keyphrase [3] ... 18

<i>2.3.1 Tìm hiểu về biểu diễn tài liệu ... 18 </i>

<i>2.3.2 Mô hình biểu diễn tài liệu thành đồ thị keyphrase ... 18 </i>

2.4 Giới thiệu về nền tảng Nextcloud ... 25

<i>2.4.1 Giới thiệu chung ... 25 </i>

<i>2.4.2 Tính năng và ứng dụng ... 26 </i>

<i>2.4.3 Lợi ích cho Sinh viên CNTT ... 27 </i>

<b>CHƯƠNG 3: THIẾT KẾ ... 29 </b>

3.1 Xây dựng Ontology cho lĩnh vực Công nghệ thông tin ... 29

<i>3.1.1 Mơ hình ontology cho ngữ nghĩa tài liệu ... 29 </i>

<i>3.1.2 Quy trình xây dựng ontology ... 38 </i>

3.2 Mơ hình tổ chức, lưu trữ và biểu diễn tài liệu theo ngữ nghĩa trên Nextcloud39 <i>3.2.1 Mô Hình Semantic Document Base ... 39 </i>

<i>3.2.2 Tổ chức lưu trữ cơ sở về các tài liệu theo mơ hình SDB trên Nextcloud .. 41 </i>

3.3 Tính tốn độ tương đồng ngữ nghĩa ... 43

3.4 Giải pháp rút trích keyphrase ... 48

3.5 Giải pháp xử lý câu truy vấn ... 50

3.6 Thuật tốn tìm kiếm theo ngữ nghĩa ... 51

<b>CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM ... 54 </b>

4.1 Phân tích thiết kế hệ thống ... 54

<i>4.1.1 Đối tượng sử dụng và mục tiêu của ứng dụng ... 54 </i>

<i>4.1.2 Yêu cầu hệ thống ... 55 </i>

<i>4.1.3 Cấu trúc hệ thống ... 56 </i>

4.2 Phát triển tính năng Tìm kiếm theo ngữ nghĩa trên Nextcloud ... 57

<i>4.2.1 Tự động gán Keyphrase khi Upload Tài liệu ... 57 </i>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<i>4.2.2 Tính năng Tìm kiếm theo ngữ nghĩa ... 59 </i>

<i>4.2.3 Thiết kế Giao diện Tìm kiếm theo ngữ nghĩa ... 63 </i>

4.3 Cài đặt ứng dụng ... 63

<i>4.3.1 Nền tảng công nghệ sử dụng ... 63 </i>

<i>4.3.2 Các chức năng chính của hệ thống ... 64 </i>

4.4 Các giao diện chính ... 66

<i>4.4.1 Giao diện Đăng nhập ... 66 </i>

<i>4.1.2 Giao diện Trang chủ và tính năng tìm kiếm: ... 67 </i>

4.5 Thực nghiệm và đánh giá... 68

<b>CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI... 70 </b>

1. Những đóng góp của đề án ... 70

2. Hạn chế của đề án ... 72

3. Hướng phát triển tiếp theo của đề án ... 72

<b>DANH MỤC CÁC TÀI LIỆU THAM KHẢO ... 73 </b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>DANH SÁCH CÁC THUẬT NGỮ, CHỮ VIẾT TẮT </b>

CNTT Công nghệ thông tin

SDB Semantic Document Base Cơ sở dữ liệu tài liệu ngữ nghĩa

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>DANH SÁCH BẢNG</b>

Bảng 3.1: Quan hệ giữa các keyphrase trong CK_ONTO ... 38 Bảng 4.1: Thống kê kết quả tìm kiếm trên kho thử nghiệm. ... 69

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>DANH SÁCH HÌNH VẼ </b>

Hình 1.1: Hệ thống lưu trữ và tìm kiếm hiện nay của nền tảng Nextcloud. ... 3

Hình 2.1: Kiến trúc phân tần của Semantic web [7]. ... 11

Hình 2.2: Ví dụ mạng phân cấp trong WordNet [3]. ... 25

Hình 2.3: Logo Nextcloud... 26

Hình 3.1: Khơng gian các keyphrase [3] ... 30

Hình 3.2: Quan hệ giữa các lớp ... 33

Hình 3.3: Quy trình xây dựng ontology ... 39

Hình 3.4: Tổ chức CSDL của Nextcloud liên quan đến việc lưu trữ tài liệu ... 42

Hình 3.5: Tổ chức CSDL lưu trữ Ontology ... 43

Hình 3.6: Các Keyphrase trong Ontology ... 48

Hình 4.1: Mơ hình kiến trúc hệ thống tìm kiếm ngữ nghĩa trên Nextcloud. ... 55

Hình 4.2: Giao diện tính năng Semantic Search. ... 62

Hình 4.3: Giao diện đăng nhập. ... 64

Hình 4.4: Giao diện trang chủ khu vực tìm kiếm. ... 65

Hình 4.5: Giao diện trang chủ và kết quả tìm kiếm cơ bản. ... 66

Hình 4.6: Giao diện trang chủ và kết quả Semantic Search. ... 66

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>MỞ ĐẦU </b>

Trong thời đại số, công nghệ thơng tin đã thay đổi mọi khía cạnh của cuộc sống, từ giáo dục đến y tế và giao tiếp. Công nghệ không chỉ giúp doanh nghiệp phát triển mà còn nâng cao chất lượng cuộc sống hàng ngày. Tuy nhiên, điều này cũng đặt ra thách thức về bảo mật thông tin cá nhân và lựa chọn phương thức lưu trữ phù hợp. Trong khi phương tiện lưu trữ truyền thống không còn đáp ứng được nhu cầu hiện đại, giải pháp đám mây đã trở thành lựa chọn hàng đầu, với tính an tồn cao và khả năng truy cập từ mọi nơi.

Dù dịch vụ lưu trữ đám mây như Google Drive và Dropbox mang lại nhiều tiện ích, chúng vẫn tồn tại hạn chế như dung lượng miễn phí giới hạn, đẩy người dùng vào việc phải chi trả thêm phí để mở rộng, tạo gánh nặng chi phí cho một số đối tượng. Sự cá nhân hóa và tùy chỉnh dịch vụ cịn hạn chế, khơng thể đáp ứng tối ưu các nhu cầu riêng biệt của người dùng hay doanh nghiệp. Khơng chỉ vậy, thiếu tính năng tìm kiếm nâng cao và gợi ý tài liệu theo sở thích cũng ảnh hưởng đến trải nghiệm và hiệu suất làm việc. Điều này đặc biệt quan trọng với sinh viên Công nghệ Thông tin, những người cần một nền tảng lưu trữ dữ liệu hiệu quả, an toàn để quản lý và chia sẻ tài liệu học tập và nghiên cứu, hỗ trợ cải thiện hiệu suất học tập và tiết kiệm thời gian, công sức.

Nextcloud, một nền tảng lưu trữ đám mây mã nguồn mở, cho phép tự quản lý và phát triển, tuy nhiên, tính năng tìm kiếm cịn hạn chế, gây ra sự bất tiện cho việc tìm kiếm và sử dụng tài liệu.

<b>Chính vì vậy, đề tài “Phát triển một số tính năng trên nền tảng Nextcloud </b>

<b>để hỗ trợ sinh viên CNTT quản lý kho tài liệu học tập cá nhân” được chọn lựa, </b>

nhằm mục tiêu nghiên cứu và phát triển các giải pháp tối ưu.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI </b>

<b>Giới thiệu chương </b>

Chương 1 của tài liệu mở đầu bằng việc nhấn mạnh tầm quan trọng của quản lý tài liệu học tập trong ngành công nghệ thông tin và giới thiệu cấu trúc tổng quan. Bài viết sẽ phân tích thực trạng hiện nay của việc lưu trữ và truy cập tài liệu, đồng thời đề cập đến những khó khăn và thách thức mà sinh viên gặp phải. Dựa trên nghiên cứu và phân tích, chương sẽ đề xuất các giải pháp cải tiến thông qua việc phát triển tính năng trên Nextcloud, nhằm giải quyết các hạn chế và tối ưu hóa quy trình quản lý tài liệu học tập.

<b>Nội dung chương </b>

<b>1.1 Tìm hiểu chung và khảo sát thực trạng </b>

<i><b>1.1.1 Tìm hiểu về tài liệu học tập ngành công nghệ thông tin </b></i>

Trong ngành Công nghệ thông tin, tài liệu học tập là trang thiết bị không thể thiếu, bao gồm sách giáo khoa, bài giảng, hướng dẫn thực hành, khóa học trực tuyến và hội thảo chuyên sâu. Chúng cung cấp kiến thức cơ bản và chi tiết về lập trình, phân tích, thiết kế hệ thống, quản lý dự án công nghệ, và kỹ năng mềm. Việc tiếp cận tài liệu học tập chất lượng giúp sinh viên phát triển từ nguyên tắc cơ bản đến tiên tiến, thúc đẩy tư duy sáng tạo và kỹ năng giải quyết vấn đề. Quản lý hiệu quả tài liệu đòi hỏi khả năng lọc và tổ chức tài liệu để tối ưu hóa thời gian học và tăng hiệu quả học. Sách giáo khoa, khóa học trực tuyến và bài giảng từ giáo viên là nguồn tài liệu quan trọng giúp sinh viên tiếp cận kiến thức và kỹ năng mới một cách linh hoạt và hiệu quả. Thực hành và bài lab giúp sinh viên áp dụng kiến thức vào thực tế, nâng cao kỹ năng và chuẩn bị cho sự nghiệp tương lai.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<i><b>1.1.2 Thực trạng lưu trữ tài liệu học học tập hiện nay </b></i>

Trong giáo dục đại học và đào tạo chuyên nghiệp, việc lưu trữ tài nguyên học tập trở nên phức tạp do tiến bộ công nghệ. Tài liệu được lưu trữ từ sách giấy đến thiết bị số và nền tảng đám mây như Google Drive, Dropbox tạo thách thức về quản lý và tổ chức. Cần có hệ thống lưu trữ tập trung để tích hợp tài nguyên từ nhiều nguồn, cải thiện truy cập và bảo mật dữ liệu, giải quyết vấn đề tìm kiếm và truy cập thơng tin khơng được mơ tả đầy đủ.

<b>Hình 1.1: Hệ thống lưu trữ và tìm kiếm hiện nay của nền tảng Nextcloud </b>

Ưu điểm:

Việc tìm kiếm bằng từ khóa trong cơ sở dữ liệu có một số lợi ích rõ ràng và đáng chú ý. Một trong những ưu điểm lớn nhất là tốc độ thực thi tìm kiếm nhanh chóng, giúp người dùng tiết kiệm được thời gian quý báu. Khi tiến hành tìm kiếm bằng từ khóa, hệ thống sẽ nhanh chóng lọc ra và chỉ hiển thị những tài liệu mà tiêu đề chứa từ khóa được tìm kiếm, giảm bớt đáng kể miền giới hạn của kết quả trả về. Điều này có nghĩa là người dùng sẽ không phải lọc qua một lượng lớn thơng tin khơng liên quan, qua đó làm cho quá trình tìm kiếm trở nên hiệu quả và thân thiện với người dùng hơn. Hơn nữa, cách tiếp cận này tạo điều kiện cho việc tìm kiếm

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

chính xác, giúp người dùng nhanh chóng tiếp cận được với thông tin họ mong muốn mà không cần phải lướt qua hàng loạt tài liệu không liên quan.

Nhược điểm:

Tuy nhiên, tìm kiếm bằng từ khóa khơng ln mang lại kết quả như mong đợi và đi kèm với một số hạn chế đáng kể. Cơ sở dữ liệu thường chỉ lưu trữ mô tả tiêu đề của tài liệu mà không đi sâu vào nội dung chi tiết, khiến người dùng gặp khó khăn trong việc tìm kiếm thơng tin chính xác và đầy đủ. Kết quả là, người dùng thường nhận được danh sách dài các tài liệu, trong đó có thể chứa nhiều hồ sơ không cần thiết và thiếu vắng các tài liệu quan trọng, gây lãng phí thời gian và cảm giác khơng chính xác và thiếu đầy đủ của kết quả tìm kiếm.

Một thách thức lớn khác là khả năng xác định và sử dụng đúng các từ khóa để mơ tả nhu cầu thơng tin của mình, đặc biệt là đối với người dùng ít kinh nghiệm. Sự giới hạn về độ chính xác và độ bao phủ của kết quả tìm kiếm cũng là một vấn đề nghiêm trọng, khi người dùng có thể bỏ lỡ những tài liệu liên quan được mơ tả bằng các từ khóa đồng nghĩa hoặc gần nghĩa mà không hiển thị trong kết quả tìm kiếm.

Những hạn chế này đã là động lực cho nhiều nghiên cứu nhằm phát triển nền tảng tìm kiếm nhằm giải quyết những hạn chế của phương pháp truyền thống.

<b>1.2 Đặt vấn đề </b>

Trong thời đại thông tin hiện nay, việc truy cập và sử dụng dữ liệu một cách nhanh chóng và hiệu quả trở nên quan trọng đối với sinh viên Công Nghệ Thông Tin. Tuy nhiên, hầu hết các hệ thống tìm kiếm chỉ dựa trên từ khóa mà khơng tính đến ngữ cảnh hoặc ngữ nghĩa của tài liệu. Điều này gây ra sự khơng chính xác trong việc trả về kết quả, làm lãng phí thời gian và năng lượng của người dùng. u cầu về việc tìm kiếm và truy cập thơng tin chính xác và nhanh chóng trở nên cấp bách hơn bao giờ hết, đặc biệt trong lĩnh vực công nghệ. Nextcloud, một nền tảng lưu trữ đám mây phổ biến, đã đáp ứng được nhu cầu về lưu trữ và bảo mật, nhưng tính

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

năng tìm kiếm chỉ dựa trên từ khóa, điều này đã hạn chế khả năng đáp ứng yêu cầu của người dùng.

Do đó, phát triển một hệ thống tìm kiếm thơng minh có xử lý ngữ nghĩa trên nền tảng Nextcloud là một bước tiến quan trọng. Hệ thống này có khả năng hiểu và xử lý ngữ nghĩa của tài liệu, giúp lọc ra và sắp xếp các tài liệu một cách hiệu quả dựa trên sự phù hợp và liên quan với truy vấn của người dùng. Điều này không chỉ nâng cao hiệu quả học tập và nghiên cứu trong cộng đồng sinh viên Công Nghệ Thơng Tin mà cịn mở ra hướng phát triển mới cho việc quản lý và sử dụng tài nguyên tri thức trong nhiều lĩnh vực khác.

<b>1.3 Các cơng trình nghiên cứu liên quan </b>

Phát triển hệ thống tìm kiếm dựa vào ý nghĩa của ngôn từ vẫn là một thách thức lớn, bởi lẽ nhiều khía cạnh của nó vẫn cịn đang trong q trình khám phá hoặc chưa tìm được giải pháp hồn hảo. Bên cạnh đó, việc thiết lập một hệ thống kiến thức chuyên ngành cũng gặp khó khăn do u cầu chi phí cao cho việc phát triển và bảo trì, đồng thời cần sự tham gia của những người có chun mơn sâu trong lĩnh vực cụ thể, và cịn phụ thuộc nhiều vào ngơn ngữ được sử dụng. Điều này giải thích vì sao các cơng cụ tìm kiếm sử dụng ngữ nghĩa hiện chỉ tập trung vào một số ít lĩnh vực và ứng dụng nhất định. Một vài nghiên cứu liên quan đến vấn đề này có thể bao gồm:

<b> Tình hình nghiên cứu trong nước </b>

<i><b>- Cơng trình nghiên cứu của Nguyễn Phúc Hưng, (2023) Xây dựng ứng dụng </b></i>

<i>tìm kiếm sách điện tử bằng phương pháp tìm kiếm ngữ nghĩa trên ontology, Cơng </i>

trình đã đưa ra một phương án xây dựng ứng dụng tìm kiếm ngữ nghĩa và tìm kiếm

<b>từ khố, nhấn mạnh vào các lợi ích của tìm kiếm ngữ nghĩa trên ontology. </b>

<i>- Cơng trình của tác giả Đỗ Phước Sang, (2019), Ứng dụng tìm kiếm ngữ nghĩa trong lĩnh vực đoàn thanh niên trên kho tài liệu, Tác giả đã giới thiệu công cụ </i>

xây dựng ontology và môi trường, và ngơn ngữ lập trình được ứng dụng để xây

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<i>dựng hệ thống tìm kiếm văn bản trong lĩnh vực Đoàn thanh niên. </i>

<i>- Năm 2012, tại Đại học khoa học tự nhiên, Thành phố Hồ Chí Minh, Huỳnh </i>

Thị Thanh Thương đã cơng bố nghiên cứu của mình về việc nghiên cứu mơ hình tổ chức và kỹ thuật tìm kiếm theo ngữ nghĩa. Cơng trình này, với tiêu đề "<i>Nghiên cứu mơ hình tổ chức và kỹ thuật tìm kiếm có ngữ nghĩa trên kho tài nguyên học tập lĩnh vực CNTT ", đã giới thiệu phương pháp xây dựng ontology và môi trường, cũng như </i>

<i>lựa chọn ngơn ngữ lập trình cho hệ thống tìm kiếm tài liệu trong lĩnh vực CNTT. </i>

Những nghiên cứu trên đều nhấn mạnh tầm quan trọng của việc ứng dụng

<b>ngữ nghĩa trong việc tìm kiếm và truy cập thơng tin chun ngành.  Tình hình nghiên cứu ngồi nước </b>

Ngồi những nghiên cứu nổi bật từ Việt Nam, ở các quốc gia có nền khoa học công nghệ tiên tiến, các nhà nghiên cứu cũng đã đóng góp những cơng trình quan trọng liên quan đến lĩnh vực này.

Năm 2018, tại Đại học khoa học ứng dụng Frankfurt, tác giả Doğan Can

<i>Uỗar ó cụng b nghiờn cu ca mỡnh v vic “Thiết kế và triển khai hệ thống đề </i>

<i>xuất tệp sử dụng Lọc Cộng tác và Đề xuất Dựa trên Nội dung cho nền tảng Nextcloud”. Tiêu đề gốc tiếng anh là “Design and Implementation of a File Recommendation System Using Collaborative Filtering and Content-Based Recommendation for the Nextcloud Platform”. Tác giả tập trung vào việc phát triển </i>

một hệ thống đề xuất độc đáo cho Nextcloud - một nền tảng chia sẻ và đồng bộ hóa tệp mã nguồn mở. Hệ thống này kết hợp hai phương pháp tiếp cận chính: Lọc Cộng Tác (Collaborative Filtering) và Đề Xuất Dựa Trên Nội Dung (Content-Based Recommendation), một quy trình được gọi là "Lai Hóa" (Hybridization). Mục tiêu là cung cấp trải nghiệm người dùng tốt hơn trong việc làm việc hàng ngày với Nextcloud, giúp người dùng dễ dàng thấy và sử dụng các tệp phù hợp hơn.

Năm 2010, Damljanovic, D., Agatonovic, M., và Cunningham, H, công bố tại Hội nghị Web Ngữ nghĩa Châu Âu lần thứ 7 (ESWC-2010) với tiêu đề tiếng anh

<i>là “Natural Language Interface to Ontologies: Combining Syntactic Analysis and </i>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<i>Ontology-based Lookup through the User Interaction”, tiếng việt là “Giao diện ngôn ngữ tự nhiên cho Ontologies: Kết hợp phân tích cú pháp và tra cứu dựa trên Ontology qua tương tác của người dùng”. Cơng trình này tập trung vào việc phát </i>

triển một phương pháp hiệu quả kết hợp giữa phân tích cú pháp ngơn ngữ và tra cứu thông tin dựa trên ontology, tăng cường sự tương tác với người dùng.

Các nghiên cứu như thế không chỉ là nguồn tham khảo quý giá mà còn mở ra những hướng ứng dụng mới mẻ tại Việt Nam, đem lại những kết quả đáng kể trong việc cải thiện và phát triển công nghệ thông tin.

<b>1.4 Mục tiêu nghiên cứu </b>

Mục tiêu của đề tài tập trung vào việc kế thừa những tính năng có sẵn của nền tảng Nextcloud như tính năng lưu trữ, chia sẻ, tìm kiếm cơ bản theo tên tài liệu…, nhằm phát triển tính năng tìm kiếm theo ngữ nghĩa, cho kho tài liệu dành cho sinh viên ngành CNTT. Mục tiêu chính là xây dựng mơ hình tổ chức và lưu trữ tài liệu có quy chuẩn, hệ thống tiền xử lý tài liệu khi tải lên và tính năng tìm kiếm thơng minh (có xử lý ngữ nghĩa), cho phép sinh viên quản lý, tìm kiếm và truy cập tài liệu một cách hiệu quả nhưng vẫn đảm bảo tốc độ xử lý nhanh chóng. Ví dụ, giả sử một sinh viên đang tìm kiếm tài liệu liên quan đến "mạng nơ-ron nhân tạo". Hệ thống tìm kiếm theo ngữ nghĩa trên nền tảng Nextcloud không chỉ trả về các tài liệu có chứa chính xác cụm từ "mạng nơ-ron nhân tạo" mà còn cả các tài liệu về "học sâu", "học máy" và "thị giác máy tính", dựa trên liên kết ngữ nghĩa và sự liên quan chuyên môn. Cơ chế này cho phép sinh viên tiếp cận được một loạt các tài liệu bao quát rộng hơn và sâu hơn về chủ đề họ quan tâm, từ đó tăng cường khả năng nghiên cứu và học tập hiệu quả.

<b>1.5 Đối tƣợng và phạm vi nghiên cứu </b>

- Đối tượng nghiên cứu: Bao gồm các khía cạnh liên quan đến web ngữ nghĩa, các kỹ thuật xử lý dữ liệu ngữ nghĩa, các cách thức biểu diễn và tìm kiếm

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

thơng tin dựa trên ngữ nghĩa, vấn đề liên quan đến xử lý ngôn ngữ tự nhiên, cùng

<b>với các loại tài liệu học thuật trong ngành CNTT dành cho đối tượng sinh viên. </b>

- Phạm vi nghiên cứu: Hạn chế trong khuôn khổ của tài liệu tiếng Anh được lưu giữ trong cơ sở dữ liệu cá nhân của sinh viên chuyên ngành CNTT, với việc nghiên cứu được thực hiện tại Học Viện Cơng Nghệ Bưu Chính Viễn Thơng, nơi tơi đang theo học chương trình thạc sĩ và các tài liệu chuyên ngành CNTT do bản thân tự thu thập.

<b>1.6 Phương pháp nghiên cứu </b>

Phương pháp thu thập thông tin: Khám phá nguyên lý hoạt động của web ngữ nghĩa; Nghiên cứu các kỹ thuật xử lý ngơn ngữ tự nhiên; Tìm hiểu các phương pháp biểu diễn thơng tin và cách thức tìm kiếm các tài liệu giáo dục dành cho sinh viên trong ngành công nghệ thông tin.

<b>Phương pháp thử nghiệm: Phát triển một ontology chuyên biệt, tạo cơ sở dữ </b>

liệu; Hình thành kho dữ liệu cho mục đích học tập, thực hiện triển khai thực tế và tiến hành đánh giá các kết quả từ quá trình thử nghiệm.

<b>1.7 Ý nghĩa của đề tài </b>

Trong bối cảnh thời đại số ngày nay, sự phát triển vượt bậc của công nghệ thơng tin địi hỏi sự linh hoạt và hiệu quả trong quản lý và truy cập thông tin. Đáp ứng nhu cầu này, việc phát triển tính năng tìm kiếm tài liệu dựa trên ngữ nghĩa trên nền tảng Nextcloud không chỉ mang lại giải pháp tối ưu cho việc tìm kiếm và truy cập tài liệu mà cịn là một bước tiến quan trọng trong việc tối ưu hóa quy trình làm việc và nâng cao chất lượng học tập và nghiên cứu, đặc biệt là cho sinh viên ngành CNTT.

Đối với sinh viên, việc này không chỉ giúp họ tiếp cận thơng tin nhanh chóng và chính xác hơn, mà còn tăng cường khả năng tự học và nghiên cứu thơng qua việc tìm kiếm hiệu quả trong kho tài liệu lớn. Việc áp dụng công nghệ tìm kiếm theo ngữ

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

nghĩa trên Nextcloud giúp sinh viên có thể dễ dàng tìm thấy tài liệu chính xác theo yêu cầu học thuật, từ đó tối ưu hóa thời gian và nâng cao hiệu suất học tập.

Ngoài ra, cho các cá nhân và doanh nghiệp đã và đang hoạt động trong lĩnh vực CNTT và đang sử dụng nền tảng Nextcloud làm công cụ lưu trữ tài liệu, việc này cũng mang lại lợi ích khơng kém phần quan trọng. Cụ thể, việc tìm kiếm và quản lý tài liệu trở nên linh hoạt và tiết kiệm thời gian, giúp nâng cao hiệu quả công việc và tối ưu hóa quy trình quản lý tài liệu. Đối với các doanh nghiệp, điều này cịn góp phần vào việc nâng cao khả năng cạnh tranh thông qua việc cải thiện quy trình làm việc và quản lý kiến thức doanh nghiệp một cách hiệu quả.

<b>Kết luận chương </b>

Trong chương này, chúng ta đã khám phá việc phát triển tính năng tìm kiếm tài liệu dựa trên ngữ nghĩa cho sinh viên ngành CNTT trên Nextcloud, chứng minh khả năng của hệ thống trong việc cải thiện truy cập thông tin. Hệ thống sử dụng web ngữ nghĩa và xử lý ngôn ngữ tự nhiên, giúp tìm kiếm chính xác và nhanh chóng. Qua thực nghiệm, chúng tôi áp dụng xây dựng ontology và cơ sở dữ liệu, nhận thấy hệ thống có tiềm năng lớn trong việc quản lý tài liệu học tập, mở ra hướng đi mới cho sinh viên tiếp cận thông tin hiệu quả. Tuy nhiên, hệ thống còn đối mặt thách thức và hạn chế, cần phát triển liên tục để mở rộng khả năng và tăng cường độ chính xác trong tìm kiếm thông tin, hướng tới cải thiện và khám phá công nghệ mới.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<b>CHƯƠNG 2: CƠ SỞ LÝ THUYẾT </b>

<b>Giới thiệu chương </b>

Chương 2 sẽ khám phá công nghệ Web Ngữ Nghĩa, đồng thời tập trung vào khái niệm ontology, cách thức mô tả dữ liệu ngữ nghĩa, các hệ thống tìm kiếm thơng tin, phương pháp biểu diễn tài liệu thông qua đồ thị từ khóa cùng với đó là giới thiệu về nền tảng Nextcloud.

<b>Nội dung chương </b>

<b>2.1 Tổng quan về semantic web và truy hồi thông tin </b>

<i><b>2.1.1 Giới thiệu về Semantic web (web ngữ nghĩa) </b></i>

Semantic Web là sự mở rộng của World Wide Web, tạo điều kiện cho việc định nghĩa thông tin một cách rõ ràng hơn, thúc đẩy sự hợp tác giữa con người và máy tính. Được khởi xướng bởi Tim Berners-Lee, Semantic Web là hệ thống thơng tin logic, giúp máy tính xử lý dữ liệu tồn cầu một cách dễ dàng. Nó giúp phân tích và mơ tả dữ liệu chi tiết, cũng như xây dựng các tệp tin mô tả mối quan hệ giữa các tập dữ liệu khác nhau, mở rộng khả năng kết nối thông tin và tạo ra mối quan hệ phong phú hơn trên Web.

<i><b>2.1.2 Quá trình phát triển Web ngữ nghĩa </b></i>

Quá trình phát triển Web ngữ nghĩa đặt nền tảng trên ba trụ cột nghiên cứu chính như sau:

- Tiêu chuẩn hóa ngôn ngữ dùng để thể hiện dữ liệu (XML) và siêu dữ liệu (RDF) trong môi trường Web.

- Chuẩn hóa cho các ngơn ngữ biểu đạt Ontology áp dụng cho Web ngữ nghĩa.

- Tăng cường phát triển và hoàn thiện cho Web ngữ nghĩa, dưới dự án Phát triển Nâng cao Web Ngữ Nghĩa (Semantic Web Advanced Development - SWAD).

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<i><b>2.1.3 Cấu trúc phân tầng của Semantic web </b></i>

Web Ngữ Nghĩa được cấu tạo từ một hệ thống lớp ngôn ngữ đa tầng. Mỗi tầng trong hệ thống này đóng vai trò quan trọng trong việc bảo đảm an ninh thông tin và nâng cao chất lượng dữ liệu. Cấu trúc của Web Ngữ Nghĩa được trình bày qua một mơ hình hình ảnh, minh hoạ cho sự phân chia và tương tác giữa các tầng ngôn ngữ này:

<b>Hình 2.1: Kiến trúc phân tần của Semantic web [7] </b>

<b>- Lớp Unicode & URI: Đảm bảo khả năng áp dụng bộ kí tự quốc tế và cung </b>

cấp cách thức để xác định các thực thể trong mạng Ngữ nghĩa.

<b>- Lớp XML kèm theo định nghĩa về namespace (vùng tên) và xmlschema </b>

(lược đồ xml), đảm bảo việc tích hợp định nghĩa của Web Ngữ nghĩa với các tiêu chuẩn khác dựa trên XML.

<b>- Lớp RDF và RDFSchema: cho phép chúng ta tạo ra các phát biểu để miêu </b>

tả thực thể sử dụng từ ngữ và định nghĩa từ URI, và những thực thể này có thể được liên kết thơng qua các từ ngữ và định nghĩa từ URI đã nêu. Là lớp cơ bản cho việc phân loại và liên kết các nguồn thông tin, đồng thời là lớp trung tâm của cấu trúc Web Ngữ nghĩa.

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<b>- Lớp Ontology: Nâng cao và phát triển từ vựng thông qua việc xác định mối </b>

quan hệ giữa các khái niệm khác nhau, sử dụng ngôn ngữ như SPARQL, OWL, RIF/SWRL.

<b>- Các lớp Unifying Logic, Proof, Trust: Lớp logic tạo điều kiện cho việc </b>

xây dựng quy tắc, trong khi lớp proof (chứng minh) thực hiện các quy tắc và cùng lớp trust (tin cậy) đánh giá để quyết định việc chấp nhận các vấn đề đã được chứng minh.

<i><b>2.1.4 Nội dung phát triển Web Ngữ nghĩa </b></i>

Nội dung phát triển Web Ngữ nghĩa chủ yếu bao gồm ba phương diện chính sau đây:

- Chuẩn hóa các ngôn ngữ để biểu diễn dữ liệu (XML) và meta-dữ liệu (RDF) trên Web.

- Chuẩn hóa các ngơn ngữ dùng để biểu diễn Ontology trong Web Ngữ nghĩa.

- Phát triển và cải thiện Web Ngữ nghĩa qua chương trình Phát triển Web Ngữ nghĩa Cao cấp (SWAD).

<i><b>2.1.5 Truy tìm thơng tin </b></i>

Trong tìm kiếm thông tin web, việc dùng keyphrase có chọn lọc, dựa trên ontology, là cách tiên tiến giúp phản ánh chính xác nội dung tài liệu và tăng độ liên quan. Phương pháp này so sánh đồ thị từ khóa giữa câu truy vấn và tài liệu, mang lại kết quả chính xác cao hơn so với tìm kiếm từ khóa truyền thống. Đối với sinh viên công nghệ thông tin, sự tiến bộ nằm ở việc áp dụng ngữ nghĩa và xử lý tri thức qua ontology, nâng cao độ chính xác và khai thác thơng tin. Ontology nâng cao cách truy xuất thông tin bằng cách biểu diễn tri thức và tổ chức chiến lược tìm kiếm theo ngữ nghĩa, đáp ứng tốt hơn nhu cầu người dùng.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<b>Đánh giá một hệ thống tìm kiếm thông tin </b>

Đánh giá hiệu suất của một hệ thống tìm kiếm thơng tin thường dựa trên các chỉ số nhất định[3]:

Khi xem xét hiệu quả của hệ thống truy vấn thông tin, hai chỉ số quan trọng thường được sử dụng là độ chính xác và độ bao phủ. Các chỉ số này được sử dụng để đánh giá mức độ hài lòng của người dùng đối với kết quả mà hệ thống cung cấp. Giả sử rằng S là tập hợp các tài liệu mà hệ thống tìm kiếm xác định là liên quan. U là tập hợp các tài liệu được người dùng đánh giá là liên quan. Độ chính xác và độ bao phủ được định nghĩa như sau:

Độ chính xác: Đây là tỉ lệ giữa số tài liệu liên quan mà hệ thống trả về và mà người dùng xác định là liên quan so với tổng số tài liệu mà hệ thống truy vấn trả về.

Độ chính xác =

Một độ chính xác 100% chỉ ra rằng mỗi tài liệu mà hệ thống tìm kiếm xác định là liên quan cũng được người dùng xác nhận là liên quan đến truy vấn của họ.

<b>2.2 Giới thiệu Ontology </b>

<i><b>2.2.1 Giới thiệu sơ lược về Ontology </b></i>

"Ontology" xuất phát từ triết học và được Aristotle giới thiệu, nhấn mạnh sự tồn tại và bản chất của vật thể. Trong khoa học máy tính, nó định nghĩa cấu trúc các đối tượng và mối quan hệ trong một ngữ cảnh, hỗ trợ tự động hóa và quản lý thơng tin. Mục tiêu là phát triển một ngôn ngữ chung cho một lĩnh vực, với thuật ngữ, khái niệm và quy tắc sử dụng rõ ràng, giúp cải thiện tương tác giữa con người và hệ thống. Ontology quan trọng trong nhiều lĩnh vực như trí tuệ nhân tạo và Semantic Web, cung cấp kiến thức tổng quan và tạo nền tảng cho việc tổ chức kiến trúc thông tin và doanh nghiệp, đảm bảo hiệu quả thông tin.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<i><b>2.2.2 Các phần tử trong Ontology </b></i>

<b> Các cá thể (Individuals) - Thể hiện Cá thể đại diện cho các đối tượng cụ </b>

thể hoặc trừu tượng, từ những người, động vật, đến vật dụng như chiếc bàn, hay các khái niệm như thành viên hoặc ngơn từ. Trong khi một Ontology có thể khơng bắt buộc phải có cá thể, nhưng chức năng chính của nó thường là cung cấp khả năng phân loại và ngữ nghĩa cho việc sắp xếp chúng. Tuy nhiên, các cá thể thường không được xem là một phần của cấu trúc Ontology chính thức.

<b>Các lớp (Classes) - Khái niệm Các lớp là những tập hợp trừu tượng của các </b>

đối tượng, chứa các cá thể hoặc thậm chí là các lớp khác, tạo thành cấu trúc phân cấp hay nhóm có tổ chức. Lớp có thể bao gồm các lớp con, có thể đại diện cho một tập hợp lớn chung chung hoặc chứa duy nhất các cá thể riêng biệt. Sự phân cấp của các lớp từ chung đến riêng biệt hình thành cấu trúc phân cấp.

<b>Các thuộc tính (Properties) Các thuộc tính cung cấp thông tin chi tiết về cá </b>

thể hoặc lớp, bao gồm cả tên và giá trị cho từng thuộc tính. Các thuộc tính này giữ thơng tin mà một đối tượng có thể có, như tên, ngày sinh, nơi sinh, số chứng minh

<b>nhân dân, v.v., và có thể bao gồm dữ liệu phức tạp. </b>

<b>Các mối quan hệ (Relation) Các mối quan hệ mô tả liên kết giữa các đối </b>

tượng trong Ontology, chẳng hạn như mối quan hệ xếp gộp, mô tả việc một cá thể thuộc về lớp nào. Các mối quan hệ này không chỉ xác định sự thuộc về mà còn liên kết các đối tượng với nhau theo cách có ý nghĩa.

Vấn đề hiện nay là việc kết hợp Ontology thường yêu cầu công việc thủ công, tiêu tốn nhiều thời gian và chi phí. Việc áp dụng Ontology cung cấp một cách tiếp cận chung, định nghĩa từ ngữ cốt lõi, giúp quá trình này trở nên dễ quản lý hơn. Nghiên cứu đang tiếp tục trong việc tìm kiếm phương pháp tự động kết nối Ontology, mặc dù lĩnh vực này chủ yếu còn ở mức độ lý thuyết

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<i><b>2.2.3 Cách xây dựng một ontology </b></i>

Phát triển Ontology là một q trình địi hỏi sự chính xác và chi tiết cao, được Stanford Center for Biomedical Informatics Research mô tả qua bảy bước và phần mềm Protégé là một công cụ tiêu chuẩn trong lĩnh vực này.

2.2.3.1 Xác định lĩnh vực, phạm vi của Ontology

Xác định miền quan tâm và phạm vi sử dụng Ontology trong giai đoạn này cần: - Xác định mục đích của việc xây dựng ontology là gì?

- Phục vụ đối tượng nào?

- Ontology sắp xây dựng cần có đặc điểm gì?

- Liên quan đến lĩnh vực, phạm vi nào?

- Cách thức tiến hành khai thác, quản lý và duy trì ontology được triển khai như thế nào ?

2.2.3.2 Đánh giá khả năng kế thừa các Ontology có sẵn

Kiểm tra và cân nhắc khả năng sử dụng hoặc mở rộng các Ontology đã được phát triển trước đó. Tận dụng tầng trừu tượng hoặc tầng miền xác định từ Ontology sẵn có có thể tiết kiệm đáng kể chi phí và thời gian phát triển.

2.2.3.3 Liệt kê danh sách các thuật ngữ chính

Tạo một danh sách các thuật ngữ chuyên ngành liên quan đến lĩnh vực cụ thể mà Ontology sẽ đề cập đến. Các thuật ngữ này sau đó sẽ được phân loại và định nghĩa rõ ràng để xây dựng các lớp trong Ontology. Việc liệt kê này không chỉ giúp xác định ngữ nghĩa cho mỗi thuật ngữ mà cịn cung cấp một cái nhìn tổng quát về các khái niệm, từ đó làm cơ sở cho việc xây dựng cấu trúc Ontology.

2.2.3.4 Xây dựng các lớp và cấu trúc lớp phân cấp

Phân định lớp trong Ontology không chỉ bao gồm việc mơ tả thuật ngữ mà cịn cân nhắc việc thêm mới hoặc tích hợp lớp có ý nghĩa tương tự. Đặc biệt, việc xác

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

định thứ bậc giữa các lớp là quan trọng để làm rõ mối quan hệ phân loại. Có ba cách thức xác định cấu trúc phân cấp: tiếp cận từ trên xuống, từ dưới lên, và phương pháp lai, mỗi phương pháp có ưu điểm trong việc tạo ra cấu trúc rõ ràng và minh bạch cho việc phân loại và tích hợp lớp.

2.2.3.5 Xác lập các Đặc điểm và Liên kết trong Class

Để phân định đặc điểm của mỗi class, chúng ta cần quay lại và xem xét lại bộ sưu tập các thuật ngữ đã được danh sách hóa trước đó. Phần lớn các thuật ngữ này, sau khi đã phân loại các class, phản ánh đặc điểm của chúng. Đối với mỗi đặc điểm được phát hiện, cần phải xác định class mà nó thuộc về. Những đặc điểm này sau đó sẽ được nhận diện là thuộc về các class cụ thể đã được xác định.

Có hai hình thức đặc điểm: đặc điểm đơn giản và đặc điểm phức tạp. Đặc điểm đơn giản bao gồm các giá trị cơ bản như chuỗi ký tự, số,... Trong khi đó, đặc điểm phức tạp có thể bao gồm hoặc tham chiếu đến đối tượng khác. Một class sẽ thừa hưởng mọi đặc điểm từ mọi class cha của nó.

2.2.3.6 Định nghĩa về các giới hạn thuộc tính và mối liên kết trong lớp

Giới hạn được thiết lập nhằm xác định giá trị mà một thuộc tính cụ thể có thể chứa. Trong số các giới hạn chính đối với một thuộc tính, số lượng và loại là hai yếu tố nổi bật. Giới hạn về số lượng chỉ định số lượng giá trị mà một thuộc tính có thể có, với hai trường hợp phổ biến là duy nhất và nhiều. Loại giới hạn thứ hai đề cập đến loại dữ liệu mà thuộc tính có thể nhận, bao gồm chuỗi, số, boolean, danh sách lựa chọn, và loại thực thể. Loại thực thể đặc biệt liên quan đến hai khái niệm: miền và phạm vi, trong đó miền xác định lớp hoặc các lớp mà một thuộc tính thuộc về và phạm vi đề cập đến lớp hoặc các lớp đóng vai trị là loại cho giá trị của thuộc tính loại thực thể.

Các thuộc tính cịn có thể được đặc trưng bởi nhiều yếu tố khác nhau như loại giá trị chấp nhận được, số lượng thuộc tính có thể có, và các đặc điểm khác liên quan đến giá trị của thuộc tính.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

a) RDF (Resource Description Framework)

RDF (Resource Description Framework) là ngôn ngữ miêu tả Ontology, thường được sử dụng để truyền tải dữ liệu, thơng tin siêu dữ liệu và cấu hình hệ thống. RDF được thiết kế như một mơ hình siêu dữ liệu, cung cấp một tập hợp từ vựng để đặc tả ngữ nghĩa của tài nguyên mà nó miêu tả, cùng với một tập từ vựng cho biểu diễn lớp, được xác định bổ sung trong RDFS.

b) OWL (Ontology Web Language)

OWL (The Web Ontology Language) là một ngôn ngữ tiên tiến, gần giống với XML, được thiết kế để mô tả hệ thống tri thức trên web. Đây là một ngôn ngữ markup được sử dụng để phát triển và chia sẻ dữ liệu thơng qua các mơ hình được gọi là "ontology". Một ontology trong OWL diễn giải một lĩnh vực cụ thể, bao gồm các đối tượng trong lĩnh vực đó và các mối quan hệ giữa chúng. OWL mở rộng bộ từ vựng của RDF và dựa trên ngôn ngữ DAML+OIL, được W3C hỗ trợ, để tăng cường khả năng biểu diễn ý nghĩa và quan hệ giữa các thuật ngữ trong từ vựng, nhằm đảm bảo tính tương thích và xử lý dễ dàng bởi phần mềm.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Nhờ vào việc ra đời sau RDFS, OWL không chỉ kế thừa mà còn nâng cao các khả năng của ngôn ngữ này, bằng cách thêm vào các tính năng mới để vượt qua những giới hạn của RDFS. OWL cung cấp một nền tảng mạnh mẽ với khả năng logic hóa thơng tin, phân loại đối tượng, và áp dụng các ràng buộc về loại và số lượng dữ liệu một cách mạnh mẽ, qua đó tăng cường khả năng suy luận và xử lý thông tin.

2.2.3.9 Các công cụ thường sử dụng trong việc hỗ trợ xây dựng Ontology

Trong dự án này, tôi chọn không sử dụng công cụ hỗ trợ ontology sẵn có mà tự phát triển ontology bằng PHP và quản lý nó trên MySQL, cả hai đều tích hợp trên Nextcloud. Quyết định này dựa trên việc tự xây dựng và quản lý ontology là khả thi, ngay cả cho những ontology nhỏ và đơn giản, không yêu cầu giải quyết vấn đề phức tạp. Tôi không áp dụng các công cụ như Protégé hay Sesame, mà tập trung sử dụng PHP và MySQL cho phát triển ontology.

<b>2.3 Phương pháp biểu diễn tài liệu dạng đồ thị keyphrase [3] </b>

<i><b>2.3.1 Tìm hiểu về biểu diễn tài liệu</b></i>

Áp dụng cấu trúc ngữ nghĩa giúp tổ chức thông tin trong tài liệu, biến văn bản không hoặc bán cấu trúc thành dạng có cấu trúc, dễ dàng qua XML hoặc bảng cơ sở dữ liệu. Cấu trúc hóa tài liệu ngữ nghĩa cho phép áp dụng phương pháp phân tích dữ liệu, tìm kiếm và khám phá thơng tin. Mơ hình đồ thị khái niệm, giới thiệu bởi John F.Sowa, làm nổi bật khả năng biểu diễn tài liệu với đỉnh là khái niệm và liên kết ngữ nghĩa, cung cấp cơ sở cho hệ thống truy vấn hiệu quả.

<i><b>2.3.2 Mơ hình biểu diễn tài liệu thành đồ thị keyphrase </b></i>

Ở cấp độ trừu tượng cao, một tài liệu có thể được nhìn nhận như là một bộ sưu tập gồm nhiều khái niệm, thực thể và các mối liên kết giữa chúng. Vì lý do này, có thể mơ tả mỗi tài liệu dưới dạng một đồ thị khái niệm, nơi mà các khái niệm liên kết với nhau thông qua các mối quan hệ ngữ nghĩa dựa trên sự tương đồng về ý nghĩa và cách thức áp dụng. Tiếp theo, một phiên bản được chỉnh sửa của mơ hình

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

đồ thị khái niệm sẽ được trình bày, đóng vai trị như một mơ hình biểu diễn đầy đủ ngữ nghĩa và thích hợp hơn cho việc đại diện các tài liệu.

<b>Định nghĩa: Một đồ thị keyphrase (KG) bao gồm ba phần tử cơ bản (G</b><small>K</small>, E, l) trong đó:

<b>- G<sub>K </sub></b> K đại diện cho một tập hợp có số lượng hữu hạn, không trống các từ khóa, được gọi là tập đỉnh của đồ thị.

<b>- E là một tập hợp hữu hạn của các cặp phần tử trong G</b><sub>K</sub> G<sub>K</sub>, được mô tả là tập cạnh của đồ thị, nơi mỗi cạnh đại diện cho một mối quan hệ ngữ nghĩa giữa hai đỉnh liền kề.

<b>- </b><i><small>l E</small></i><sup>:</sup> <small></small><i><small>RKK</small></i><b> là hàm gán nhãn cho các cạnh trong đồ thị, sao cho: một cạnh e </b>

được gắn nhãn bởi l(e)  R<sub>KK</sub> chỉ ra một quan hệ ngữ nghĩa giữa hai đỉnh từ khóa liền kề với e.

Mơ hình đồ thị keyphrase là một cách biểu diễn tri thức dưới dạng đồ thị, trong đó mỗi nút đại diện cho một keyphrase thuộc lĩnh vực tri thức đang xét và mỗi cạnh được gắn nhãn ngữ nghĩa chỉ ra mối quan hệ giữa các nút keyphrase liên quan. Trong mơ hình đồ thị keyphrase để biểu diễn tài liệu, mỗi nút của đồ thị tương ứng với một keyphrase (được xác định trong ontology) mà tài liệu đề cập, phản ánh nội dung chính của tài liệu. Các cạnh nối giữa nút diễn giải các mối quan hệ ngữ nghĩa giữa chúng, đưa ra cách thức mà các keyphrase tương tác và liên kết với nhau trong bối cảnh của tài liệu.

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Ví dụ:Ta có đồ thi keyphrase như sau:

GK = {Artificial Intelligence, Machine Learning, Algorithms, Computer Science, Deep Learning}

E = { e1 = (Artificial Intelligence, Machine Learning), e2 = (Algorithms, Machine Learning), e3 = (Python, Programming Language), e4 = (Deep Learning, Machine Learning), e5 = (Machine Learning, Artificial Intelligence), e6 = (Deep Learning, Machine Learning), e7 = (Machine Learning, Computer Science) }

I(e1) = Đồng nghĩa, I(e2) = Có Liên Quan, I(e3) = Thuộc Về, I(e4) = một, I(e5) = Phần của, I(e6) = Gần Nghĩa, I(e7) = Mở Rộng

<i><b>Là-2.2.3 Kỹ thuật so khớp </b></i>

Kỹ thuật so khớp đòi hỏi xác định sự tương đồng ngữ nghĩa giữa đồ thị keyphrase, thông qua chỉ số đánh giá mối liên hệ ngữ nghĩa. Để đánh giá này, cần xem xét tương tự ngữ nghĩa giữa keyphrase và mối quan hệ trong đồ thị. Các nghiên cứu đã chỉ ra rằng khoảng cách ngữ nghĩa giữa hai keyphrase phụ thuộc vào mối quan hệ kết nối chúng, với một số mối quan hệ cho thấy sự chênh lệch lớn về ý nghĩa, trong khi những mối quan hệ khác chỉ thể hiện sự khác biệt nhỏ. Kết nối qua mối quan hệ tương đương thường chia sẻ mức độ tương tự ngữ nghĩa cao hơn so với các mối quan hệ khác.

2.3.2.1 Phương pháp đo khoảng cách giữa các keyphrase

Trong bước đánh giá mức độ giống nhau, một phương pháp được đề xuất để xác định trọng số cho các keyphrase liền kề là tính tốn trọng số giữa chúng trong cấu trúc cây Ontology. Điều này giúp cho việc ước lượng khoảng cách giữa các

Machine Learning

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

keyphrase. Dựa vào tài liệu tham khảo số [9], giữa hai keyphrase k1 và k2, trọng số giữa chúng được tính dựa trên một cơng thức cụ thể:

w[k<sub>1</sub> ,k<sub>2</sub> ] =

Trong công thức này, "depth(k)" đại diện cho độ sâu của keyphrase k từ nút gốc đến nút k trong cấu trúc cây phân cấp Ontology, và α là một hằng số lớn hơn 1, thể hiện tỉ lệ giảm giá trị của hàm trọng số w theo độ sâu của cây phân cấp Ontology.

Công thức này phản ánh hai yếu tố chính: đầu tiên, sự khác biệt về ngữ nghĩa ở các cấp độ cao hơn là lớn hơn so với các cấp độ thấp hơn. Thứ hai, khoảng cách giữa hai keyphrase ở cùng một cấp độ sẽ lớn hơn so với khoảng cách giữa hai keyphrase có mối quan hệ cha con. Hơn nữa, trong trường hợp xuất hiện quan hệ đa kế thừa giữa các nút (nghĩa là một nút con k0 có nhiều hơn một nút cha như k1, k2), thì hàm trọng số w cho nút con của k0 sẽ có nhiều giá trị khác nhau, phản ánh đa dạng của quan hệ kế thừa.

<b> Thuật tốn tính khoảng cách giữa 2 keyphrase </b>

<b>Đầu vào: hai keyphrase k</b><small>1</small> và k<sub>2 </sub>

<b>Đầu ra: Khoảng cách ngữ nghĩa giữa k</b><sub>1</sub> và k<sub>2 </sub>Sem_Dis(k<sub>1</sub>, k<sub>2</sub>)

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

// SPath(k<sub>1</sub>,k<sub>2</sub>) là đường đi ngắn nhất giữa k<sub>1</sub> và k<sub>2</sub>Else

Sem_Dis(k<sub>1</sub>, k<sub>2</sub>):= min{Sem_Dis(k<sub>1</sub>, k<sub>0</sub>)} + min{Sem_Dis(k<sub>1</sub>, k<sub>0</sub>)}

 Ánh xạ này duy trì được sự liên kết "quan hệ kề" giữa các đỉnh và các cạnh,

<i>tức là cho mọi r R<sub>H</sub>, g(adj<sub>i</sub>(r)) = adj<sub>i</sub>(f(r)) với 1 i 2. Trong đó, adj</i><sub>i</sub>(r) là đỉnh keyphrase thứ i kề với đỉnh quan hệ r. Nếu hai đỉnh trong H kề nhau thì đỉnh tương ứng trong G cũng vậy..

<i> r R<sub>H</sub>, β(r,f(r)) ≠ 0 </i>

<i> k K<sub>H</sub>, α(k,g(k)) ≠ 0 </i>

<b>Định nghĩa: Định nghĩa: Một mơ hình lượng giá cho việc ánh xạ từ đồ thị H </b>

sang G được xác định như sau, với giá trị trong khoảng [0,1]:

2.3.2.2 Tính tốn độ tương đồng ngữ nghĩa giữa các tài liệu

Có rất nhiều cách để đánh giá mức độ tương đồng hoặc khoảng cách ngữ nghĩa giữa các concept, dựa trên lượng kiến thức mà hệ thống có sẵn để thực hiện các tính tốn này. Các phương pháp được phân thành hai loại tiếp cận chính:

 Hướng tiếp cận sử dụng cơ sở dữ liệu ngơn ngữ, cịn được biết đến dưới tên gọi là cách tiếp cận thiếu tri thức (knowledge-poor)

Σ

<i>α(k,g(k)) + </i>

Σ

<i>β(r,f(r)) </i>

<i><small>r RH</small></i>

<i><small>k KH</small></i>

|K<small>H</small>| + |R<small>H</small>|

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Phương pháp này phân tích mối quan hệ giữa các từ dựa vào sự xuất hiện trong kho ngữ liệu, với giả định rằng từ tương đồng xuất hiện trong ngữ cảnh tương tự. Dựa vào đó, độ tương đồng được ước lượng bằng cách so sánh vector đặc trưng của từ trong ngữ cảnh. Tuy nhiên, phương pháp này có hạn chế như khơng xác định được sự khác biệt ngữ nghĩa cụ thể và không gán nhãn từ loại, dẫn đến kết quả khơng chính xác về sự khác biệt ngữ nghĩa thực sự và mối quan hệ ngữ nghĩa giữa các từ ít được quan tâm..

 Hướng tiếp cận dựa trên ontology, còn gọi là phương pháp giàu tri thức (knowledge-rich)

Phương pháp giàu tri thức sử dụng tri thức ngữ nghĩa được tổ chức trong mạng lưới hoặc đồ thị có hướng để đánh giá độ tương đồng giữa các khái niệm. Phương pháp này tận dụng tài nguyên từ vựng cấu trúc sẵn, cho phép phản ánh mối quan hệ ngữ nghĩa chính xác hơn. Tuy nhiên, nó cũng gặp hạn chế về sự phụ thuộc vào tài ngun thủ cơng có thể thiếu sót hoặc chủ quan, dẫn đến lỗi trong ontology. Dù có hạn chế, phương pháp này vẫn là lựa chọn hiện đại, phù hợp cho biểu diễn và xử lý ngữ nghĩa. Nếu tài nguyên và ontology được xây dựng chính xác và đầy đủ, chúng cải thiện độ chính xác và khả năng thu thập thông tin, với độ đo ngữ nghĩa đơn giản, trực quan.

Ngày nay, phương pháp này được phân loại theo nhiều hướng tiếp cận khác nhau:

 Dựa trên từ điển đơn ngữ

Phương pháp này chuyển đổi một từ điển đơn ngữ thành một mạng lưới bằng cách tạo ra một nút cho mỗi từ ngữ (headword) và kết nối nút này với các nút khác dựa trên sự xuất hiện của chúng trong định nghĩa của nhau. Sự tương đồng giữa các từ được đo lường bằng việc lan tỏa thông tin trên mạng lưới này. Mặc dù phương pháp này không phải lúc nào cũng hiệu quả cao, nhưng nó có thể dễ dàng áp dụng cho hầu hết các ngôn ngữ tự nhiên chỉ với một từ điển đơn ngữ của ngơn ngữ đó.

 Dựa trên mạng phân cấp ngữ nghĩa

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Phương pháp dựa trên mạng phân cấp ngữ nghĩa thường sử dụng WordNet để tổ chức và đánh giá độ tương đồng ngữ nghĩa giữa các khái niệm. WordNet phân loại các từ theo danh từ, động từ, tính từ, và trạng từ vào các nhóm từ đồng nghĩa, kết nối chúng bằng mối quan hệ ngữ nghĩa. Khoảng cách ngữ nghĩa giữa các khái niệm trong WordNet thường được đo bằng số bước trên con đường ngắn nhất giữa hai khái niệm. Phương pháp này cung cấp một khuôn khổ chi tiết và có cơ sở hơn so với các tiếp cận khác để phân tích và so sánh sự tương đồng ngữ nghĩa, mang lại hiệu quả cao trong việc đánh giá độ tương đồng ngữ nghĩa:

Công thức đơn giảng nhất là

<i>sim</i>  , trong đó dist(c<sub>1</sub>,c<sub>2</sub>) là số nút trên đường nối ngắn nhất giữa hai khái niệm c1 và c2. Trong trường hợp không tồn tại đường nối giữa hai khái niệm đó, độ đo sẽ khơng được xác định. Một hạn chế của phương pháp này là việc không phản ánh đúng mức độ khác biệt ngữ nghĩa thực sự giữa các liên kết trong WordNet. Cụ thể, trong WordNet, một số liên kết giữa các synset (nhóm từ đồng nghĩa) có thể biểu thị một khoảng cách ngữ nghĩa lớn, trong khi những liên kết khác chỉ thể hiện sự khác biệt ngữ nghĩa nhỏ. Nói chung, các liên kết ở mức độ cao hơn trong cấu trúc phân cấp (gần với nút gốc) thường biểu hiện khoảng cách ngữ nghĩa lớn hơn so với những liên kết ở mức thấp hơn.

Ví dụ, trong một mạng phân cấp, khoảng cách ngữ nghĩa giữa synset chứa các từ {object, physical object} và synset {land, dry land, earth} được xem là lớn hơn so với khoảng cách ngữ nghĩa giữa {land, dry land, earth} và {island}. Điều này phản ánh sự thật rằng, càng lên cao trong cấu trúc phân cấp, sự chênh lệch ngữ nghĩa càng lớn do các khái niệm trở nên tổng quát và rộng hơn, trong khi ở mức độ thấp hơn, các khái niệm cụ thể hơn và có liên quan mật thiết với nhau hơn.

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

<b>Hình 2.2: Ví dụ mạng phân cấp trong WordNet [3] </b>

 Hướng tiếp cận lai ghép

Hướng tiếp cận lai ghép kết hợp đặc điểm của cả hai phương pháp: dựa trên kho ngữ liệu và dựa trên ontology, để xác định khoảng cách ngữ nghĩa giữa các khái niệm. Sử dụng cấu trúc từ vựng từ ontology và dữ liệu thống kê từ kho ngữ liệu, phương pháp này áp dụng "lượng tin" từ lý thuyết thông tin, nhằm khắc phục hạn chế của từng phương pháp riêng biệt. Các nhà nghiên cứu như Resnik, Jiang và Conrath, Lin đã phát triển hướng tiếp cận này, cho phép tính tốn khoảng cách ngữ nghĩa linh hoạt và chính xác hơn, phản ánh sự phức tạp của ngôn ngữ tự nhiên và cách con người sử dụng ngôn ngữ. Hướng tiếp cận lai ghép mở ra hướng giải quyết mới cho thách thức xác định khoảng cách ngữ nghĩa chính xác, giảm thiểu thiếu sót của mỗi phương pháp độc lập.

<b>2.4 Giới thiệu về nền tảng Nextcloud </b>

<i><b>2.4.1 Giới thiệu chung </b></i>

Nextcloud là một nền tảng máy khách-máy chủ để tạo dịch vụ lưu trữ tệp và sử dụng chúng. Về mặt chức năng rất giống với nhiều với Google Suite và Dropbox, với sự khác biệt về chức năng chính là Nextcloud miễn phí và là mã nguồn mở, do đó cho phép bất kỳ ai cũng có thể cài đặt và vận hành nó miễn phí trên máy chủ riêng. Trái ngược với các dịch vụ độc quyền như Google Drive,

{person} C<small>1 </small>

C<small>2 </small>

LBS (C<sub>1,</sub> C<sub>2</sub>)

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Dropbox, kiến trúc và mã nguồn mở cho phép thay đổi, thêm chức năng bổ sung vào nền tảng này.

<b>Hình 2.3: Logo Nextcloud</b>

<i><b>2.4.2 Tính năng và ứng dụng </b></i>

Nextcloud, một nền tảng lưu trữ và làm việc cộng tác dựa trên đám mây nguồn mở, đáp ứng nhu cầu đa dạng của người dùng bằng việc cung cấp loạt tính năng phong phú và linh hoạt. Tính đa năng và khả năng tùy chỉnh cao của Nextcloud giúp nó trở nên phổ biến không chỉ trong giới doanh nghiệp mà còn với cộng đồng giáo dục, đặc biệt là sinh viên công nghệ thông tin. Dưới đây là một số tính năng chính và ứng dụng của Nextcloud:

 Đồng bộ hóa và chia sẻ File: Tính năng cốt lõi của Nextcloud là cho phép người dùng đồng bộ hóa dữ liệu giữa các thiết bị và chia sẻ chúng một cách an tồn. Sinh viên có thể dễ dàng truy cập tài liệu học tập, dự án, và phần mềm từ bất kỳ đâu, trên bất kỳ thiết bị nào có kết nối internet, đồng thời chia sẻ nhanh chóng với bạn bè đồng nghiệp và giáo viên.

 Quản lý Lịch và Cơng việc: Nextcloud tích hợp công cụ quản lý lịch, giúp sinh viên dễ dàng sắp xếp lịch học, thời gian biểu cho các dự án nhóm, và các cuộc họp trực tuyến. Tính năng này hỗ trợ sinh viên quản lý thời gian một cách hiệu quả, từ đó nâng cao hiệu suất học tập và làm việc.

 Gọi trực tiếp Video Call: Với Nextcloud Talk, nền tảng hỗ trợ việc tổ chức video call, chat nhóm, và giao tiếp trực tiếp, sinh viên có thể thảo luận và làm việc nhóm một cách linh hoạt, khơng bị giới hạn bởi không gian. Điều này cực kỳ quan trọng trong môi trường giáo dục hiện đại, nơi mà học tập từ xa và hợp tác trực tuyến ngày càng trở nên phổ biến.

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

 An Toàn và Bảo mật: Nextcloud đặt ưu tiên hàng đầu vào việc bảo vệ dữ liệu của người dùng. Tính năng mã hóa dữ liệu, quản lý quyền truy cập, và các công cụ bảo mật khác đảm bảo thông tin cá nhân và tài liệu học tập của sinh viên được bảo vệ một cách nghiêm ngặt.

 Khả năng mở rộng và tích hợp: Khả năng mở rộng của Nextcloud thông qua các ứng dụng và plugin cho phép sinh viên tùy chỉnh nền tảng theo nhu cầu cá nhân hoặc nhóm. Từ ứng dụng chỉnh sửa trực tiếp tài liệu Office trực tuyến đến công cụ quản lý dự án và theo dõi thời gian, Nextcloud cung cấp một loạt công cụ để hỗ trợ học tập và nghiên cứu.

 Tự quản lý và Tùy chỉnh: Một trong những điểm mạnh lớn nhất của Nextcloud là khả năng tự quản lý. Sinh viên và các tổ chức giáo dục có thể tự cài đặt và quản lý nền tảng của mình trên server riêng, tùy chỉnh tính năng theo yêu cầu, đảm bảo sự linh hoạt và độc lập cao nhất.

<i><b>2.4.3 Lợi ích cho Sinh viên CNTT </b></i>

Nextcloud, với tính linh hoạt và bảo mật cao, đem lại cho sinh viên cơng nghệ thơng tin một loạt lợi ích thiết thực, từ việc quản lý dữ liệu cá nhân đến hợp tác và làm việc nhóm. Dưới đây là những lợi ích chính mà Nextcloud mang lại cho sinh viên trong lĩnh vực công nghệ thông tin:

 Tăng cường khả năng quản lý dữ liệu: Sinh viên CNTT thường xuyên phải làm việc với lượng lớn dữ liệu, từ mã nguồn, tài liệu dự án đến dữ liệu nghiên cứu. Nextcloud cung cấp một giải pháp lưu trữ trực tuyến, giúp họ tổ chức và truy cập dữ liệu mọi lúc, mọi nơi mà không lo sợ mất mát do lỗi phần cứng.

 Hỗ trợ làm việc nhóm và hợp tác: Đối với các dự án nhóm, Nextcloud là công cụ không thể thiếu, cho phép các sinh viên dễ dàng chia sẻ tài liệu, lập lịch trình cơng việc, và thảo luận trực tuyến. Tính năng chỉnh sửa tài liệu trực tuyến cùng lúc giúp tăng hiệu quả hợp tác, đồng thời tiết kiệm thời gian và nâng cao chất lượng công việc.

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

 Bảo mật và quyền riêng tư dữ liệu: Trong ngành CNTT, bảo mật là một yếu tố quan trọng. Nextcloud cung cấp các tính năng bảo mật tiên tiến như mã hóa dữ liệu cuối-cuối, xác thực hai yếu tố, và kiểm soát quyền truy cập dữ liệu. Điều này đảm bảo rằng dữ liệu cá nhân và dự án của sinh viên được bảo vệ một cách an tồn nhất.

 Tự do phần mềm và tính mở: Với cộng đồng mã nguồn mở mạnh mẽ, Nextcloud không chỉ cho phép sinh viên sử dụng phần mềm miễn phí mà cịn cung cấp cơ hội để họ học hỏi, thử nghiệm và phát triển kỹ năng lập trình của mình thơng qua việc đóng góp vào dự án. Đây là một phần quan trọng trong việc đào tạo và phát triển kỹ năng cho sinh viên CNTT.

<b>Kết luận chương </b>

Trong chương này, chúng ta đã xem xét sâu rộng về công nghệ Web Ngữ Nghĩa, Ontology và nhấn mạnh đặc biệt vào nền tảng Nextcloud, một giải pháp đám mây linh hoạt và mạnh mẽ. Từ khả năng đồng bộ hóa và chia sẻ dữ liệu đến quản lý lịch và nhiệm vụ, Nextcloud cung cấp một loạt công cụ hỗ trợ sinh viên công nghệ thông tin trong việc quản lý và tương tác với kho tài liệu học tập cá nhân.

Xây dựng các động cơ suy diễn và tìm kiếm dựa trên Nextcloud cho phép sinh viên không chỉ lưu trữ và truy cập tài liệu một cách thuận tiện mà cịn tận dụng khả năng phân tích, suy diễn để tìm kiếm thơng tin một cách hiệu quả. Sự tích hợp của công nghệ Web Ngữ Nghĩa trong Nextcloud mở ra khả năng phát triển các cơng cụ tìm kiếm thơng minh, giúp sinh viên nhanh chóng tìm kiếm và lọc ra thơng tin chính xác và có giá trị từ một lượng lớn dữ liệu.

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

<b>CHƯƠNG 3: THIẾT KẾ </b>

<b>Giới thiệu chương </b>

Chương này tập trung vào việc áp dụng mơ hình giải pháp dựa trên những nghiên cứu từ Chương 2, nhằm tổ chức và lưu trữ dữ liệu theo ngữ nghĩa, sử dụng ontology để biểu diễn,xử lý tri thức và dựa nên những tính năng có sẵn của nền tảng Nextcloud để phát triển một tính năng tìm kiếm theo ngữ nghĩa hiệu quả cho sinh viên ngành CNTT, qua việc phát triển ontology, tính năng tìm kiếm theo ngữ nghĩa, phát triển giải pháp xử lý truy vấn, và thuật toán đánh giá độ tương đồng ngữ nghĩa, nhằm tối ưu hóa kết quả tìm kiếm. Keyphrase giúp giảm sự phức tạp và tăng chính xác trong truy vấn thơng tin, mang lại lợi ích đáng kể cho q trình tìm kiếm.

<b>Nội dung chương </b>

<b>3.1 </b>

<b>Xây dựng Ontology cho lĩnh vực Công nghệ thông tin </b>

<i><b>3.1.1 Mô hình ontology cho ngữ nghĩa tài liệu </b></i>

Nghiên cứu được trích từ tài liệu số [3] giới thiệu mơ hình CK_ONTO, viết tắt cho "Ontology dựa trên việc phân loại keyphrase", bao gồm tổng cộng sáu phần tử. Tuy nhiên, do bộ dữ liệu sử dụng trong nghiên cứu này không chứa cấu trúc phân cấp rõ ràng, phần tử gán nhãn đã được bỏ qua. Điều này dẫn đến việc mơ hình

<b>chỉ cịn bao gồm năm phần tử chính là: (K, C, R<small>KC</small>, R<sub>CC</sub>, R<sub>KK</sub>) mỗi phần tử đều có </b>

vai trị và mô tả cụ thể như sau:

<b>1) Một tập hợp K các keyphrase </b>

Keyphrase đóng vai trị trung tâm trong việc xác định các khái niệm trong ontology, đồng thời, keyphrase cũng được hiểu như là một phần của ngơn ngữ học, có thể là một từ đơn, cụm từ, hoặc một cụm ngữ. Trong bối cảnh này, "keyphrase" được sử dụng để chỉ đồng thời hai ý nghĩa trên. Trong ngành công nghệ thông tin, keyphrase thường là những thuật ngữ chuyên môn hoặc từ vựng biểu diễn các khái niệm cụ thể trong lĩnh vực, và chủ yếu được áp dụng để mô tả sự xuất hiện của tài

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

liệu trong lĩnh vực công nghệ thông tin.

<b>2) Một tập hợp C các lớp keyphrase </b>

Mỗi lớp keyphrase c ∈ C đều tập hợp những keyphrase liên quan dựa trên một đặc tính hoặc ý nghĩa nhất định. Những nhóm này có thể bao gồm keyphrase, các nhóm khác, hoặc sự kết hợp của cả hai. Do đó, một nhóm có khả năng chứa đựng nhiều nhóm con hoặc được tích hợp vào nhóm khác, từ đó tạo nên một cấu trúc phân cấp giữa nhóm mẹ và nhóm con. Các nhóm này có thể có nhiều nhóm mẹ. Đối với tài liệu liên quan đến ngành CNTT, mỗi keyphrase được xác định thuộc về một nhóm duy nhất. Sự phân nhóm keyphrase theo ngữ nghĩa được chia thành nhiều tầng, tăng dần theo độ cụ thể của khái niệm. Việc tạo ra một hệ thống phân lớp chất lượng cao là quan trọng nhưng không hề đơn giản; khơng có một phương pháp duy nhất để xác định các nhóm. Trong khn khổ của nghiên cứu này, việc phân loại keyphrase vào những nhóm chủ đề phù hợp dựa trên ý nghĩa của chúng được thực hiện một cách thủ công, sử dụng các kỹ thuật điều khiển thủ công và dưới sự giám sát cùng với ý kiến từ các chuyên gia tri thức trong lĩnh vực đang được khảo sát.

<b>Hình 3.1: Khơng gian các keyphrase [3] </b>

Do đó, chúng ta định nghĩa C = {c  P(K) | c đại diện cho một lớp từ khóa mơ tả các chủ đề hoặc lĩnh vực con}.

<b>Ví dụ: lớp Danh_mục, bao gồm các từ khóa liên quan đến các loại tài liệu </b>

<b>như: Danh_mục = {Algorithms, Database, Computer Networks, ...}, bên trong </b>

<b>này lại chứa các lớp nhỏ hơn như SQL, Sorting và nhiều hơn nữa... </b>

Sức mạnh chính của ontology được thể hiện qua khả năng mô tả các mối

</div>

×