Tải bản đầy đủ (.pdf) (13 trang)

ỨNG DỤNG WEB NGỮ NGHĨA ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN VIỆC LÀM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 13 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

KHOA CÔNG NGHỆ THÔNG TIN

LÊ HỒNG DANH – 16C12005

ĐỒ ÁN MÔN HỌC

GVHD: TS. PHẠM NGUYỄN CƯƠNG

TP.HCM – 07/2017
0


MỤC LỤC
CHƯƠNG 1. MỞ ĐẦU ................................................................................................. 2
1.1. Lý do chọn đề tài ...................................................................................................2
1.2. Mơ tả bài tốn........................................................................................................2
CHƯƠNG 2. CƠNG CỤ XÂY DỰNG WEB NGỮ NGHĨA ..................................... 3
2.1. Mơ hình cơ sở dữ liệu ...........................................................................................3
2.2. Xây dựng ontology bằng công cụ Protege ............................................................3
2.2.1. Tạo các lớp chính trong ontology tư vấn việc làm .........................................4
2.2.2. Tạo thuộc tính cho lớp ....................................................................................5
2.2.3. Tạo mối quan hệ cho các lớp ..........................................................................6
2.2.4. Tạo thể hiện cho lớp .......................................................................................7
2.2.5. Tạo thể hiện cho các thuộc tính ......................................................................7
2.3. Sử dụng công cụ D2RQ để mapping cơ sỡ dữ liệu quan hệ. ................................8
CHƯƠNG 3. PUBLISH DỮ LIỆU TRONG ĐỊNH DẠNG NGỮ NGHĨA RDF .. 10
3.1. Sử dụng công cụ protégé xuất file định dạng RDF .............................................10
3.2. Sử dụng công cụ D2RQ để xuất file RDF và sử dụng D2R Server để publish dữ


liệu trong định dạng web ngữ nghĩa. ..........................................................................11
CHƯƠNG 4. KẾT LUẬN ........................................................................................... 12

1


CHƯƠNG 1. MỞ ĐẦU
1.1. Lý do chọn đề tài
Web 2.0 đã đạt được những thành tựu rất đáng kể trong việc nâng cao tính tương tác
cũng như đẩy nhanh tốc độ xử lý đáp ứng yêu cầu của người dùng. Tuy nhiên trong xã
hội thông tin đương đại nhu cầu của người dùng không dừng lại ở việc cải thiện tốc độ
mà còn phải cải thiện chất lượng xử lý của trang web theo yêu cầu ngày càng nâng cao.
Web 3.0 (Web Semantic) ra đời nhằm đáp ứng những yêu cầu về chất lượng đó.
Với đặc điểm chính là nâng cao khả năng chia sẻ tài nguyên và tăng “sự hiểu biết” trong
quá trình xử lý dữ liệu của máy tính. Web Semantic đã đi sâu vào phân tích và định
hướng dữ liệu, đồng thời hỗ trợ phát triển ứng dụng Web Semantic trên nhiều lĩnh vực
khác nhau. Một trong những lĩnh vực thế mạnh của Web Semantic là xử lý và tìm kiếm
thơng tin. Việc phân tích và định hướng nội dung lưu trữ cho phép chúng ta xây dựng
những cơ sở dữ liệu phục vụ tìm kiếm chính xác hơn, tinh gọn hơn.
Theo tổng cục thống kê, tỉ lệ thất nghiệp của lao động Việc Nam có tỉ lệ tương đối cao.
Mặt dù, có rất nhiều doanh nghiệp trong nước và nước ngồi đang có nhu cầu tuyển
dụng rất nhiều. Câu hỏi đặt ra là làm sao để những thơng tin việc làm đó đến với người
lao động được nhanh nhất và chính xác, người đi tìm việc không cần phải mất công với
các thông tin việc làm khơng phù hợp. Đó là điều trăn trở của người tìm việc làm cũng
như các cơng ty, doanh nghiệp tuyển dụng.
1.2. Mơ tả bài tốn
Tìm kiếm việc làm ln là hệ thống luôn được đánh giá là rất quan trọng cho người lao
động. Hiện nay, có rất nhiều hệ thống hỗ trợ cho người tìm việc nhưng hiệu quả của nó
mang lại cũng chưa cao. Dựa vào thực tế đó, ta nghiên cứu về web ngữ nghĩa và xây
dựng một hệ thống tư vấn việc làm cho người lao động.

Rất nhiều dữ liệu có giá trị hiện tại nằm trong cơ sở dữ liệu quan hệ. Chúng chiếm hầu
hết các trang web tư vấn việc làm và do đó cũng là nguồn dữ liệu tự nhiên cho Web ngữ
nghĩa. Trong cài đặt doanh nghiệp, tích hợp các cơ sở dữ liệu việc làm khác nhau thường
là một động lực để áp dụng RDF. Do đó, làm cho các cơ sở dữ liệu quan hệ có thể tiếp
cận các hệ thống dựa trên RDF là một vấn đề quan trọng.
2


Hệ thống có thể cho ta nhập thơng tin cá nhân cần thiết để có thể tư vấn các cơng việc
phù hợp với năng lực hiện tại của họ và đồng thời đưa ra các thông tin tư vấn liên quan
đến cơng ty có nhu cầu tuyển dụng việc làm đó. Ngồi ra ứng dụng cịn cho phép chúng
tìm và nhập các từ khóa liên quan đến ngành nghề và cơng việc bằng từ các từ khóa.
CHƯƠNG 2. CƠNG CỤ XÂY DỰNG WEB NGỮ NGHĨA
Trong phần này, tôi sử dụng cơng cụ Protege để xây dựng ontology cho bài tốn và cơng
cụ D2RQ cung cấp một mơi trường tích hợp với nhiều tùy chọn để truy cập dữ liệu quan
hệ bao gồm cả "RDF dumps" truy cập dựa trên HTML và SPARQL với D2RQ Server.
Các ánh xạ có thể được xác định bởi người dùng, do đó cho phép kết hợp ngữ nghĩa
miền trong q trình ánh xạ.
2.1. Mơ hình cơ sở dữ liệu

Hình 1.Mơ hình cơ sở dữ liệu của bài tốn

2.2. Xây dựng ontology bằng cơng cụ Protege
Vấn đề xây dựng ontology trương tự như cách người dùng nhập dữ liệu vào cơ sở dữ
liệu. Ở đây, tất cả các dữ liệu và cấu trúc phân tách nó sẽ được khai báo thông qua các
công cụ. Các đối tượng chính của ontology như class, properties, individuals sẽ được
xem xét và điền đầy đủ thông tin một cách càng cụ thể thì khả năng khai thác về sau sẽ
càng thuận tiện.
3



Tải và cài đặt công cụ Protégé 4.3 để xây dựng ontology cho hệ thống tư vấn việc làm.

Hình 2. Thơng tin đường dẫn tải bộ cơng cụ protégé

Hình 3. Giao diện của protégé

2.2.1. Tạo các lớp chính trong ontology tư vấn việc làm
Trong hệ thống có các lớp chính như sau: Ta sẽ vào tab Class hierarchy để thêm các
class.
4


 CongTy : Công ty
 CongViec : Công việc
 LoaiLD : Loại lao động
 YeuCauLD : Yêu cầu lao động
 ChiTietYCLD : Chi tiết yêu cầu lao động
Xem hình bên dưới:

Hính 3. Các lớp chính trong ontology
2.2.2. Tạo thuộc tính cho lớp
Các thuộc tính thể hiện mối quan hệ giữa các lớp, đối tượng dữ liệu với nhau hoặc quan
hệ với dữ liệu. Ta sẽ vào tab Data property hierarchy để thêm các thuộc tính cho class.
Domains (intersection) chọn lớp mà chứa thuộc tính đó, Ranges là kiểu giá trị của thuộc
tính.
 Tạo thuộc tính cho lớp cơng ty:

5



Hình 4. Tạo thuộc tính cho lớp

Trong đó: phải thêm vào đủ thuộc tính của lớp CongTy(MaCT, TenCT, Email, DiaChi)
 Tương tự tạo thuộc tính cho lớp cơng việc có 3 thuộc tính MaCV, TenCV,
MucLuong.
 Lớp YeuCauLD có 4 thuộc tính MaPhieuYC, NgayDKLD, LinhVucHD, MaCT.
 Lớp ChiTietYCLD có 3 thuộc tinh MaPhieuYC, MaLoaiLD, SoLuong.
 Lớp LoaiLD có 5 thuộc tính MaLoaiLD, TrinhDo, Chuyenmon, NgoaiNgu,
MaCV.
2.2.3. Tạo mối quan hệ cho các lớp
Chúng ta sẽ vào tab Object Properties tạo mối quan hệ giữa các lớp lại với nhau.
Trong phần topObjectProperty thêm mới nếu có mối quan hệ với các lớp khác nhau.
Trong Domains (intersection) chọn tên lớp cần quan hệ, và bắt buộc phải vào Inverse
of tạo một tên khác chọn lớp quan hệ.

Hình 5. Tạo mối quan hệ giữa các lớp
6


2.2.4. Tạo thể hiện cho lớp
Truy cập vào tab Individuals để tạo các thể hiện của lớp.

Hình 6. Các thể hiện của lớp



Lớp CongTy có 5 thể hiện : Cơng_ty_1, Công_ty_2, Công_ty_3, Công_ty_4,
Công_ty_5. Tương tự vậy, tất cả các lớp đều có 5 thể hiện. Số thể hiện này tùy thuộc
vào dữ liệu của mỗi lớp.


2.2.5. Tạo thể hiện cho các thuộc tính
Truy cập vào Data property assertions để tạo các thể hiện tương ứng với từng dịng dữ
liệu.

Hình 7. Thuộc tính 1 thể hiện của lớp Cơng ty

Sau khi hồn tất ta đã có một ontology về việc làm như sau: ta có thể xem trực tiếp trong
Protégé ở tab OntoGraf

7


Hình 8. Ontology vừa được tạo trong protégé

Hình 9. Mơ hình Ontology vừa được tạo xem trực tuyến

2.3. Sử dụng công cụ D2RQ để mapping cơ sỡ dữ liệu quan hệ.
Truy cập vào trang web và download d2rq-08.1.zip hoặc d2rq0.8.1.tar.gz để download công cụ D2RQ.

8


Hình 10. Link download D2RQ

Download XAMP và cài đặt để tạo máy chủ web server trên đó được tích hợp sẵn
Apache, PHP, MySQL, FTP Server, Mail Server và các công cụ như phpMyAdmin.

Hình 11. Sử dụng XAMP để làm web server


Sử dụng cơ sở dữ liệu đã có của hệ thống tư vấn việc làm đang chạy, tùy theo cơ sở dữ
liệu đang chạy trên hệ cơ sở dữ liệu nào sẽ có driver phù hợp. Cách sử dụng cơng cụ
D2RQ như sau:
Giải nén file d2rq-08.1.zip và chạy command line trỏ tới thư mục giải nén d2rq

9


Hình 12. Màn hình command line trỏ tới thư mục giải nén d2rq

Mapping tất cả các table trong database việc làm sử dụng câu lệnh như sau
generate-mapping -u root -o vieclam.ttl jdbc:mysql://localhost/vieclam
Trong đó:
-

root là tài khoản kết nối vào database;

-

vieclam.ttl là file mapping được tạo ra từ cơ sở dữ liệu quan hệ

-

jdbc:mysql://localhost là driver của mysql

-

vieclam là tên cơ sở dữ liệu quan hệ

Như vậy ta đã map được tất cả dữ liệu mà không cần phải tạo ontology mà vẫn sữ dụng

được web ngữ nghĩa cho trường hợp này. Ở đây, có thể mapping theo ý muốn của mình,
chia sẽ cột nào hoặc bảng nào tùy vào cấu hình của câu lệnh trong D2RQ.
CHƯƠNG 3. PUBLISH DỮ LIỆU TRONG ĐỊNH DẠNG NGỮ NGHĨA RDF
3.1. Sử dụng công cụ protégé xuất file định dạng RDF
Khi sử dụng công cụ protégé mình có thể publish dữ liệu trong định dạng ngữ nghĩa
RDF. Từ giao diện protégé chọn filesave hoặc save as sau đó một hộp thoại sẽ hiện
ra để lựa chọn đinh dạng ngữ nghĩa, chúng ta sẽ chọn định dạng RDF/XML và chọn
đường dẫn để lưu file.

10


Hình 13. Giao diện xuất file dịnh dạng RDF của protégé

3.2. Sử dụng công cụ D2RQ để xuất file RDF và sử dụng D2R Server để publish dữ
liệu trong định dạng web ngữ nghĩa.
Sử dụng câu lệnh để xuất bản ra file định dạng RDF trong D2RQ như sau:
dump-rdf -f RDF/XML-ABBREV -b http://localhost:2020/ -o vieclam.rdf vieclam.ttl
Trong đó:
-

RDF/XML-ABBREV là định dạng RDF cần xuất
vieclam.rdf là file RDF cần tạo
vieclam.ttl là file mà xuất bản theo định dạng của D2RQ

Khi muốn publish trực tiếp dữ liệu cơ sở quan hệ không cần phải xuất file RDF, người
dùng thay đổi dữ liệu trên cơ sở dữ liệu quan hệ tự động publish. Bằng cách sử dụng
D2R Server như sau:
d2r-server --port 1988 -u root jdbc:mysql://localhost/vieclam
Trong đó:

-

1988 là port web server sẽ chạy

-

Root là tài khoản kết nối tới cơ sở dữ liệu quan hệ

-

jdbc:mysql://localhost là drive mysql

-

vieclam là database

11


Hình 14. Cơ sở dữ liệu quan hệ được public bởi D2R Server

Hình 15. Giao diện sử dụng ngơn ngử truy vấn SPARQL

CHƯƠNG 4. KẾT LUẬN
Qua đồ án này tôi đã nghiên cứu và trình bày những vấn đề then chốt trong lĩnh vực web
ngữ nghĩa, trong đó đi sâu vào vấn đề quan trọng là tạo ontology và RDF, nó cung cấp
một hệ thống mã hóa đơn giản và nhất quán hỗ trợ người sử dụng tìm kiếm và truy hồi
thông tin một cách hiệu quả. Tuy nhiên, đồ án vẫn cịn đang dở dang khi chưa hồn
thành giai đoạn cuối là viết một giao diện hoàn chỉnh để người dùng tìm kiếm trực quan
hơn.

Trong thời gian tới, để hồn thiện ứng dụng mà tơi đã phát triển, sẽ xây dựng một
ontology hồn chỉnh hơn về tìm kiếm việc làm, nhằm giúp cho người tìm việc tìm kiếm
được cơng việc phù hợp với bản thân. Tương lại sẽ tích hợp tích hợp tất cả các ontology
lại với nhau để mở rộng và có thể tận dụng hết được ưu điểm của cơng nghệ tìm kiếm
trên web ngữ nghĩa.
12



×