Tải bản đầy đủ (.pdf) (78 trang)

HỆ hỗ TRỢ VIỆC tư vấn TUYỂN SINH tại TRƯỜNG CAO ĐẲNG NGHỀ TỈNH bà rịa – VŨNG tàu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.08 MB, 78 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


TRẦN LỆ THỦY

HỆ HỖ TRỢ VIỆC TƯ VẤN TUYỂN SINH TẠI
TRƯỜNG CAO ĐẲNG NGHỀ TỈNH BÀ RỊA – VŨNG TÀU

LUẬN VĂN THẠC SĨ
NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

TP HỒ CHÍ MINH – NĂM 2017


ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


TRẦN LỆ THỦY

HỆ HỖ TRỢ VIỆC TƯ VẤN TUYỂN SINH TẠI
TRƯỜNG CAO ĐẲNG NGHỀ TỈNH BÀ RỊA – VŨNG TÀU
LUẬN VĂN THẠC SĨ
NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. ĐỖ VĂN NHƠN

TP HỒ CHÍ MINH – NĂM 2017




3


Lời cảm ơn

LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất đến PGS.TS Đỗ Văn
Nhơn, người thầy đã tận tình hướng dẫn và có những lời khuyên, những đóng góp
rất quý báu, giúp cho tôi định hướng và hoàn thành được luận văn.
Tôi xin chân thành cảm ơn quý thầy cô trường Đại học Công nghệ thông tin đã
chỉ dạy cho tôi nhiều kiến thức bổ ích trong suốt thời gian học tập tại trường.
Cho tôi được gửi lòng biết ơn trân trọng đến những người lãnh đạo cơ quan, đã
tạo điều kiện thuận lợi để tôi công tác và học tập.
Xin cảm ơn tất cả bạn bè đã động viên, giúp đỡ và đóng góp cho tôi nhiều ý
kiến quý báu, qua đó giúp tôi hoàn thiện đề tài này.
Và cuối cùng, tôi cũng không quên gửi lời cảm ơn đến tác giả của các báo cáo
nghiên cứu khoa học mà tôi đã tham khảo và tìm hiểu cho đề tài.
Luận văn đã hoàn thành với một số kết quả nhất định tuy nhiên vẫn không tránh
khỏi thiếu sót.
Kính mong sự cảm thông và đóng góp ý kiến từ quý thầy cô và các bạn.
Một lần nữa tôi xin chân thành cảm ơn!

Tp. Hồ Chí Minh, ngày 28 tháng 11 năm 2017
Học viên thực hiện

Trần Lệ Thuỷ

i



Lời cam đoan

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của tôi, các kết quả đưa ra trong
luận văn có được qua quá trình nghiên cứu của tôi dưới sự hướng dẫn của giảng
viên hướng dẫn- Thầy PGS-TS Đỗ Văn Nhơn.
Nội dung của luận văn có tham khảo và sử dụng một số thông tin, tài liệu từ các
nguồn sách, các bài báo-tạp chí khoa học, các nghiên cứu, các website được liệt kê
trong danh mục các tài liệu tham khảo

Tp. Hồ Chí Minh, ngày 28 tháng 11 năm 2017
Người cam đoan

Trần Lệ Thuỷ

i


Mục lục

MỤC LỤC
LỜI CẢM ƠN ............................................................................................................. i
LỜI CAM ĐOAN ....................................................................................................... i
DANH MỤC HÌNH VẼ, ĐỒ THỊ .............................................................................. i
DANH MỤC BẢNG ................................................................................................... i
MỞ ĐẦU .....................................................................................................................1
CHƯƠNG 1. TỔNG QUAN .......................................................................................4

1.1. Tình hình nghiên cứu và ứng dụng liên quan: .................................................4
1.2. Mục tiêu đề tài .................................................................................................4
1.3. Đối tượng và phạm vi nghiên cứu ...................................................................9
1.4. Phương pháp nghiên cứu. ..............................................................................10
1.5. Ý nghĩa của đề tài ..........................................................................................10
1.6. Bố cục của đề tài ............................................................................................11
Chương 2 - CƠ SỞ LÝ THUYẾT ............................................................................12
2.1. Giới thiệu chung về hệ thống tìm kiếm thông tin ..........................................12
2.1.1. Khái niệm về tìm kiếm thông tin ............................................................ 12
2.1.2. Cấu trúc của một hệ thống truy tìm thông tin ........................................ 12
2.2. Các mô hình và phương pháp tìm kiếm thông tin .........................................16
2.2.1. Truy hồi thông tin theo hướng thống kê ................................................. 16
2.2.1.1. Mô hình Boolean .............................................................................17
2.2.1.2. Mô hình Boolean cải tiến (Advanced Boolean Model ) .................17
2.2.1.3. Mô hình không gian Vector(Vector Space Model) ........................18
2.2.1.4. Latent Semantic Indexing - LSI ......................................................21
2.2.2. Hệ thống tìm kiếm thông tin dựa trên khái niệm ................................... 22
2.2.3. Đánh giá một hệ thống tìm kiếm thông tin ............................................. 24
2.3. Ontology ........................................................................................................25
2.3.1.Định nghĩa....................................................................................................25
2.3.2. Các thành phần của ontology ................................................................. 25
2.3.3. Phân loại ontology .................................................................................. 26
i


Mục lục

2.3.4. Vai trò của Ontology .............................................................................. 26
2.3.5. Các ứng dụng dựa trên Ontology ........................................................... 27
2.4. Thư viện hỗ trợ tìm kiếm văn bản Lucene.....................................................27

CHƯƠNG 3 - PHÂN TÍCH, THIÊT KẾ HỆ THỐNG............................................31
3.1. Các chức năng của hệ thống ..........................................................................31
3.1.1 Mục tiêu ứng dụng................................................................................... 31
3.1.2. Chức năng của hệ thống ......................................................................... 31
3.2. Kiến trúc tổng quan của hệ hống ...................................................................34
3.3. Mô hình cơ sở dữ liệu phục vụ việc lưu trữ .................................................35
3.4. Thiết kế xử lý .................................................................................................43
3.4.1. Chức năng tìm kiếm theo câu hỏi ........................................................... 43
3.4.2. Chức năng tìm kiếm theo từ khóa .......................................................... 46
3.4.2. Chức năng tìm kiếm theo chủ đề ............................................................ 47
CHƯƠNG 4. CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ ......................................49
4.1. Cài đặt hệ thống .............................................................................................49
4.1.1. Nền tảng công nghệ ................................................................................ 49
4.1.2. Giao diện chương trình ........................................................................... 49
4.2. Dữ liệu và kết quả thử nghiệm.......................................................................55
4.3. Đánh giá: ........................................................................................................64
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................65
5.1. Kết quả đạt được của luận văn ......................................................................65
5. 2. Hạn chế và hướng phát triển .........................................................................65

ii


Danh mục hình vẽ, đồ thị

DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1. 1: Tổng quan về chương trình hỗ trợ tư vấn tuyển sinh .................................7
Hình 2. 1: Kiến trúc tổng quan của hệ hống tìm kiếm thông tin ...............................13
Hình 2. 2: Quy trình đánh chỉ mục ............................................................................15
Hình 3. 1: Các chức năng chính của chương trình ....................................................31

Hình 3. 2: Biểu đồ Usecase của tác nhân Người quản lý ..........................................33
Hình 3. 3: Biểu đồ Usecase của tác nhân Người sử dụng .........................................34
Hình 3. 4: Kiến trúc tổng quan của hệ hống tìm kiếm thông tin ...............................35
Hình 3. 5: Mô hình thực thể kết hợp ........................................................................36
Hình 3. 6: Lược đồ cơ sở dữ liệu ..............................................................................37
Hình 3. 7: Ví dụ mô tả nội dung của table Nghề ......................................................38
Hình 3. 8: Ví dụ mô tả nội dung của table hệ đào tạo ...............................................39
Hình 3. 9: Ví dụ mô tả nội dung của table tài liệu ....................................................40
Hình 3. 11: Ví dụ mô tả nội dung của table câu hỏi .................................................40
Hình 3. 12: Ví dụ mô tả nội dung của table Trả lời ..................................................41
Hình 3. 14: Lưu đồ thuật toán tìm kiếm theo câu hỏi ...............................................43
Hình 3. 15: Lưu đồ thuật toán tìm kiếm theo từ khóa ...............................................46
Hình 3. 16: Các bước thực hiện tìm kiếm nội dung theo chủ đề ..............................48
Hình 4. 1: Màn hình đăng nhập hệ thống ..................................................................49
Hình 4. 2: Các chức năng của menu File ..................................................................50
Hình 4. 3: Các chức năng của menu Quản trị ...........................................................50
Hình 4. 4: Các chức năng của menu Quản lý tài liệu ................................................50
Hình 4. 5: Màn hình tiếp nhận câu hỏi và tìm kiếm kết quả theo bộ câu hỏi ...........51
Hình 4. 6: Màn hình tiếp nhận câu hỏi và tìm kiếm kết quả theo bộ câu hỏi ...........52
Hình 4. 7: Màn hình tiếp tìm kiếm kết quả theo chuyên mục ...................................53

i


DANH MỤC BẢNG
Bảng 3. 1: Mô tả bảng NGHE ...................................................................................37
Bảng 3. 2: Mô tả bảng TUKHOA .............................................................................38
Bảng 3. 3: Mô tả bảng HEDAOTAO ........................................................................38
Bảng 3. 4: Mô tả bảng TAILIEU ..............................................................................39
Bảng 3. 5: Mô tả bảng CAUHOI ..............................................................................40

Bảng 3. 6: Mô tả bảng TRALOI ...............................................................................41
Bảng 3. 7: Mô tả bảng Từ khóa tài liệu.....................................................................41
Bảng 3. 8: Mô tả bảng Từ khóa câu hỏi ....................................................................42
Bảng 3. 9: Minh họa cho câu hỏi chính xác ..............................................................44
Bảng 3. 10: Danh sách câu hỏi kèm câu trả lời minh họa cho câu hỏi có nội dung
gần với câu truy vấn ..................................................................................................44
Bảng 4. 1: Diễn giải màn hình tiếp nhận câu hỏi và tìm kiếm kết quả theo bộ câu hỏi
...................................................................................................................................51
Bảng 4. 2: Diễn giải màn hình tìm kiếm thông tin theo từ khóa của câu hỏi trong bộ
câu hỏi .......................................................................................................................52
Bảng 4. 3: Diễn giải màn hình tìm kiếm thông tin theo chuyên mục ......................53
Bảng 4. 4: Diễn giải màn hình tiếp nhận từ khóa và tìm kiếm kết quả theo tài liệu .54
Bảng 4. 5: Bảng Kịch bản tìm với 10 câu truy vấn có nội dung chính xác câu hỏi
thuộc bộ câu hỏi và kết quả .......................................................................................55
Bảng 4. 6: Bảng Kịch bản tìm với 10 câu truy vấn có nội dung gần với câu hỏi
thuộc bộ câu hỏi và kết quả. ......................................................................................57
Bảng 4. 7: Bảng Kịch bản tìm kiếm theo từ khóa có trong các tài liệu và kết quả. .59
Bảng 4. 8: Bảng Kịch bản tìm kiếm theo từ khóa có trong các tài liệu và kết quả với
độ ưu tiên ( score) >=200. .........................................................................................61
Bảng 4. 9: Bảng Kịch bản tìm kiếm theo từ khóa có trong các tài liệu và kết quả với
độ ưu tiên ( score) >=300. .........................................................................................63

i


Mở đầu

MỞ ĐẦU
Nghề nghiệp là phương tiện đảm bảo cuộc sống vật chất và tinh thần của con
người, nghề nghiệp vững vàng sẽ đem lại niềm vui và hạnh phúc cho con người. Để

thành công trong cuộc đời, trong sự nghiệp con người cần phải biết lựa chọn cho
mình một nghề phù hợp nhất.
Trên thực tế có rất nhiều người thất nghiệp hay làm việc không đúng chuyên
môn là khá phổ biến, họ thấy khó khăn trong việc đáp ứng yêu cầu của nghề, không
cảm thấy hứng thú, gắn bó với nghề.
Việc chọn ngành nghề của số này phần lớn là do định hướng của bố mẹ, theo
đuôi bạn bè,... cho nên thường dẫn đến việc chọn sai nghề. Đây là một nguyên nhân
rất quan trọng dẫn đến việc hao phí thời gian, tiền bạc của gia đình, nhà trường và
không phát huy hết các khả năng tiềm ẩn của người học.
Qua số liệu khảo sát từ năm 2010-2016 tại Trường Cao đẳng nghề Tỉnh Bà
Rịa – Vũng Tàu, đã cho chúng ta thấy một số khó khăn hiện nay đối với nhà trường
như:
Số lượng học sinh bỏ học không giảm, có năm tăng cao hơn năm trước
Học sinh thay đổi nghề sau khi nhập học cao
Với kết quả phân tích, đánh giá số liệu trên, nhà Trường đã rút ra được một
trong những nguyên nhân chính là do khả năng nhận thức và tự đánh giá về năng
lực, tính cách, sở thích bản thân của người học còn nhiều hạn chế, chưa hiểu rõ
được bản chất của từng ngành nghề phải làm những gì, những yêu cầu của nghề dẫn
đến việc người học chọn nghề không phù hợp với bản thân.
Để khắc phục các khó khăn trên, về phía nhà Trường, cũng đã cố gắng nâng
cao chất lượng tư vấn hướng nghiệp khi học sinh đăng ký học, nhưng kết quả vẫn
chưa khả quan. Các hạn chế tồn tại của công tác tư vấn hướng nghiệp khi triển khai
là:

1


Mở đầu

Số lượng cán bộ tư vấn ít , đa số là làm công tác kiêm nhiệm, không được đào

tạo bài bản về tư vấn hướng nghiệp, mỗi người chuyên về một ngành nghề nhất
định, không am hiểu hết về tất cả các nghề đào tạo của nhà trường, ….Nên dẫn đến
trong qua trình tư vấn hướng nghiệp, tư vấn tuyển sinh chưa trả lời một cách thỏa
đáng các câu hỏi chuyên sâu về ngành nghề cho phụ huynh và học sinh như: yêu
cầu của nghề đối với người lao động (sứa khỏe, trình độ, sở trường….), nội dung
học, cơ hội việc làm,…. mà chỉ mới cung cấp một số thông tin cơ bản về chỉ tiêu
tuyển sinh, tên ngành nghề nên chất lượng tư vấn không cao.
Thông tin về các ngành nghề của nhà trường chưa được lưu trữ một cách bài
bản, có hệ thống, dẫn đến việc nghiên cứu khai phá tri thức chưa có điều kiện thực
hiện. Việc tư vấn hướng nghiệp hoàn toàn dựa trên tri thức của cán bộ tư vấn trực
tiếp.
Hậu quả của những vấn đề nêu trên là:
Về phía nhà trường: Tốn kém về thời gian, nhân lực cho công tác tuyển sinh
và đào tạo; Khả năng đào tạo bị đánh giá thấp khi năng lực làm việc của người học
không cao; Số lượng tuyển sinh không đảm bảo chỉ tiêu; Kế hoạch đào tạo bị ảnh
hưởng khi xếp lớp.
Về phía gia đình và bản thân người học: Tốn kém về chi phí và thời gian khi
theo học; Năng lực của người học không được phát huy tối đa khi đi học; Khi ra
trường làm việc không hiệu quả; Tìm kiếm việc làm khó khăn
Để góp phần tăng cường chất lượng của công tác tư vấn hướng nghiệp cho
người học khi tuyển sinh, đạt được mục tiêu là:
- Nâng cao số lượng và chất lượng tuyển sinh
- Giảm thiểu số lượng học sinh bỏ học
- Giảm thiểu số lượng học sinh thay đổi nghề khi nhập học
- Quảng bá các nghề nhà Trường đang đào tạo.

2


Mở đầu


tôi quyết định chọn đề tài “Hệ hỗ trợ việc tư vấn tuyển sinh tại Trường Cao
đẳng nghề Tỉnh BR - VT” nhằm hỗ trợ công tác tư vấn tuyển sinh, đồng thời giúp
các người học tự định hướng chính xác hơn về nghề nghiệp phù hợp với mình

3


Chương 1 – Tổng quan

CHƯƠNG 1. TỔNG QUAN
1.1. Tình hình nghiên cứu và ứng dụng liên quan:
Năm 2012, Luận văn Thạc sĩ của Nguyễn Thị Thanh Hà tại Đại học Đà Nẵng
về đề tài “Xây dựng hệ chuyên gia tư vấn hướng nghiệp cho học sinh trường trung
học phổ thông “ [1] đã xây dựng hệ chuyên gia tư vấn và hướng nghiệp cho học
sinh phổ thông tại trường phổ thông trung học Hùng Vương, Quy Nhơn dùng cho
đối tượng là các học sinh tốt nghiệp phổ thông trung học chọn lựa nghề nghiệp bằng
các trắc nghiệm Jonh Holland sử dụng thuật toán suy diễn tiến trong hệ chuyên gia
để đo mức độ phù hợp của học sinh với nghề nghiệp.
Cùng năm đó, Luận văn Thạc sĩ của Huỳnh Tấn Dựng tại Đại học Đà Nẵng
về đề tài “Ứng dụng công nghệ tri thức xây dựng hệ thống hỗ trợ hỏi đáp trong tư
vấn tuyển sinh đào tạo”[2] đã ứng dụng công nghệ tri thức để xây dựng hệ thống
hỏi đáp về tuyển sinh tại trường Cao đẳng Kỹ thuật Y tế II về mức độ phù hợp của
một cá nhân với nghề nghiệp cũng dựa trên trắc nghiệm Jonh Holland dành cho đối
tượng sử dụng là học sinh và phụ huynh quan tâm đến định hướng nghề nghiệp.
Năm 2016, Luận văn Thạc sĩ của Phạm Thị Trúc Mai với đề tài “Xây dựng
hệ thống hỗ trợ tư vấn tuyển sinh cho trường Đại học Trà Vinh “ [3] đã thiết kế giải
pháp tư vấn tuyển sinh cho trường Đại học Trà Vinh dựa trên sự phân tích sâu hai
cơ sở lý thuyết chọn nghề nghiệp là lý thuyết cây nghề nghiệp và lý thuyết mật mã
Holland cùng với mô hình kiến trúc của hệ chuyên gia đã phần nào giúp ích được

các em học sinh, thí sinh, phụ huynh có thêm công cụ trong việc chọn nghề nghiệp
cho tương lai một cách nhanh chóng, hài lòng và có cơ sở khoa học hơn.
Tuy nhiên, hầu hết các nghiên cứu, ứng dụng trên đều dành cho đối tượng
là học sinh tốt nghiệp phổ thông trung học. Sử dụng công nghệ tri thức, xử lý văn
bản, hệ chuyên gia,… cùng với bộ trắc nghiệm lý thuyết nghề nghiệp của Jonh
Holland để tư vấn cho người học trong chọn lựa nghề nghiệp phù hợp theo tính
cách, năng lực bẩm sinh của cá nhân.
1.2. Mục tiêu đề tài
4


Chương 1 – Tổng quan

Xã hội ngày càng phát triển, vấn đề năng suất và hiệu quả lao động ngày càng
trở nên quan trọng. Con người là chủ thể hoạt động nên chính con người quy định ở
chừng mực đáng kể năng suất và hiệu quả của hoạt động lao động nghề nghiệp. Tuy
nhiên, khả năng của con người rất khác nhau và thế giới nghề nghiệp cũng vô cùng
phong phú, đa dạng, mỗi nghề đòi hỏi những khả năng khác nhau ở người lao động.
Ví dụ: các nghề trong lĩnh vực nghệ thuật cần trước hết óc thẩm mỹ, tưởng tượng
nghệ thuật và khả năng tư duy hình ảnh. Các nghề tiện, nguội, phay, bào… thuộc
lĩnh vực cơ khí đòi hỏi khả năng ước lượng bằng mắt kích thước của các vật thể,
cảm giác nhạy bén của đầu ngón tay về độ nhẵn bề mặt của vật thể. Các nghề thêu,
ren… trong lĩnh vực thủ công mỹ nghệ truyền thống cần đến sự khéo léo của các
ngón tay, thị giác tốt, tính kiên trì, tỉ mỉ, khả năng phân biệt và phối hợp màu sắc
tốt… Những người đạt năng suất, chất lượng và hiệu quả lao động cao ở một nghề
nào đó thường là những người có sự phù hợp với nghề đã chọn về mặt tâm sinh lý.
Sự phù hợp nghề là tập hợp những đặc điểm tâm sinh lý bảo đảm cho con người đạt
kết quả cao trong lao động nghề nghiệp.
Như vậy, vấn đề đặt ra là muốn có hiệu quả lao động nghề nghiệp cao thì phải
tuyển chọn được những người có sự phù hợp nghề ở mức độ cần thiết vào học hay

làm việc ở nghề tương ứng.
Tư vấn nghề được hiểu là việc đối chiếu những yêu cầu của nghề, yêu cầu của
thị trường lao động với hứng thú, khuynh hướng và năng lực của học sinh, cùng với
học sinh hình thành quyết định nên chọn nghề nào cho phù hợp với bản thân, sớm
đề phòng được hiện tượng chán nghề, đổi nghề hoặc bỏ nghề sau này.
Các kiểu tư vấn nghề:
- Tư vấn thông tin hướng dẫn nhằm giới thiệu với thanh thiếu niên nội dung
nghề mà mình định chọn.
Ở đây, người cán bộ tư vấn sẽ giới thiệu về những yêu cầu của nghề đối với
những phẩm chất cá nhân của con người, đồng thời chỉ ra con đường để đạt được
nghề nghiệp và triển vọng nâng cao tay nghề.
5


Chương 1 – Tổng quan

- Tư vấn chẩn đoán nhằm làm bộc lộ hứng thú, thiên hướng, năng lực và
những phẩm chất nghề chuyên biệt của con người trên cơ sở nghiên cứu và đo đạc
(nhân trắc) con người một cách toàn diện. Mục đích của tư vấn chẩn đoán là xác
định trong những lĩnh vực hoạt động nào con người có thể lao động thành công
nhất, tức là đem lại lợi ích tối đa cho xã hội, đồng thời đưa lại niềm vui và sự hài
lòng cho bản thân người lao động.
- Tư vấn y học nhằm làm bộc lộ sự phù hợp giữa trạng thái sức khỏe với yêu
cầu của nghề mà một người lựa chọn. Nếu như người đó mắc một trong những
chứng bệnh thuộc loại chống chỉ định của nghề thì người cán bộ tư vấn sẽ khuyên
nên chọn một nghề khác gần gũi với thiên hướng và hứng thú, đồng thời phù hợp
với trạng thái sức khỏe của người đó. Chẳng hạn, những người rối loạn sắc giác sẽ
không được chọn những ngành giao thông vận tải, thông tin tín hiệu, v.v…
- Tư vấn hiệu chỉnh được tiến hành trong trường hợp ý định nghề nghiệp của
con người không phù hợp với khả năng và năng lực thực tế của họ. Trong trường

hợp này, kế hoạch nghề nghiệp của cá nhân cần được xem xét và uốn nắn lại cho
phù hợp với tình hình. Ví dụ, trên cơ sở những cứ liệu thu được khi nghiên cứu
nhân cách con người, cán bộ tư vấn sẽ khuyên thanh thiếu niên nên chọn một nghề
khác phù hợp hơn với những đặc điểm tâm sinh lý của mình.
Theo đề án phân luồng học sinh sau khi tốt nghiệp trung học cơ sở hiện nay
thì số lượng học sinh tốt nghiệp trung học cơ sở đi học nghề ngày một tăng cao, vì
vậy số lượng học sinh tốt nghiệp trung học cơ sở đăng ký học nghề tại Trường Cao
đẳng nghề hàng năm cũng tăng lên đáng kể.
Hàng năm số lượng tuyển sinh hệ trung cấp của nhà trường ( dành cho đối
tượng tốt nghiệp trung học cơ sở) luôn luôn cao gần gấp đôi học sinh hệ Cao đẳng
nhưng tỷ lệ nghỉ, bỏ học giữa chừng của đối tượng này cũng cao hơn nhiều, có năm
lên đến hơn 30%. [4]
Mặt khác những nghề đang đào tạo tại trường đều thuộc nhóm nghề kỹ
thuật, có những nghề nếu nghe qua thì sẽ thấy giống nhau nên nếu làm trắc nghiệm
6


Chương 1 – Tổng quan

Holand như các ứng dụng trên sẽ chưa thực sự hiệu quả đối với đối tượng học sinh
đăng ký vào trường vì mỗi ngành nghề lại có những yêu cầu cụ thể hơn.
Ngoài ra trong quá trình tư vấn tuyển sinh, có những câu hỏi của phụ huynh
và học sinh chuyên sâu về từng ngành nghề cụ thể mà nhân viên tư vấn chưa nắm rõ
để trả lời.
Vì vậy, với yêu cầu đặt ra là tìm kiếm thông tin từ các nghề thuộc nhóm
nghề Điện, Cơ khí dữ liệu thu thập được, cần áp dụng các phương pháp khai thác
thông tin trên dữ liệu để trả lời các truy vấn. Những mục tiêu mà luận văn cần giải
quyết gồm:
- Xây dựng mô hình tổ chức biểu diễn thông tin và giải pháp lưu trữ các thông
tin về ngành nghề đang đào tạo tại nhà trường thuộc khoa Điện và Cơ khí như: yêu

cầu của nghề đối với người lao động (sức khỏe, trình độ, sở trường….), nội dung
học, cơ hội việc làm,…..
- Xây dựng giải pháp tìm kiếm: người dùng sẽ đưa ra yêu cầu câu truy vấn, hệ
thống sẽ phân tích và so khớp với bộ câu hỏi có sẵn để đưa ra câu trả lời, nếu không
có trong bộ câu hỏi thì sẽ so sánh sự tương đồng của từ khóa trong câu truy vấn với
các tài liệu văn bản trong cơ sở dữ liệu và trả về kết quả danh sách tài liệu văn bản
khi tìm thấy.
Mục tiêu của đề tài được mô tả tổng quan như sau:

Câu hỏi, từ
khóa

Chương trình

Câu trả lời,
tài liệu

Hình 1. 1: Tổng quan về chương trình hỗ trợ tư vấn tuyển sinh
Trong đó:
+ Đầu vào: các câu hỏi, từ khóa.
+ Chương trình: Là hệ thống xử lý câu truy vấn, tìm kiếm câu trả lời hoặc các
tài liệu bằng phương pháp tìm kiếm từ khóa.
7


Chương 1 – Tổng quan

+ Đầu ra: danh sách câu trả lời hoặc tài liệu liên quan đến câu hỏi, từ khóa
Ví dụ:
Trường hợp 1:

+ Đầu vào:
Câu hỏi: Nghề Cắt gọt kim loại khác nghề Chế tạo khuôn mẫu như thế nào?
+ Đầu ra: Câu hỏi này có trong bộ câu hỏi đã được thu thập, vì vậy sẽ hiển thị câu
trả lời.
Câu trả lời:
Nghề chế tạo khuôn mẫu: Ngoài học gia công cắt gọt kim loại (nghề cắt
gọt kim loại) thì phải học kiến thức về kết cấu khuôn (khuôn ép nhựa, khuôn dập,
khuôn kim loại…), học thiết kế khuôn và gia công chế tạo khuôn. Muốn gia công
chế tạo khuôn được thì phải học các modul giống như trong nghề cắt gọt kim loại
(vd: tiện, phay, cnc, mài…), chuyên sâu vào các máy chuyên gia công làm khuôn
như phay cnc hoặc phay cơ,mài. Nghề chế tạo khuôn mẫu ra trường vào làm các
công ty gia công chế tạo khuôn hoặc gia công chế tạo các chi tiết khuôn…
Nghề cắt gọt kim loại: Phạm vi rộng hơn (không học các kiến thức chuyên
về khuôn mẫu như kết cấu khuôn hay thiết kế khuôn). Đối với nghề này phải học
toàn bộ các máy công cụ chuyên gia công cắt gọt kim loại như mài, tiện, phay, …
Nghề cắt gọt kim loai ra trường có thể phục vụ cho nghề chế tạo khuôn mẫu và vào
làm các công ty gia công cơ khí chính xác … Thường đứng máy lập trình gia công.
Không có kiến thức khuôn nên không thể vào làm thiết kế hay lắp ráp khuôn được.
Trường hợp 2:
+ Đầu vào:
Câu hỏi nhập vào không đúng 100% câu hỏi có trong bộ câu hỏi nhưng có
nội dung gần với những câu hỏi có trong bộ câu hỏi có sẵn:
Trường có thi tuyển đầu vào không?
8


Chương 1 – Tổng quan

+ Đầu ra: Hiển thị danh sách các câu hỏi, tài liệu gần với câu hỏi nhập vào
Danh sách câu hỏi gần với câu truy vấn

Trường có thi tuyển không?

Trả lời
Trường xét tuyển theo học bạ

Trường xét tuyển học bạ hay kết quả thi Trường xét tuyển theo học bạ
THPT quốc gia ?
Có phải thi tuyển đầu vào không?

Trường xét tuyển theo học bạ, không
phải thi đầu vào?

Trường hợp 3:
+ Đầu vào:
Từ khóa: Cắt gọt kim loại
+ Đầu ra: Danh sách các tài liệu liên quan đến nghề “ cắt gọt kim loại”
1.3. Đối tượng và phạm vi nghiên cứu
+ Đối tượng nghiên cứu:
Các đối tượng nghiên cứu trong luận văn này là:
− Văn bản hành chính, mô tả, yêu cầu của các ngành nghề đang được đào tạo
tại trường thuộc khoa Điện và Cơ khí.
− Lưu trữ thông tin bằng Cơ sở dữ liệu quan hệ.
− Các phương pháp tìm kiếm theo từ khóa, ngữ nghĩa của từ khóa
− Các công cụ hỗ trợ, thuật toán, ngôn ngữ lập trình liên quan đến việc cài đặt
các mô hình.
+ Phạm vi:

9



Chương 1 – Tổng quan

Phạm vi về ngành nghề: Các nghề thuộc nhóm nghề Cơ khí và Điện hiện đang được
đào tạo tại trường Cao Đẳng nghề Tỉnh BR - VT, ngành nghề khác không thuộc
phạm vi nghiên cứu của chương trình .
Phạm vi về người dùng: Chương trình hỗ trợ cho các nhân viên tư vấn tuyển sinh tại
Phòng đào tạo của Trường chưa có kiến thức chuyên sâu về các nghề thuộc nhóm
nghề Cơ khí và Điện hiện đang được đào tạo để trả lời tư vấn tuyển sinh.
Phạm vi chương trình: Hỗ trợ nhân viên tư vấn có được thông tin cần thiết trên cơ
sở dữ liệu lưu trữ về các nghề thuộc nhóm nghề Cơ khí và Điện hiện đang được đào
tạo tại trường để trả lời tư vấn tuyển sinh.
1.4. Phương pháp nghiên cứu.
Phương pháp nghiên cứu lý thuyết:
- Nghiên cứu về khái niệm, các cách biểu diễn và lưu trữ tri thức.
- Thu thập thống kê dữ liệu về các ngành nghề đào tạo, các dữ liệu cần thiết về
tuyển sinh: câu hỏi cần tư vấn, chế độ, quy định liên quan đến đào tạo nghề.
Phương pháp khảo sát, phân tích, đánh giá:
Khảo sát hiện trạng tư vấn tuyển sinh tại trường để từ đó tiếp cận và xây
dựng đề tài. Thu thập các câu hỏi về tuyển sinh nhất là các câu hỏi mà nhân viên tư
vấn còn lúng túng vướng mắc trong quá trình trả lời tư vấn để làm tiền đề cho giai
đoạn thiết kế đưa vào thực nghiệm . Phân tích các phương pháp, giải thuật liên quan
đến việc tổ chức và lưu trữ thông tin, tìm kiếm thông tin.
Phương pháp nghiên cứu thực nghiệm:
Xây dựng bộ câu hỏi và câu trả lời tương ứng, xây dựng chương trình tìm
kiếm thông tin dựa trên từ khóa và khái niệm ngữ nghĩa; triển khai thử nghiệm trên
cơ sở dữ liệu thực tế tại Trường Cao đẳng nghề Tỉnh BR – VT.
1.5. Ý nghĩa của đề tài

10



Chương 1 – Tổng quan

Luận văn nghiên cứu cách biểu diễn, lưu trữ thông tin và kỹ thuật tìm kiếm để
khắc phục các hạn chế đang tồn tại giúp:
- Tiết kiệm thời gian, công sức trong công tác tư vấn tuyển sinh.
- Giảm thiểu tình trạng nghỉ học trong quá trình học do chọn sai nghề.
- Phát huy năng lực và trí tuệ của người học
1.6. Bố cục của đề tài
Chương 1: Tổng quan. Giới thiệu tổng quan về luận văn, ý nghĩa khoa học và thực
tiễn, mục tiêu nghiên cứu, những đóng góp của đề tài, đối tượng và phạm vi nghiên
cứu, nội dung nghiên cứu, bố cục của luận văn.
Chương 2: Cơ sở lý thuyết. Trong chương này giới thiệu về thực trạng hiện tại về
lĩnh vực mà đề tài đang nghiên cứu, các nghiên cứu liên quan, hướng tiếp cận, giới
thiệu các ưu và nhược điểm của phương pháp nghiên cứu liên quan đến đề tài.
Chương 3: Phân tích, Thiết kế hệ thống. Thực hiện việc phân tích, thiết kế cơ sở
dữ liệu, các phương pháp thiết kế xử lý dữ liệu.
Chương 4: Cài đặt thử nghiệm và đánh giá. Hệ thống cho phép tra cứu, tìm kiếm
tài liệu trong kho lưu trữ theo nhiều chức năng như dựa trên từ khóa và trên CSDL
lưu trữ. Tiến hành thực nghiệm đánh giá kết quả
Chương 5: Kết luận kết quả đạt được và hướng phát triển. Kết luận về những hạn
chế của đề tài và hướng phát triển trong tương lai

11


Chương 2 – Cơ sở lý thuyết

Chương 2 - CƠ SỞ LÝ THUYẾT
Chương 2 trình bày cơ sở lý thuyết của Luận văn liên quan đến vấn đề tìm

kiếm thông tin.
2.1. Giới thiệu chung về hệ thống tìm kiếm thông tin
2.1.1. Khái niệm về tìm kiếm thông tin
Tìm kiếm thông tin (Information Retrieval - IR) là tìm kiếm tài nguyên
(thường là các tài liệu – documents) trên một tập các dữ liệu phi cấu trúc (thường là
các văn bản dạng Text) được lưu trữ trên máy tính nhằm thỏa mãn nhu cầu về thông
tin.
2.1.2. Cấu trúc của một hệ thống truy tìm thông tin
Hầu hết các hệ thống tìm kiếm thông tin (gọi tắt là hệ thống IR) là hệ thống
truy tìm tài liệu để truy tìm những tài liệu (trong số các tài liệu có trong cơ sở dữ
liệu lưu trữ) có nội dung liên quan, phù hợp, đáp ứng với nhu cầu thông tin của
người dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài liệu liên
quan đó. Tài liệu là các mẫu văn bản, hình ảnh, âm thanh, video. Có hai khái niệm
quan trọng luôn đề cập đến đó là tài liệu và câu truy vấn.
Hệ thống thông tin bao gồm một tập hợp các yếu tố thông tin, một tập các yêu
cầu và một vài cơ chế tìm kiếm để quyết định yếu tố thông tin nào liên quan đến các
yêu cầu. Theo nguyên tắc, mối quan hệ giữa các câu truy vấn và tài liệu có được từ
sự so sánh trực tiếp. Nhưng trên thực tế, sự liên quan giữa các câu truy vấn và tài
liệu xác định không phải được quyết định trực tiếp mà gián tiếp bằng cách: các tài
liệu, yếu tố thông tin phải chuyển sang ngôn ngữ chỉ mục trước khi xác định mức
độ liên quan. Người sử dụng có thể đưa vào những câu hỏi, những yêu cầu và hệ
thống sẽ tìm trong các tập chỉ mục để tìm ra các tài liệu liên quan, sau đó sắp xếp
các tài liệu theo mức độ liên quan giảm dần và trả về cho người sử dụng.

12


Chương 2 – Cơ sở lý thuyết
Khai thác


Giao diện tìm
kiếm

Xử lý chuối
tìm kiếm

User

Hiển thị kết
quả theo thứ
hạng

Quản trị
Đánh chỉ mục

File
Index 1

File
Index 2

File
Index n

Dữ liệu nguồn
Xử lý dữ liệu
DB

Xếp thứ hạng


từ

...

Thu thập dữ
CSDL thu
thập

...

Hình 2. 1: Kiến trúc tổng quan của hệ hống tìm kiếm thông tin

Cơ bản một hệ thống tìm kiếm thông tin luôn có ba thành phần như sau:
Thành phần Thu thập dữ liệu: thực hiện thu thập toàn bộ dữ liệu sẽ tìm kiếm
đưa về một nguồn tập trung để phục vụ quá trình phân tích và đánh chỉ mục dữ liệu,
thành phần này được quản lý bởi môđun thu thập dữ liệu, môđun này sẽ thực hiện
một số chức năng chính như: Quản lý kết nối tới nguồn cần thu thập, quản lý chi tiết
đến từng loại (đối tượng) dữ liệu cần thu thập. Sau đó thực hiện thu thập dữ liệu
theo từng loại dữ liệu này. Thiết lập và quản lý các kết nối tới nguồn dữ liệu cần thu
13


Chương 2 – Cơ sở lý thuyết

thập, mỗi kết nối sẽ tương ứng với một nguồn dữ liệu, đại diện là một CSDL, và
một CSDL có thể có một hoặc nhiều đối tượng dữ liệu cần thu thập. Mỗi đối tượng
dữ liệu cần quản lý các thông tin đặc tả như: Nhóm các bảng (table) liên quan đến
đối tượng dữ liệu cần thu thập, tại mỗi table phải chỉ ra các trường (field) đại diện
cho table đó, quan hệ giữa các table và khoá quan hệ giữa các table. Việc quản lý
các thông tin đặc tả của từng đối tượng dữ liệu để phục vụ việc xây dựng các câu

truy vấn (query) dữ liệu nguồn cần thu thập.
Thành phần Đánh chỉ mục dữ liệu: thực hiện phân tích, tiền xử lý nội dung dữ
liệu, sau đó tiến hành đánh chỉ mục dữ liệu theo cách thức, cơ chế và yêu cầu của
từng máy tìm kiếm cụ thể, thực hiện đánh chỉ mục dữ liệu này lưu vào các File
index. Giai đoạn này là phân tích tài liệu (document) để xác định các chỉ mục
(term/index term) biểu diễn nội dung của tài liệu. Việc lập chỉ mục có thể dựa vào
một cấu trúc phân lớp có sẵn, các chỉ mục trong cách làm này tồn tại trước và độc
lập với tài liệu. Cách thứ hai, lập chỉ mục là rút trích các chỉ mục từ chính nội dung
của tài liệu (free text). Cuối giai đoạn lập chỉ mục nội dung của các tài liệu có trong
kho tài liệu (corpus) được biểu diễn bên trong bằng tập các chỉ mụcThành phần
(môđun) này sẽ thực hiện các chức năng chính như: Tiền xử lý dữ liệu cần đánh
index: Thực hiện loại bỏ các từ dư thừa, vô nghĩa, tách dữ liệu thành các từ, cụm từ,
xử lý Tiếng Việt có dấu và Tiếng Việt không dấu. Phân tích và xác định các từ, cụm
từ thích hợp có khả năng đại diện cho nội dung của tài liệu. Thực hiện đánh index
cho dữ liệu sau khi thu thập dữ liệu lần đầu. Sau một thời gian dữ liệu nguồn có sự
thay đổi, bộ phận thu thập tiếp tục quá trình thu thập dữ liệu và bộ phận đánh chỉ
mục sẽ tiến hành đánh chỉ mục, cập nhật file index, cập nhật quá trình đánh index,
cập nhật lại kết quả và quá trình đánh index dữ liệu phục vụ công tác tra cứu, tìm
kiếm và phân tích khi cần thiết. Xếp hạng (ranking) cho tài liệu theo tần suất xuất
hiện của các từ chỉ mục trong tài liệu, tần suất nghịch đảo của tài liệu, số term
(field) trong câu truy vấn tìm thấy trong tài liệu.
Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ
(noun phrase), khái niệm (concept). Vấn đề xác định chỉ mục cho văn bản tiếng Việt
phức tạp hơn đối với ngôn ngữ châu Âu. Hơn nữa ngữ pháp tiếng Việt vẫn còn
nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn
trong việc tự động hóa việc phân tích tiếng Việt.
14


Chương 2 – Cơ sở lý thuyết


Dữ liệu cần

Loại bỏ Stop word

Tách dữ liệu thành các từ,
cụm từ

Tính trọng số và loại bỏ
những từ có trọng số thấp

Hình 2. 2: Quy trình đánh chỉ mục
Thành phần Tìm kiếm dữ liệu: nhu cầu thông tin của người sử dụng được đưa
vào hệ thống dưới dạng một câu hỏi (query) bằng ngôn ngữ tự nhiên hay một dạng
thức qui ước nào đó, cũng sẽ được phân tích và biểu diễn thành một dạng biểu diễn
trong. Hệ thống sẽ sử dụng một hàm so khớp (matching function) để so khớp biểu
diễn của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên quan
(relevance), sau đó kết hợp với thông tin xếp hạng (Rank) để xếp hạng kết quả tìm
kiếm và trả về kết quả tốt nhất lên đầu cho người dùng.
Trong những năm gần đây, kỹ thuật tìm kiếm tài liệu có nhiều thay đổi và cải
tiến, xu hướng tìm kiếm hiện nay đang dịch chuyển từ mang tính chất cú pháp
(syntax), cấu trúc (structure), thành mang tính chất ngữ nghĩa (semantic), từ tìm
kiếm trên từ khóa (keyword) trở thành tìm kiếm trên khái niệm (concept). Các
phương pháp truy hồi thông tin dựa trên khái niệm và ngữ nghĩa nhắm đến việc mô
phỏng một ở một mức độ giới hạn khả năng hiểu về ý nghĩa của từ, cụm từ hay văn
bản mà người dùng cung cấp tương ứng với những gì người dùng nghĩ. Trong đó
15


Chương 2 – Cơ sở lý thuyết


nổi bật là hướng tiếp cận sử dụng ontology về tri thức của từng lĩnh vực để biểu
diễn, xử lý nội dung và ý nghĩa của các tài liệu.
Có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thống IR bao gồm
− Hệ thống tìm kiếm thông tin dựa trên từ khóa: Hệ thống sử dụng một danh
sách các từ khóa (keywords) hay thuật ngữ (term) để biểu diễn nội dung tài
liệu và câu truy vấn. Tìm kiếm theo từ khóa là tìm kiếm các tài liệu mà
những từ trong câu truy vấn xuất hiện nhiều nhất, ngoại trừ stopword (các từ
quá thông dụng như mạo từ a, an, the,…), nghĩa là hệ thống giả định nếu một
câu hỏi và một tài liệu có chứa một số từ (từ khoá) chung, thì tài liệu là liên
quan đến câu hỏi và dĩ nhiên là nếu số từ chung càng nhiều thì độ liên quan
càng cao, tài liệu càng được chọn để trả về cho người dùng. Các mô hình tìm
kiếm được sử dụng như mô hình Boolean, mô hình không gian vector, các
mô hình xác suất, mô hình LSI.
− Hệ thống tìm kiến thông tin dựa trên khái niệm hay ngữ nghĩa: Nội dung
của một đối tượng thông tin được mô tả bởi một tập các khái niệm hay một
cấu trúc khái niệm. Để rút trích khái niệm, hệ thống cần sử dụng đến nguồn
tri thức về lĩnh vực nhất định nào đó. Hướng tiếp cận chính cho việc nguyên
cứu các hệ thống này là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên
và công nghệ ontology.
2.2. Các mô hình và phương pháp tìm kiếm thông tin
2.2.1. Truy hồi thông tin theo hướng thống kê
Có một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê
thuần túy có thể kể đến là mô hình Boolean, Boolean mở rộng (extended Boolean),
Không gian vector (Vector Space), các mô hình xác xuất (Probabilistic models). Ý
tưởng chính theo hướng tiếp cận này là dùng một danh sách các term xuất hiện trong
tài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truy vấn đó.
Term - viết tắt của terminology, nghĩa là thuật ngữ, là một từ hay cụm từ
(keyphrase) biểu thị một khái niệm khoa học.
16



×