Tải bản đầy đủ (.pdf) (67 trang)

XÂY DỰNG HỆ HỖ TRỢ CHO HỌC SINH DỰ TUYỂN VÀO CÁC TRƢỜNG THPTTRÊN ĐỊA BÀN NỘI THÀNH HẢI PHÒNG_2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.11 MB, 67 trang )

luan van thac si - luan van thac si kinh te - luan an tien - luan van 1 of 95.

BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
----------------------------

KS. CAO CHIẾN THẮNG

XÂY DỰNG HỆ HỖ TRỢ CHO HỌC SINH DỰ
TUYỂN VÀO CÁC TRƢỜNG THPTTRÊN ĐỊA
BÀN NỘI THÀNH HẢI PHÒNG

LUẬN VĂN THẠC SĨ KỸ THUẬT

HẢI PHÒNG - 2016

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 2 of 95.

BỘ GIAO THÔNG VÂN TẢI

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
----------------------------


KS. CAO CHIẾN THẮNG

XÂY DỰNG HỆ HỖ TRỢ CHO HỌC SINH DỰ
TUYỂN VÀO CÁC TRƢỜNG THPTTRÊN ĐỊA
BÀN NỘI THÀNH HẢI PHÒNG

LUẬN VĂN THẠC SĨ KỸ THUẬT;

MÃ SỐ: 60580202

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Trọng Đức

HẢI PHÒNG - 2016

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 3 of 95.

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá
nhân tôi, không sao chép lại của ngƣời khác. Trong toàn bộ nội dung luận văn,
những điều đã đƣợc trình bày hoặc là của riêng cá nhân tôi hoặc là đƣợc tổng hợp
từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đƣợc dùng đều có xuất
xứ rõ ràng, đƣợc trích dẫn hợp pháp.
Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỉ luật theo quy
định cho lời cam đoan của mình.


Hải Phòng, 03/2016

Cao Chiến Thắng

I

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 4 of 95.

LỜI CÁM ƠN

Trƣớc tiên tôi trân trọng gửi lời cảm ơn tới TS Nguyễn Trọng Đức - ngƣời
đã hƣớng dẫn, chỉ bảo tận tình, cung cấp tài liệu và phƣơng pháp luận nghiên cứu
khoa học để tôi hoàn thành bản luận văn này.
Tôi xin bày tỏ lòng cảm ơn sâu sắc tới thầy cô, bạn bè cùng lớp đã giúp đỡ tôi
trong suốt những năm học qua.
Xin cảm ơn gia đình, bạn bè, anh em đồng nghiệp trong cơ quan, những
ngƣời luôn khuyến khích, động viên và giúp đỡ tôi trong mọi hoàn cảnh khó khăn.
Xin cảm ơn Phòng Giáo dục Trung học của Sở Giáo dục và Đào tạo Hải
Phòng, nơi đã cung cấp cho tôi những nguồn dữ liệu quý báu.
Tôi xin cảm ơn các thầy cô trong trƣờng Đại học Hàng Hải Việt Nam đã hết
sức tạo điều kiện cho tôi trong quá trình học và làm luận văn này.
Luận văn đƣợc hoàn thành trong thời gian hạn hẹp nên không thể tránh đƣợc
những thiếu sót. Tôi xin cảm ơn thầy cô, bạn bè, đồng nghiệp đã có những ý kiến
đóng góp chân thành cho nội dung của luận văn, để tôi có thể tiếp tục đi sâu tìm
hiểu về lĩnh vực này trong tƣơng lai.

Hải Phòng, 03/2016


Cao Chiến Thắng

II

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 5 of 95.

MỤC LỤC
Trang
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CÁM ƠN ........................................................................................................... ii
DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU ............................................... v
DANH MỤC CÁC HÌNH MINH HỌA................................................................... vi
DANH MỤC CÁC BẢNG ...................................................................................... vii
MỞ ĐẦU ................................................................................................................... 1
Chƣơng 1: TỔNG QUAN ......................................................................................... 5
1.1. Tổng quan về bài toán tuyển sinh trung học phổ thông ............................ 5
1.1.1. Đối tƣợng và phƣơng thức tuyển sinh ............................................ 5
1.1.2. Hồ sơ tuyển sinh ............................................................................ 5
1.1.3. Tuyển thẳng, chế độ ƣu tiên, khuyến khích.................................... 5
1.2. Công tác tuyển sinh vào lớp 10 của thành phố Hải Phòng. ....................... 7
1.2.1. Đặc điểm ....................................................................................... 7
1.2.2. Thi tuyển và xét tuyển ................................................................... 7
1.3. Khai phá dữ liệu..................................................................................... 12
1.3.1. Định nghĩa khai phá dữ liệu......................................................... 12
1.3.2. Nhiệm vụ chính trong khai phá dữ liệu ........................................ 13
1.3.3. Các phƣơng pháp khai phá dữ liệu............................................... 15

1.4. Cây quyết định ....................................................................................... 18
1.4.1. Khái niệm .................................................................................... 18
1.4.2. Ƣu điểm và nhƣợc điểm của cây quyết định ................................ 19
1.4.3. Xây dựng cây quyết định ............................................................. 20
1.5. Kết luận chƣơng 1.................................................................................. 24
Chƣơng 2: HỆ HỖ TRỢ RA QUYẾT ĐỊNH CHỌN TRƢỜNG ĐĂNG KÝ DỰ
THI VÀO LỚP 10 ................................................................................................... 25
2.1. Hệ hỗ trợ ra quyết định .......................................................................... 25
2.1.1. Decision Support Systems (DSS) ................................................ 25
2.1.2. Quy trình ra quyết định................................................................ 25
2.1.3. Phân loại DSS ............................................................................. 25
III

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 6 of 95.

2.2. Thuật toán C4.5 ..................................................................................... 27
2.2.1 Lịch sử phát triển.......................................................................... 27
2.2.2 Mã giả của thuật toán C4.5 ........................................................... 28
2.2.3. Độ đo để lựa chọn thuộc tính “tốt nhất”:information gain và gain
ratio................................................................................................................ 29
2.2.4 Xử lý “quá vừa” dữ liệu................................................................ 30
2.2.5. Xử lý những giá trị thiếu ............................................................. 31
2.2.6. Chuyển đổi sang luật ................................................................... 31
2.2.7. Ứng dụng vào bài toán phân lớp dữ liệu ...................................... 32
2.3. Sử dụng phần mềm Weka với việc tạo luật trong cơ sở dữ liệu .............. 33
2.3.1. Giới thiệu .................................................................................... 33
2.3.2 Môi trƣờng chính.......................................................................... 33

2.4. Các bƣớc thực hiện bài toán ................................................................... 34
2.4.1. Thu gom dữ liệu .......................................................................... 34
2.4.2. Trích lọc dữ liệu .......................................................................... 34
2.4.3 Làm sạch, tiền xử lý và chuẩn bị trƣớc dữ liệu ............................. 35
2.4.4 Rời rạc hóa dữ liệu ....................................................................... 35
2.4.5. Tạo cây quyết định ...................................................................... 40
2.4.6. Luật đƣợc sinh ra từ cây quyết định............................................. 42
2.5. Kết luận chƣơng 2.................................................................................. 44
Chƣơng 3: CÀI ĐẶT - THỬ NGHIỆM .................................................................. 45
3.1. Mô hình bài toán .................................................................................... 45
3.2. Dữ liệu thử nghiệm ................................................................................ 45
3.3. Lựa chọn công nghệ ............................................................................... 47
3.4. Chƣơng trình DEMO ............................................................................. 49
3.4.1.Giao diện tƣ vấn vào 10 ................................................................ 49
3.4.2. Modul Suy diễn ........................................................................... 51
3.4.3. Giao diện kiểm thử dữ liệu .......................................................... 51
3.4.4. Một số kết quả đạt đƣợc .............................................................. 55
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................. 57
TÀI LIỆU THAM KHẢO ....................................................................................... 58
IV

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 7 of 95.

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU
Chữ viết tắt

Giải thích


CSDL

Cơ sở dữ liệu

HTQĐ

Hỗ trợ quyết định

KPDL

Khai phá dữ liệu

HS

Học sinh

THPT

Trung học phổ thông

THCS

Trung học cơ sở

DSS

Decision Support Systems

V


Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 8 of 95.

DANH MỤC CÁC HÌNH MINH HỌA
Số hình

Tên hình

Trang

Hình 1.1:

Các bƣớc của quá trình khai phá dữ liệu

12

Hình 1.2:

Cây quyết định

19

Hình 2.1:

Giao diện khởi đầu của WEKA 3.6.9

34


Hình 2.2:

Kết quả thi tuyển sinh vào lớp 10 năm học

34

2013-2014
Hình 2.3:

Dữ liệu sau khi đã loại bỏ các thuộc tính không

35

cần thiết
Hình 2.4:

Một số thuộc tính có dữ liệu kiểu liên tục

36

Hình 2.5:

Các thuộc tính sau khi đã đƣợc rời rạc

38

Hình 2.6:

Hình ảnh cây quyết định


42

Hình 2.7:

Cây quyết định theo tổng điểm thi

43

Hình 2.8

Cây quyết đinh theo tổng điểm thi và nhóm

45

điểm
Hình 3.1

Thứ tự các bƣớc giải quyết bài toán

47

Hình 3.2

Dữ liệu thô ban đầu

48

Hình 3.3


Các mẫu luật đƣợc lƣu trong CSDL

50

Hình 3.4

Các luật đƣợc tạo bởi phần mềm Weka

51

Hình 3.5

Giao diện chính chƣơng trình

52

Hình 3.6:

Đánh giá kết quả

55

Hình 3.7

Thống kê theo điểm thi

58

Hình 3.8


Thống kê theo trƣờng THCS

59

Hình 3.9

Thống kê theo trƣờng THPT

59

VI

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 9 of 95.

DANH MỤC CÁC BẢNG
Số bảng
Bảng 1.1

Tên bảng
Điểm cộng ứng với kết quả học tập và rèn luyện

Trang
8

các năm lớp 6,7,8,9
Bảng 1.2


Thống kê điểm chuẩn của các trƣờng THPT quốc
lập thuộc các quận nội thành Hải Phòng các năm

11

2011-2015
Bảng 2.1

Kết quả phân lớp bằng cây quyết định

45

Bảng 3.1

Các thuộc tính chƣơng trình tuyển sinh

48

Bảng 3.2

Mô tả các trƣờng lƣu trữ mẫu luật trong CSDL

50

VII

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 10 of 95.


MỞ ĐẦU
"We are drowning in Data but starved for knowledge."
(Chúng ta đang chết chìm trong dữ liệu nhưng lại chết đói về tri thức)
John Naisbitt
Chúng ta đều biết công nghệ thông tin nói chung và tin học hóa các lĩnh vực kinh
tế, xã hội nói riêng đã đem lại những thành công đáng kể, đóng góp vào sự phát
triển của toàn nhân loại. Đồng thời với việc tin học hóa, việc lƣu trữ thông tin của
các lĩnh vực kể trên đã phát triển một cách nhanh chóng.
Tuy nhiên, việc lƣu trữ một cách ồ ạt với rất nhiều thông tin, trong đó có nhiều
thông tin có thể bị trùng lặp đó cũng gây ra những khó khăn, đó là từ nguồn dữ liệu
mênh mông bao la đó làm thế nào để khai thác thành những tri thức có ích, có giá
trị.
Chính vì vậy một lĩnh vực mới ra đời, nó sử dụng các kỹ thuật để dữ liệu mà ta đã
lƣu trữ đƣợc sẽ đƣợc chuyển đổi thành tri thức có ích. Đó chính là lĩnh vực khai
phá dữ liệu.
Mô tả quá trình phát hiện ra tri thức trong CSDL chính là nhiệm vụ của khai phá
dữ liệu. Các tri thức tiềm ẩn từ dữ liệu sẽ kết xuất ra từ quá trình nàygiúp cho việc
dự báo trong kinh doanh, các lĩnh vực sản xuất ... So với phƣơng pháp truyền
thống trƣớc kia,khai phá dữ liệu giúp giảm chi phí về thời gian (ví dụ nhƣ phƣơng
pháp thống kê).
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều lĩnh vựcnhiều ngành, nhƣ
thống kê, cơ sở dữ liệu, trí tuệ nhân tạo nâng cao, thuật toán, tính toán song song
và tốc độ cao, thu thập tri thức cho các hệ chuyên gia... Đặc biệt phát hiện tri thức
và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, dùng các phƣơng pháp thống
kê để mô hình dữ liệu và phát hiện các mẫu, luật ...
Lĩnh vực giáo dục cũng đƣợc các chuyên gia khai phá dữ liệu đặc biệt quan tâm.
Mọi ngƣời đều biết giáo dục là nhân tố quyết định sự phát triển của một quốc gia
1


Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 11 of 95.

về nhiều mặt. Một đất nƣớc có phát triển bền vững hay không phụ thuộc vào việc
định hƣớng, hoạch định chính sách cho thế hệ trẻ.
Học và thi là hai mặt của một quá trình trong giáo dục. Học là quá trình tích lũy,
trau dồi kiến thức. Thi là để đánh giá quá trình học của ngƣời học.
Trong cuộc đời, mỗi ngƣời đều trải qua nhiều kỳ thi. Đặc biệt là học sinh, sinh viên
thì việc thi càng xảy ra thƣờng xuyên: Thi giữa kỳ, thi cuối năm, thi lên lớp, thi hết
cấp, thi chuyển cấp…
Kỳ thi nào cũng quan trọng, nhƣng đã có thi thì có đỗ và có trƣợt. Không ai muốn
mình trƣợt thi dù đó là kỳ thi nào. Vậy nên kỳ thi tuyển vào lớp 10 đối với học sinh
phổ thông là cực kỳ quan trọng. Nó quan trọng ở chỗ mỗi năm số lƣợng thí sinh
đƣợc tuyển vào trƣờng THPT quốc lập ở thành phố hải Phòng chiếm khoảng 70%,
trong số nhiều trƣờng THPT thì có số ít trƣờng thuộc tốp trên, một số trƣờng thuộc
tố giữa và một số thuộc tốp cuối. Nếu các em thi đƣợc vào một trƣờng thuộc tốp
trên thì cánh cửa vào trƣờng đại học của các em đã đƣợc mở ra. Vì vậy lựa chọn để
đăng ký thi vào một trƣờng THPT phù hợp với khả năng của bản thân là một vấn
đề rất quan trọng không chỉ với học sinh mà ngay cả với các bậc phụ huynh.
Trong thực tế có nhiều học sinh có học lực trung bình nhƣng lựa chọn trƣờng phù
hợp nên đã thi đỗ vào trƣờng quốc lập, trong khi có những học sinh có học lực khá
nhƣng chọn trƣờng quá cao hoặc quá thấp thì đạt những kết quả không mong
muốn.
Thành phố Hải Phòng có 7 quận và 8 huyện. Trong đó 7 quận nội thành với 13
trƣờng THPT quốc lập, có một số trƣờng THPT nằm trong tốp 100 các trƣờng
THPT trên cả nƣớc. Kết quả này đƣợc đánh giá bằng tỷ lệ học sinh đỗ vào đại học,
cao đẳng hàng năm của mỗi trƣờng.
Việc tƣ vấn cho học sinh đăng ký dự thi vào một trƣờng THPT phù hợp với trình

độ của các em chƣa đƣợc các trƣờng THPT quan tâm. Chủ yếu các em đƣợc các
thầy cô ở trƣờng THCS định hƣớng và tƣ vấn giúp bằng cảm tính và bằng kinh
nghiệm, điều này làm nhiều bậc phụ huynh không thực sự yên tâm.
2

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 12 of 95.

Bản thân tác giả làm trong ngành giáo dục, nhiều năm tham gia công tác tuyển sinh
vào lớp 10,đồng thời cũng từng là một phụ huynh có con đã thi vào lớp 10 nên rất
chia sẻ với những lo lắng của các phụ huynh.
Từ nguồn dữ liệu tuyển sinh đƣợc lƣu trữ từ nhiều năm của phòng Giáo dục Trung
học - Sở Giáo dục Đào tạo Hải Phòng, từcác kiến thức đã đƣợc học từ môn khai
phá dữ liệu, tác giả mong muốn xây dựngmột chƣơng trình hỗ trợ học sinh cũng
nhƣ phụ huynh học sinh có thể căn cứ để đăng ký nguyện vọng vào một trƣờng
THPT mà khả năng đỗ cao nhất.
Đó là lý do chọn đề tài: “Xây dựng hỗ trợ tuyển sinh cho các trường THPT trên
địa bàn nội thành Hải Phòng”.

BỐ CỤC CỦA LUẬN VĂN
Ngoài các phần mở đầu, mục lục, danh mục hình, kết luận, tài liệu tham khảo.
Luận Văn đƣợc chia làm 3 chƣơng:
Chƣơng I : TỔNG QUAN
Chƣơng này trình bày các vấn đề tổng qua về công tác, đặc thù tuyển sinh
vào lớp 10 của thành phố Hải Phòng. Những khái niệm cơ bản về khai phá dữ liệu
và việc áp dụng khai phá dữ liệu trong vấn đề hỗ trợ đăng kí dự thi vào lớp 10.
Chƣơng 2: HỆ HỖ TRỢ RA QUYẾT ĐỊNH NG ĐĂNG KÝ DỰ THI VÀO LỚP
10

Những khái niệm cơ bản về một hệ hỗ trợ ra quyết định, trình bày chi tiết
thuật toán C4.5 sẽ đƣợc dùng để áp dụng vào tạo cây quyết định cho bài toán hỗ
trợ tuyển sinh, giới thiệu các chức năng của phần mềm Weka, và các bƣớc thực
hiện bài toán “Xây dựng hỗ trợ tuyển sinh cho các trường THPT trên địa bàn nội
thành Hải Phòng”
Chƣơng 3: CÀI ĐẶT-THỬ NGHIỆM

3

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 13 of 95.

Trong chƣơng này tác giả trình bày các nội dung:Mô hình chung bài toán, các thao
tác biến đổi dữ liệu, quá trình tạo luật trong phần mềm Weka, các thao tác trên giao
diện của chƣơng trình hỗ trợ tƣ vấn tuyển sinh và kết quả thử nghiệm.

4

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 14 of 95.

Chƣơng 1: TỔNG QUAN
1.1.Tổng quan về bài toán tuyển sinh trung học phổ thông
1.1.1. Đối tƣợng và phƣơng thức tuyển sinh
Đối tƣợng tuyển sinh là ngƣời có độ tuổi theo quy địnhvà đã tốt nghiệp trung
học cơ sở chƣơng trình giáo dục phổ thông hoặc chƣơng trình giáo dục thƣờng

xuyên.
Một trong ba phƣơng thức sau đƣợc áp dụngđể tuyển sinh trung học phổ
thông:
-

Xét tuyển: dựa trên kết quả học tập rèn luyện, của 4 năm học ở trung học

cơ sở của đối tƣợng tuyển sinh, nếu lƣu ban lớp nào thì lấy kết quả năm học lại của
lớp đó;
-

Thi tuyển;

-

Kết hợp thi tuyển với xét tuyển.

1.1.2. Hồ sơ tuyển sinh
Hồ sơ tuyển sinh gồm
1. Bản sao giấy khai sinh có công chứng.
2. Bằng tốt nghiệp trung học cơ sở hoặc bản sao bằng tốt nghiệp trung học cơ sở có
công chứng hoặc giấy chứng nhận tốt nghiệp trung học cơ sở tạm thời.
3. Học bạ cấp trung học cơ sở (bản chính).
4. Giấy xác nhận chế độkhuyến khích, ƣu tiên do cơ quan có thẩm quyền cấp (nếu
có).
5. Giấy xác nhận do ủy ban nhân dân phƣờng, xã, thị trấn cấp (đối với ngƣời học
đã tốt nghiệp trung học cơ sở từ những năm học trƣớc) không trong thời gian đang
vi phạm pháp luật hoặc thi hành án phạt tù; cải tạo không giam giữ.
1.1.3. Tuyển thẳng, chế độ ƣu tiên, khuyến khích
1.1.3.1.Các đối tượng sau đây được tuyển thẳng vào trung học phổ thông

Các đối tƣợng sau đây đƣợc tuyển thẳng vào trung học phổ thông:
5

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 15 of 95.

-

Học sinh trƣờng phổ thông dân tộc nội trú;

-

Học sinh là ngƣời dân tộcthiểu số;

-

Học sinh khuyết tật;

-

Học sinh đạt giải từ cấp quốc gia trở lên về văn hóa; thể dục thể thao;văn

nghệ; hoặc cuộc thi khoa học kĩ thuật dành cho học sinh trung học.
1.1.3.2. Đối tượng được cộng điểm ưu tiên.
Từng loại đối tƣợng đƣợc hƣởng chế độ ƣu tiên đƣợc Sở giáo dục và đào tạo quy
định điểm cộng thêm nhƣ sau:
a) Nhóm đối tƣợng 1:
- Là con của liệt sĩ;

- Là con của thƣơng binh mất sức lao động 81% trở lên;
- Là con của bệnh binh mất sức lao động 81% trở lên;
- Là con của ngƣời đƣợc cấp “Giấy chứng nhận ngƣời hƣởng chính sách nhƣ
thƣơng binh mà ngƣời đƣợc cấp Giấy chứng nhận ngƣời hƣởng chính sách nhƣ
thƣơng binh bị suy giảm khả năng lao động 81% trở lên”.
b) Nhóm đối tƣợng 2:
- Là con của Anh hùng lao động, con của Anh hùng lực lƣợng vũ trang, con của Bà
mẹ Việt Nam anh hùng;
- Là con của thƣơng binh mất sức lao động dƣới 81%;
- Là con của bệnh binh mất sức lao động dƣới 81%;
- Là con của ngƣời đƣợc cấp “Giấy chứng nhận ngƣời hƣởng chính sách nhƣ
thƣơng binh mà ngƣời đƣợc cấp Giấy chứng nhận ngƣời hƣởng chính sách nhƣ
thƣơng binh bị suy giảm khả năng lao động dƣới 81%”.
c) Nhóm đối tƣợng 3:
- Ngƣời có cha hoặc mẹ là ngƣời dân tộc ít ngƣời;
- Ngƣời dân tộc ít ngƣời;
6

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 16 of 95.

- Ngƣời học đang học tập,sinh sống ở các vùng có điều kiện kinh tế - xã hội đặc
biệt khó khăn.
1.1.3.3. Đối tượng được cộng điểm khuyến khích.
Đối tƣợng và điểm cộng thêm cho từng loại đối tƣợng đƣợc hƣởng chế độ khuyến
khích đƣợc Sở giáo dục và đào tạo quy định chi tiết.
1.2. Công tác tuyển sinh vào lớp 10 của thành phố Hải Phòng.
1.2.1. Đặc điểm

Mỗi năm thành phố Hải Phòng có khoảng 18.000 học sinh dự thi vào lớp 10. Tổng
số chỉ tiêu dành cho các trƣờng quốc lập trung bình khoảng 70%, còn lại khoảng
30% dành cho khối trƣờng dân lập và các trung tâm giáo dục thƣờng xuyên. Nhƣ
vậy mỗi năm có khoảng 13.000 học sinh đỗ vào các trƣờng quốc lập và khoảng
5.000 học sinh vào trƣờng dân lập.
Thành phố Hải Phòng hiện có 40 trƣờng THPT hệ quốc lập. (39 trƣờng THPT và
01 Trƣờng THPT chuyên Trần Phú).
Trong số 39 trƣờng THPT này2 trƣờng THPT Cát Bà, Cát Hải thực hiện xét tuyển
kết quả học tập, rèn luyện của 4 năm học ở bậc THCS của học sinh, 37 trƣờng
THPT thực hiện phƣơng thức vừa thi tuyển, vừa xét tuyển. Riêng trƣờng THPT
chuyên Trần Phú thi tuyển riêng.
Bài toán Xây dựng hỗ trợ tuyển sinh cho các trường THPT trên địa bàn nội thành
Hải Phòngtập trung vào đối tƣợng vừa thi tuyển vừa xét tuyển, vì vậy các thông tin
không liên quan sẽ không đƣợc trình bày trong luận văn.
1.2.2. Thi tuyển và xét tuyển
Thành phố Hải Phòng có 37 trƣờng THPT thuộc quốc lập sẽ vừa tổ chức thi tuyển,
vừa kết hợp xét tuyển: Kết quả điểm thi 2 môn Toán, Ngữ Văn trong kì thi vào lớp
10 THPT quốc lập (không môn nào bị điểm 1 trở xuống) và xét kết quả học tập,
rèn luyện của 4 năm học THCS và các điểm ƣu tiên, khuyến khích (nếu có).

7

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 17 of 95.

1.2.2.1. Xét tuyển
Mỗi học sinh sẽ có 4 tiêu chuẩn xét tuyển: Điểm học tập và rèn luyện, điểm thi
nghề, điểm ƣu tiên, điểm khuyến khích

Bảng 1.1: Điểm cộngứngvới kết quả học tập và rèn luyện các năm lớp 6,7,8,9
1) Kết quả học tập và rèn luyện

Điểm cộng

Học sinh có: Hạnh kiểm tốt, học lực giỏi

5.0 điểm

Học sinh có: Hạnh kiểm khá, học lực giỏi hoặc hạnh kiểm tốt,

4.5 điểm

học lực khá
Học sinh có: Hạnh kiểm khá, học lực khá

4.0 điểm

Học sinh có: Hạnh kiểm Tb, học lực giỏi hoặc hạnh kiểm tốt,

3.5 điểm

học lực Tb
Học sinh có: Hạnh kiểm khá, học lực Tb hoặc hạnh kiểm Tb,

3.0 điểm

học lực khá
Các trƣờng hợp còn lại


2.5điểm

2) Điểm thi nghề:
Giỏi

1.5 điểm

Khá

1.0điểm

3) Điểm ƣu tiên:
- Là con của liệt sĩ;

3.0 điểm

- Là con của thƣơng binh mất sức lao động 81% trở lên;
- Là con của bệnh binh mất sức lao động 81% trở lên;
- Là con của ngƣời đƣợc cấp “Giấy chứng nhận ngƣời đƣợc
hƣởng chính sách nhƣ thƣơng binh mà ngƣời đƣợc cấp Giấy
chứng nhận ngƣời hƣởng chính sách giống nhƣ thƣơng binh bị
suy giảm khả năng lao động 81% trở lên”

8

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 18 of 95.


- Là con của Anh hùng lao động, con của Anh hùng lực lƣợng

2.0 điểm

vũ trang, con của Bà mẹ Việt Nam anh hùng;
- Là con của thƣơng binh mất sức lao động dƣới 81%;
- Là con của bệnh binh mất sức lao động dƣới 81%;
- Là con của ngƣời đƣợc cấp “Giấy chứng nhận ngƣời đƣợc
hƣởng chính sách nhƣ thƣơng binh mà ngƣời đƣợc cấp Giấy
chứng nhận ngƣời hƣởng chính sách giống nhƣ thƣơng binh bị
suy giảm khả năng lao động dƣới 81%”.
4) Điểm khuyến khích:
Đạt giải Nhất QG môn văn hóa

4.0 điểm

Đạt giải Nhì QG môn văn hóa

3.5 điểm

Đạt giảiBa QG môn văn hóa

3.0 điểm

Đạt giải Nhất TP môn văn hóa

2.0 điểm

Đạt giải Nhì TP môn văn hóa


1.5 điểm

Đạt giải ba TP môn văn hóa

1.0điểm

1.2.2.2. Thi tuyển:
Thi viết 2 môn Ngữ Văn và Toán.
Thời gian làm bài 120 phú/môn thi
Điểm của bài thi: Điểm của bài thi đƣợc cho theo thang điểm từ 0 đến 10, điểm lẻ
đến 0,25
Điểm xét tuyển đƣợc tính thao công thức:
Điểm xét tuyển = Điểm HT_RL+Điểm ƢT+Điểm KK+2*(Điểm Văn + Điểm Toán)

Thí sính trúng tuyển phải không có bài thi nào nhỏ hơn 1.
Nhƣ đã trình bày ở trên, kì thi tuyển sinh vào lớp 10 THPT thành phố Hải Phòng
kết hợp cả thi tuyển và xét tuyển. Vì bài toán Xây dựng hỗ trợ tuyển sinh cho các
9

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 19 of 95.

trƣờng THPT trên địa bàn nội thành Hải Phòng quan tâm đến đối tƣợng vừa thi
tuyển vừa xét tuyển nên các học sinh thi vào trƣờng THPT chuyên Trần Phú và
học sinh thuộc các trƣờng ở ngoại thành không nằm trong phạm vi tƣ vấn.

10


Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 20 of 95.

Bảng 1.2:Thống kê điểm chuẩn của các trường THPT quốc lậpthuộc các quận nội thành Hải Phòng các năm 2011-2015
STT

Các trƣờng Nội thành

Quận

2011-2012

2012-2013

2013-2014 2014-2015

Điểm TB

1 THPT Ngô Quyền

Lê Chân

50.5

50.5

50.5


52.5

51

2 THPT Thái Phiên

Ngô Quyền

50.5

50

49.5

51.5

50.375

3 THPT Lê Quý Đôn

Hải An

47.5

50

46

49.5


48.25

4 THPT Trần Nguyên Hãn

Lê Chân

49

48

49

51

49.25

5 THPT Hồng Bàng

Hồng Bàng

45

46.5

45

48.5

46.25


6 THPT Lê Hồng Phong

Hồng Bàng

47.5

45

46.5

48

46.75

7 THPT Lê Chân

Lê Chân

38

43.5

41

44.5

41.75

8 THPT Hải An


Hải An

45

43.5

46

45.5

45

9 THPT Kiến An

Kiến An

44.5

43.5

47.5

47

45.625

10 THPT Đồng Hòa

Kiến An


31.5

38.5

38.5

39.5

37

Dƣơng Kinh

36.5

41

41

40

39.625

11 THPT Mạc Đĩnh Chi
12 THPT Đồ Sơn

Đồ Sơn

20

30.5


30.5

34

28.75

13 THPT Phan Đăng Lƣu

Kiến An

23.5

26.5

32.5

36

29.6

11

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai - tai lieu hot - keyword - seo20 kho tai lieu - khoa lu


luan van thac si - luan van thac si kinh te - luan an tien - luan van 21 of 95.

1.3. Khai phá dữ liệu
1.3.1. Định nghĩa khai phá dữ liệu

Khai phá dữ liệu dùng để mô tả quá trình phát hiện ra tri thức trong cơ sở dữ
liệu (CSDL). Khai phá dữ liệu khi triển khai làm giảm chi phí thời gian so với
cách thức truyền thống trƣớc (phƣơng pháp thống kê).
Quy trình phát hiện tri thức thƣờng tuân theo các bƣớc sau:

Hình 1.1: Các bước của quá trình khai phá dữ liệu
- Bƣớc một: Đây là quá trình tìm hiểu các lĩnh vực của bài toán, từ đó

hình thành bài toán và định nghĩa bài toán, việc quan trọng ở bƣớc này là xác
định đƣợc các nhiệm vụ, yêu cầu của bài toán. Ở bƣớc này sẽ quyết định việc
rút ra đƣợc những tri thức gì từ dữ liệu. Tại bƣớc này cũng quyết định lựa
chọn phƣơng pháp khai phá dữ liệu sao cho phù hợp với mục đích cũng nhƣ
nội dung của dữ liệu.
- Bƣớc hai: Từ việc xác định đƣợc các nhiệm vụ của bài toán từ bƣớc 1,

chuyển qua bƣớc thu thập dữ liệu. Dữ liệu có thể đƣợc lấy từ nhiều nguồn
khác nhau, có thể có những thông tin bị trùng lặp, hay những nội dung bị
khuyết, thiếu. Khi đó việc cần làm trong bƣớc này là đồng bộ các kiểu dữ liệu,
rút gọn các những thuộc tính thừa hoặc không cần thiết và bổ sung nhƣng
thông tin bị khuyết thiếu. Nhiệm vụ của bƣớc này là bộ dữ liệu phải đƣợc nhất
12

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 22 of 95.

quán, đầy đủ nhƣng cũng đòi hỏi phải đƣợc rút gọn nhất. Thông thƣờng bƣớc
này tốn rất nhiều thời gian và công sức trong toàn bộ quá trình khai phá tri
thức.

- Bƣớc ba: Sau khi có bộ dữ liệu từ bƣớc hai, chuyển qua bƣớc ba là

bƣớc rút ra tri thức. Nhiệm vụ của bƣớc này là rút ra các mẫu và các mô hình
ẩn dƣới các dữ liệu. Có thể coi đây là bƣớc quan trọng nhất trong việc khai
phá dữ liệu. Nó bao gồm các công đoạn nhƣ chức năng, nhiệm vụ cũng nhƣ
mục đích của khai phá dữ liệu. Sử dụng phƣơng pháp nào để khai phá dữ liệu
cho phù hợp. Thông thƣờng một bài toán khai phá dữ liệu có dạng mô tả - đƣa
ra những tính chất chung nhất của dữ liệu hoặc dự báo – phát hiện và suy diễn
dựa trên các dữ liệu đã có. Khi đó việc lựa chọn phƣơng pháp phù hợp sẽ
quyết định đến sự thành công của việc khai phá dữ liệu.
- Bƣớc bốn: Các tri thức đã nhận đƣợc từ bƣớc ba sẽ đƣợc làm rõ hơn

đối với mỗi dạng mô tả cũng nhƣ dự đoán. Quá trình làm rõ này có thể trải
qua các bƣớc lặp đi lặp lại, khi đó kết quả mà ta thu nhận đƣợc là trung bình
cộng trong tất cả các lần thực hiện.
- Bƣớc năm: Những tri thức đã đƣợc tìm thấy ở bƣớc bốn sẽ đƣợc sử

dụng, tại bƣớc này chính là ứng dụng những kết quả mà khai phá tri thức đem
lại. Đồng thời cũng giúp ta hiểu rõ hơn, sâu hơn về tri thức mà ta đã tìm đƣợc
để tiếp tục làm sáng tỏ các mô tả cũng nhƣ các dự đoán.
- Kết quả của quá trình phát hiện tri thức đƣợc ứng dụng trong các lĩnh

vực khác nhau. Các kết quả có thể là các dự đoán hoặc các mô tả nên chúng
có thể đƣợc đƣa vào các hệ thống nhằm hỗ trợ ra quyết định nhằm tự động
hoá quá trình.
1.3.2. Nhiệm vụ chính trong khai phá dữ liệu
Các nhiệm vụ của quá trình khai phá dữ liêu: : Phân lớp, Hồi qui, Phân nhóm,
Tổng hợp, Mô hình hoá sự phụ thuộc và Phát hiện sự biến đổi và độ lệch.
- Phân lớp (phân loại - Classification)


13

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 23 of 95.

Dữ liệu sẽ đƣợc phân thành các lớp có thể giao nhau hoặc không, nhằm xác
định một ánh xạ để ánh xạ các mẫu dữ liệu thỏa mãn ràng buộc nào đó vào cùng
một lớp.
Quan hệ giữa thuộc tính dự báo và thuộc tính phân lớp chính là mục tiêu của
thuật toán phân. Quá trình phân lớp có thể sử dụng quan hệ này để dự báo cho các
mục mới phía sau. Khi đó: “Các thuộc tính dự báo của một mục thoả mãn điều
kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận” - các kiến thức
đƣợc phát hiện biểu diễn dƣới dạng các luật.
- Hồi qui (regression)

Nhiệm vụ của hồi quy tƣơng tự nhƣ phân lớp, nhƣng điểm khác nhau chính
là ở chỗ thuộc tính để dự báo là liên tục chứ không phải rời rạc. Dự báo các giá trị
số thƣờng đƣợc làm bởi các phƣơng pháp thống kê cổ điển, chẳng hạn nhƣ hồi
quy tuyến tính. Việc dùng một hàm dự báo để từ các mẫu dữ liệu đã có hàm dự
báo sẽ cho một giá trị thực. Nhƣng phƣơng pháp mô hình hoá cũng đƣợc sử dụng,
ví dụ: cây quyết định.
Ứng dụng của hồi quy: dự báo thời tiết; ƣớc lƣợng sác xuất ngƣời bệnh có
thể chết bằng cách kiểm tra các triệu chứng; dự báo nhu cầu của ngƣời dùng đối
với một sản phẩm;…
- Phân nhóm (clustering)

Việc mô tả chung để tìm ra các tập hay các nhóm, loại mô tả dữ liệu. Các
nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau. Nghĩa là dữ liệu có thể

vừa thuộc nhóm này lại vừa thuộc nhóm khác. Hầu hết ứng dụng khai phá dữ liệu
có nhiệm vụ phân nhóm cũng nhƣ phát hiện các tập có tác động giống nhau trong
CSDL: Ví dụ nhƣ việc xác định các quang phổ từ hoặc các phƣơng pháp đo tia
hồng ngoại, … có liên quan chặt chẽ đến việc phân nhóm đó là nhiệm vụ đánh giá
dữ liệu, hàm mật, độ xác suất đa biến, các trƣờng trong CSDL.
- Tổng hợp (summarization)

14

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 24 of 95.

Mô tả công việc liên quan tới phƣơng pháp tìm kiếm một dạng mô tả tập con
dữ liệu. Đƣợc áp dụng trong việc phân tích dữ liệu mang tính thăm dò và báo cáo
tự động.
Tuy nhiên nhiệm vụ chính là sản sinh ra các mô tả đặc trƣng cho một lớp.
Mô tả loại này là một kiểu tổng hợp và tóm tắt các đặc tính chung của tất cả cũng
nhƣ hầu hết các mục của một lớp. Thể hiện các mô tả đặc trƣng theo luật có dạng:
“Một mục thuộc về lớp đã chỉ trong tiền đề thì mục đó có tất cả các thuộc tính đã
nêu trong kết luận”. Đặc biệt với luật dạng này có các khác biệt so với luật phân
lớp. Luật phát hiện thể hiện đặc trƣng cho lớp chỉ sản sinh khi các mục đã thuộc
về lớp đó.
- Mô hình hoá sự phụ thuộc (dependency modeling)

Đây là mô hình mô tả sự phụ thuộc giữa các biến, các thuộc tính theo các mức:
+ Mức cấu trúc của mô hình mô tả (thƣờng biểu diễn dƣới dạng đồ thị). Trong
đó, các biến phụ thuộc bộ phận vào các biến khác.
+ Mức định lƣợng mô hình mô tả mức độ phụ thuộc. Phụ thuộc này thƣờng

đƣợc biểu thị dƣới dạng theo luật “nếu - thì” (nếu tiền đề là đúng thì kết luận
đúng).
- Phát hiện sự biến đổi và độ lệch (change and deviation dectection)

Ở đây tập trung vào khám phá hầu hết sự điều chỉnh có nghĩa dƣới dạng độ
đo đã biết trƣớc hoặc giá trị chuẩn, nếu phát hiện độ lệch đáng kể giữa nội dung
của tập con dữ liệu thực và nội dung mong đợi. Có hai mô hình độ lệch hay dung:
lệch theo thời gian hay lệch theo nhóm.
1.3.3. Các phƣơng pháp khai phá dữ liệu
Giải thuật khai phá dữ liệu bao gồm các thành phần cơ bản sau: Biểu diễn
mô hình, kiểm định mô hình và phƣơng pháp tìm kiếm. Cụ thể:
+ Biểu diễn mô hình: Việc miêu tả các mẫu có thể khai thác đƣợc biểu diễn
theo một ngôn ngữ nào đó đƣợc gọi là biểu diễn mô hình. Nếu mô hình càng rõ
15

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


luan van thac si - luan van thac si kinh te - luan an tien - luan van 25 of 95.

ràng thì học máy sẽ tạo ra các mẫu càng chính xác cho dữ liệu. Nếu mô hình quá
lớn sẽ làm giảm khả năng dự đoán của học máy. Việc miêu tả mô hình càng lớn
dẫn tới việc học máy bị quá làm giảm khả năng dự đoán các dữ liệu chƣa biết.
Khi đó việc giải thích mô hình trở lên phức tạp hơn và việc tìm kiếm cũng trở
thành khó khăn hơn.
Ban đầu mô hình đƣợc xác định bằng cách kết hợp giữa các biến độc lập với
các biến đầu ra, mà biến đầu ra phụ thuộc vào đó. Tiếp theođi tìm những tham số
mà bài toán cần tập trung giải quyết. Công việc tìm kiếm mô hình sẽ tạo ra đƣợc
mô hình phù hợp với tham số xác định dựa trên dữ liệu (đôi khi mô hình hoặc các
tham số có thể thay đổi để phù hợp với dữ liệu). Trong một số trƣờng hợp, tập các

dữ liệu đƣợc chia thành 2 tập dữ liệu: tập dữ liệu học và tập dữ liệu thử. Ban đầu
tập dữ liệu học đƣợc dùng để làm cho tham số của mô hình phù hợp với dữ liệu.
Sau đó mô hình sẽ đƣợc đánh giá bằng cách sử dụngtập các dữ liệu thử vào mô
hình và thay đổi các tham số cho phù hợp nếu cần. Mô hình lựa chọn có thể một
số giải thuật học máy (ví dụ nhƣ cây quyết định), mạng Nơ_ron, suy diễn hƣớng
tình huống, các kỹ thuật phân lớp.
+ Kiểm định mô hình (model evaluation): Là việc đánh giá đồng thời ƣớc
lƣợng các mô hình chi tiết và chuẩn trong quá trình xử lý và phát hiện tri thức với
sự ƣớc lƣợng có dự báo chính xác hay không, có thoả mãn cơ sở logic hay không.
+ Phƣơng pháp tìm kiếm: Phƣơng pháp này bao gồm hai thành phần: Tìm
kiếm tham số và tìm kiếm mô hình. Với tìm kiếm tham số, giải thuật cần tìm kiếm
các tham số để tối ƣu hóa các tiêu chuẩn đánh giá mô hình với các dữ liệu quan
sát đƣợc và với một mô tả mô hình đã định. Tìm kiếm mô hình thực hiện giống
nhƣ một vòng lặp qua phƣơng pháp tìm kiếm tham số: Mô tả mô hình thay đổi
cho ta một họ các mô hình. Đối với một mô tả mô hình, phƣơng pháp tìm kiếm
tham số đƣợc áp dụng để đánh giá chất lƣợng mô hình.
- Phƣơng pháp suy diễn/quy nạp:

16

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -


×