BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
NGƠ DUY THIỆN
XÂY DỰNG MƠ HÌNH VÀ HIỆN THỰC HỆ THỐNG
KIỂM TRA SAO CHÉP ĐỒ ÁN TRONG SINH VIÊN
Chuyên ngành:
KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 60480101
LUẬN VĂN THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019
Cơng trình được hồn thành tại Trường Đại học Cơng nghiệp TP. Hồ Chí Minh.
Người hướng dẫn khoa học: ...........................................................................................
Người ph䁒n iện 1: .........................................................................................................
Người ph䁒n iện 2: .........................................................................................................
u n
n thạc
được 䁒o ệ tại H i đồng ch
䁒o ệ u n
n thạc
Đại học Cơng nghiệp thành ph Hồ Chí Minh ngày . . . . . th ng . . . . n
Thành phần H i đồng đ nh gi lu n
n thạc
Trường
2019
gồ :
1. .......................................................................... - Chủ tịch H i đồng
2. .......................................................................... - Ph䁒n iện 1
3. .......................................................................... - Ph䁒n iện 2
4. .......................................................................... - Ủy iên
5. .......................................................................... - Thư ký
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA/VIỆN…………
BỘ CƠNG THƯƠNG
TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Tên tơi là: NGƠ DUY THIỆN
MSHV: CHKHMT5A
N
Nơi inh: Bình Dương
ngày: 03/10/1989
Mã chuyên ngành: 60480101
Chuyên ngành: Khoa Học M y Tính
I. TÊN ĐỀ TÀI:
Xây dựng
ơ hình à hiện thực hệ th ng kiể
tra ao chép đồ n trong inh iên.
NHIỆM VỤ VÀ NỘI DUNG:
-
Tì
hiểu c c c ch ao chép phổ iến của inh iên.
-
Tì hiểu c c cơng trình nghiên cứu có liên quan ề n đề ao chép à những
kết qu䁒 à t c gi䁒 c c cơng trình nghiên cứu đã đạt được.
-
Đề xu t
t ơ hình c䁒i tiến để nâng cao hiệu qu䁒 trong iệc kiể
đồ n trong inh iên.
-
Hiện thực hệ th ng kiể
tra ao chép
tra ao chép đồ n trong inh iên.
II. NGÀY GIAO NHIỆM VỤ: Theo QĐ giao đề tài 2583/QĐ-ĐHCN ngày
29/12/2016 của Hiệu trưởng Trường Đại học Cơng nghiệp Tp. Hồ Chí Minh.
III. NGÀY HOÀN THÀNH NHIỆM VỤ:
IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ê Ngọc Sơn
Tp. Hồ Chí Minh, ngày … tháng … năm 2019 …
NGƯỜI HƯỚNG DẪN
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
TRƯỞNG KHOA/VIỆN….………
LỜI CẢM ƠN
Trước tiên, tôi xin được ày tỏ ự trân trọng à lòng iết ơn ới TS. ê Ngọc Sơn,
gi䁒ng iên B
ơn Khoa học
y tính – Khoa Cơng nghệ thông tin – Trường Đại
học Công nghiệp TPHCM. Trong thời gian là
nhiều thời gian q
thực hiện lu n
Tơi xin được c䁒
lu n
lu n
n t t nghiệp, thầy đã dành
u à t n tình chỉ 䁒o, hướng dẫn tơi trong iệc nghiên cứu,
n.
ơn c c GS, TS đã gi䁒ng dạy tôi trong qu trình học t p à là
n. C c thầy đã giúp tôi hiểu th u đ o hơn l nh ực
à
ình nghiên cứu để
có thể
n dụng c c kiến thức đó ào trong cơng t c của
ình.
Xin c䁒
ơn c c ạn è, đồng nghiệp à nh t là c c thành iên trong gia đình đã tạo
ọi điều kiện t t nh t, đ ng iên, cổ ũ tơi trong u t qu trình học t p à nghiên
cứu để hoàn thành t t 䁒n lu n
n t t nghiệp này.
Tuy đã có những c gắng nh t định nhưng do thời gian à trình đ có hạn nên chắc
chắn lu n
n này cịn nhiều thiếu ót à hạn chế. Kính
của thầy cơ à c c ạn.
i
ong nh n được ự góp ý
TĨM TẮT LUẬN VĂN THẠC SĨ
Trong lu n
n này tì
hiểu c c c ch ao chép phổ iến của inh iên, tì
cơng trình nghiên cứu có liên quan ề
n đề ao chép à những kết qu䁒
c c cơng trình nghiên cứu đã đạt được, xây dựng
qu䁒 trong iệc kiể
hiểu c c
à t c gi䁒
ơ hình c䁒i tiến để nâng cao hiệu
tra ao chép đồ n trong inh iên, xây dựng thu t to n c ch tạo
d u ân, c ch tạo d u ân n-gra
theo ký tự, à n-gra
theo từ tuy nhiên qu trình
thực hiện n-gra
theo từ tạo ra d u ân có đ dài ngắn hơn, rút ngắn thời gian kiể
tra ao chép. E
trình ày kết qu䁒 kiể
trình kiể
tra ao chép thực hiện n-gra
tra ao chép qua c c trường hợp, chương
theo ký tự à từ.
ii
ABSTRACT
In thi di ertation, learn how to copy popular tudent , explore rele ant re earch
work on copy i ue and the re ult that the author of re earch project ha e
achie ed, ti ue uilding. i pro ed i age to i pro e the efficiency of checking
tudent duplication of project , uild algorith
create n-gra
proce
for creating fingerprint , how to
fingerprint according to character , and n-gra
i ple enting n-gra
fro
word
ut
follow the creation of horter length , hortening
the copy te t ti e. i pre ent the re ult of the replication te t through the ca e , the
te t progra
copie the i ple entation of n-gra
word .
iii
according to character and
LỜI CAM ĐOAN
Tơi xin ca
đoan đây là cơng trình nghiên cứu của 䁒n thân tôi. C c kết qu䁒 nghiên
cứu à c c kết lu n trong lu n
nguồn nào à dưới
n là trung thực, không ao chép từ
t kỳ hình thức nào. Việc tha
đã được thực hiện trích dẫn à ghi nguồn tài liệu tha
t
kh䁒o c c nguồn tài liệu (nếu có)
kh䁒o đúng quy định.
Học viên
Ngơ Duy Thiện
i
t kỳ
MỤC LỤC
MỤC ỤC...................................................................................................................
DANH MỤC HÌNH ẢNH........................................................................................ iii
DANH MỤC BẢNG BIỂU........................................................................................ix
DANH MỤC TỪ VIẾT TẮT..................................................................................... xi
MỞ ĐẦU ..................................................................................................................... 1
1. Đặt n đề................................................................................................................. 1
2. Mục tiêu nghiên cứu.................................................................................................1
3. Đ i tượng à phạ
i nghiên cứu............................................................................2
4. C ch tiếp c n à phương ph p nghiên cứu.............................................................. 2
5. Ý ngh a thực tiễn của đề tài......................................................................................2
CHƯƠNG 1 TỔNG QUAN VỀ ĨNH VỰC NGHIÊN CỨU............................... . 3
1.1 Đạo n à quy định xử lý đạo n....................................................................3
1.2 Tổng quan ề c c hệ th ng ch ng đạo n........................................................ 4
1.2.1 Turnitin...............................................................................................................4
1.2.2 WriteCheck........................................................................................................ 5
1.2.3 Ithenticate........................................................................................................... 6
1.2.4 JPlag................................................................................................................... 6
1.2.5 MOSS.................................................................................................................7
1.3 Tổng quan ề MS à E- earning.....................................................................7
1.3.1 Chức n ng của MS..........................................................................................8
1.3.2 Ưu à nhược điể của MS............................................................................. 8
1.3.3 Kiến trúc
t hệ th ng E-learning................................................................. 10
1.4 Bài to n kiể tra ao chép hoặc kiể tra tính nguyên 䁒n.............................10
1.4.1 Phương ph p kiể tra tính nguyên 䁒n......................................................... 10
1.4.2 M t cơng trình nghiên cứu ề kiể tra ao chép:..................................... 11
1.5 Đặc điể ngôn ngữ tiếng Việt.........................................................................12
1.5.1 C u tạo từ tiếng Việt:.................................................................................... 12
1.5.2 Phân đoạn từ tiếng Việt [8,9]......................................................................... 12
1.5.3 Những khó kh n trong phân đoạn từ tiếng Việt:............................................ 12
CHƯƠNG 2 MƠ HÌNH QUẢN Ý HỌC TẬP NHẰM CHỐNG GIAN ẬN SAO
CHÉP......................................................................................................................... 14
2.1 Mơ hình tổng thể............................................................................................. 14
2.2 Mơ hình MS đề xu t...................................................................................... 15
2.3 C c chức n ng chính của MS đề xu t........................................................... 16
2.3.1 Dành cho inh iên..........................................................................................16
2.3.2 Dành cho gi䁒ng iên........................................................................................17
2.3.3 Dành cho qu䁒n lý.............................................................................................17
2.4 Tích hợp odule PDVA ào hệ th ng MS................................................ 18
2.4.1 Plugin in talling...............................................................................................18
2.4.2 Plugin etting...................................................................................................19
2.4.3 Plugin ena le in cour e (a ign ent ).......................................................... 19
2.4.4 View re ult.......................................................................................................20
2.5 Hoạt đ ng của chức n ng kiể tra ao chép trong MS................................ 21
2.6 Mơ hình thiết kế............................................................................................... 22
2.6.1 Tầng U er Interface:........................................................................................22
2.6.2 Tầng MS:.......................................................................................................23
2.6.3 Tầng PDVA :................................................................................................. 23
CHƯƠNG 3 CẢI TIẾN PHƯƠNG PHÁP KIỂM TRA SAO CHÉP TRONG VĂN
BẢN TIẾNG VIỆT....................................................................................................24
3.1 Kiến trúc hệ th ng PDVA ............................................................................. 24
3.2 Mơ hình ngôn ngữ N-gra ...............................................................................25
3.2.1 Giới thiệu chung...............................................................................................25
3.2.2 V n đề khó kh n khi xây dựng ơ hình ngơn ngữ N-gra ............................26
3.3 D u ân (Fingerprint) của tài liệu.................................................................... 27
3.3.1 Kh i niệ ......................................................................................................... 27
3.3.2 Thu t to n Winnowing fingerprinting.............................................................27
3.3.3 Hiện thực thu t to n tạo d u ân:.................................................................... 29
3.4 Đ đo tương đồng............................................................................................. 29
3.4.1 Kh i niệ ự tương đồng.................................................................................29
3.4.2 C c phương ph p tính đ tương đồng............................................................. 30
3.5 Quy trình kiể tra ao chép giữa hai tài liệu................................................... 32
3.5.1 Tiền xử lý......................................................................................................... 33
3.5.2 Phân đoạn câu.................................................................................................. 33
3.5.3 Kiể tra ao chép nguyên n câu.................................................................. 34
3.5.4 Tính to n đ tương đồng..................................................................................34
CHƯƠNG 4 HIỆN THỰC VÀ THỬ NGHIỆM.................................................... 35
4.1 Kết qu䁒 tổng thể................................................................................................35
4.1.1 C u hình hệ th ng chạy thử nghiệ ................................................................ 35
4.1.2 Dữ liệu thử nghiệ .......................................................................................... 35
4.1.3 De o kết qu䁒................................................................................................... 37
4.2 Kết qu䁒 thu t to n Winnowing fingerprinting................................................ 41
4.2.1 Tạo d u ân (fingerprint) của tài liệu............................................................. 41
i
4.2.2 Kết qu䁒 thực nghiệ tạo d u ân (fingerprint) của tài liệu...........................41
4.2.3 n-gra theo ký tự........................................................................................... 43
4.2.4 n-gra theo từ.................................................................................................47
KẾT UẬN VÀ KIẾN NGHỊ...................................................................................51
1. Kết lu n..................................................................................................................51
2. Kiến nghị................................................................................................................52
TÀI IỆU THAM KHẢO....................................................................................... 542
Ý ỊCH TRÍCH NGANG CỦA HỌC VIÊN....................................................... 564
ii
DANH MỤC HÌNH ẢNH
Hình 1.1 Giao diện Turnitin......................................................................................... 5
Hình 1.2 Giao diện WriteCheck...................................................................................5
Hình 1.3 Giao diện Ithenticate..................................................................................... 6
Hình 1.4 Kiến trúc
t hệ th ng E-learning..............................................................10
Hình 2.1 Mơ hình tổng thể ch ng gian l n ao chép................................................. 14
Hình 2.2 Sơ đồ hoạt đ ng...........................................................................................15
Hình 2.3 Chức n ng dành cho Học iên.................................................................... 16
Hình 2.4 Chức n ng dành cho Gi䁒ng iên................................................................. 17
Hình 2.5 Chức n ng dành cho Qu䁒n lý...................................................................... 17
Hình 2.6 Cài đặt Plugin PDVA ................................................................................18
Hình 2.7 Thiết l p Plugin PDVA .............................................................................19
Hình 2.8 B t Plugin PDVA ......................................................................................19
Hình 2.9 Giao diện Plugin PDVA của người dạy................................................... 20
Hình 2.10 Giao diện Plugin PDVA của người học................................................. 20
Hình 2.11 Hoạt đ ng của PDVA trong hệ th ng MS........................................... 21
Hình 2.12 Hệ th ng MS tích hợp
odule PDVA .................................................22
Hình 3.1 Kiến trúc hệ th ng PDVA ........................................................................ 25
Hình 3.2 Qui trình kiể
tra ao chép giữa hai tài liệu...............................................32
Hình 4.1 Giao diện PAN............................................................................................ 36
Hình 4.2 Quy trình n p A ign ent trong hệ th ng MS........................................ 37
Hình 4.3 Quy trình n p A ign ent trong hệ th ng MS........................................ 41
iii
DANH MỤC BẢNG BIỂU
B䁒ng 1.1 B䁒ng o
nh c c công cụ ph t hiện đạo
n dựa trên tính n ng.................7
B䁒ng 4.1 C u hình MS Ser er................................................................................. 35
B䁒ng 4.2 C u hình We Ser er à Plagiari
Ser er............................................... 35
B䁒ng 4.3.1 C c trường hợp kiể tra ......................................................................... 41
B䁒ng 4.3.2 Sao chép nguyên câu hoặc
t phần câu liên tục ................................. 41
B䁒ng 4.3.3 Kết qu䁒 Sao chép nguyên câu hoặc
t phần câu liên tục ................... 41
B䁒ng 4.3.4 Finger print Sao chép nguyên câu hoặc
t phần câu liên tục ..............42
B䁒ng 4.3.5 Sao chép có đ䁒o ngữ .............................................................................. 42
B䁒ng 4.3.6 Kết qu䁒 Sao chép có đ䁒o ngữ .................................................................42
B䁒ng 4.3.7 Finger print Sao chép có đ䁒o ngữ ......................................................... 43
B䁒ng 4.3.8 Sao chép có ửa
t
từ xen kẻ ..........................................................43
B䁒ng 4.3.9 Kết qu䁒 ao chép có ửa
t
từ xen kẻ .............................................43
B䁒ng 4.3.10 Finger print ao chép có ửa
B䁒ng 4.3.11 Sao chép
t
cụ
B䁒ng 4.3.12 Kết qu䁒 ao chép
t
từ xen kẻ .................................... 44
từ trong câu .......................................................44
t
cụ
B䁒ng 4.3.13 Finger print ao chép
t
từ trong câu ..........................................44
cụ
B䁒ng 4.4.1 Sao chép nguyên câu hoặc
từ trong câu ................................... 45
t phần câu liên tục................................. 46
B䁒ng 4.4.2 Kết qu䁒 ao chép nguyên câu hoặc
t phần câu liên tục .................... 46
B䁒ng 4.4.3 Finger print Kết qu䁒 ao chép nguyên câu hoặc
t phần câu liên tục 46
B䁒ng 4.4.4 Sao chép có đ䁒o ngữ .............................................................................. 46
B䁒ng 4.4.5 Kết qu䁒 ao chép có đ䁒o ngữ ................................................................. 47
B䁒ng 4.4.6 Finger print ao chép có đ䁒o ngữ ..........................................................47
B䁒ng 4.4.7 Sao chép có ửa
t
từ xen kẻ ..........................................................48
B䁒ng 4.4.8 Kết qu䁒 ao chép có ửa
t
từ xen kẻ .............................................48
B䁒ng 4.4.9 Finger print kết qu䁒 ao chép có ửa
B䁒ng 4.4.10 Sao chép
t
cụ
B䁒ng 4.4.11 Kết qu䁒 ao chép
t
từ xen kẻ ........................ 48
từ trong câu .......................................................49
t
cụ
từ trong câu ..........................................49
ix
B䁒ng 4.4.12 Finger print ao chép
t
cụ
x
từ trong câu .................................. 49
DANH MỤC TỪ VIẾT TẮT
IEEE
In titute of Electrical and Electronic Engineer
LVThS
u n
LMS
earing Manage ent Sy te
PDVAL
n Thạc
Plagiari
Detection on the Vietna e e Acade ic iterature
xi
MỞ ĐẦU
1. Đặt vấn đề
Trong thời đại công nghệ
Tại Việt Na ,
à nghiên cứu
t
như hiện nay, c c nguồn tài liệu là ô cùng phong phú.
ph n không nhỏ inh iên ngày nay chưa có th i đ học t p
t c ch nghiê
䁒n quyền t c gi䁒 đã là
cho
túc, chưa được gi o dục kỹ lưỡng iệc tôn trọng
n đề gian l n ao chép ở trường đại học trở thành
n nạn, nỗi lo của những người qu䁒n lý gi o dục. Tình trạng gian l n ao chép kết
qu䁒, từ c c ài t p thường kỳ đến c c ài tiểu lu n, th
chí là c c ài lu n
c o nghiên cứu khoa học ẫn thường xuyên x䁒y ra, r t khó có thể kiể
Hiện tại,
t
tuyến hoặc phần
n,
o
o t.
gi䁒i ph p cho iệc ph t hiện ao chép, cũng như c c công cụ trực
ề
cho phép kiể
tra tính nguyên 䁒n của tài liệu. Tuy nhiên, đa
phần đều ph t triển trên ngôn ngữ tiếng anh.
Tiếng iệt ới những đặc thù riêng đã 䁒nh hưởng đến tính hiệu qu䁒 của c c gi䁒i
ph p đ nh gi tính nguyên 䁒n của tài liệu tiếng iệt. Mặc dù
y, có r t ít nghiên
cứu ề đ nh gi tính nguyên 䁒n của tài liệu học thu t tiếng iệt. M t khó kh n
kh c là do chưa có
t kho tài liệu học thu t tiếng iệt hoàn chỉnh phân loại theo
từng chuyên ngành. Ngoài ra, iệc ao chép trong c c
o c o đồ n của inh iên
cũng có những đặc thù riêng.
Chính ì
y, đề tài “xây dựng
ơ hình à hiện thực hệ th ng kiể
tra ao chép đồ
n trong inh iên” là cần thiết à có ý ngh a thực tiễn cao.
2. Mục tiêu nghiên cứu
-
Tì
hiểu c c c ch ao chép phổ iến của inh iên.
-
Tì hiểu c c cơng trình nghiên cứu có liên quan ề n đề ao chép à những
kết qu䁒 à t c gi䁒 c c cơng trình nghiên cứu đã đạt được.
-
Đề xu t
t ơ hình c䁒i tiến để nâng cao hiệu qu䁒 trong iệc kiể
đồ n trong inh iên.
-
Hiện thực hệ th ng kiể
tra ao chép đồ n trong inh iên.
1
tra ao chép
3. Đối tượng và phạm vi nghiên cứu
-
Nghiên cứu
t
ơ hình tính to n đ tương đồng n 䁒n, x c định ức
tương đồng n 䁒n ở c p đ toàn
n 䁒n, đoạn n, câu, cụ từ ứng dụng
trong tiếng Việt.
-
Nghiên cứu c c thu t to n kiể tra ao chép trong
đặc thù đ i ới ao chép đồ n trong inh iên.
n 䁒n học thu t tiếng Việt,
4. Cách tiếp cận và phương pháp nghiên cứu
-
Nghiên cứu tổng quan ề c c cơng trình nghiên cứu có liên quan ề đạo n, ao
chép tài liệu học thu t, đ nh gi tính ngun 䁒n,... Từ đó, tì hiểu c c c ch
inh iên ao chép, t p trung ào ph t hiện c c c ch ao chép phổ iến như:
nhân 䁒n tồn phần, ao chép
t phần, tì
à thay thế, góp nhặt tài liệu.
-
Nghiên cứu à đề xu t ơ hình, phương ph p tích hợp kiể tra ao chép đồ n
trong inh iên. Áp dụng c c thu t to n đ nh gi ao chép, điều chỉnh để p
dụng cho n 䁒n tiếng Việt nhằ ph t hiện gian l n trong đề tài lu n n, đồ n
của inh iên.
-
Hiện thực gi䁒i ph p đ nh gi ao chép trong tài liệu học thu t tiếng Việt. Xây
dựng kho dữ liệu chuyên ngành để thử nghiệ kiể tra ao chép đồ n của inh
iên.
5. Ý nghĩa thực tiễn của đề tài
Kết qu䁒 của đề tài có ý ngh a thực tiễn phục ụ cho hoạt đ ng qu䁒n lý, gi o dục à
hoạt đ ng kiể
tra, đ nh gi của nhà trường đ i ới inh iên.
2
CHƯƠNG 1
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
Chương này trình ày tổng quan ề đạo
cụ kiể
n, c c hệ th ng ch ng đạo
n, c c công
tra ao chép, c c hệ th ng qu䁒n lý học t p ( MS), c c đặc điể
tiếng iệt là
cơ ở cho iệc xây dựng
ơ hình qu䁒n lý học t p nhằ
ngơn ngữ
ch ng ao
chép trong inh iên.…
1.1
Đạo văn và quy định xử lý đạo văn
Theo định ngh a của Merria -We ter Online Dictionary, đạo
hình thức n cắp à hình thành những ý tưởng hay ngơn từ
tưởng của ai đó; ử dụng 䁒n phẩ
giới thiệu
của
t ý tưởng hay 䁒n phẩ
Tại Việt Na , đạo
n đã đến
t ai đó
-
Quy định ề hính thức xử lý đạo
2016.
-
Quy định ề kiể
Kinh tế, 2017.
à không công
nguồn; hoặc
n [1,2,3] í dụ như:
chính học thu t, Trường Đại học Hoa Sen, 2013.
Việc p dụng phần
n, Trường Đại học Công Nghiệp TP.HCM,
o t à xử lý đạo
ề
Tuy nhiên, chi phí để
ch ng “đạo
n c c 䁒n phẩ
học thu t, Trường đại học
n” được coi là phương ph p hiệu qu䁒 nh t.
ua 䁒n quyền ử dụng phần
ên cạnh đó, cơ ở dữ liệu tiếng Việt cũng là
C c c ch đạo
ới khởi nguồn từ ý
o đ ng, đặc iệt là tại c c trường đại học.
Nhiều trường đã an hành quy định đạo
Quy định ề liê
) là
ới được chuyển hóa từ nguồn đã có từ trước.
ức
-
n (plagiari
ề
ch ng đạo
n là r t lớn.
t th ch thức đ i ới ài to n này.
n thường gặp ở inh iên:
Nhân 䁒n: N p ài của người kh c. Bài của
ình gi ng ài g c từng chữ
t
nhưng khơng có trích dẫn hay đoạn gi ng nhau không để trong d u ngoặc kép
(“…”).
Sao chép: Bài là
gồ
những phần quan trọng trích từ
t nguồn nào đó
à
khơng thay đổi gì.
Tì
à thay thế: Bài là
thay đổi c c từ à cụ
dung quan trọng của nguồn tha
kh䁒o.
3
từ chính nhưng ẫn giữ n i
Góp nhặt tài liệu: Diễn đạt theo c ch kh c từ nhiều nguồn à là
phù hợp ới nhau
1.2
t c ch liền
cho n i dung
ạch…
Tổng quan về các hệ thống chống đạo văn
Trong
i c䁒nh ùng nổ thông tin như hiện nay, chỉ cần
nhanh chóng tì
được thơng tin
ình cần, “đạo
t click chu t là có thể
n” (plagiari
) trở thành
th ch thức to lớn đ i ới inh iên trong nỗ lực học hành à là
trọng niề
t
uy yếu nghiê
tin ào trí tuệ của inh iên trong qu trình học t p à tì
kiế
tri thức.
Ngày nay, “ n hóa ao chép – cắt d n” trở nên phổ iến trong inh iên à hành i
này có thể ẽ ượt khỏi khn khổ à để lại h u qu䁒 nghiê
nghệ là trợ thủ cho
gi o dục kiể
hiện đạo
t
inh iên đạo
trọng. Trong khi công
n, cũng chính nó giúp gi o iên à nhà
tra à ph t hiện hành i đạo
n. Dưới đây là
t
công cụ ph t
n thường được ử dụng [4].
1.2.1 Turnitin
Turnitin.co
là phần
ở Việt Na
à có hỗ trợ tiếng Việt tại địa chỉ turitin.co / i à được nhiều trường
Việt Na
Phần
ề
ủng h
ề
ch ng đạo
à ký kết hợp đồng
ph t hiện copy lu n
n do
n
1 thế giới, được ử dụng kh phổ iến
ua quyền ử dụng.
n inh iên của đại học UC Berkeley thiết
kế ới ý tưởng ử dụng cho lớp học của họ au đó
ề
này r t nổi tiếng trên thế giới ề kiể
tra đạo
ở r ng ra toàn thế giới. Phần
n đ i ới c c inh iên nước
ngoài như a ign ent, e ay. Hiện nay turnitin có kh䁒 n ng xử lý lên tới 30 triệu ài
o khoa học.
Hiện nay triển khai phần
ề
Turnitin ĐH Hoa Sen à ĐH Hàng h䁒i, có thể truy
quét kho䁒ng 5 tỉ trang we đang hoạt đ ng trên
c c thầy cô gi o, trường học cung c p.
4
ạng, cũng như cơ ở dữ liệu do
Hình 1.1 Giao diện Turnitin
1.2.2 WriteCheck
Cơng cụ kiể
n
u n kiể
tra ngữ ph p à ph t hiện n cắp n i dung. Bạn chỉ cần t䁒i lên đoạn
tra, à au đó chỉ cần o
nh c c n i dung tương đồng nh t. ạn ẽ
dễ dàng nh n th y ự trùng lắp cũng như lỗi ngữ ph p nếu có.
Hình 1.2 Giao diện WriteCheck
5
1.2.3 Ithenticate
Gi ng như TurnItIn, iThenticate là
phần
ề
t dịch ụ được cung c p ởi Plagiari
này hướng đến những người iết
.org,
n 䁒n chuyên nghiệp à nghiên cứu
học thu t. Nhà xu t 䁒n Oxford Uni er ity Pre
là
t trong những kh ch hàng
tiêu iểu ử dụng iThenticate.
Hình 1.3 Giao diện Ithenticate
1.2.4 JPlag
Jplag được ph t hiện ởi Guido Malpohl tại đại học Karl ruhe. Đây là
ề
chuyên dùng để kiể
nguồn theo từng yte
t phần
tra Source code. Jplag không chỉ đơn gi䁒n là kiể
à nó có kh䁒 n ng nh n iết ề cú ph p ngơn ngữ l p trình à
c u trúc chương trình ì
yr t
ạnh
ẽ trong iệc ph t hiện ao chép
ã nguồn
chương trình. Jplag hiện tại hỗ trợ c c ngôn ngữ như: Ja a, C#, C++, C à th
c䁒 ngơn ngữ tự nhiên.
6
chí
1.2.5 MOSS
MOSS là
t hệ th ng tự đ ng ph t hiện đ tương đồng của
trình à ph t hiện ao chép trong c c cla
ã nguồn chương
của chương trình. MOSS hỗ trợ hầu hết
c c ngôn ngữ phổ iến hiện nay như: C, C++, Ja a, C#, Python, Vi ual Ba ic,
Ja a cript, FORTRAN,… Đây là
t công cụ
iễn phí nhưng ạn cần ph䁒i gửi
e ail để xin tạo tài kho䁒n trước khi có thể ự dụng dịch ụ này.
B䁒ng 1.1. B䁒ng o
Tính n ng
nh c c cơng cụ ph t hiện đạo
n dựa trên tính n ng
Turnitin
WriteCheck
Ithenticate
Jplag
MOSS
We
We
We
We
We
OpenSoure
Khơng
Khơng
Khơng
Có
Khơng
Multi language
Có
Có
Có
Có
Có
Data a e checking
Có
Có
Có
Khơng
Có
Internet checking
Có
Có
Có
Có
Có
Pu lication checking
Có
Có
Có
Có
Khơng
Free text
Có
Có
Có
Có
Khơng
Soure code
Khơng
Khơng
Khơng
Có
Có
For tudent
Có
Có
Có
Có
Có
For teacher
Có
Có
Có
Có
Có
ocal hoặc We
1.3
Tổng quan về LMS và E-Learning
MS là chữ iết tắt củ earing Manage ent Sy te , dịch ra tiếng iệt có ngh a là
Hệ th ng qu䁒n lý học t p, là thành phần trong hệ th ng E-learning qu䁒n lý đào tạo.
MS qu䁒n lý iệc đ ng ký khóa học của học iên, tha
hướng dẫn của gi䁒ng iên, tha
gia c c chương trình có ự
dự c c hoạt đ ng đa dạng
ang tính tương t c trên
y tính à thực hiện c c 䁒ng đ nh gi . Hơn thế nữa, MS cũng giúp c c nhà
qu䁒n lý à c c gi䁒ng iên thực hiện c c công iệc kiể
qu䁒 học t p,
tra, gi
o c o của học iên à nâng cao hiệu qu䁒 gi䁒ng dạy.
7
t, thu nh n kết
1.3.1 Chức năng của LMS
1.3.1.1 Quản lý học viên
Bao gồ
iệc ghi lại những thông tin chi tiết ề học iên như: họ tên, nghề nghiệp,
đại chỉ liên lạc…, cung c p tên truy c p à
t khẩu.
Theo dõi tiến trình học của học iên, ghi lại c c lần cần truy c p, ào c c khóa học,
ghi nh n c c đóng góp thơng qua c c câu tr䁒 lời trên c c ài kiể
hay trên c c ài t p, ài thi cu i khóa. C c kết qu䁒 kiể
tra tự đ nh gi ,
tra này cho iết học iên
đó có hồn thành khóa học đó hay khơng.
1.3.1.2 Quản lý và theo dõi khóa học:
Qu䁒n lý n i dung khóa học, ghi lại c c thơng tin chi tiết ề khóa học như:
ục tiêu,
kết qu䁒 ẽ đạt được au khi kết thúc ài học, chương, khóa học; điều kiện, kiến
thức yêu cầu cần chuẩn ị trước khi tha
gia khóa học.
1.3.2 Ưu và nhược điểm của LMS
1.3.2.1 Ưu điểm
-
Tính linh hoạt (Flexi le): elearning có thể được thực hiện trong
t kho䁒ng thời
gian phù hợp ới lịch trình của người học không nh t thiết ph䁒i đúng giờ như
iệc đi học ở trên lớp. Chương trình đào tạo được chia thành nhiều phần nhỏ
(gọi là odule), ạn có thể ắp xếp để hoàn thành từng odule cho tới khi hoàn
thành chương trình.
-
Tính di đ ng (Mo ile): iệc học trực tuyến có thể được thực hiện trên
y tính,
y tính 䁒ng hay th chí là điện thoại di đ ng. Bạn có thể học ở trên tàu, trên
xe uýt hay học ở t cứ nơi nào ạn u n, dường như giờ đây, t cứ nơi nào
trên thế giới cũng có thể là lớp học của ạn.
-
Không cần di chuyển (No tra el): như ừa đề c p, e-learning có thể được thực
hiện ở t cứ nơi nào chỉ cần ạn có thiết ị hỗ trợ phù hợp. Vì y, ạn hồn
tồn có thể khơng cần đi đâu c䁒, ạn có thể học ở nhà.
-
Chi phí (lower co t): chi phí để học
t chương trình qua ạng thì thường rẻ
hơn nhiều o ới iệc c c ạn ph䁒i tới trường học, ì ngồi học phí, ta cịn tiết
kiệ được chi phí đi lại, chi phí n ở, chi phí ề thời gian…
8
-
-
Kh䁒 n ng tự điều chỉnh (Tailor it to you): c c khóa học elearning khơng ph䁒i
được c định, à ạn hồn tồn có thể điều chỉnh cho phù hợp ới ình. Ví dụ,
t
phần ạn đã nắ chắc rồi u n đẩy nhanh t c đ lên,
t
phần ạn
u n học kỹ hơn… Điều này chính là
t trong những ưu điể lớn nh t của elearning.
Tính tồn cầu (Glo al): dường như có r t ít giới hạn cho iệc học trực tuyến.
Hiện tại, chúng ta có thể tha gia ào r t nhiều c c khóa học trên tồn thế giới
t c ch dễ dàng.
1.3.2.2 Nhược điểm
-
Sự qu䁒n lý lỏng lẻo ( ack of control): Người học không ị qu䁒n lý, à không ai
iết được người học đã học như thế nào. Người học cũng có thể thiếu đi đ ng
lực để học à đôi khi ẽ dành qu nhiều thời gian cho iệc kh c à quên
t
iệc học. V y, đây là
t n đề kh phực tạp ới thời hạn kh c nhau của những
người học kh c nhau ở c c giai đoạn kh c nhau…
-
C ch tiếp c n ( earning Approach): Nó khơng h p dẫn ới nhiều người học, đặc
iệt những người thích được giao tiếp. Nhìn chung, n đề này thì tùy theo
người học, ỗi người có
t ở thích ề c ch học kh c nhau.
-
Bị cô l p (I olated): đây là câu tr䁒 lời thường xuyên được đưa ra khi được hỏi ề
elearning. Việc học à không được gặp gỡ người dạy à ạn học đơi khi khiến
con người ta có c䁒 gi c thực ự ị cô l p.
-
V n đề ề công nghệ (Technology i ue ): elearnung phụ thu c ào thiết ị hỗ
trợ ( y tính, điện thoại) à ạng internet. C c thiết ị hỗ trợ cũng ph䁒i đ䁒
䁒o c c chương trình chạy phù hợp. Nếu kết n i Internet ké hoặc ph t inh
những n đề đ t ng t ẽ là gi n đoạn iệc học của chúng ta.
-
Kh䁒 n ng ử dụng
y tính (Co puter Co petency): Nhiều người không thực
ự thành thạo trong iệc ử dụng
y tính ì cơng iệc của họ thường không cần
dùng tới. Cho nên đ i ới những trường hợp như thế này, thì có thể iệc học qua
ạng ẽ khơng
ang lại hiệu qu䁒 như
t khóa học trên lớp ình thường.
9
1.3.3 Kiến trúc một hệ thống E-learnin
Hình 1.4 Kiến trúc
t hệ th ng E-learning[4]
M t c ch tổng thể, kiến trúc hệ th ng E-learning ao gồ
3 phần chính:
-
Hạ tầng truyền thông à ạng: Bao gồ c c thiết ị đầu cu i (người dung), thiết
ị tại c c cơ ở cung c p dịch ụ, ạng truyền thông,…
-
Hạ tầng phần
Tool ook,…)
-
N i dung đào tạo (hạ tầng thông tin): Phần quan trọng của e-learning là n i dung
c c khóa học, c c chương trình đạo tạo à c c phần ề dạy học.
1.4
ề : C c phần
ề
MS,
CMS (Marco edia, Aurthorware,
Bài toán kiểm tra sao chép hoặc kiểm tra tính nguyên bản
1.4.1 Phương pháp kiểm tra tính nguyên bản
Cho dù có r t nhiều cơng cụ đã hiện hữu trên thị trường, nhưng tổng thể có hai loại
detection chính là Kiể
à Kiể
tra tính nguyên 䁒n n i tại (Intrin ic Plagiari
Detection)
tra tính ngun 䁒n ới tài liệu ên ngồi (External Plagiari
Detection)
[5, 6].
Kiể
tra tính nguyên 䁒n n i tại là ự kiể
à không cần o
tra chỉ diễn ra trong n i
nh ới tài liệu ên ngoài. External Plagiari
10
t tài liệu
Detection là kiể
tra tính nguyên 䁒n của tài liệu o ới c c tài liệu đã được công
corpu (ngữ liệu)). Với External Plagiari
Plagiari
(tạ
(tạ
gọi là
Detection lại có hai loại cơ 䁒n là
Detection khơng ử dụng c c phương ph p của xử lý ngôn ngữ tự nhiên
gọi là NonNP ) à Plagiari
Kỹ thu t NonNP
hiện có
Detection có ử dụng kỹ thu t của NP .
t
phương ph p
au: N-gra
Method
à
Có r t nhiều cơng trình nghiên cứu à đề xu t c c phương ph p ph t hiện đạo
n
Fingerprinting Method [7].
1.4.2 Tổng quan các cơng trình nghiên cứu về đạo văn:
trong c c ngơn ngữ kh c nhau ới c c kỹ thu t kh c nhau. Maurer à c ng ự (2006)
không chỉ t p trung ào kiể
tra ao chép tài liệu
iệt đ i ới c c nguồn dữ liệu kh c như â
Nhó
n 䁒n
à cịn phân tích ự kh c
nhạc, hình 䁒nh, 䁒n ẽ kỹ thu t, . .
c c nhà nghiên cứu Ali à c ng ự (2011) l p lu n rằng đạo
ph t hiện 100%. Mỗi phương ph p hiện tại đều có
t
ưu điể
Hầu hết ử dụng phân cụ , kỹ thu t ắp xếp, ử dụng tó
n r t khó được
à nhược điể .
tắt để đạt được kết qu䁒
nhanh hơn. C c phương ph p dựa trên ngữ ph p à dựa trên ngữ ngh a thể hiện
t
hạn chế ề hiệu qu䁒 thực hiện. C c phương ph p chủ yếu kết hợp xử lý ngôn ngữ
tự nhiên ới c u trúc chỉ
M t nghiên cứu O
n dạng
ục, ph t hiện dựa trên cụ .
an à c ng ự (2012) phân loại hầu hết c c kỹ thu t trong đạo
n 䁒n thành 䁒y loại à gi䁒i thích những ưu điể
loại. Ngoài ra, th䁒o lu n nhiều
à hạn chế của từng
n đề quan trọng liên quan đến đạo
n như đạo
đức, quy định, quy trình. Bin-Ha toor à c ng ự (2012) đã phân loại thành
nhó . Trong đó, thông tin ề đạo
đã đề xu t
Bu ine
n tại c c trường đại học là
t hệ th ng có thể ph t hiện đạo
i quan tâ
n
lớn, à
n trong c c l nh ực: E earning, E-
à E-Journal.
Nghiên cứu gần đây của Ei a à c ng ự (2015) cho rằng c c kỹ thu t hiện tại
khơng có kh䁒 n ng ph t hiện
n ý tưởng,
t c ch thông
inh nên chưa hiệu qu䁒 đ i ới đạo
liệu, 䁒ng iểu, công thức. Họ đưa ra
ơ hình tích hợp c c phương
ph p kết hợp xử lý ngữ ngh a có thể giúp ph t hiện c c loại đạo
11
n này.