Tải bản đầy đủ (.pdf) (70 trang)

Xây dựng mô hình và hiện thực hệ thống kiểm tra sao chép đồ án trong sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.32 MB, 70 trang )

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

NGƠ DUY THIỆN

XÂY DỰNG MƠ HÌNH VÀ HIỆN THỰC HỆ THỐNG
KIỂM TRA SAO CHÉP ĐỒ ÁN TRONG SINH VIÊN

Chuyên ngành:
KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 60480101

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019


Cơng trình được hồn thành tại Trường Đại học Cơng nghiệp TP. Hồ Chí Minh.
Người hướng dẫn khoa học: ...........................................................................................
Người ph䁒n iện 1: .........................................................................................................
Người ph䁒n iện 2: .........................................................................................................
u n

n thạc

được 䁒o ệ tại H i đồng ch

䁒o ệ u n

n thạc


Đại học Cơng nghiệp thành ph Hồ Chí Minh ngày . . . . . th ng . . . . n
Thành phần H i đồng đ nh gi lu n

n thạc

Trường
2019

gồ :

1. .......................................................................... - Chủ tịch H i đồng
2. .......................................................................... - Ph䁒n iện 1
3. .......................................................................... - Ph䁒n iện 2
4. .......................................................................... - Ủy iên
5. .......................................................................... - Thư ký
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA/VIỆN…………


BỘ CƠNG THƯƠNG
TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc


NHIỆM VỤ LUẬN VĂN THẠC SĨ
Tên tơi là: NGƠ DUY THIỆN

MSHV: CHKHMT5A

N

Nơi inh: Bình Dương

ngày: 03/10/1989

Mã chuyên ngành: 60480101

Chuyên ngành: Khoa Học M y Tính
I. TÊN ĐỀ TÀI:
Xây dựng

ơ hình à hiện thực hệ th ng kiể

tra ao chép đồ n trong inh iên.

NHIỆM VỤ VÀ NỘI DUNG:
-



hiểu c c c ch ao chép phổ iến của inh iên.

-


Tì hiểu c c cơng trình nghiên cứu có liên quan ề n đề ao chép à những
kết qu䁒 à t c gi䁒 c c cơng trình nghiên cứu đã đạt được.

-

Đề xu t
t ơ hình c䁒i tiến để nâng cao hiệu qu䁒 trong iệc kiể
đồ n trong inh iên.

-

Hiện thực hệ th ng kiể

tra ao chép

tra ao chép đồ n trong inh iên.

II. NGÀY GIAO NHIỆM VỤ: Theo QĐ giao đề tài 2583/QĐ-ĐHCN ngày
29/12/2016 của Hiệu trưởng Trường Đại học Cơng nghiệp Tp. Hồ Chí Minh.
III. NGÀY HOÀN THÀNH NHIỆM VỤ:
IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ê Ngọc Sơn
Tp. Hồ Chí Minh, ngày … tháng … năm 2019 …
NGƯỜI HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

TRƯỞNG KHOA/VIỆN….………


LỜI CẢM ƠN

Trước tiên, tôi xin được ày tỏ ự trân trọng à lòng iết ơn ới TS. ê Ngọc Sơn,
gi䁒ng iên B

ơn Khoa học

y tính – Khoa Cơng nghệ thông tin – Trường Đại

học Công nghiệp TPHCM. Trong thời gian là
nhiều thời gian q
thực hiện lu n
Tơi xin được c䁒
lu n

lu n

n t t nghiệp, thầy đã dành

u à t n tình chỉ 䁒o, hướng dẫn tơi trong iệc nghiên cứu,

n.
ơn c c GS, TS đã gi䁒ng dạy tôi trong qu trình học t p à là

n. C c thầy đã giúp tôi hiểu th u đ o hơn l nh ực

à

ình nghiên cứu để

có thể


n dụng c c kiến thức đó ào trong cơng t c của

ình.

Xin c䁒

ơn c c ạn è, đồng nghiệp à nh t là c c thành iên trong gia đình đã tạo

ọi điều kiện t t nh t, đ ng iên, cổ ũ tơi trong u t qu trình học t p à nghiên
cứu để hoàn thành t t 䁒n lu n

n t t nghiệp này.

Tuy đã có những c gắng nh t định nhưng do thời gian à trình đ có hạn nên chắc
chắn lu n

n này cịn nhiều thiếu ót à hạn chế. Kính

của thầy cơ à c c ạn.

i

ong nh n được ự góp ý


TĨM TẮT LUẬN VĂN THẠC SĨ
Trong lu n

n này tì


hiểu c c c ch ao chép phổ iến của inh iên, tì

cơng trình nghiên cứu có liên quan ề

n đề ao chép à những kết qu䁒

c c cơng trình nghiên cứu đã đạt được, xây dựng
qu䁒 trong iệc kiể

hiểu c c
à t c gi䁒

ơ hình c䁒i tiến để nâng cao hiệu

tra ao chép đồ n trong inh iên, xây dựng thu t to n c ch tạo

d u ân, c ch tạo d u ân n-gra

theo ký tự, à n-gra

theo từ tuy nhiên qu trình

thực hiện n-gra

theo từ tạo ra d u ân có đ dài ngắn hơn, rút ngắn thời gian kiể

tra ao chép. E

trình ày kết qu䁒 kiể


trình kiể

tra ao chép thực hiện n-gra

tra ao chép qua c c trường hợp, chương
theo ký tự à từ.

ii


ABSTRACT
In thi di ertation, learn how to copy popular tudent , explore rele ant re earch
work on copy i ue and the re ult that the author of re earch project ha e
achie ed, ti ue uilding. i pro ed i age to i pro e the efficiency of checking
tudent duplication of project , uild algorith
create n-gra
proce

for creating fingerprint , how to

fingerprint according to character , and n-gra

i ple enting n-gra

fro

word

ut


follow the creation of horter length , hortening

the copy te t ti e. i pre ent the re ult of the replication te t through the ca e , the
te t progra

copie the i ple entation of n-gra

word .

iii

according to character and


LỜI CAM ĐOAN
Tơi xin ca

đoan đây là cơng trình nghiên cứu của 䁒n thân tôi. C c kết qu䁒 nghiên

cứu à c c kết lu n trong lu n
nguồn nào à dưới

n là trung thực, không ao chép từ

t kỳ hình thức nào. Việc tha

đã được thực hiện trích dẫn à ghi nguồn tài liệu tha

t


kh䁒o c c nguồn tài liệu (nếu có)
kh䁒o đúng quy định.
Học viên

Ngơ Duy Thiện

i

t kỳ


MỤC LỤC
MỤC ỤC...................................................................................................................
DANH MỤC HÌNH ẢNH........................................................................................ iii
DANH MỤC BẢNG BIỂU........................................................................................ix
DANH MỤC TỪ VIẾT TẮT..................................................................................... xi
MỞ ĐẦU ..................................................................................................................... 1
1. Đặt n đề................................................................................................................. 1
2. Mục tiêu nghiên cứu.................................................................................................1
3. Đ i tượng à phạ
i nghiên cứu............................................................................2
4. C ch tiếp c n à phương ph p nghiên cứu.............................................................. 2
5. Ý ngh a thực tiễn của đề tài......................................................................................2
CHƯƠNG 1 TỔNG QUAN VỀ ĨNH VỰC NGHIÊN CỨU............................... . 3
1.1 Đạo n à quy định xử lý đạo n....................................................................3
1.2 Tổng quan ề c c hệ th ng ch ng đạo n........................................................ 4
1.2.1 Turnitin...............................................................................................................4
1.2.2 WriteCheck........................................................................................................ 5
1.2.3 Ithenticate........................................................................................................... 6
1.2.4 JPlag................................................................................................................... 6

1.2.5 MOSS.................................................................................................................7
1.3 Tổng quan ề MS à E- earning.....................................................................7
1.3.1 Chức n ng của MS..........................................................................................8
1.3.2 Ưu à nhược điể của MS............................................................................. 8
1.3.3 Kiến trúc
t hệ th ng E-learning................................................................. 10
1.4 Bài to n kiể tra ao chép hoặc kiể tra tính nguyên 䁒n.............................10
1.4.1 Phương ph p kiể tra tính nguyên 䁒n......................................................... 10
1.4.2 M t cơng trình nghiên cứu ề kiể tra ao chép:..................................... 11
1.5 Đặc điể ngôn ngữ tiếng Việt.........................................................................12
1.5.1 C u tạo từ tiếng Việt:.................................................................................... 12
1.5.2 Phân đoạn từ tiếng Việt [8,9]......................................................................... 12
1.5.3 Những khó kh n trong phân đoạn từ tiếng Việt:............................................ 12
CHƯƠNG 2 MƠ HÌNH QUẢN Ý HỌC TẬP NHẰM CHỐNG GIAN ẬN SAO
CHÉP......................................................................................................................... 14
2.1 Mơ hình tổng thể............................................................................................. 14
2.2 Mơ hình MS đề xu t...................................................................................... 15
2.3 C c chức n ng chính của MS đề xu t........................................................... 16
2.3.1 Dành cho inh iên..........................................................................................16


2.3.2 Dành cho gi䁒ng iên........................................................................................17
2.3.3 Dành cho qu䁒n lý.............................................................................................17
2.4 Tích hợp odule PDVA ào hệ th ng MS................................................ 18
2.4.1 Plugin in talling...............................................................................................18
2.4.2 Plugin etting...................................................................................................19
2.4.3 Plugin ena le in cour e (a ign ent ).......................................................... 19
2.4.4 View re ult.......................................................................................................20
2.5 Hoạt đ ng của chức n ng kiể tra ao chép trong MS................................ 21
2.6 Mơ hình thiết kế............................................................................................... 22

2.6.1 Tầng U er Interface:........................................................................................22
2.6.2 Tầng MS:.......................................................................................................23
2.6.3 Tầng PDVA :................................................................................................. 23
CHƯƠNG 3 CẢI TIẾN PHƯƠNG PHÁP KIỂM TRA SAO CHÉP TRONG VĂN
BẢN TIẾNG VIỆT....................................................................................................24
3.1 Kiến trúc hệ th ng PDVA ............................................................................. 24
3.2 Mơ hình ngôn ngữ N-gra ...............................................................................25
3.2.1 Giới thiệu chung...............................................................................................25
3.2.2 V n đề khó kh n khi xây dựng ơ hình ngơn ngữ N-gra ............................26
3.3 D u ân (Fingerprint) của tài liệu.................................................................... 27
3.3.1 Kh i niệ ......................................................................................................... 27
3.3.2 Thu t to n Winnowing fingerprinting.............................................................27
3.3.3 Hiện thực thu t to n tạo d u ân:.................................................................... 29
3.4 Đ đo tương đồng............................................................................................. 29
3.4.1 Kh i niệ ự tương đồng.................................................................................29
3.4.2 C c phương ph p tính đ tương đồng............................................................. 30
3.5 Quy trình kiể tra ao chép giữa hai tài liệu................................................... 32
3.5.1 Tiền xử lý......................................................................................................... 33
3.5.2 Phân đoạn câu.................................................................................................. 33
3.5.3 Kiể tra ao chép nguyên n câu.................................................................. 34
3.5.4 Tính to n đ tương đồng..................................................................................34
CHƯƠNG 4 HIỆN THỰC VÀ THỬ NGHIỆM.................................................... 35
4.1 Kết qu䁒 tổng thể................................................................................................35
4.1.1 C u hình hệ th ng chạy thử nghiệ ................................................................ 35
4.1.2 Dữ liệu thử nghiệ .......................................................................................... 35
4.1.3 De o kết qu䁒................................................................................................... 37
4.2 Kết qu䁒 thu t to n Winnowing fingerprinting................................................ 41
4.2.1 Tạo d u ân (fingerprint) của tài liệu............................................................. 41

i



4.2.2 Kết qu䁒 thực nghiệ tạo d u ân (fingerprint) của tài liệu...........................41
4.2.3 n-gra theo ký tự........................................................................................... 43
4.2.4 n-gra theo từ.................................................................................................47
KẾT UẬN VÀ KIẾN NGHỊ...................................................................................51
1. Kết lu n..................................................................................................................51
2. Kiến nghị................................................................................................................52
TÀI IỆU THAM KHẢO....................................................................................... 542
Ý ỊCH TRÍCH NGANG CỦA HỌC VIÊN....................................................... 564

ii


DANH MỤC HÌNH ẢNH
Hình 1.1 Giao diện Turnitin......................................................................................... 5
Hình 1.2 Giao diện WriteCheck...................................................................................5
Hình 1.3 Giao diện Ithenticate..................................................................................... 6
Hình 1.4 Kiến trúc

t hệ th ng E-learning..............................................................10

Hình 2.1 Mơ hình tổng thể ch ng gian l n ao chép................................................. 14
Hình 2.2 Sơ đồ hoạt đ ng...........................................................................................15
Hình 2.3 Chức n ng dành cho Học iên.................................................................... 16
Hình 2.4 Chức n ng dành cho Gi䁒ng iên................................................................. 17
Hình 2.5 Chức n ng dành cho Qu䁒n lý...................................................................... 17
Hình 2.6 Cài đặt Plugin PDVA ................................................................................18
Hình 2.7 Thiết l p Plugin PDVA .............................................................................19
Hình 2.8 B t Plugin PDVA ......................................................................................19

Hình 2.9 Giao diện Plugin PDVA của người dạy................................................... 20
Hình 2.10 Giao diện Plugin PDVA của người học................................................. 20
Hình 2.11 Hoạt đ ng của PDVA trong hệ th ng MS........................................... 21
Hình 2.12 Hệ th ng MS tích hợp

odule PDVA .................................................22

Hình 3.1 Kiến trúc hệ th ng PDVA ........................................................................ 25
Hình 3.2 Qui trình kiể

tra ao chép giữa hai tài liệu...............................................32

Hình 4.1 Giao diện PAN............................................................................................ 36
Hình 4.2 Quy trình n p A ign ent trong hệ th ng MS........................................ 37
Hình 4.3 Quy trình n p A ign ent trong hệ th ng MS........................................ 41

iii


DANH MỤC BẢNG BIỂU
B䁒ng 1.1 B䁒ng o

nh c c công cụ ph t hiện đạo

n dựa trên tính n ng.................7

B䁒ng 4.1 C u hình MS Ser er................................................................................. 35
B䁒ng 4.2 C u hình We Ser er à Plagiari

Ser er............................................... 35


B䁒ng 4.3.1 C c trường hợp kiể tra ......................................................................... 41
B䁒ng 4.3.2 Sao chép nguyên câu hoặc
t phần câu liên tục ................................. 41
B䁒ng 4.3.3 Kết qu䁒 Sao chép nguyên câu hoặc

t phần câu liên tục ................... 41

B䁒ng 4.3.4 Finger print Sao chép nguyên câu hoặc

t phần câu liên tục ..............42

B䁒ng 4.3.5 Sao chép có đ䁒o ngữ .............................................................................. 42
B䁒ng 4.3.6 Kết qu䁒 Sao chép có đ䁒o ngữ .................................................................42
B䁒ng 4.3.7 Finger print Sao chép có đ䁒o ngữ ......................................................... 43
B䁒ng 4.3.8 Sao chép có ửa

t

từ xen kẻ ..........................................................43

B䁒ng 4.3.9 Kết qu䁒 ao chép có ửa

t

từ xen kẻ .............................................43

B䁒ng 4.3.10 Finger print ao chép có ửa
B䁒ng 4.3.11 Sao chép


t

cụ

B䁒ng 4.3.12 Kết qu䁒 ao chép

t

từ xen kẻ .................................... 44

từ trong câu .......................................................44
t

cụ

B䁒ng 4.3.13 Finger print ao chép

t

từ trong câu ..........................................44
cụ

B䁒ng 4.4.1 Sao chép nguyên câu hoặc

từ trong câu ................................... 45

t phần câu liên tục................................. 46

B䁒ng 4.4.2 Kết qu䁒 ao chép nguyên câu hoặc


t phần câu liên tục .................... 46

B䁒ng 4.4.3 Finger print Kết qu䁒 ao chép nguyên câu hoặc

t phần câu liên tục 46

B䁒ng 4.4.4 Sao chép có đ䁒o ngữ .............................................................................. 46
B䁒ng 4.4.5 Kết qu䁒 ao chép có đ䁒o ngữ ................................................................. 47
B䁒ng 4.4.6 Finger print ao chép có đ䁒o ngữ ..........................................................47
B䁒ng 4.4.7 Sao chép có ửa

t

từ xen kẻ ..........................................................48

B䁒ng 4.4.8 Kết qu䁒 ao chép có ửa

t

từ xen kẻ .............................................48

B䁒ng 4.4.9 Finger print kết qu䁒 ao chép có ửa
B䁒ng 4.4.10 Sao chép

t

cụ

B䁒ng 4.4.11 Kết qu䁒 ao chép


t

từ xen kẻ ........................ 48

từ trong câu .......................................................49
t

cụ

từ trong câu ..........................................49

ix


B䁒ng 4.4.12 Finger print ao chép

t

cụ

x

từ trong câu .................................. 49


DANH MỤC TỪ VIẾT TẮT
IEEE

In titute of Electrical and Electronic Engineer


LVThS

u n

LMS

earing Manage ent Sy te

PDVAL

n Thạc

Plagiari

Detection on the Vietna e e Acade ic iterature

xi


MỞ ĐẦU
1. Đặt vấn đề
Trong thời đại công nghệ
Tại Việt Na ,
à nghiên cứu

t

như hiện nay, c c nguồn tài liệu là ô cùng phong phú.

ph n không nhỏ inh iên ngày nay chưa có th i đ học t p


t c ch nghiê

䁒n quyền t c gi䁒 đã là

cho

túc, chưa được gi o dục kỹ lưỡng iệc tôn trọng
n đề gian l n ao chép ở trường đại học trở thành

n nạn, nỗi lo của những người qu䁒n lý gi o dục. Tình trạng gian l n ao chép kết
qu䁒, từ c c ài t p thường kỳ đến c c ài tiểu lu n, th

chí là c c ài lu n

c o nghiên cứu khoa học ẫn thường xuyên x䁒y ra, r t khó có thể kiể
Hiện tại,

t

tuyến hoặc phần

n,

o

o t.

gi䁒i ph p cho iệc ph t hiện ao chép, cũng như c c công cụ trực



cho phép kiể

tra tính nguyên 䁒n của tài liệu. Tuy nhiên, đa

phần đều ph t triển trên ngôn ngữ tiếng anh.
Tiếng iệt ới những đặc thù riêng đã 䁒nh hưởng đến tính hiệu qu䁒 của c c gi䁒i
ph p đ nh gi tính nguyên 䁒n của tài liệu tiếng iệt. Mặc dù

y, có r t ít nghiên

cứu ề đ nh gi tính nguyên 䁒n của tài liệu học thu t tiếng iệt. M t khó kh n
kh c là do chưa có

t kho tài liệu học thu t tiếng iệt hoàn chỉnh phân loại theo

từng chuyên ngành. Ngoài ra, iệc ao chép trong c c

o c o đồ n của inh iên

cũng có những đặc thù riêng.
Chính ì

y, đề tài “xây dựng

ơ hình à hiện thực hệ th ng kiể

tra ao chép đồ

n trong inh iên” là cần thiết à có ý ngh a thực tiễn cao.

2. Mục tiêu nghiên cứu
-



hiểu c c c ch ao chép phổ iến của inh iên.

-

Tì hiểu c c cơng trình nghiên cứu có liên quan ề n đề ao chép à những
kết qu䁒 à t c gi䁒 c c cơng trình nghiên cứu đã đạt được.

-

Đề xu t
t ơ hình c䁒i tiến để nâng cao hiệu qu䁒 trong iệc kiể
đồ n trong inh iên.

-

Hiện thực hệ th ng kiể

tra ao chép đồ n trong inh iên.

1

tra ao chép


3. Đối tượng và phạm vi nghiên cứu

-

Nghiên cứu
t
ơ hình tính to n đ tương đồng n 䁒n, x c định ức
tương đồng n 䁒n ở c p đ toàn
n 䁒n, đoạn n, câu, cụ từ ứng dụng
trong tiếng Việt.

-

Nghiên cứu c c thu t to n kiể tra ao chép trong
đặc thù đ i ới ao chép đồ n trong inh iên.

n 䁒n học thu t tiếng Việt,

4. Cách tiếp cận và phương pháp nghiên cứu
-

Nghiên cứu tổng quan ề c c cơng trình nghiên cứu có liên quan ề đạo n, ao
chép tài liệu học thu t, đ nh gi tính ngun 䁒n,... Từ đó, tì hiểu c c c ch
inh iên ao chép, t p trung ào ph t hiện c c c ch ao chép phổ iến như:
nhân 䁒n tồn phần, ao chép
t phần, tì
à thay thế, góp nhặt tài liệu.

-

Nghiên cứu à đề xu t ơ hình, phương ph p tích hợp kiể tra ao chép đồ n
trong inh iên. Áp dụng c c thu t to n đ nh gi ao chép, điều chỉnh để p

dụng cho n 䁒n tiếng Việt nhằ ph t hiện gian l n trong đề tài lu n n, đồ n
của inh iên.

-

Hiện thực gi䁒i ph p đ nh gi ao chép trong tài liệu học thu t tiếng Việt. Xây
dựng kho dữ liệu chuyên ngành để thử nghiệ kiể tra ao chép đồ n của inh
iên.

5. Ý nghĩa thực tiễn của đề tài
Kết qu䁒 của đề tài có ý ngh a thực tiễn phục ụ cho hoạt đ ng qu䁒n lý, gi o dục à
hoạt đ ng kiể

tra, đ nh gi của nhà trường đ i ới inh iên.

2


CHƯƠNG 1

TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

Chương này trình ày tổng quan ề đạo
cụ kiể

n, c c hệ th ng ch ng đạo

n, c c công

tra ao chép, c c hệ th ng qu䁒n lý học t p ( MS), c c đặc điể


tiếng iệt là

cơ ở cho iệc xây dựng

ơ hình qu䁒n lý học t p nhằ

ngơn ngữ
ch ng ao

chép trong inh iên.…
1.1

Đạo văn và quy định xử lý đạo văn

Theo định ngh a của Merria -We ter Online Dictionary, đạo
hình thức n cắp à hình thành những ý tưởng hay ngơn từ
tưởng của ai đó; ử dụng 䁒n phẩ
giới thiệu

của

t ý tưởng hay 䁒n phẩ

Tại Việt Na , đạo

n đã đến

t ai đó


-

Quy định ề hính thức xử lý đạo
2016.

-

Quy định ề kiể
Kinh tế, 2017.

à không công

nguồn; hoặc

n [1,2,3] í dụ như:

chính học thu t, Trường Đại học Hoa Sen, 2013.

Việc p dụng phần

n, Trường Đại học Công Nghiệp TP.HCM,

o t à xử lý đạo


Tuy nhiên, chi phí để

ch ng “đạo

n c c 䁒n phẩ


học thu t, Trường đại học

n” được coi là phương ph p hiệu qu䁒 nh t.

ua 䁒n quyền ử dụng phần

ên cạnh đó, cơ ở dữ liệu tiếng Việt cũng là
C c c ch đạo

ới khởi nguồn từ ý

o đ ng, đặc iệt là tại c c trường đại học.

Nhiều trường đã an hành quy định đạo
Quy định ề liê

) là

ới được chuyển hóa từ nguồn đã có từ trước.

ức

-

n (plagiari



ch ng đạo


n là r t lớn.

t th ch thức đ i ới ài to n này.

n thường gặp ở inh iên:

­ Nhân 䁒n: N p ài của người kh c. Bài của

ình gi ng ài g c từng chữ

t

nhưng khơng có trích dẫn hay đoạn gi ng nhau không để trong d u ngoặc kép
(“…”).
­ Sao chép: Bài là

gồ

những phần quan trọng trích từ

t nguồn nào đó

à

khơng thay đổi gì.
­ Tì

à thay thế: Bài là


thay đổi c c từ à cụ

dung quan trọng của nguồn tha

kh䁒o.

3

từ chính nhưng ẫn giữ n i


­ Góp nhặt tài liệu: Diễn đạt theo c ch kh c từ nhiều nguồn à là
phù hợp ới nhau
1.2

t c ch liền

cho n i dung

ạch…

Tổng quan về các hệ thống chống đạo văn

Trong

i c䁒nh ùng nổ thông tin như hiện nay, chỉ cần

nhanh chóng tì

được thơng tin


ình cần, “đạo

t click chu t là có thể

n” (plagiari

) trở thành

th ch thức to lớn đ i ới inh iên trong nỗ lực học hành à là
trọng niề

t

uy yếu nghiê

tin ào trí tuệ của inh iên trong qu trình học t p à tì

kiế

tri thức.

Ngày nay, “ n hóa ao chép – cắt d n” trở nên phổ iến trong inh iên à hành i
này có thể ẽ ượt khỏi khn khổ à để lại h u qu䁒 nghiê
nghệ là trợ thủ cho
gi o dục kiể
hiện đạo

t


inh iên đạo

trọng. Trong khi công

n, cũng chính nó giúp gi o iên à nhà

tra à ph t hiện hành i đạo

n. Dưới đây là

t

công cụ ph t

n thường được ử dụng [4].

1.2.1 Turnitin
Turnitin.co

là phần

ở Việt Na

à có hỗ trợ tiếng Việt tại địa chỉ turitin.co / i à được nhiều trường

Việt Na
Phần




ủng h



ch ng đạo

à ký kết hợp đồng

ph t hiện copy lu n

n do

n

1 thế giới, được ử dụng kh phổ iến

ua quyền ử dụng.
n inh iên của đại học UC Berkeley thiết

kế ới ý tưởng ử dụng cho lớp học của họ au đó


này r t nổi tiếng trên thế giới ề kiể

tra đạo

ở r ng ra toàn thế giới. Phần
n đ i ới c c inh iên nước

ngoài như a ign ent, e ay. Hiện nay turnitin có kh䁒 n ng xử lý lên tới 30 triệu ài

o khoa học.
Hiện nay triển khai phần



Turnitin ĐH Hoa Sen à ĐH Hàng h䁒i, có thể truy

quét kho䁒ng 5 tỉ trang we đang hoạt đ ng trên
c c thầy cô gi o, trường học cung c p.

4

ạng, cũng như cơ ở dữ liệu do


Hình 1.1 Giao diện Turnitin
1.2.2 WriteCheck
Cơng cụ kiể
n

u n kiể

tra ngữ ph p à ph t hiện n cắp n i dung. Bạn chỉ cần t䁒i lên đoạn
tra, à au đó chỉ cần o

nh c c n i dung tương đồng nh t. ạn ẽ

dễ dàng nh n th y ự trùng lắp cũng như lỗi ngữ ph p nếu có.

Hình 1.2 Giao diện WriteCheck


5


1.2.3 Ithenticate
Gi ng như TurnItIn, iThenticate là
phần



t dịch ụ được cung c p ởi Plagiari

này hướng đến những người iết

.org,

n 䁒n chuyên nghiệp à nghiên cứu

học thu t. Nhà xu t 䁒n Oxford Uni er ity Pre



t trong những kh ch hàng

tiêu iểu ử dụng iThenticate.

Hình 1.3 Giao diện Ithenticate
1.2.4 JPlag
Jplag được ph t hiện ởi Guido Malpohl tại đại học Karl ruhe. Đây là



chuyên dùng để kiể

nguồn theo từng yte

t phần

tra Source code. Jplag không chỉ đơn gi䁒n là kiể

à nó có kh䁒 n ng nh n iết ề cú ph p ngơn ngữ l p trình à

c u trúc chương trình ì

yr t

ạnh

ẽ trong iệc ph t hiện ao chép

ã nguồn

chương trình. Jplag hiện tại hỗ trợ c c ngôn ngữ như: Ja a, C#, C++, C à th
c䁒 ngơn ngữ tự nhiên.

6

chí


1.2.5 MOSS

MOSS là

t hệ th ng tự đ ng ph t hiện đ tương đồng của

trình à ph t hiện ao chép trong c c cla

ã nguồn chương

của chương trình. MOSS hỗ trợ hầu hết

c c ngôn ngữ phổ iến hiện nay như: C, C++, Ja a, C#, Python, Vi ual Ba ic,
Ja a cript, FORTRAN,… Đây là

t công cụ

iễn phí nhưng ạn cần ph䁒i gửi

e ail để xin tạo tài kho䁒n trước khi có thể ự dụng dịch ụ này.
B䁒ng 1.1. B䁒ng o
Tính n ng

nh c c cơng cụ ph t hiện đạo

n dựa trên tính n ng

Turnitin

WriteCheck

Ithenticate


Jplag

MOSS

We

We

We

We

We

OpenSoure

Khơng

Khơng

Khơng



Khơng

Multi language












Data a e checking







Khơng



Internet checking












Pu lication checking









Khơng

Free text









Khơng

Soure code

Khơng


Khơng

Khơng





For tudent











For teacher












ocal hoặc We

1.3

Tổng quan về LMS và E-Learning

MS là chữ iết tắt củ earing Manage ent Sy te , dịch ra tiếng iệt có ngh a là
Hệ th ng qu䁒n lý học t p, là thành phần trong hệ th ng E-learning qu䁒n lý đào tạo.
MS qu䁒n lý iệc đ ng ký khóa học của học iên, tha
hướng dẫn của gi䁒ng iên, tha

gia c c chương trình có ự

dự c c hoạt đ ng đa dạng

ang tính tương t c trên

y tính à thực hiện c c 䁒ng đ nh gi . Hơn thế nữa, MS cũng giúp c c nhà
qu䁒n lý à c c gi䁒ng iên thực hiện c c công iệc kiể
qu䁒 học t p,

tra, gi

o c o của học iên à nâng cao hiệu qu䁒 gi䁒ng dạy.

7


t, thu nh n kết


1.3.1 Chức năng của LMS
1.3.1.1 Quản lý học viên
Bao gồ

iệc ghi lại những thông tin chi tiết ề học iên như: họ tên, nghề nghiệp,

đại chỉ liên lạc…, cung c p tên truy c p à

t khẩu.

Theo dõi tiến trình học của học iên, ghi lại c c lần cần truy c p, ào c c khóa học,
ghi nh n c c đóng góp thơng qua c c câu tr䁒 lời trên c c ài kiể
hay trên c c ài t p, ài thi cu i khóa. C c kết qu䁒 kiể

tra tự đ nh gi ,

tra này cho iết học iên

đó có hồn thành khóa học đó hay khơng.
1.3.1.2 Quản lý và theo dõi khóa học:
Qu䁒n lý n i dung khóa học, ghi lại c c thơng tin chi tiết ề khóa học như:

ục tiêu,

kết qu䁒 ẽ đạt được au khi kết thúc ài học, chương, khóa học; điều kiện, kiến
thức yêu cầu cần chuẩn ị trước khi tha


gia khóa học.

1.3.2 Ưu và nhược điểm của LMS
1.3.2.1 Ưu điểm
-

Tính linh hoạt (Flexi le): elearning có thể được thực hiện trong
t kho䁒ng thời
gian phù hợp ới lịch trình của người học không nh t thiết ph䁒i đúng giờ như
iệc đi học ở trên lớp. Chương trình đào tạo được chia thành nhiều phần nhỏ
(gọi là odule), ạn có thể ắp xếp để hoàn thành từng odule cho tới khi hoàn
thành chương trình.

-

Tính di đ ng (Mo ile): iệc học trực tuyến có thể được thực hiện trên
y tính,
y tính 䁒ng hay th chí là điện thoại di đ ng. Bạn có thể học ở trên tàu, trên
xe uýt hay học ở t cứ nơi nào ạn u n, dường như giờ đây, t cứ nơi nào
trên thế giới cũng có thể là lớp học của ạn.

-

Không cần di chuyển (No tra el): như ừa đề c p, e-learning có thể được thực
hiện ở t cứ nơi nào chỉ cần ạn có thiết ị hỗ trợ phù hợp. Vì y, ạn hồn
tồn có thể khơng cần đi đâu c䁒, ạn có thể học ở nhà.

-

Chi phí (lower co t): chi phí để học

t chương trình qua ạng thì thường rẻ
hơn nhiều o ới iệc c c ạn ph䁒i tới trường học, ì ngồi học phí, ta cịn tiết
kiệ được chi phí đi lại, chi phí n ở, chi phí ề thời gian…

8


-

-

Kh䁒 n ng tự điều chỉnh (Tailor it to you): c c khóa học elearning khơng ph䁒i
được c định, à ạn hồn tồn có thể điều chỉnh cho phù hợp ới ình. Ví dụ,
t
phần ạn đã nắ chắc rồi u n đẩy nhanh t c đ lên,
t
phần ạn
u n học kỹ hơn… Điều này chính là
t trong những ưu điể lớn nh t của elearning.
Tính tồn cầu (Glo al): dường như có r t ít giới hạn cho iệc học trực tuyến.
Hiện tại, chúng ta có thể tha gia ào r t nhiều c c khóa học trên tồn thế giới
t c ch dễ dàng.

1.3.2.2 Nhược điểm
-

Sự qu䁒n lý lỏng lẻo ( ack of control): Người học không ị qu䁒n lý, à không ai
iết được người học đã học như thế nào. Người học cũng có thể thiếu đi đ ng
lực để học à đôi khi ẽ dành qu nhiều thời gian cho iệc kh c à quên
t

iệc học. V y, đây là
t n đề kh phực tạp ới thời hạn kh c nhau của những
người học kh c nhau ở c c giai đoạn kh c nhau…

-

C ch tiếp c n ( earning Approach): Nó khơng h p dẫn ới nhiều người học, đặc
iệt những người thích được giao tiếp. Nhìn chung, n đề này thì tùy theo
người học, ỗi người có
t ở thích ề c ch học kh c nhau.

-

Bị cô l p (I olated): đây là câu tr䁒 lời thường xuyên được đưa ra khi được hỏi ề
elearning. Việc học à không được gặp gỡ người dạy à ạn học đơi khi khiến
con người ta có c䁒 gi c thực ự ị cô l p.

-

V n đề ề công nghệ (Technology i ue ): elearnung phụ thu c ào thiết ị hỗ
trợ ( y tính, điện thoại) à ạng internet. C c thiết ị hỗ trợ cũng ph䁒i đ䁒
䁒o c c chương trình chạy phù hợp. Nếu kết n i Internet ké hoặc ph t inh
những n đề đ t ng t ẽ là gi n đoạn iệc học của chúng ta.

-

Kh䁒 n ng ử dụng

y tính (Co puter Co petency): Nhiều người không thực


ự thành thạo trong iệc ử dụng

y tính ì cơng iệc của họ thường không cần

dùng tới. Cho nên đ i ới những trường hợp như thế này, thì có thể iệc học qua
ạng ẽ khơng

ang lại hiệu qu䁒 như

t khóa học trên lớp ình thường.

9


1.3.3 Kiến trúc một hệ thống E-learnin

Hình 1.4 Kiến trúc

t hệ th ng E-learning[4]

M t c ch tổng thể, kiến trúc hệ th ng E-learning ao gồ

3 phần chính:

-

Hạ tầng truyền thông à ạng: Bao gồ c c thiết ị đầu cu i (người dung), thiết
ị tại c c cơ ở cung c p dịch ụ, ạng truyền thông,…

-


Hạ tầng phần
Tool ook,…)

-

N i dung đào tạo (hạ tầng thông tin): Phần quan trọng của e-learning là n i dung
c c khóa học, c c chương trình đạo tạo à c c phần ề dạy học.

1.4

ề : C c phần



MS,

CMS (Marco edia, Aurthorware,

Bài toán kiểm tra sao chép hoặc kiểm tra tính nguyên bản

1.4.1 Phương pháp kiểm tra tính nguyên bản
Cho dù có r t nhiều cơng cụ đã hiện hữu trên thị trường, nhưng tổng thể có hai loại
detection chính là Kiể
à Kiể

tra tính nguyên 䁒n n i tại (Intrin ic Plagiari

Detection)


tra tính ngun 䁒n ới tài liệu ên ngồi (External Plagiari

Detection)

[5, 6].
Kiể

tra tính nguyên 䁒n n i tại là ự kiể

à không cần o

tra chỉ diễn ra trong n i

nh ới tài liệu ên ngoài. External Plagiari

10

t tài liệu

Detection là kiể


tra tính nguyên 䁒n của tài liệu o ới c c tài liệu đã được công
corpu (ngữ liệu)). Với External Plagiari
Plagiari
(tạ

(tạ

gọi là


Detection lại có hai loại cơ 䁒n là

Detection khơng ử dụng c c phương ph p của xử lý ngôn ngữ tự nhiên

gọi là NonNP ) à Plagiari

Kỹ thu t NonNP

hiện có

Detection có ử dụng kỹ thu t của NP .
t

phương ph p

au: N-gra

Method

à

Có r t nhiều cơng trình nghiên cứu à đề xu t c c phương ph p ph t hiện đạo

n

Fingerprinting Method [7].
1.4.2 Tổng quan các cơng trình nghiên cứu về đạo văn:

trong c c ngơn ngữ kh c nhau ới c c kỹ thu t kh c nhau. Maurer à c ng ự (2006)

không chỉ t p trung ào kiể

tra ao chép tài liệu

iệt đ i ới c c nguồn dữ liệu kh c như â
Nhó

n 䁒n

à cịn phân tích ự kh c

nhạc, hình 䁒nh, 䁒n ẽ kỹ thu t, . .

c c nhà nghiên cứu Ali à c ng ự (2011) l p lu n rằng đạo

ph t hiện 100%. Mỗi phương ph p hiện tại đều có

t

ưu điể

Hầu hết ử dụng phân cụ , kỹ thu t ắp xếp, ử dụng tó

n r t khó được
à nhược điể .

tắt để đạt được kết qu䁒

nhanh hơn. C c phương ph p dựa trên ngữ ph p à dựa trên ngữ ngh a thể hiện


t

hạn chế ề hiệu qu䁒 thực hiện. C c phương ph p chủ yếu kết hợp xử lý ngôn ngữ
tự nhiên ới c u trúc chỉ
M t nghiên cứu O
n dạng

ục, ph t hiện dựa trên cụ .

an à c ng ự (2012) phân loại hầu hết c c kỹ thu t trong đạo

n 䁒n thành 䁒y loại à gi䁒i thích những ưu điể

loại. Ngoài ra, th䁒o lu n nhiều

à hạn chế của từng

n đề quan trọng liên quan đến đạo

n như đạo

đức, quy định, quy trình. Bin-Ha toor à c ng ự (2012) đã phân loại thành
nhó . Trong đó, thông tin ề đạo
đã đề xu t
Bu ine

n tại c c trường đại học là

t hệ th ng có thể ph t hiện đạo


i quan tâ

n

lớn, à

n trong c c l nh ực: E earning, E-

à E-Journal.

Nghiên cứu gần đây của Ei a à c ng ự (2015) cho rằng c c kỹ thu t hiện tại
khơng có kh䁒 n ng ph t hiện
n ý tưởng,

t c ch thông

inh nên chưa hiệu qu䁒 đ i ới đạo

liệu, 䁒ng iểu, công thức. Họ đưa ra

ơ hình tích hợp c c phương

ph p kết hợp xử lý ngữ ngh a có thể giúp ph t hiện c c loại đạo

11

n này.



×