Tải bản đầy đủ (.pdf) (85 trang)

Xây dựng công cụ hỗ trợ phát hiện và phòng ngừa sao chép bài tập trong đào tạo trực tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.01 MB, 85 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Lê Ngọc Hân

XÂY DỰNG CÔNG CỤ HỖ TRỢ PHÁT HIỆN VÀ
PHÒNG NGỪA SAO CHÉP BÀI TẬP TRONG
ĐÀO TẠO TRỰC TUYẾN

LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Vũ Thị Hương Giang

Hà Nội – Năm 2018


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Lê Ngọc Hân
Đề tài luận văn: xây dựng công cụ hỗ trợ phát hiện và phòng ngừa
sao chép bài tập trong đào tạo trực tuyến
Chuyên ngành: Công nghệ Thông tin
Mã số SV: CB150281
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận
tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 27 tháng 10
năm 2018 với các nội dung sau:


1. Sửa lỗi chình bày, chính tả:
Tác giả đã rà sốt và chỉnh sửa tồn bộ lỗi chính tả, trình bày trong luận văn.
2. Trình bày chi tiết về cơng thức và giải thuật so sánh hai văn bản
Luận văn đã trình bày, làm rõ cơng thwucs và giải thuật áp dụng tại Chương 3:
Đề xuất giải pháp, mục 1.1.3.6 đối sánh độ tương đông văn bản.
3. Bổ sung, làm rõ phần thực nghiệm
Luận văn đã bổ sung phần thực nghiệm hiệu năng tại Chương IV: Cài đặt và thử
nghiệm, mục 3.3 Kết quả thử nghiệm.
4. Làm rõ kho lưu trữ, cơ sở dữ liệu
Luận văn đã bổ sung và làm rõ cơ sở dữ liệu lưu trữ tại Chương III: Đề xuất giải
pháp, mục 1.1 Kiến trúc hệ thống.
Ngày
Giáo viên hướng dẫn

tháng

năm

Tác giả luận văn

CHỦ TỊCH HỘI ĐỒNG


Luận văn cao học
LỜI CAM ĐOAN
Tôi là Lê Ngọc Hân học viên cao học khóa 2015B, Trường Đại học Bách khoa Hà
Nội xin cam kết Luận văn này là công trình nghiên cứu của bản thân, dưới sự hướng dẫn
khoa học của TS. Vũ Thị Hương Giang, Viện Công nghệ thông tin và Truyền thông,
Trường Đại học Bách khoa Hà Nội.
Các kết quả trong Luận văn là trung thực và khơng sao chép từ bất kỳ cơng trình

nào khác.
Hà Nội, ngày 14 tháng 09 năm 2018
Học viên: Lê Ngọc Hân
Khóa: 2015B

Lê Ngọc Hân – CNTT 2015B

1


Luận văn cao học
LỜI CÁM ƠN
Lời đầu tiên cho em xin được gửi lời cảm ơn sâu sắc đến cô giáo TS. Vũ Thị Hương
Giang – Viện Công nghệ thông tin & Truyền thông – Đại học Bách khoa Hà Nội, đã tận
tình hướng dẫn trong suốt quá trình thực hiện luận văn.
Em xin chân thành cảm ơn quý thầy cơ ở Viện Cơng nghệ thơng tin & Truyền thơng
nói riêng và Đại học Bách khoa Hà Nội nói chung, đã giúp đỡ chúng em trong suốt khóa
học.
Cuối cùng tơi xin cảm ơn quý bạn bè và đồng nghiệp, những người đã tạo điều kiện
cũng như giúp đỡ để tôi có thể hồn thành khóa học.

Lê Ngọc Hân – CNTT 2015B

2


Luận văn cao học

MỤC LỤC
PHẦN MỞ ĐẦU ......................................................................................................... 8


I.
1.

Tính cấp thiết của đề tài ......................................................................................... 8

2.

Tình hình nghiên cứu ............................................................................................. 8

3.

Mục đích nghiên cứu.............................................................................................. 9

4.

Đối tượng nghiên cứu ............................................................................................ 9

5.

Phạm vi nghiên cứu................................................................................................ 9

6.

Phương pháp nghiên cứu ..................................................................................... 10

7.

Phát biểu bài toán ................................................................................................. 10
7.1.


Đầu vào và đầu ra của bài tốn ..................................................................... 10

7.2.

Quy trình xử lý của hệ thống ......................................................................... 12

CƠ SỞ LÝ THUYẾT ................................................................................................ 14

II.
1.

2.

Mơ hình đào tạo trực tuyến Moodle .................................................................... 14
1.1.

Tổng quan về Moodle ................................................................................... 14

1.2.

Các đặc điểm của Moodle ............................................................................. 14

1.3.

Các tính năng chính của Moodle ................................................................... 16

Vấn đề sao chép hay đạo văn trong đào tạo trực tuyến ....................................... 17
2.1.
Các hình thức kiểm tra và đánh giá trong đào tạo trực tuyến và những hạn

chế còn tồn tại ............................................................................................................ 17
2.2.

3.

4.

5.

Quan niệm về đạo văn ................................................................................... 19

Quy trình và phương pháp phát hiện đạo văn ...................................................... 20
3.1.

Quy trình phát hiện đạo văn .......................................................................... 20

3.2.

Phương pháp phát hiện đạo văn .................................................................... 22

Phương pháp đánh giá độ tương đồng văn bản tiếng Việt ................................... 23
4.1.

Giới thiệu chung ............................................................................................ 23

4.2.

Phân loại độ tương đồng giữa hai văn bản .................................................... 24

4.3.


Phương pháp đo độ tương đồng văn bản trong tiếng Việt ............................ 25

Một số công cụ và phần mềm hỗ trợ .................................................................... 42
5.1.

Cơng cụ và phần mềm nước ngồi ................................................................ 42

5.2.

Công cụ và phần mềm trong nước ................................................................ 45

Lê Ngọc Hân – CNTT 2015B

3


Luận văn cao học
III.
1.

ĐỀ XUẤT CÁC GIẢI PHÁP .................................................................................. 48
Kiến trúc tổng quan của hệ thống ........................................................................ 48
1.1.

Kiến trúc của hệ thống .................................................................................. 48

1.2.

Thành phần của hệ thống .............................................................................. 51


1.3.

Module xử lý ngơn ngữ tự nhiên ................................................................... 52

2.

Giải pháp phịng ngừa sao chép bài tập trong đào tạo trực tuyến ........................ 62

3.

Giải pháp phát hiện sao chép bài tập trong đào tạo trực tuyến ............................ 63

IV.
1.

2.

3.

CÀI ĐẶT VÀ THỬ NGHIỆM ................................................................................ 65
Yêu cầu hệ thống.................................................................................................. 65
1.1.

Yêu cầu các chức năng chính của hệ thống .................................................. 65

1.2.

Yêu cầu phi chức năng của hệ thống ............................................................ 65


1.3.

Công nghệ sử dụng để phát triển hệ thống .................................................... 65

Thiết kế hệ thống.................................................................................................. 70
2.1.

Thiết kế giao diện .......................................................................................... 70

2.2.

Lưu đồ hệ thống ............................................................................................ 72

Thử nghiệm hệ thống ........................................................................................... 74
3.1.

Môi trường thử nghiệm ................................................................................. 74

3.2.

Kịch bản thử nghiệm ..................................................................................... 75

3.3.

Kết quả thử nghiệm ....................................................................................... 80

V.

KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................... 81


VI.

TÀI LIỆU THAM KHẢO ....................................................................................... 82

Lê Ngọc Hân – CNTT 2015B

4


Luận văn cao học

DANH MỤC HÌNH VẼ
Hình 1: Mơ hình hệ thống.................................................................................................. 10
Hình 2:Quy trình xử lý của hệ thống ................................................................................. 13
Hình 3: Biểu tượng đại diện cho moodle .......................................................................... 14
Hình 4:Các tính năng chính của Moodle ........................................................................... 16
Hình 5: Quy trình 4 bước phát hiện đạo văn ..................................................................... 21
Hình 6: Ví dụ về mạng từ tiếng Anh ................................................................................. 30
Hình 7: Một số công cụ phát hiện đạo văn phổ biến ......................................................... 45
Hình 8: Mơ hình cơ sở dữ liệu của kho lưu trữ ................................................................. 49
Hình 8: Kiến trúc tổng quan của hệ thống phòng ngừa và phát hiện đạo văn .................. 50
Hình 9: Thành phần của hệ thống phát hiện và phịng ngừa đạo văn ............................... 52
Hình 13: Trên là top 50 từ xuất hiện nhiều nhất trong mỗi cuốn sách .............................. 54
Hình 14: Quy trình tách từ của vnTokenizer ..................................................................... 55
Hình 15: Mơ hình cơ sở dữ liệu ......................................................................................... 58
Hình 10: Quy trình xử lý của hệ thống phịng ngừa đạo văn ............................................ 63
Hình 11: Quy trình xử lý của hệ thống phát hiện đạo văn ............................................... 64
Hình 16: Mơ hình hoạt động của Entity Framework ......................................................... 68
Hình 28: Lưu đồ hoạt động của sinh viên ......................................................................... 72
Hình 29: Lưu đồ hoạt động của giảng viên ....................................................................... 73


Lê Ngọc Hân – CNTT 2015B

5


Luận văn cao học

DANH MỤC BẢNG BIỂU
Bảng 1: Số câu được ghép bởi 5 từ “đến, sao, nó, bảo, khơng”. ....................................... 26
Bảng 2: Một số công cụ phát hiện đạo văn phổ biến trên thế giới .................................... 44
Bảng 3: Gán nhãn từ loại ................................................................................................... 56
Bảng 4: Thơng tin khóa học .............................................. Error! Bookmark not defined.
Bảng 5: Kết quả học tập .................................................... Error! Bookmark not defined.
Bảng 6: Thông tin người dùng........................................... Error! Bookmark not defined.

Lê Ngọc Hân – CNTT 2015B

6


Luận văn cao học

DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ
STT

TỪ VIẾT TẮT

GIẢI THÍCH


1

e-Learning

Electronic learning: Giáo dục trực tuyến

2

Plagiarism

Đạo văn, sao chép

3

Wordnet

Cơ sở tri thức về từ vựng

4

Corpus

Tập ngữ liệu

5

PMI – Pointwise Mutual
Infomation

Thông tin theo điểm chung


6

Tokenization (Tokenizing)

Tách từ, phân loại từ, gán nhãn từ

7

Sim (Simulation)

Tương đồng, độ tương đồng

Lê Ngọc Hân – CNTT 2015B

7


Luận văn cao học

I.

PHẦN MỞ ĐẦU

1. Tính cấp thiết của đề tài
Phương thức học tập trực tuyến (e-Learning) với rất nhiều ưu điểm như: linh hoạt, tiện
lợi, giảm chi phí đào tạo. Người học có thể học bất cứ lúc nào, bất cứ ở đâu, với bất cứ ai,
học những vấn đề bản thân quan tâm, phù hợp với năng lực và sở thích, phù hợp với u
cầu cơng việc… mà chỉ cần có phương tiện là máy tính và mạng Internet. Phương thức học
tập này mang lại những hiệu quả cao trong giáo dục đào tạo. Do đó, trên thế giới, nhiều

nước đã tiến hành triển khai với mô hình đào tạo e-Learning tồn phần, hoặc mơ hình eLearning bổ trợ cho các khóa học chính quy. Điểm hình phải kể đến Đại học Stanford của
Mỹ, Đại học Cambridge của Anh, Viện công nghệ Massachusetts (MIT) là một trong số
các trường đại học hàng đầu thế giới về đào tạo chính quy cũng như e-Learning.
Tại Việt Nam, chương trình đào tạo e-Learning đã được các trường đại học trong cả
nước triển khai rộng khắp. Bắt đầu bằng việc kết hợp học tập bằng phương thức e-Learning
với phương thức học tập truyền thống và bước đầu cũng đem lại những hiệu quả nhất định.
Một số trường đại học đã đưa mơ hình đào tạo e-Learning để giảng dạy và đào tạo hệ đại
học từ xa như Viện Đại học Mở Hà Nội, Đại học Kinh tế Quốc dân, Đại học Quốc Gia
TP.HCM …
Bên cạnh những ưu điểm đó cũng có cũng những đặc điểm khiến mơ hình đào tạo eLearning chưa thể thay thế hồn tồn mơ hình đào tạo truyền thống. Giảng viên và sinh
viên khơng có nhiều điều kiện gặp mặt trực tiếp, và vấn sinh viên sao chép bài tập trong
các bài kiểm tra giữa kỳ. Do vậy việc giám sát các hoạt động kiểm tra và đánh giá nhằm
giảm thiểu gian lận và tăng chất lượng đào tạo là vơ cùng cần thiết.
Từ thực tế đó tác giả thực hiện đề tài “Xây dựng công cụ hỗ trợ phát hiện và phòng
ngừa sao chép bài tập trong đào tạo trực tuyến” mong muốn tạo ra được cơng cụ có thể
hỗ trợ giảng viên phát hiện gian lận việc sao chép bài tập của sinh viên với nhau trong các
lớp học trực tuyến.

2. Tình hình nghiên cứu
Hiện nay trên thế giới, cũng đã có nhiều cơng cụ dựa trên nền tảng Moodle hỗ trợ phát
hiện đạo văn trong các lớp học trực tuyến. Nhưng hầu hết các cơng cụ đều có chung một
số nhược điểm khi áp dụng tại Việt Nam:
Lê Ngọc Hân – CNTT 2015B

8


Luận văn cao học
• Khơng hỗ trợ tiếng Việt.
• Trả phí hoặc u cầu tạo tài khoản và có thời hạn dùng thử.

• Mã nguồn đóng.
Tại Việt Nam, cũng đã có rất nhiều cơng trình nghiên cứu về “Đối sánh văn bản Tiếng
Việt”, cùng với đó là rất nhiều cơng cụ hữu ích nhằm tính tốn độ tương đồng giữa hai văn
bản. Nhưng hầu hết các phần mềm đều được xây dựng dưới dạng các ứng dụng trên desktop
hoặc các ứng dụng web. Điều đó khiến giảng viên trong các lớp học trực tuyến muốn biết
sinh viên mình có sao chép bài khơng thì phải tải bài của sinh viên trên lớp học về máy
tính, tiếp đó dùng cơng cụ để kiểm tra thủ cơng. Điều đó sẽ tốn thời gian và khơng đáp ứng
được tính liên tục và nhanh chóng trong đào tạo trực tuyến.
Do vậy, trọng tâm của đề tài là xây dựng công cụ hỗ trợ giảng viên phát hiện sinh viên
sao chép bài tập trong các lớp học trực tuyến. Bài toán ở trên cơ bản gồm 2 vấn đề chính:
• Xây dựng cơng cụ hỗ trợ giảng viên trong các lớp học trực tuyến (tích hợp với
Moodle).
• Đối sánh độ tương đồng văn bản (các bài tập sinh viên)

3. Mục đích nghiên cứu
Từ tình hình trên, mục đích đề tài xây dựng cơng cụ phát sao chép các văn bản Tiếng
Việt, có thể tích hợp trên Moodle để hỗ trợ giảng viên nhanh chóng phát hiện sinh viên sao
chép bài tập trong cùng một lớp học trực tuyến dựa trên việc so khớp, đối sánh mức độ
tương đồng văn bản dựa trên các bài tập của sinh viên.

4. Đối tượng nghiên cứu
• Các bài tập của sinh viên nộp lên hệ thống (các văn bản số, văn bản tiếng Việt).
• Các thuật tốn và phương pháp xử lý văn bản tiếng Việt.
• Các thuật tốn và phương pháp đo độ tương đồng văn bản tiếng Việt.

5. Phạm vi nghiên cứu
• Các bài tập của sinh viên dưới dạng văn bản số bằng tiếng việt (không phải các
tập mã nguồn, khơng hỗ trợ nhận dạng hình ảnh, cơng thức tốn học và các ký
tự đặc biệt).


Lê Ngọc Hân – CNTT 2015B

9


Luận văn cao học
• Đối sánh độ tương đồng bài tập của các sinh viên dựa trên hai yếu tố: mức độ
tương đồng ngữ nghĩa của các từ và trật tự sắp xếp của từ trong câu.
• Xây dựng hệ thống hỗ trợ tự động đánh giá sự sao chép các bài tập giúp cho việc
đánh giá sơ bộ các bài tập của sinh viên trong cùng một lớp học được nhanh
chóng và thuận tiện.
• Hệ thống áp dụng trên lớp học trực tuyến với quy mô: 20 đến 30 sinh viên/lớp.

6. Phương pháp nghiên cứu
a. Phương pháp nghiên cứu tài liệu
• Nghiên cứu phần mềm mã nguồn mở Moodle.
• Nghiên cứu một số ứng dụng tách từ đối với văn bản tiếng Việt.
• Khảo sát, đánh giá một số thuật toán đo độ tương đồng văn bản tiếng Việt.
b. Phương pháp thực nghiệm
• Dựa trên cơ sở lý thuyết đã nghiên cứu, xây dựng công cụ hỗ trợ đánh giá độ
tương đồng giữa các bài tập của sinh viên dựa trên cơng nghệ ...
• Triển khai trong hệ thống Moodle 3.3.1 trên locallhost.

7. Phát biểu bài toán
7.1.

Đầu vào và đầu ra của bài toán

Bài toán đề tài muốn giải quyết được mơ tả như sau:


Hình 1: Mơ hình hệ thống
Lê Ngọc Hân – CNTT 2015B

10


Luận văn cao học
Khi sinh viên trên các lớp học trực tuyến (Moodle) nộp bài tập, tiểu luận:
• Dưới dạng văn bản số tiếng Việt.
Hệ thống sẽ tiếp nhận file từ Moodle lưu trong folder theo từng lớp học (course). Sau
đó hệ thống sẽ thực hiện tiền xử lý văn bản, tách từ, loại bỏ các từ dừng và lưu vào kho dữ
liệu (cơ sở dữ liệu) của hệ thống.
Khi có thêm 1 sinh viên mới nộp bài, hệ thống cũng thực hiện tiền xử lý văn bản, tách
từ, loại bỏ các từ dừng và lưu vào kho dữ liệu (cơ sở dữ liệu) của hệ thống. Tiếp đó hệ
thống sẽ thực hiện đối sánh văn bản vừa nộp với các bài của sinh viên đã nộp trước đó.
Nếu độ tương đồng bài tập của sinh viên mới nộp với các bài sinh viên nộp trước đó vượt
ngưỡng (ví dụ: 0.8) thì hệ thống sẽ gửi cảnh báo tới sinh viên “bài tập của sinh viên A có
độ trùng khớp 80% với bài của sinh viên B” ngay lập tức để sinh viên A có thể làm và nộp
lại bài. Nếu độ tương đồng của bài mới nộp với các bài trong kho dữ liệu nhỏ hơn ngưỡng
quy định thì lưu bài vào kho.
Khi sinh viên nộp lại bài, bài mới của sinh viên sẽ thay thế bài cũ trong kho dữ liệu của
hệ thống (cơ sở dữ liệu).
Đến cuối kỳ hạn nộp bài, giảng viên đăng nhập vào môn học và có nút kiểm tra mức độ
tương đồng của các bài trong lớp với nhau. Mỗi bài sẽ được đối sánh với các bài còn lại
trong lớp, và đưa ra các bài có mức độ tương đồng cao nhất.
Như vậy đầu vào và đầu ra của bài tốn là:
• Đầu vào:
o Bài tập của sinh viên trên lớp học Moodle dưới dạng file text có thể đọc
được bằng hệ thống (doc, docx, …).
o Ngưỡng mức độ tương đồng cho phép (ví dụ: 80%). Giảng viên quy định.

• Đầu ra: Mức độ tương đồng của bài sinh viên nộp với các bài sinh viên đã nộp
trước đó, từ đó đưa ra:
o Email cảnh báo tới sinh viên nếu bài tập có độ tương đồng với các bài
nộp trước đó vượt quá ngưỡng cho phép.
o Cuối kỳ hạn nộp bài xuất ra báo cáo mức độ tương đồng giữa các bài tập
của sinh viên trong cùng 1 lớp. Mỗi bài đưa ra 3 bài trong cùng lớp có
mức độ tương đồng cao nhất với bài đó.
Lê Ngọc Hân – CNTT 2015B

11


Luận văn cao học
7.2.

Quy trình xử lý của hệ thống

Từ mơ hình, đầu vào và đầu ra của hệ thống được mơ tả ở trên, ta có thể chia quy trình
xử lý của hệ thống thành các bước:
Bước 1: Tiếp nhận và lưu trữ bài tập của sinh viên nộp theo từng lớp học (course). Đây
là bước đầu tiên của quy trình. Mục đích của bước này là tích hợp hệ thống với nền tảng
đào tạo trực tuyến Moodle. Quản lý sinh viên theo lớp học, phân quyền giảng viên, sinh
viên, …
Bước 2: Tiền xử lý văn bản: Sau khi kết thúc bước 1, các tài liệu của sinh viên được
upload lên hệ thống. Hệ thống đã nhận và đọc được. Tại bước này, hệ thống sẽ xử lý dữ
liệu nhận được được chuyển dữ liệu từ định dạng (.doc) sang dạng (.txt). Dữ liệu sẽ được
sơ chế: loại bỏ bìa, tách header footer, loại bỏ hình ảnh, …
Bước 3: Tách câu, tách từ và gán nhãn từ loại. Sau khi qua tiền xử lý ở bước 2 ta được
bản text chứa các câu tiếng Việt. Tiếp đó hệ thống sẽ thực hiện tách câu, tách từ, loại bỏ từ
dừng, từ nhiễu, … và thực hiện gán nhãn cho các từ.

Bước 4: Lưu dữ liệu vào cơ sở dữ liệu. Sau khi tài liệu của sinh viên được tách từ và
gán nhãn. Tài liệu sẽ được lưu vào cơ sở dữ liệu của hệ thống. Mỗi một sinh viên có một
ID tương ứng với 1 course học và chỉ lưu được 1 bài tập tương ứng. Do đó khi sinh viên
up lại bài cơ sở dữ liệu của sinh viên sẽ được cập nhật thay thế.
Bước 5: Đối sánh mức độ tương đồng của bài sinh viên vừa nộp. Sau khi bài tập của
sinh viên đã được lưu trong cơ sở dữ liệu dưới dạng các từ loại đã được tách. Cơng đoạn
này nhằm mục đích so khớp các trường dữ liệu bài tập của sinh viên vừa nộp bài với các
trường dữ liệu của các sinh viên đã nộp bài trước đó. Nếu mức độ tương đồng vượt quá
ngưỡng, thì tức là có sự trùng khớp q lớp hoặc có sự sao chép bài tập giữa bài của sinh
viên vừa nộp với bài của sinh viên đã nộp trước đó.
Bước 6: Tự động gửi cảnh báo tới sinh viên nếu độ tương đồng vượt ngưỡng. Sau khi
hệ thống thực hiện đối sánh bài của sinh viên vừa nộp với các bài đã nộp trước đó. Ta sẽ
thu được mức độ tương đồng của bài sinh viên vừa nộp với các bài sinh viên đã nộp trước
đó. Nếu mức độ tương đồng vượt quá ngưỡng cho phép (giảng viên quy định ngưỡng, ví
dụ: 80%), thì sẽ gửi mail cảnh báo tới sinh viên để sinh viên làm và nộp lại bài trước hạn.

Lê Ngọc Hân – CNTT 2015B

12


Luận văn cao học
Bước 7: Xuất báo cáo đối sánh khi giảng viên yêu cầu. Kết thúc kỳ hạn nộp bài, hệ
thống sẽ đối sánh các bài của sinh viên trong cùng một lớp với nhau. Hệ thống sẽ xuất báo
cáo tới giảng viên con số đánh giá mức độ tương đồng bài tập của từng sinh viên trong lớp
với nhau.

Hình 2:Quy trình xử lý của hệ thống

Lê Ngọc Hân – CNTT 2015B


13


Luận văn cao học

II.

CƠ SỞ LÝ THUYẾT
1. Mơ hình đào tạo trực tuyến Moodle

1.1.

Tổng quan về Moodle

Moodle (Modular Object Oriented Dynamic Learning. Environment) được sáng lập
năm 1999 bởi Martin Dougiamas với mục đích tạo ra những khóa học trực tuyến có sự
tương tác cao. Moodle là một nền tảng hỗ trợ việc học tập, được thiết kế để cung cấp cho
những nhà giáo dục, người quản lý giáo dục và người học một hệ thống mạnh mẽ, an toàn
để tạo ra một môi trường học tập cá nhân. Người dùng có thể tải phẩn mềm và cài đặt trên
máy chủ riêng để sử dụng. Moodle được xây dựng và điều phối bởi Moodle HQ – một
công ty của Úc với sự hỗ trợ của một mạng lưới nhiều công ty dịch vụ trên tồn thế giới.

Hình 3: Biểu tượng đại diện cho moodle
1.2.

Các đặc điểm của Moodle

1.2.1. Được xây dựng cho việc học tập với quy mơ tồn cầu
Là một phần mềm đã được kiểm chứng và đáng tin cậy trên thế giới: Moodle đã được

nhiều tổ chức lớn và nhỏ trên thế giới đã sử dụng, bao gồm trường Kinh tế London, Đại
học New York, tổ chức Microsoft và một số trường Đại học mở. Moodle được phục vụ cho
cả 2 mục đích hỗ trợ việc học tập cũng như hỗ trợ cho doanh nghiệp với số người sử dụng
hiện nay khoảng 80 triệu người, giúp cho Moodle trở thành một nền tảng được sử dụng
rộng rãi trên thế giới.
Được thiết kế để hỗ trợ cả việc giảng dạy lẫn việc học tập: hệ thống Moodle cung cấp
một bộ công cụ mạnh mẽ dựa trên phương pháp “lấy người học làm trung tâm”, và đã tạo
ra được một môi trường học tập với sự tương tác của 2 đối tượng chính là “người dạy” và
“người học”.

Lê Ngọc Hân – CNTT 2015B

14


Luận văn cao học
1.2.2. Tính linh hoạt và tùy biến cao
Vì là phần mềm mã nguồn mở nên Moodle có thể được tùy biến theo bất cứ cách nào
phù hợp với nhu cầu của người sử dụng. Thiết kế dạng mô-đun cho phép các nhà phát triển
tạo ra các mô-đun (plug-in) để tích hợp vào chương trình để phục vụ cho một số chức năng
cụ thể.
Hệ thống có thể đáp ứng cho một nhóm nhỏ sinh viên tới việc đáp ứng cho hàng triệu
người. Moodle có thể hỗ trợ từ các lớp học nhỏ tới các tổ chức lớn. Moodle có thể được sử
dụng để phục vụ giáo dục, các dự án phi lợi nhuận, hoặc kinh doanh, thậm chí một số dự
án chính phủ…
1.2.3. Sử dụng bất cứ khi nào, bất cứ nơi đâu, trên bất cứ thiết bị nào
Moodle dựa trên nền tàng Web, nên có thể được truy cập từ bất cứ đâu chỉ cần một thiết
bị có hỗ trợ vào mạng và có hỗ trợ trình duyệt Web. Và hiện nay Moodle dần dần được
nâng cấp để có thể phục vụ tốt hơn ở trên các thiết bị di động.
Dễ dàng sử dụng: Giao diện Moodle dễ sử dụng khiến cho người dùng khơng mấy khó

khăn để tiếp xúc với nó. Giao diện trực quan giống các trang web, các bài học được thiết
kế theo các mô-đun tuần tự.
1.2.4. Được hỗ trợ bởi một cộng đồng mạnh mẽ
Dự án Moodle nhận được sự hỗ trợ của một cộng đồng lớn người sử dụng, trong đó có
sự hỗ trợ từ một mạng lưới các công ty cộng tác viên của Moodle (Moodle Partner). Hiện
nay hệ thống Moodle liên tục được kiểm tra, nâng cấp và cải tiển để hệ thống ngày một
hoàn thiện hơn để đáp ứng được nhu cầu của người sử dụng.
Luôn cập nhật và được hỗ trợ: dự án Moodle luôn được xem xét và cập nhật để phù hợp
với nhu cầu của người sử dụng.
Mã nguồn mở: Moolde được cung cấp miễn phí dưới dạng một phần mềm mã nguồn
mở, theo giấy phép GNU. Bất cứ ai cũng được phép sử dụng, mở rộng, sửa đổi mã nguồn
vì mục đích thương mại hoặc phi thương mại mà không cần xin phép hay chia sẻ lợi nhuận
cho việc sử dụng Moodle.

Lê Ngọc Hân – CNTT 2015B

15


Luận văn cao học
1.3.

Các tính năng chính của Moodle

Mục đích chính của Moodle là tạo ra những khóa học trực tuyến có sự tương tác cao,
tạo sự thuận lợi và giảm chi phí nhất trong việc dạy và học. Do đó, Moodle bao gồm các
chức năng chính sau [8]:
• Chức năng quản lý sinh viên: Cho phép người quản trị tạo người dùng mới, chứng
thực và phân quyền sử dụng cho họ, đưa sinh viên vào các lớp học, giao bài tập và
thời hạn hồn thành cho sinh viên.

• Chức năng quản lý khóa học (course): Cho phép thêm các khóa học mới cũng
như cập nhật, chỉnh sửa nội dung cho khóa học trước đó, các khóa học có thể sao
lưu để sử dụng lại trong các chương trình và dự án khác.
• Chức năng quản lý kết quả học tập của sinh viên: Kết quả của học viên phải được
quản lý, giám sát và có thể xuất báo cáo chi tiết, tiện cho việc quản lý của giáo viên.
Việc quản lý kết quả học tập của sinh viên để làm điều kiện tiên quyết xét sinh viên
có đủ điều kiện tham gia thi hết mơn.
• Chức năng quản lý các module hỗ trợ: do Moodle là nền tảng mã nguồn mở, linh
hoạt và mềm dẻo, có thể tích hợp thêm nhiều chức năng và hệ thống như: các hoạt
động học tập, bộ lọc và các khối, … để đảm bảo hệ thống đồng bộ thông tin và hoạt
động ổn định.

Hình 4:Các tính năng chính của Moodle

Lê Ngọc Hân – CNTT 2015B

16


Luận văn cao học

2. Vấn đề sao chép hay đạo văn trong đào tạo trực tuyến
2.1.

Các hình thức kiểm tra và đánh giá trong đào tạo trực tuyến và những
hạn chế cịn tồn tại

2.1.1. Các hình thức kiểm tra và đánh giá trong đào tạo trực tuyến
Trong mơ hình đào tạo trực tuyến có rất nhiều hình thức kiểm tra được đưa ra nhằm
mục đích đánh giá năng lực và lượng kiến thức sinh viên tích lũy được trong mỗi khóa học.

Dưới đây là một số hình thức kiểm tra đã và đang được áp dụng tại Việt Nam cụ thể tại
Trung tâm e-Learning thuộc Viện Đại học Mở Hà Nội.
• Học viên có thể sẽ làm những bài trắc nghiệm nhỏ (Multiple choice, true/fale) trong
quá trình học để ghi nhớ kiến thức trong bài.
• Sinh viên phải hồn thành một số bài tập kiểm tra dưới dạng trắc nghiệm (Multiple
choice) để lấy điểm chun cần.
• Học viên hoặc nhóm học viên phải làm những bài tiểu luận, bài tập lớn để lấy điểm
giữa kỳ.
• Thi tập trung để lấy điểm cuối kỳ. Có thể thi dưới hình thức tự luận, trắc nghiệm,
thực hành, vấn đáp …
• Với một số mơn đặc thù như ngoại ngữ có thể áp dụng hình thức thi nói bằng hình
thức ghi âm, ghi hình và nộp bài qua mạng hoặc thi vấn đáp sinh viên qua Skype,

2.1.2. Vấn đề gian lận kiểm tra đánh giá trong đào tạo trực tuyến
Dù dưới hình thức đào tạo truyền thống hay đào tạo trực tuyến thì việc thi cử và kiểm
tra vẫn còn tồn tại những tiêu cực trong đánh giá đúng chất lượng của học viên. Nhất là
trong hình thức đào tạo trực tuyến ln đề cao tính tự giác của học viên thì việc chống gian
lận trong thi cử, kiểm tra lại càng trở thành nỗi lo của các nhà làm giáo dục. Do vậy tại
Việt Nam thi cuối kỳ vẫn phải được thi tập trung dưới sự giám sát của đơn vị đào tạo.
Với mỗi loại hình thức thi cử, kiểm tra thì ln tồn tại cạnh đó những vấn đề tiêu cực,
gian lận. Một số nguy cơ về gian lận có thể gặp phải trong thi cử và kiểm tra trực tuyến là:
• Thi trắc nghiệm trực tuyến: học viên sao chép bài, nhờ người làm hộ bài …
• Nộp bài tiểu luận, bài tập lớn: sao chép bài, nhờ người làm hộ bài…

Lê Ngọc Hân – CNTT 2015B

17


Luận văn cao học

• Thi tập trung: chép bài, sử dụng tài liệu không được phép, thi hộ, ứng dụng cơng
nghệ cao như tai nghe siêu nhỏ …
• Thi vấn đáp trực tuyến là hình thức mới, nhưng vẫn cịn tiềm ẩn rất nhiều nguy cơ
học viên gian lận bằng các phần mềm giả giọng nói, người ở bên tư vấn…
2.1.3. Một số giải pháp hiện nay nhằm ngăn chặn gian lận
Đã có rất nhiều giải pháp được đưa ra nhằm hạn chế gian lận trong thi cử và kiểm tra.
• Với hình thức thi trắc nghiệm, việc thành lập ngân hàng câu hỏi, trộn đề thi đảo đáp
án đã hạn chế được tình trạng sinh viên sao chép bài làm.
• Hình thức thi vấn đáp tập trung là hình thức thi cử, kiểm tra ít tiêu cực và có thể
đánh giá kiến thức sinh viên tốt nhất. Nhưng sẽ tốn thời gian và kinh phí đi lại và tổ
chức, nên chỉ phù hợp cho các kỳ thi cuối kỳ.
• Với hình thức làm tiểu luận, bài tập lớn thì hầu như chưa có phương pháp nào hỗ
trợ giảng viên trong việc hạn chế gian lận trong thi cử và kiểm tra. Giảng viên phải
ngồi đọc, so sánh và đối chiếu tất cả các bài làm của sinh viên để có thể biết được
học viên có sao chép bài hay khơng?
Do đó việc xây dựng cơng cụ hỗ trợ kiểm tra gian lận trong hình thức làm bài tiểu luận,
bài tập lớn trên các khóa học trực tuyến là rất cần thiết nhằm ngày càng cải thiện và nâng
cao chất lượng đào tạo trực tuyến, và hỗ trợ giảng viên đánh giá sơ bộ độ tương đồng giữa
các bài tập của sinh viên. Hướng nghiên cứu của đề tài tập trung giải quyết vấn đề gian lận
thi cử của sinh viên khi nộp bài tiểu luận, bài kiểm tra giữa kỳ. Mục đích phát hiện sớm
những văn bản có tỷ lệ câu văn trùng lặp cao và đưa ra cảnh báo sớm tới sinh viên, để sinh
viên có điều kiện làm lại bài và một phần cũng giảm bớt công việc của giảng viên tránh
công việc phải đối chiếu và so sánh từng văn bản một.
Hiện nay đào tạo trực tuyến mới phát triển ở Việt Nam trong khoảng một thập niên trở
lại đây. Một số trường đại học đã đưa hình thức học e-Learning áp dụng và đào tạo từ xa.
Ngồi hình thức thi trắc nghiệm được hỗ trợ chấm máy thì hầu hết mọi hình thức thi khác
giảng viên đều phải chấm bài một cách thủ công bằng việc đọc và đánh giá từng văn bản
một, nếu có phát hiện hai văn bản có nội dung trùng lặp hoặc tương tự thì giảng viên lại
phải lục tìm lại và đối chiếu hai văn bản đó với nhau. Điều đó tiêu tốn rất nhiều thời gian
của giảng viên, và nếu có phát hiện ra được hai văn bản có nội dung trùng lặp thì phương

án giảng viên đưa ra thường là trừ điểm cả hai bài. Nhưng nếu có một phần mềm hỗ trợ
Lê Ngọc Hân – CNTT 2015B

18


Luận văn cao học
giúp giảng viên có thể tính tốn được số lượng văn bản trùng lặp khi sinh viên nộp bài và
đưa ra cảnh báo để sinh viên có thể làm lại bài điều đó giúp giảng viên đỡ một phần cơng
việc và cịn giúp sinh viên có cơ hội làm lại bài nếu lỡ vi phạm. Đây chính là mục đích
hướng đến của đề tài.
Đề tài chỉ dừng ở mức độ hỗ trợ giảng viên phát hiện gian lận trong việc sao chép bài
tiểu luận và kiểm tra giữa kỳ và đưa ra cảnh báo dựa trên tỷ lệ văn bản trùng lặp chứ chưa
thật sự giải quyết được vấn đề ngăn chặn gian lận khi sinh viên nhờ người làm bài hộ.
2.2.

Quan niệm về đạo văn

2.2.1. Quan niệm chung về đạo văn
Theo định nghĩa của Oxford English Dictionary: “Đạo văn là hành động hoặc việc lấy
sản phẩm, ý tưởng của người khác, v.v. và chuyển nó thành của riêng mình.”
Đạo văn theo định nghĩa của Merriam-Webster Online Dictionary, “Đạo văn là hình
thức ăn cắp và hình thành những ý tưởng hay ngôn từ mới khởi nguồn từ ý tưởng của ai
đó; sử dụng sản phẩm của một ai đó mà khơng cơng bố nguồn; hoặc giới thiệu một ý tưởng
hay sản phẩm mới được chuyển hóa từ nguồn đã có từ trước.”
Ngồi những tác phẩm tác giả cố ý lấy kết quả, sản phẩm của người khác làm của mình
(chiếm phần nhỏ). Thì hầu hết việc đạo văn là do vơ tình tổng hợp hoặc cóp nhặt ý tưởng
của các tác giả khác nhưng quên hoặc không biết là phải trích dẫn nguồn gốc.
Một ví dụ thực tế có thể kể đến như việc cuối tháng 10 năm 2010, một nhóm tác giả
Việt Nam đã bị rút bài trên tạp chí quốc tế uy tín về vật lý vì lí do đạo văn, nhưng chính họ

cũng khơng biết rằng mình đã đạo văn khi biện hộ rằng “chỉ là đã không nêu rõ nguồn tài
liệu tham khảo”. Rõ ràng vấn đề đạo văn và sở hữu trí tuệ tại Việt Nam chưa được coi trọng
đúng mức cần thiết.
Hoặc như trong một nghiên cứu của Đại học Duy Tân về việc khảo sát hơn 2.000 tân
sinh viên nhập học năm 2014, kết quả cho thấy 84% sinh viên từng chép từ nửa trang A4
trở lên trong sách tham khảo, giáo trình, tài liệu trên Internet mà khơng ghi nguồn và 84%
sinh viên này đều cảm nhận việc làm ấy là “bình thường”. Các lý do được đưa ra là:
• Khơng biết cách trích dẫn (36%)
• Khơng nhớ tên tác giả (12%)
• Khơng quan tâm (9%)
Lê Ngọc Hân – CNTT 2015B

19


Luận văn cao học
• Khơng thể viết hay hơn (15%)
2.2.2. Phân loại đạo văn
Đạo văn có nhiều hình thức. Nó có thể xảy ra trong bất kỳ lĩnh vực nào liên quan đến
quá trình tạo, viết văn bản, mã nguồn máy tính, nghệ thuật và thiết kế, và thậm chí cả các
bản nhạc. Vì trọng tâm của luận án này chỉ tập trung đạo văn dựa trên văn bản tiếng Việt,
nên tác giả sẽ tập chung và đề cập ngắn gọn các hình thức đạo văn trên văn bản.
• Đạo văn hoàn toàn (Copy & paste): đây là kiểu đạo văn mà tác giả đã lấy toàn bộ
sản phẩm của người khác làm của mình, sự chỉnh sửa rất ít và gần như chỉ chỉnh sửa
tên và đôi khi là đảo thứ tự các cụm văn bản. Đây là kiểu đạo văn dễ phát hiện nhất.
• Đạo văn trá hình (Disguised Plagiarism): được mô tả như là tác giả lấy tài liệu từ
một nguồn và diễn giải lại ý, thay từ đồng nghĩa, đảo trật tự câu, hay dịch từ ngơn
ngữ này sang ngơn ngữ khác.
• Tự đạo văn (Self-plagiarism): đề cập một loại sử dụng ý tưởng, tài liệu của người
khác, đem biến đổi nghĩa rộng hơn và cho đó là của mình mà khơng đưa ra trích dẫn

nguồn phù hợp.
Việc sinh viên sao chép bài tập của nhau (đạo văn) làm giảm khả năng tư duy học tập
của sinh viên, điều đó dẫn đến làm giảm chất lượng giáo giáo dục vì vậy việc giám sát và
đánh giá mức độ tương đồng giữa các bài tập của sinh viên là cần thiết. Điều đó giúp sinh
viên ý thức cảnh giác hơn về việc gian lận trong các bài kiểm tra và đánh giá, cũng như
đưa ra thông số đánh giá sơ bộ độ tương đồng giữa các bài tập của sinh viên làm giảm bớt
phần nào công việc của giảng viên. Hy vọng công cụ phần nào làm giảm được tình trạng
sinh viên sao chép bài tập của nhau và hỗ trợ giảng viên được phần nào trong việc đánh giá
sơ bộ bài tập của sinh viên trong cùng một lớp học.

3. Quy trình và phương pháp phát hiện đạo văn
3.1.

Quy trình phát hiện đạo văn

Tuy đã có nhiều công cụ và phần mềm hỗ trợ phát hiện đạo văn, nhưng nhìn chung để
xác định chắc chắn rằng có hành vi đạo văn hay khơng trong một văn bản nào đó là điều
khó xác định. Đã có nhiều cơng trình nghiên cứu đưa ra nhằm tìm ra quy trình và phương
pháp xác định sự sao chép hay đạo văn trong các tài liệu. Nhìn chung lại thì hai tác giả
Lancaster và Culwin đã tổng hợp quy trình các giai đoạn quan trọng được nhiều nhà nghiên
Lê Ngọc Hân – CNTT 2015B

20


Luận văn cao học
cứu sử dụng để phát hiện đạo văn là: thu thập ➔ phân tích ➔ xác nhận ➔ điều tra, được
mơ tả như hình bên[6].

Hình 5: Quy trình 4 bước phát hiện đạo văn

❖ Giai đoạn 1 - thu thập: Đây là giai đoạn đầu tiên của q trình phát hiện đạo văn,
và nó địi hỏi các sinh viên hoặc tác giả nghiên cứu tải lên các kết quả hoặc bài viết
thông qua công cụ web, các công cụ web hoạt động như một giao diện giữa các
người dùng và hệ thống. Quá trình sẽ tạo nên một kho ngữ liệu (corpus) bao gồm
nhiều các tài liệu văn bản được thu thập.
❖ Giai đoạn 2 – phân tích: Trong giai đoạn này tất cả các tài liệu, văn bản trong kho
ngữ liệu đã thu thập (corpus) sẽ được đưa vào một máy đánh giá độ tương tự (engine)
để xác định mức độ tương đồng giữa tài liệu này với các tài liệu khác. Có hai loại
máy đánh giá độ tương tự. Thứ nhất là đánh giá trong tức đưa ra danh sách các cặp
tài liệu có mức độ tương đồng từ cao xuống thấp. Thứ hai ngược lại, là đánh giá
ngoài tức sẽ trả về kết quả những đường dẫn web có chứa nội dung tương tự.
❖ Giai đoạn 3 – xác nhận: Chức năng của giai đoạn này là xác định xem các văn bản
có liên quan đã bị ăn cắp ý tưởng từ các văn bản khác hoặc xác định nếu có một
mức độ cao của sự tương đồng giữa một tài liệu và các tài liệu khác.
❖ Giai đoạn 4 – điều tra: Đây là giai đoạn cuối cùng của quá trình phát hiện đạo văn
và nó dựa vào sự can thiệp của con người. Trong giai đoạn này, một chuyên gia có
trách nhiệm xác định sự đúng đắn của hệ thống, tức là xem xét kết quả đánh giá của
hệ thống có thực sự đạo văn hay chỉ đơn giản là sự trích dẫn khoa học.
Tất cả bốn giai đoạn này phụ thuộc vào việc thừa nhận sự giống nhau giữa các tài liệu
và kết quả dựa trên một thuật toán hiệu quả để tìm ra những điểm tương đồng giữa các tài
Lê Ngọc Hân – CNTT 2015B

21


Luận văn cao học
liệu. Ngồi ra cịn có một yếu tố phức tạp cần nhiều thời gian để chuyên gia xác nhận và
điều tra các trường hợp nghi ngờ, chưa thể khẳng định từ hệ thống.
3.2.


Phương pháp phát hiện đạo văn

Dưới sự bùng nổ về cơng nghệ thơng tin thì sự sao chép thông tin trở nên dễ dàng hơn
bao giờ hết. Vấn nạn đạo văn càng ngày càng phát triển biến tướng và ngày càng tinh vi.
Chính vì vậy các kỹ thuật và công nghệ phát hiện đạo văn cũng phải phát triển theo để
giám sát và quản lý chất lượng giáo dục. Nhưng theo nhóm nghiên cứu của các tác giả
Ahmed Hamza Osman, Naomie Salim, and Albaraa Abuobieda trong bài báo “khảo sát vấn
đề phát hiện đạo văn trong văn bản” đã thống kê và phân loại các kỹ thuật đạo văn thành
các nhóm bao gồm[4]:
• Các phương pháp dựa trên ký tự: các kỹ thuật phát hiện đạo văn đơn giản là dựa
trên các phương pháp ký tự để so sánh các tài liệu cần xem xét với các tài liệu gốc.
Chuỗi ký tự giống nhau có thể được phát hiện một cách chính xác hoặc một phần
bằng cách sử dụng các tiếp cận so khớp ký tự. Có thể sử dụng thuật tốn n-gram
(16-gram, 8-gram, hay 5-gram) hoặc kỹ thuật fingerprint để tìm các chuỗi khớp
nhau và phát hiện đạo văn dựa trên tỷ lệ các chuỗi khớp nhau tìm thấy.
• Phương pháp dựa trên cấu trúc: nhiều tác giả nghiên cứu đề xuất các phương
pháp dựa vào các đặc điểm cấu trúc của văn bản như tiêu đề, các phần nội dung,
đoạn văn, và tài liệu tham khảo. Trong đó, biểu diễn các đặc trưng theo cấu trúc
cây là một mơ hình ánh xạ tự tổ chức nhiều tầng (ML-SOM). Hai tác giả Chow và
Rahman đã xây dựng những ý tưởng dựa trên hai lớp, lớp trên cùng và lớp dưới
cùng. Lớp trên cùng biểu diễn việc phân cụm các tài liệu, trong khi lớp dưới cùng
sử dụng hệ số tương đồng Cosine để đánh giá văn bản giống nhau.
• Các phương pháp dựa trên phân lớp và gom cụm: kỹ thuật gom cụm (clustering)
là một trong những kỹ thuật truy vấn thông tin được sử dụng trong nhiều lĩnh vực
như tóm tắt văn bản, phân loại văn bản hay phát hiện đạo văn. Nó được sử dụng để
cải thiện hiệu quả với việc giảm thời gian tìm kiếm trong tài liệu để tóm tắt văn bản
và làm giảm thời gian so sánh trong việc phát hiện đạo văn. Nhóm của Si, hay Zini
và cộng sự sử dụng từ khóa để tìm các cụm tương tự giữa các tài liệu.
• Phương pháp dựa trên cú pháp: kỹ thuật này quan sát việc sử dụng các thẻ partof-speech (POS) mang tính cú pháp để biểu diễn cấu trúc của văn bản làm cơ sở so
Lê Ngọc Hân – CNTT 2015B


22


Luận văn cao học
sánh và phân tích. Kỹ thuật này xếp hạng thứ tự các tài liệu dựa trên các thẻ POS.
Trong đó, tác giả Elhadi và Al-Tobi để xuất việc sử dụng dãy con chung dài nhất
(LCS) để tính toán sự tương đồng giữa các tài liệu và xếp hạng chúng theo thứ tự
các tài liệu theo mức độ liên quan.
• Phương pháp cross-language: phương pháp này phát hiện sự giống nhau giữa tài
liệu cần xem xét với tài liệu gốc bằng cách sử dụng mơ hình thống kê để tính tốn
xác suất tài liệu xem xét có liên quan đến tài liệu gốc mà không phụ thuộc vào thứ
tự các từ ngữ xuất hiện trong tài liệu. Cách tiếp cận này đòi hỏi việc xây dựng kho
ngữ liệu song ngữ, một cơng việc khó khăn để triển khai.
• Phương pháp dựa trên ngữ nghĩa: nhiều nhà nghiên cứu đã hồn thành một cơng
việc rất quan trọng đó là xây dựng mạng từ WordNet, qua đó để tính tốn sự tương
đồng ngữ nghĩa giữa các từ trong tài liệu. Gelbukh đã xác định sự tương tự ngữ
nghĩa giữa hai từ bằng cách tính tốn mức độ liên hệ giữa các từ này bằng cách sử
dụng thông tin từ một từ điển (mạng từ WordNet). Trên cơ sở xác định độ tương tự
ngữ nghĩa giữa các từ, các phương pháp phát triển thành mức độ tượng tự ngữ nghĩa
giữa các câu và đoạn trong tài liệu. Phương pháp được nhiều nhóm nghiên cứu sử
dụng và phát triển, đem lại hiệu quả rất khả quan bởi nó xem xét đến yếu tố ngữ
nghĩa của ngôn ngữ.

4. Phương pháp đánh giá độ tương đồng văn bản tiếng Việt
4.1.

Giới thiệu chung

Một trong những ứng dụng đầu tiên của việc đối sánh văn bản được đưa ra bởi Salton

và Lesk vào năm 1971 là mơ hình tìm kiếm thơng tin. Trong đó các văn bản cần tìm kiếm
sẽ được đối sánh với các tài liệu để trả về tài liệu có chứa văn bản chứa độ tương đồng cao
nhất với chuỗi văn bản truy vấn. Ứng dụng này đến ngày nay vẫn đang được ứng dụng và
sử dụng rộng khắp điển hình nhất là Google, việc Google đưa ra xếp hạng các trang web
dựa theo các từ khóa bạn tìm kiếm. Việc đo độ tương đồng của hai văn bản trước kia chủ
yếu dựa trên kỹ thuật so khớp chuỗi (String-based) và so khớp từ (Word-base). Tuy nhiên
ngày nay, dưới sự bùng nổ của khoa học máy tính và các ngành liên quan (trí tuệ nhân tạo,
xác suất thống kê, …), thì việc so khớp từ dựa trên ngữ nghĩa làm cho việc so sánh trở nên
thơng minh và chính xác hơn [3].

Lê Ngọc Hân – CNTT 2015B

23


×