Tải bản đầy đủ (.pdf) (79 trang)

Xây dựng mô hình khuyến cáo khả năng nghỉ học của sinh viên trường cao đẳng kỹ thuật công nghệ bà rịa vũng tàu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.14 MB, 79 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU
--------------------------------------------

LÊ VIẾT HUẤN

Xây dựng mơ hình khuyến cáo khả năng nghỉ học của
sinh viên Trường cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số: 8480201

CÁN BỘ HƯỚNG DẪN KHOA HỌC
TS. Phan Ngọc Hoàng

Bà Rịa-Vũng Tàu, tháng 4 năm 2021


MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT .....................................................................IV
DANH MỤC CÁC BẢNG .................................................................................... V
DANH MỤC CÁC HÌNH .................................................................................... VI
MỞ ĐẦU ................................................................................................................ 1
1. Lý do chọn đề tài ................................................................................................. 1
2. Tính cấp thiết của đề tài ....................................................................................... 1
3. Mục tiêu đề tài ..................................................................................................... 3
4. Nội dung nghiên cứu ........................................................................................... 3
5. Phương pháp luận và phương pháp nghiên cứu .................................................... 3
5.1. Phương pháp luận ............................................................................................. 3
5.2 Phương pháp nghiên cứu ................................................................................... 3
CHƯƠNG I. GIỚI THIỆU TRÍ TUỆ NHÂN TẠO ............................................ 5


1.1. Giới thiệu trí tuệ nhân tạo ................................................................................. 5
1.2. Các lĩnh vực thuộc trí tuệ nhân tạo.................................................................... 6
1.3. Các bài tốn sử dụng trong trí tuệ nhân tạo ..................................................... 13
1.3.1. Phân nhóm ................................................................................................... 13
1.3.2. Phân cụm ..................................................................................................... 17
1.3.3. Nhận dạng ................................................................................................... 17
1.4. Thuật toán sử dụng trong hàm......................................................................... 17
CHƯƠNG II. GIỚI THIỆU VỀ MẠNG NƠRON ............................................ 22
2.1. Giới thiệu mạng Nơron ................................................................................... 22
2.1.1. Lịch sử phát triển của mạng Nơron .............................................................. 22
2.1.2. Ứng dụng ..................................................................................................... 23
I


2.1.3. Căn nguyên sinh học của mạng .................................................................... 24
2.2. Nơron nhân tạo ............................................................................................... 25
2.3. Hàm xử lý. ...................................................................................................... 27
2.3.1. Hàm kết hợp. ............................................................................................... 27
2.3.2. Hàm kích hoạt của mạng (hàm chuyển) ....................................................... 27
2.3.2.1. Hàm tuyến tính (Linear function): ............................................................. 27
2.3.2.2. Hàm ranh giới cứng trong mạng (Hard limiter function). .......................... 28
2.3.2.3.Hàm Sigmoid (Sigmoid function) .............................................................. 28
2.3.2.4. Hàm Sigmoid lưỡng cực(Bipolar Sigmoid function) .................................. 29
2.3.2.5. Hàm TanH ................................................................................................ 30
2.3.2.6. Hàm ReLU ............................................................................................... 30
2.3.2.6. Hàm Leaky ReLU ..................................................................................... 31
2.4. Cấu trúc của mạng nơron. ............................................................................... 33
2.4.1. Phương pháp mạng truyền thẳng. ................................................................. 33
2.4.2. Mạng hồi qui ............................................................................................... 34
2.4.3. Luật học ....................................................................................................... 34

2.4.4. Hàm mục tiêu .............................................................................................. 36
2.5 Huấn luyện mạng Nơron .................................................................................. 36
2.5.1. Phương pháp mạng Nơron truyền thẳng ....................................................... 37
2.5.1.1. Các kiến trúc cơ bản ................................................................................. 37
2.5.1.2. Khả năng biểu diễn ................................................................................... 38
2.5.2. Số lớp ẩn...................................................................................................... 39
2.5.3. Số nơron trong lớp ẩn .................................................................................. 39
2.6. Thuật toán lan truyền ngược (Back-Propagation Algorithm) ........................... 41
II


2.6.1. Phương pháp mơ tả thuật tốn ...................................................................... 41
2.6.1.1. Chỉ số hiệu năng (performance index) ....................................................... 41
2.6.1.2. Luật xích (Chain Rule).............................................................................. 42
2.6.1.3. Lan truyền ngược độ nhạy cảm ................................................................. 44
2.6.2. Sử dụng thuật toán lan truyền ngược của mạng ............................................ 46
2.6.3. Một số loại biến thể của thuật toán lan truyền ngược.................................... 49
CHƯƠNG III. ỨNG DỤNG MẠNG NƠRON TRONG VIỆC KHUYẾN CÁO
KHẢ NĂNG NGHỈ HỌC CỦA HỌC SINH, SINH VIÊN ................................ 52
3.1. Các bước thực hiện mơ hình . ......................................................................... 52
3.2. Thu thập dữ liệu cho mơ hình ......................................................................... 53
3.3. Phân tích, lựa chọn đặc trưng. ......................................................................... 54
3.4. Tiền xử lý dữ liệu cho mơ hình. ...................................................................... 57
3.5. Xây dựng mạng Nơron ................................................................................... 59
3.5.1. Cấu trúc mạng Nơron................................................................................... 59
3.5.2. Huấn luyện mạng Nơron cho mơ hình.......................................................... 61
3.5.3. Kiểm thử mạng nơron .................................................................................. 64
3.6. Kết quả bài toán khuyến cáo. .......................................................................... 66
CHƯƠNG IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................. 67
4.1. Các kết quả đạt được ...................................................................................... 67

4.2. Hướng phát triển tiếp theo .............................................................................. 67
TÀI LIỆU THAM KHẢO ................................................................................... 68
PHỤ LỤC ............................................................................................................. 70

III


DANH MỤC CÁC TỪ VIẾT TẮT
TT

TÊN VIẾT

TÊN ĐẦY ĐỦ

TẮT

DIỄN GIẢI

Genetic Algorithm

Giải thuật di truyền

ANN

Artificial Neural Network

Mạng nơron nhân tạo

3


MLP

Multi Layer Perceptron

4

BRVT

5

NƠRON

6

BP

7

MFNN

1

GA

2

8

LMS


Bà Rịa Vũng Tàu

Mạng nơron nhiều
lớp
Tỉnh Bà rịa – Vũng
tàu

Neural

Tế bào thần kinh

Back Propagation

Lan truyền nguợc

Multi

Feedforward

Neural Mạng truyền thẳng
nhiều lớp

Network
Least Mean Square

IV

Bình
nhất


phương

nhỏ


DANH MỤC CÁC BẢNG

Bảng 3.1: Bảng dữ liệu kết quả học tập rèn luyện ............................................. 55
Bảng 3.2: Bảng điều kiện phân loại học lực ..................................................... 56
Bảng 3.3: Bảng dữ liệu tính chất đặc trưng của mơ hình .................................. 57
Bảng 3.4: Dữ liệu mạng nơron với số đầu vào .................................................. 58
Bảng 3.5: Giá trị loss sau mỗi epoch ................................................................ 62

V


DANH MỤC CÁC HÌNH
Hình 1.1:Quan hệ giữa AI, Machine Learning và Deep Learning ........................ 6
Hình 1.2: Dữ liệu được phân chia làm hai tập điểm. ........................................... 9
Hình 1.3: Dữ liệu phức tạp, khơng được phân chia. .......................................... 10
Hình 1.4: Thuật tốn học có giám sát ................................................................ 14
Hình 1.5: MNIST bộ cơ sở dữ liệu của chữ số viết tay ....................................... 15
Hình 1.6: Học khơng giám sát ........................................................................... 16
Hình 1.7: Học bán giám sát............................................................................... 16
Hình 1.8: Thuật tốn Nơron nhân tạo................................................................ 18
Hình 1.9: Thuật tốn học sâu ............................................................................ 19
Hình 1.10: Thuật tốn giảm kích thước ............................................................. 20
Hình 1.11: Thuật tốn tổng hợp......................................................................... 21
Hình 2.1: Đơn vị xử lý tín hiệu thứ j. ................................................................. 26
Hình 2.2: Mơ hình mạng Nơron nhân tạo .......................................................... 27

Hình 2.3: Hàm tuyến tính d trong mạng (Linear function) ................................. 28
Hình 2.4: Hàm ranh giới cứng e trên x. ............................................................. 28
Hình 2.5: Hàm – Sigmoid .................................................................................. 29
Hình 2.6: Hàm Sigmoid lưỡng cực g(x) ............................................................. 29
Hình 2.7: Hàm TanH ......................................................................................... 30
Hình 2.8: Đồ thị hàm ReLU. .............................................................................. 31
Hình 2.9: Đồ thị hàm Leaky ReLU .................................................................... 32
Hình 2.10: Mơ hình Softmax Regression dưới dạng Neural network .................. 33
Hình 2.12: Mạng hồi qui ................................................................................... 34
Hình 2.13: Mơ hình học có giám sát j ................................................................ 35
Hình 2.14: Mạng nơron truyền thẳng nhiều lớp k .............................................. 37
Hình 3.1: Các bước chính trong xây dựng mơ hình ........................................... 52
Hình 3.2: Mơ hình cấu trúc mạng Nơron MLP .................................................. 60
Hình 3.3: Đồ thị thể hiện mức độ học của MLP ................................................. 63
Hình 3.4: Các thơng số huấn luyện của mạng.................................................... 64
VI


Hình 3.5: Các thơng số kiểm thử của mạng ....................................................... 66

VII


MỞ ĐẦU
XÂY DỰNG MƠ HÌNH KHUYẾN CÁO KHẢ NĂNG NGHỈ HỌC CỦA
SINH VIÊN TRƯỜNG CAO ĐẲNG KỸ THUẬT CÔNG NGHỆ TỈNH BÀ RỊA
VŨNG TÀU
1. Lý do chọn đề tài
Hiện tượng nghỉ học ngày càng phổ biến trong các bạn học sinh, sinh viên năm
nhất của trường Cao Đẳng Kỹ Thuật Công Nghệ tỉnh Bà Rịa Vũng Tàu. Vấn đề này

đang nhận được sự quan tâm đặc biệt của Ban giám hiệu nhà trường và thầy cô giáo.
Qua số liệu khảo sát từ năm 2016-2019 tại trường Cao Đẳng Kỹ Thuật Công
Nghệ tỉnh Bà Rịa Vũng Tàu, đã cho thấy một số khó khăn hiện nay đối với nhà trường
như sau:
Chủ yếu vào thời điểm sau tết nguyên đán hàng năm học sinh, sinh viên nhà
trường thường hay nghỉ học nhiều. Theo số liệu thống kê chưa đầy đủ, từ đầu năm
học 2016-2017 đến nay, tồn trường có gần 458 học sinh, sinh viên bỏ học giữa
chừng, trong đó chủ yếu là học sinh hệ trung cấp 380 em, chiếm tỷ lệ 83% tổng số
học sinh, sinh viên hệ cao đẳng nghề 78 em chiếm tỷ lệ 17%. Một số ngành nghề có
học sinh bỏ học nhiều như: Điện cơng nghiệp, Công nghệ thông tin…
Một thực tế đã chứng minh rằng việc bỏ học liên quan chặt chẽ đến kết quả học
tập của các bạn sinh viên, đó chính là sự giảm sút về điểm số, sự chán nản trong mỗi
bài học. Nguyên nhân bỏ học đến từ yếu tố khách quan và yếu tố chủ quan của mỗi
bạn học sinh, sinh viên chẳng hạn như: bạn bè rủ rê, lôi kéo, điểm số thấp nên chán
nản, khơng có kế hoạch học tập rõ ràng…
2. Tính cấp thiết của đề tài
Kết quả của việc nghỉ học của học sinh, sinh viên không chỉ là nỗi lo của ngày
hôm nay mà sẽ còn là gánh nặng đến cộng đồng xã hội mai sau.

1


Việc các em bỏ học sớm của các em sẽ làm tăng thêm lực lượng lao động khơng
có tay nghề, không được đào tạo, hiệu quả lao động thấp, chưa kể việc các em rất dễ
bị lôi kéo vào các tệ nạn xã hội đang rất phổ biến hiện nay.
Nhằm khắc phục các khó khăn trên, về phía nhà Trường, cũng đã cố gắng nâng
cao chất lượng đào tạo, đổi mới phương pháp giảng dạy cũng như tạo sân chơi lành
mạnh kèm theo đó là các hoạt động ngoại khóa hay các buổi học tập, trao đổi về
phương pháp phân bổ thời gian học tập hợp lý…cho các bạn học sinh, sinh viên,
nhưng kết quả vẫn chưa khả quan.

Để góp phần xác định hiện tượng nghỉ học nhiều tại nhà trường, tơi quyết định
chọn đề tài "Xây dựng mơ hình khuyến cáo khả năng nghỉ học của sinh viên Trường
Cao Đẳng Kỹ Thuật Công Nghệ tỉnh Bà Rịa Vũng Tàu " nhằm hỗ trợ công tác tư vấn
định hướng học tập và khuyến cáo đến các bạn học sinh, sinh viên kết quả học tập
của mình từ đó chấn chỉnh lại ý thức học tập và có phương pháp học tập hợp lý để
kết quả học tập ngày càng tốt hơn, đồng thời giúp người học tự định hướng chính xác
hơn về nghề nghiệp phù hợp với mình.
Cùng với phương pháp sử dụng mạng Nơron trong những năm gần đây, được
quan tâm và sử dụng nhiều trong lĩnh vực nhận dạng và phân lớp. Dự đốn trong mơ
hình là việc rất quan trọng trong học máy, và trong khai phá dữ liệu, phát hiện trí thức
của hệ thống mạng Nơron.
Kỹ thuật (MLP - Multi Layer Perceptron) trong mạng Nơron được đánh giá là một
trong những công cụ mạnh và phù hợp nhất hiện nay cho những bài toán phân lớp phi
tuyến. Dựa trên kỹ thuật MLP đã có nhiều ứng dụng đã và đang được xây dựng rất
hiệu quả. Các giải pháp phân loại và dự đoán...nếu nắm chắc và xây dựng tốt phương
pháp này sẽ tạo nền tảng giúp chúng ta trong việc phát triển, xây dựng được những
ứng dụng quan trọng trong thực tế. Đặc biệt là các bài toán dự báo, điều khiển, lọc dữ
liệu, xử lý…
Việc xây dựng mơ hình dự báo khả năng nghỉ học của các bạn học sinh, sinh viên
năm nhất của trường Cao Đẳng Kỹ Thuật Công Nghệ tỉnh Bà Rịa Vũng Tàu dựa vào
2


các đặc trưng như: điểm số của các môn học, vắng học, kết quả rèn luyện ... trên cơ
sở bài toán phân loại 2 lớp MLP là cần thiết và mang tính khả thi cao.
3. Mục tiêu đề tài
- Nghiên cứu phần bài toán phân lớp quan điểm, cơ sở lý thuyết của phương
pháp máy học, Mạng Nơron.
- Tìm hiểu thuật toán Mạng Nơron.
- Áp dụng kỹ thuật Mạng Nơron cũng như những cải tiến, mở rộng của nó để

xây dựng Mơ hình giải quyết bài tốn nghỉ học của học sinh, sinh viên năm nhất.
4. Nội dung nghiên cứu
- Phân tích những giải pháp, những ứng dụng cơng nghệ Mạng Nơron để tạo
ra công cụ dự báo kết quả học tập giúp giảm tỉ lệ bỏ học của sinh viên năm nhất.
- Tổng hợp, thu thập, phân tích, đánh giá các số liệu thực tế của học sinh, sinh
viên trong nhà trường trong khoảng 3 năm trở lại đây.
- Áp dụng kỹ thuật Mạng Nơron cũng như những cải tiến, mở rộng của nó vào
giải quyết bài tốn dự báo khả năng nghỉ học của học sinh.
-Viết và cài đặt thuật tốn chương trình.
5. Phương pháp luận và phương pháp nghiên cứu
5.1. Phương pháp luận
- Tìm hiểu cơ sở lý thuyết và thuật tốn về mơ hình MLP phân loại 2 lớp.
- Tìm hiểu lý thuyết cơ sở và sử dụng thuật tốn về mạng Nơron.
- Tìm hiểu các lựa chọn đặc trưng, thuật toán phân loại 2 lớp trong việc phân
tích dữ liệu và đưa ra dự báo kết quả học tập của học sinh, sinh viên.
- Tìm hiểu và lựa chọn ngơn ngữ lập trình, cơng cụ hỗ trợ.
5.2 Phương pháp nghiên cứu
- Xây dựng bộ dữ liệu dự báo cho Mạng Nơron

3


- Xây dựng mơ hình dựa trên mạng Nơron thực hiện chương trình dự báo khả
năng nghỉ học của học sinh, sinh viên.

4


CHƯƠNG I.
GIỚI THIỆU TRÍ TUỆ NHÂN TẠO

1.1. Giới thiệu trí tuệ nhân tạo
Trí thơng minh của máy tính do con người tạo ra gọi là trí tuệ nhân tạo. Sự ra
đời của chiếc máy tính điện tử đầu tiên, hệ thống máy tính đã được các nhà khoa học
phát triển (gồm cả phần cứng và phần mềm) sao cho nó có khả năng thơng minh như
lồi người. Mơ ước này vẫn còn xa và chưa thành hiện thực đối với tác giả, tuy vậy
những thành tựu đạt được cũng không hề nhỏ: chúng ta đã nghiên cứu được các hệ
thống (phần mềm chơi cờ vua chạy trên siêu máy tính GeneBlue) có thể thắng được
vua cờ thế giới; chúng ta đã làm tạo ra các phần mềm có thể chứng minh được các
bài tốn hình học...v.v. Hay nói theo các cách khác nhau, trong một số trường hợp,
con người thực hiện một số nhiệm vụ và yêu cầu máy tính thực hiện như vậy (tất
nhiên không phải tất cả các lĩnh vực), đó chính là máy tính thơng minh của tương lai.
Trí thơng minh của máy tính có thể có nhiều cách để làm ra (hay là trí tuệ nhân
tạo), chẳng hạn là tìm hiểu cách bộ não người phát sinh ra trí thơng minh như thế nào
rồi ta bắt chước nguyên lý đó, nhưng cũng có nhiều cách khác sử dụng những nguyên
lý khác nhau với cách sản sinh ra trí thơng minh của lồi người mà vẫn làm ra máy
tính thơng minh như con người.
Như vậy, khả năng của máy khi thực hiện các công việc mà con người thường
phải xử lý gọi là trí tuệ nhân tạo; máy thơng minh hay máy đó có trí thơng minh là
khi kết quả thực hiện của máy tốt hơn hoặc tương đương với con người. Nói theo
nhiều cách khác, máy tính thơng minh khơng phải đánh giá dựa trên ngun lý máy
tính thực hiện nhiệm vụ đó có giống cách con người thực hiện hay không mà dựa trên
những kết quả đó có giống với con người thực hiện hay không?
Nhiệm vụ con người thường xuyên cần phải thực hiện đó là: giải bài tốn ( tìm
kiếm, chứng minh, lập luận), giao tiếp, thể hiện cảm xúc, học, thích nghi với môi
trường xung quanh… v.v, và dựa trên các kết quả thực hiện các nhiệm vụ đó để rút
ra một điều rằng một ai đó có là thơng minh hay khơng. Trí tuệ nhân tạo nhằm cung
cấp các phương pháp để làm ra các nhiệm vụ đó hệ thống có khả năng thực hiện: giao
5



tiếp, học, giải tốn..v.v. dù cho cách nó làm có giống như con người hay không mà là
kết quả đạt được hoặc dáng vẻ bên ngoài như con người. [1]
1.2. Các lĩnh vực thuộc trí tuệ nhân tạo
Trong những năm gần đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo)
được xem như cuộc cách mạng công nghiệp lần thứ tư nổi lên như một bằng chứng
và cụ thể hơn là Machine Learning (Học Máy). Trí Tuệ Nhân Tạo đã và đang len lỏi
vào tất cả các lĩnh vực trong đời sống mà có thể chúng ta khơng hề hay biết. Xe tự lái
của Google và Tesla, hệ thống tự nhận diện khuôn mặt trong ảnh của Facebook, trợ
lý ảo Siri của Apple, hệ thống trợ giúp của Amazon, hệ thống tìm kiếm phim của
Netflix, máy chơi cờ vây AlphaGo của Google DeepMind, …, chỉ là một vài trong
rất nhiều những ứng dụng của Machine Learning.
Khi mà khả năng tính tốn của các máy tính được nâng lên một tầm cao mới
và lượng dữ liệu khổng lồ được thu thập bởi các hãng công nghệ lớn, Machine
Learning đã tiến thêm một bước dài và một lĩnh vực mới được ra đời gọi là Deep
Learning, Deep Learning đã giúp máy tính thực thi những việc tưởng chừng như
không thể vào 10 năm trước: phân loại cả ngàn vật thể khác nhau trong các bức ảnh,
tự tạo chú thích cho ảnh, bắt chước giọng nói và chữ viết của con người, giao tiếp với
con người, hay thậm chí cả sáng tác văn hay âm nhạc. [2]

Hình 1.1:Quan hệ giữa AI, Machine Learning và Deep Learning
1.2.1. Học máy
6


Trong những năm gần đây Machine Learning đang là một cơng nghệ gây sốt
trên tồn thế giới. Một trong số nhóm giới học thuật, có rất nhiều bài báo khoa học
về đề tài này mỗi năm. Trong giới công nghiệp, từ các công ty lớn như Facebook,
Google, Microsoft đến các dự án khởi nghiệp của các công ty đều đầu tư vào Machine
Learning. Ứng dụng sử dụng Machine Learning ra đời hàng loạt trên mọi lĩnh vực
của cuộc sống, từ khoa học máy tính đến những ngành ít liên quan hơn như y học,

vật lý, chính trị, hóa học. AlphaGo, với số lượng phần tử còn nhiều hơn số lượng hạt
trong vũ trụ được cỗ máy đánh cờ vây có khả năng tính tốn, tối ưu hơn và đưa ra các
nước đi hơn bất kì đại kì thủ nào, là một trong rất nhiều ví dụ lớn lao cho sự vượt trội
của Machine Learning so với các phương pháp cổ điển [3].
Để giới thiệu cụ thể hơn về Machine Learning, dựa vào mối quan hệ của nó
với ba khái niệm sau:
Machine Learning và trí tuệ nhân tạo (Artificial Intelligence hay AI)
Machine Learning cùng với Big Data.
Machine Learning và dự đoán tương lai.
AI, trí tuệ nhân tạo, một cụm từ vừa gần gũi vừa xa lạ với chúng ta. Gần gũi
bởi vì thế giới đang bùng nổ với những cơng nghệ được dán nhãn AI. Xa lạ bởi vì
một AI thực thụ vẫn còn chưa phổ biến với chúng ta. Theo hiểu biết chung trong giới
hàn lâm, AI là một ngành khoa học được sinh ra với mục đích làm cho máy tính có
khả năng học được trí thơng minh. Điều này vẫn chưa rõ ràng vì định nghĩa về trí
thơng minh vẫn chưa thống nhất. Một số nhiệm vụ cụ thể hơn được các nhà khoa học
tự định nghĩa, một trong số đó là phần mềm trên máy tính lừa được Turing Test.
Turing Test được tạo ra bởi Alan Turing (1912-1954), một trong những người đặt
nền tảng cho ngành khoa học máy tính thơng minh, dùng để phân biệt xem người đối
diện có phải là người hay khơng [3].
Con người muốn AI thể hiện một mục tiêu. Machine Learning là một công cụ
được kỳ vọng sẽ giúp con người đạt được mục tiêu đó. Và thực tế thì Machine
Learning đã mang con người đi rất xa trên con đường chinh phục AI. Nhưng vẫn còn
một đoạn đường xa hơn rất nhiều cần phải đi. Machine Learning và AI có mối quan
7


hệ bền chặt với nhau nhưng chưa hẳn là trùng khớp vì một bên là phương tiện (AI),
một bên là mục tiêu (Machine Learning). Chinh phục AI mặc dù vẫn là mục đích tối
thượng của Machine Learning, nhưng hiện tại Machine Learning tập trung vào những
mục tiêu ngắn hạn hơn như: Làm cho máy tính có những khả năng nhận thức cơ bản

của con người như nghe, nhìn, hiểu được ngơn ngữ, giải tốn, lập trình, …và hỗ trợ
con người trong việc xử lý một khối lượng thông tin khổng lồ mà chúng ta phải đối
mặt hàng ngày, hay còn gọi là Big Data [3].
Big Data thực chất chưa phải là một ngành khoa học chính thống. Đó là một
cụm từ được dân cư mạng tung hô để ám chỉ thời kì bùng nổ của dữ liệu hiện nay.
Big Data nó cũng khơng khác gì nhiều so với những cụm từ như "cách mạng công
nghiệp", "kỉ nguyên phần mềm". Big Data là một điều tất yếu của việc sử dụng mạng
Internet ngày càng có nhiều kết nối. Với sự ra đời của các mạng xã hội nhưng Twitter,
Instagram, Facebook, có nhu cầu chia sẻ thông của con người tăng trưởng một cách
đáng kể. Nơi được mọi người chia sẻ video và comment về nội dung của video
Youtube cũng có thể được xem là một hệ thống của mạng xã hội. Một số ví dụ điển
hình về quy mơ của Big Data:
• Theo con số thơng kê khoảng 500 giờ video được upload trên youtube trong
mỗi phút (theo />• Có khoảng hơn 800 triệu người thật sự sử dụng Facebook mỗi ngày, trong
đó 86.8% trong số đó ở ngồi Mỹ và Canada (theo />• Nhu cầu tìm kiếm thơng tin tăng đi đôi với nhu cầu chia sẻ cũng tăng. Google
phải xử lý 200 tỉ lượt tìm kiếm mỗi tháng, tức là 4,3 tỉ lượt mỗi ngày và 39.000 lượt
mỗi giây (theo />Và những con số này đang tăng lên theo từng ngày đáng kinh ngạc! [3].
Big Data đây không phải là danh từ duy nhất dẫn đến sự ra đời của từ Bùng
nổ thông tin. Ta biết rằng Big Data xuất hiện nhưng lượng dữ liệu tích tụ kể từ khi
mạng Internet xuất hiện vào cuối thập kỉ trước cũng khơng phải là nhỏ. Thế nhưng,
lúc đó có một khối dữ liệu khổng lồ và khơng biết làm gì với chúng ngoài lưu trữ và
8


sao chép. Cho đến một ngày, các nhà khoa học nhận ra rằng trong khối lượng dữ liệu
ấy thực ra chứa một khối lượng thông tin tri thức khổng lồ và cần thiết. Những tri
thức ấy có thể giúp cho ta hiểu thêm về nhiều lĩnh vực khác trong xã hội. Đối với
những danh sách bộ phim yêu thích của một cá nhân phần mềm có thể rút ra được sở
thích của người đó và giới thiệu những bộ phim người ấy chưa từng xem và tương
đối phù hợp với sở thích. Từ danh sách tìm kiếm của cộng đồng mạng phần mềm sẽ

biết được vấn đề đang được quan tâm nhất sẽ tập trung đăng tải nhiều hơn về vấn đề
đó. Big Data chỉ mới bắt đầu từ khi chúng ta hiểu được giá trị của dữ liệu chứa một
lượng lớn thơng tin, và có đủ dữ liệu cũng như cơng nghệ để có thể nghiên cứu chúng
trên một quy mơ rộng lớn. Và khơng có gì bất ngờ khi Machine Learning chính là
thành phần quan trọng của cơng nghệ đó. Big Data và Machine Learning có quan hệ
mật thiết với nhau nhờ sự gia tăng của khối lượng dữ liệu của Big Data mà Machine
Learning phát triển ngày một lớn, ngược lại giá trị của Big Data phụ thuộc vào kỹ
năng khai thác thông tin tri thức từ dữ liệu của Machine Learning. [3]
Trước kia, khi mạng Internet ra đời Machine Learning đã xuất hiện từ rất lâu.
Machine Learning có những thuật tốn đầu tiên là Perceptron được phát minh ra bởi
Frank Rosenblatt vào năm 1957. Nó là một thuật toán rất quan trọng dùng để phân
loại hai khái niệm. Một ví dụ đơn giản là phân loại thư rác (tam giác) và thư bình
thường (vng). Đối với Perceptron, là việc vẽ một đường thẳng trên mặt phẳng để
phân chia hai tập hợp điểm:

Hình 1.2: Dữ liệu được phân chia làm hai tập điểm.

9


Những email được điểm tam giác và vuông đại diện cho chúng ta đã biết nhãn
trước. Chúng được dùng để huấn luyện để chia hai điểm bằng đường thẳng khi vẽ, ta
nhận được các điểm chưa được dán nhãn, đại diện cho các email cần được phân loại
(điểm tròn). Ta sử dụng để dán nhãn của một hoặc nhiều điểm theo nhãn của các điểm
cùng nửa mặt phẳng với điểm đó.
Quy trình sơ lược phân loại thư được mơ tả sau. Trước hết, để chuyển những
email thành cơ sở dữ liệu ta cần một thuật toán. Phần này rất rất quan trọng vì nếu
chúng ta lựa chọn đúng để biểu diễn phù hợp, công việc của perceptron sẽ dễ dàng
hơn rất nhiều. Tiếp theo, perceptron sẽ dựa vào từng điểm để đọc tọa độ và sử dụng
thông tin này để làm cơ sở tham số của đường thẳng cần tìm. Đây là một thuật tốn

đơn giản và chúng có rất nhiều vấn đề cần giải quyết và liên quan tới perceptron,
chẳng hạn như điểm cần phân loại nằm ngay trên đường thẳng phân chia trong mơ
hình. Sẽ thật khó hơn là với một tập dữ liệu phức tạp hơn khi đường thẳng phân chia
khơng tồn tại:

Hình 1.3: Dữ liệu phức tạp, không được phân chia.
Lúc này, các loại đường phân chia ta cần "khơng thẳng". Perceptron là một
thuật tốn Supervised Learning: các ví dụ được ta đưa cho máy tính thực hiện hàng
loạt cùng câu trả lời mẫu với mong muốn máy tính sẽ tìm được những điểm cần thiết
để đưa ra dự đốn cho những ví dụ khác chưa có câu trả lời trong tương lai. Ngồi ra,
cũng có rất nhiều những thuật tốn Machine Learning khơng cần câu trả lời cho trước,
10


được gọi là Unsupervised Learning. Trong trường hợp này, máy tính sẽ cần khai thác
ra cấu trúc của một tập dữ liệu ẩn mà không cần câu trả lời mẫu. Một loại Machine
Learning khác được gọi là Reinforcement Learning. Trong dạng này, cũng khơng hề
có câu trả lời cho trước, mỗi hành động máy tính đều nhận được những phản hồi. Dựa
vào phản hồi tiêu cực hay tích cực mà máy tính sẽ điều chỉnh hoạt động sao cho phù
hợp.
Thống kê có mối quan hệ rất mật thiết đối với Machine Learning (Statistics).
Sự phân bố dữ liệu được Machine Learning sử dụng các mơ hình thống kê để "ghi
nhớ" lại. Tuy nhiên, không đơn thuần là ghi nhớ, Machine Learning phải tổng qt
hóa những gì chưa được nhìn thấy và đưa ra khả năng để dự đốn. Có thể hình dung
một mơ hình Machine Learning khơng có khả năng tổng quát như một đứa trẻ đang
bắt đầu học: chỉ trả lời được những câu trả lời mà đáp án nó đã từng được học. Con
người có khả năng tổng quát một cách tự nhiên và kì diệu: chúng ta khơng thể nhìn
thấy tất cả các khn mặt người trên thế giới nhưng chúng ta có thể nhận biết được
một thứ có phải là khn mặt người hay khơng với độ chính xác gần như tuyệt đối.
Machine Learning có khả năng mơ phỏng được khả năng tổng qt hóa và suy luận

này của con người một cách tốt nhất.
Khi nói đến Machine Learning là nói đến khả năng "dự đốn": từ việc dự đoán
hành động cần thực hiện trong bước tiếp theo đến dự đốn đốn nhãn phân loại trong
mơ hình. Câu hỏi đặt ra là Machine Learning có thể biết trước về tương lai? Có thể
có hoặc có thể khơng: khi tương lai có mối liên hệ mật thiết với hiện tại thì Machine
Learning có thể dự đốn được tương lai đó là điều hồn tồn có thể.[3]
1.2.2. Học sâu
Học sâu là (Deep Learning) một chức năng của trí tuệ nhân tạo (AI), bắt chước
hoạt động của bộ não con người trong việc xử lí dữ liệu và tạo ra các mẫu để sử dụng
cho việc ra quyết định.
Học sâu là tập con của học máy trong AI, có các mạng lưới có khả năng "học"
mà khơng bị giám sát từ dữ liệu khơng có cấu trúc hoặc khơng được gắn nhãn. Học
sâu đã phát triển cùng với thời đại kĩ thuật số, điều này đã mang lại sự bùng nổ dữ
11


liệu dưới mọi hình thức và từ mọi khu vực trên thế giới. Dữ liệu này, gọi đơn giản là
dữ liệu lớn, được lấy từ các nguồn như phương tiện truyền thơng xã hội, cơng cụ tìm
kiếm trên internet, nền tảng thương mại điện tử hoặc rạp chiếu phim trực tuyến,...
Một trong những kĩ thuật AI phổ biến nhất được sử dụng để xử lí dữ liệu lớn
là học máy. Đây là thuật tốn tự thích ứng giúp các phân tích và các mơ hình với kiến
thức hoặc dữ liệu mới được thêm vào ngày càng trở nên tốt hơn.
Học sâu, một tập con của học máy, sử dụng các lớp, bậc của mạng nơron nhân tạo để
thực hiện quá trình học máy. Các mạng nơron được xây dựng giống như bộ não của
con người, với các nút rơron được kết nối với nhau như một trang web.
Học sâu không có nghĩa là học máy thêm kiến thức chuyên sâu, nó có nghĩa
là máy sử dụng các lớp khác nhau để học hỏi từ dữ liệu. Độ sâu của mô hình được
biểu thị bằng số lớp trong mơ hình.
Trong khi các chương trình truyền thống xây dựng các phân tích dữ liệu theo cách
tuyến tính, thì chức năng phân tầng của các hệ thống học sâu cho phép các máy xử lí

dữ liệu theo cách tiếp cận phi tuyến. [4]
+ Ứng dụng của việc học sâu.
- Nhận dạng được tiếng nói tự động của hàm.
- Nhận dạng được hình ảnh trong thực tế.
- Xử lý và nhận dạng, phân loại ngơn ngữ tự nhiên.
- Tìm hiểu dược phẩm và độc chất.
- Quản lý và kiểm tra các quan hệ khách hàng trong doanh nghiệp.
- Các hệ thống khuyến cáo, cảnh bảo.
- Tin sinh học.
1.2.3. Lập luận, suy diễn tự động
Đối với các khái niệm lập luận (Reasoning) và suy diễn (Reference) được sử
dụng rất phổ biến trong nhiều lĩnh vực AI. Lập luận là suy diễn logic, dùng để chỉ
một quá trình rút ra kết luận từ những giả thiết đã cho (được biểu diễn dưới dạng cơ
sở dữ liệu của tri thức). Như vậy, để thực hiện lập luận người ta cần có các phương

12


thức lưu trữ cơ sở dữ liệu của tri thức với số lượng lớn và các nguyên lý lập luận trên
cơ sở tri thức đó. [5]
1.2.4. Cơ sở biểu diễn tri thức
Muốn hệ thống máy tính có thể lưu trữ và xử lý dữ liệu tri thức thì cần có các
phương pháp biểu diễn tri thức. Các phương pháp biểu diễn dữ liệu tri thức ở đây bao
gồm một hoặc nhiều các ngôn ngữ biểu diễn và các kỹ thuật xử lý dữ liệu tri thức
khác nhau. Một ngôn ngữ biểu diễn dữ liệu tri thức được cho là “tốt” nếu nó có tính
đồng nhất cao và hiệu quả của thuật tốn lập luận trên ngơn ngữ đó. Tính đặc trưng
của ngôn ngữ thể hiện trong khả năng biểu diễn trong một phạm vi rộng lớn các thông
tin trong miền ứng dụng. Tính hiệu quả của các thuật tốn được đánh giá thể hiện đầu
tư về thời gian và không gian dành cho việc lập luận. Do vậy, hai yếu tố này dường
như không thuận nhau, tức là nếu ngôn ngữ có tính biểu đạt cao thì thuật tốn lập luận

trên đó sẽ có độ phức tạp lớn và ngược lại. Vì vậy, một trong những thách thức lớn
trong lĩnh vực AI đó là xây dựng một hệ thống cơ sở dữ liệu về ngôn ngữ để biểu
diễn tri thức, tức là ngơn ngữ có tính thống nhất cao và có thể lập luận hiệu quả.
- Lập kế hoạch và tính tốn: về khả năng tính tốn và đưa ra các mục đích cần
đạt được đối với các nhiệm vụ, qua đó xác định dãy các hành động cần thiết để thực
hiện để đạt được mục đích đó.
- Xử lý của ngơn ngữ tự nhiên: đó là một nhánh của AI, tập trung vào các ứng
dụng dựa trên ngôn ngữ của con người. Các ứng dụng trong việc nhận dạng chữ viết,
tiếng nói, tìm kiếm thơng tin, dịch tự động, …
- Hệ chuyên gia: là cung cấp các hệ thống có khả năng suy luận từ đó đưa ra
những kết luận. Các hệ chuyên gia có thể xử lý một khối lượng thông tin lớn và cung
cấp các kết luận dựa trên những thơng tin đó. Có rất nhiều hệ chuyên gia rất nổi tiếng
như các hệ chuyên gia y học MYCIN, đoán nhận các cấu trúc phân tử từ cơng thức
hóa học DENDRAL…[5]
1.3. Các bài tốn sử dụng trong trí tuệ nhân tạo
1.3.1. Phân nhóm
- Xét theo phương thức học, các thuật tốn ML được chia làm bốn nhóm, bao
13


gồm “Học có giám sát” (Supervised Learning), “Học khơng giám sát” (Unsupervised
Learning), “Học bán giám sát” (hay học kết hợp Semi-Supervised-Learning) cùng
với phương pháp “Học tăng cường” (Reinforcement Learning) trong mạng.
- Học có giám sát (Supervised Learning Algorithms).
Học có giám sát hay cịn gọi là học có thầy là thuật toán dự đoán nhãn (label)/đầu
ra (output) của một dữ liệu mới dựa trên tập dữ liệu huấn luyện mà trong đó mỗi mẫu
dữ liệu đều đã được gán nhãn như minh hoạ. Khi đó, thơng qua một q trình huấn
luyện, một mơ hình sẽ được xây dựng để cho ra các dự đốn và khi các dự đốn bị
sai thì mơ hình này sẽ được tinh chỉnh lại. Việc huấn luyện sẽ tiếp tục cho đến khi
mơ hình đạt được mức độ chính xác mong muốn trên dữ liệu huấn luyện. Điều này

cũng giống như khi chúng ta đi học trên lớp, ta biết câu trả lời chính xác từ giáo viên
(tập dữ liệu có nhãn) và từ đó ta sẽ sửa chữa nếu làm sai. Học có giám sát là nhóm có
tính phổ biến nhất trong các thuật tốn ML. [6]
Các thuật tốn sử dụng trong các bài tốn.

Hình 1.4: Thuật tốn học có giám sát
Một cách tốn học, học có giám sát là khi chúng ra có một tập hợp biến đầu vào $
X={x_1,x_2,…,x_N} $ và một tập hợp nhãn tương ứng $ Y={y_1,y_2,…,y_N} $,
trong đó $ x_i$, $y_i $ là các vector. Các cặp dữ liệu biết trước $( x_i, y_i ) \in X
\times Y $ được gọi là tập dữ liệu huấn luyện (training data). Từ tập dữ liệu trong mơ
hình huấn luyện này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập X khi
đó hàm (xấp xỉ) và tương ứng của tập Y:
yi ≈ f(xi), [∀i=1,2,….,N]

14


Trong hàm yi tương ứng với tập Y là xấp xỉ hàm số $f$ tốt nhất sao cho khi có
tập dữ liệu x mới, chúng ta có thể tính tốn được một tập hợp nhãn tương ứng của nó
có hàm là $y=f(x)$.
Ví dụ: Trong nhận dạng chữ số viết tay, ta có ảnh của hàng nghìn trường hợp ứng với
mỗi chữ số được viết bởi nhiều người khác nhau. Phương pháp đưa các bức ảnh này
vào một thuật toán và chỉ cho nó biết “chữ số tương ứng với những bức ảnh nào”.
Sau khi thuật tốn tạo ra một mơ hình, tức là một hàm số nhận đầu vào là một bức
ảnh và cho ra kết quả là một chữ số. Khi nhận được một bức ảnh mới mà mô hình
“chưa từng gặp qua” và nó sẽ dự đốn xem bức ảnh đó tương ứng với chữ số nào.

Hình 1.5: MNIST bộ cơ sở dữ liệu của chữ số viết tay
(Nguồn: Simple Neural Network implementation in Ruby)
- Phương pháp Unsupervised Learning (Học khơng giám sát).

Trong thuật tốn này, khơng cho biết được outcome hay nhãn mà chỉ có dữ liệu
đầu vào. Trong thuật tốn Unsupervised Learning (Học khơng giám sát) sẽ dựa vào
cấu trúc của dữ liệu để thực hiện một cơng việc điển hình nào đó, ví dụ như phân
nhóm (Clustering) hoặc giảm số chiều của dữ liệu (Dimension reduction) để thuận
tiện trong việc lưu trữ và tính tốn.
Theo phương pháp tốn học, Unsupervised Learning chỉ có dữ liệu đầu
vào X mà không biết nhãn Y tương ứng.

15


Những thuật tốn loại này được gọi là học khơng giám sát vì khơng giống như
học có giám sát, chúng ta khơng biết câu trả lời chính xác cho mỗi dữ liệu của đầu
vào. Cụm không giám sát được đặt tên cho nghĩa này. [6]

Hình 1.6: Học khơng giám sát
-

Phương pháp Semi-Supervised Learning (Học bán giám sát).
Các bài toán khi có một lượng lớn dữ liệu là X nhưng chỉ một phần trong chúng

được gán nhãn được gọi là Semi - Supervised Learning. Những dạng bài toán thuộc
loại này nằm giữa hai nhóm bài tốn được nêu bên trên.
Một ví dụ điển hình của nhóm này là chỉ có một phần hình ảnh hoặc văn bản
được gán nhãn (ví dụ bức ảnh về con người, động vật hoặc các bài văn bản khoa học,
chính trị) và phần lớn các bức ảnh hoặc văn bản khác chưa được gán nhãn và được
thu thập từ internet. Thực tế cho thấy rất nhiều các bài tốn Machine Learning thuộc
nhóm này vì dữ liệu thậm chí cần phải có chun gia mới có thể gán nhãn được (ảnh
y học hay nghệ thuật chẳng hạn). Ngược lại, dữ liệu chưa có nhãn có thể được thu
thập với chi phí rất thấp từ internet.


Hình 1.7: Học bán giám sát
-

Phương pháp Reinforcement Learning (Học Củng Cố)
Reinforcement Learning là các bài tốn giúp cho một hệ thống có thể tự xác

định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất (Maximizing the
16


Performance). Hiện tại, Reinforcement Learning chủ yếu được áp dụng vào Lý
Thuyết của Trị Chơi (Game Theory), các thuật tốn cần xác định các nước đi tiếp
theo để đạt được điểm số cao nhất. [6]
1.3.2. Phân cụm
Một bài toán phân cụm, phân nhóm tồn bộ dữ liệu X thành các nhóm và cụm
nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm. Chẳng hạn như phân
nhóm khách hàng dựa vào độ tuổi, giới tính. Điều này cũng giống như việc ta đưa
cho một đứa trẻ rất nhiều mảnh ghép với các hình dạng và màu sắc khác nhau, có thể
là tam giác, vng, trịn với màu xanh, đỏ, tím, vàng, sau đó u cầu trẻ phân chúng
thành từng nhóm. Mặc dù ta khơng dạy trẻ mảnh nào tương ứng với hình nào hoặc
màu nào, nhưng nhiều khả năng trẻ vẫn có thể phân loại các mảnh ghép theo màu sắc
hoặc hình dạng.
1.3.3. Nhận dạng
Các dạng bài tốn nhận dạng khuôn mặt một người với số nhiều người trong
một bức ảnh đã được phát triển từ rất lâu. Thời gian đầu, facebook sử dụng các thuật
toán nhận dạng này để chỉ ra các khuôn mặt người trong một bức ảnh và yêu cầu
người dùng tag vào tức gán nhãn cho mỗi khuôn mặt. Số lượng khuôn mặt, tên người
với dữ liệu càng lớn, độ chính xác ở những lần tự động tag tiếp theo sẽ càng lớn [6].
1.4. Thuật tốn sử dụng trong hàm

Các thuật tốn học có giám sát cịn được phân ra thành hai loại chính là phân
lớp (Classification) và hồi quy (Regression).
- Phân lớp
Một bài toán được gọi là phân lớp nếu các nhãn của dữ liệu đầu vào được chia
thành một số hữu hạn lớp (miền giá trị là rời rạc). Chẳng hạn như tính năng xác định
xem một email có phải là spam hay khơng của Gmail; xác định xem hình ảnh của con
vật là chó hay mèo. Hoặc ví dụ nhận dạng ký số viết tay ở trên cũng thuộc bài toán
phân lớp, bao gồm mười lớp ứng với các số từ 0 đến 9. Tương tự cho ví dụ nhận dạng
khn mặt với hai lớp là phải và không phải khuôn mặt, …
- Hồi quy
17


×