Nghiên cứu lý thuyết trí tuệ nhân tạo và ứng dụng trên ô tô

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.29 MB, 105 trang )

Chương 1. TỔNG QUAN VỀ ĐỀ TÀI
1.1. Lý do chọn đề tài

Nước ta đang trong dần tiến vào nền cách mạng cơng nghiệp 4.0 – đó là sự kết hợp giữa
robot, trí thơng minh nhân tạo, thiết bị kết nối mạng nhanh và dữ liệu lớn trong môi trường
sản xuất. Nói cách khác với nền sản xuất hiện đại, các nhà máy công xưởng sẽ hoạt động
nhanh hơn, tốt hơn, hiệu quả hơn bởi robot mà không phải do con người. Ta có thể thấy
các từ như trí tuệ nhân tạo, dữ liệu lớn, máy học xuất hiện với tần suất rất nhiều trên các
phương tiện thông tin và cả ở các ứng dụng trong cuộc sống mỗi ngày của chúng ta. Và
hiển nhiên ngành ô tô cũng phải bắt kịp theo xu hướng này. Ơ tơ hiện nay khơng cịn mang
khuynh hướng thuần cơ khí như trước đây nữa mà đang chuyển hố dần và có xu hướng
kết hợp với nhiều lĩnh vực khác như điện, điện tử và khoa học máy tính. Trong đó, Trí tuệ
nhân tạo cho xe (Artificial Intelligence for Vehicles – AIV) đang được xem như là một xu
hướng có rất nhiều tiềm năng để phát triển, đem đến nhiều tiện nghi và độ an toàn cho con
người.
Hiện nay việc áp dụng các kỹ thuật AI tiên tiến và thực tế vào xe để xe có thể thực hiện
các hành vi giống con người hoặc thậm chí là thơng minh hơn được rất nhiều nước trên thế
giới nghiên cứu. Nó mở ra rất nhiều cơ hội mới và cả thách thức đối với các sinh viên ô tô
như chúng em. Với mong muốn tham gia tìm hiểu về lĩnh vực này, đồng thời áp dụng các
kiến thức về ô tô mà chúng em đã được học ở trường lớp; nhóm đã lựa chọn đề tài “Nghiên
cứu lý thuyết trí tuệ nhân tạo và ứng dụng trên ô tô” để thực hiện. Thông qua đồ án lần này,
nhóm hi vọng sẽ đưa ra một góc nhìn tổng quan và khái quát về việc ứng dụng công nghệ
AI trong ngành ô tô và xem đây như là một cơ hội để tích luỹ thêm các kiến thức chuyên
ngành để áp dụng vào công việc mai sau của mình.
1.2. Các nghiên cứu ngồi và trong nước về đề tài
1.2.1. Tình hình nghiên cứu ngồi nước
Hiện nay có nhiều nước nghiên cứu về AIV. Các chính sách và quy định mới được các
quốc gia như. Mỹ, Nhật Bản, Trung Quốc, … đề ra nhằm gỡ bỏ những hạn chế và thúc đẩy
ơ tơ thơng minh phát triển nhanh chóng. Bộ trưởng Giao thông Hoa Kỳ thông báo rằng họ
sẽ thực hiện thử nghiệm và ứng dụng lái xe tự động với vốn hỗ trợ 4 tỷ USD trong 10 năm
tới. Chính phủ Nhật Bản có kế hoạch phân bổ 34 tỷ yên (khoảng 300 triệu USD) cho địa

điểm thử nghiệm xe thông minh như xây dựng Thành phố Khoa học Tsukuba, với mong
1

muốn nước này có thể đưa loại ơ tơ mới mà khơng cần thí điểm vào hoạt động vào năm
2020. Vào năm 2016, Hiệp hội Kỹ thuật Ơ tơ Trung Quốc đã phát hành một bản đồ công
nghệ lái xe tự động dài 450 trang, dự kiến sẽ đặt nền tảng cho các tiêu chuẩn giao tiếp cơ
sở hạ tầng phương tiện thông minh vào năm 2018.
Các doanh nghiệp và trường đại học trên toàn thế giới cũng đang chủ động nghiên cứu và
đầu tư các chiến lược vào AIV. Đầu năm 2015, Đại học Carnegie Mellon và Uber đã thành
lập một trung tâm nghiên cứu và phát triển công nghệ cao tại Pittsburgh để nghiên cứu và
phát triển xe tự động. Đại học Stanford và Học viện Công nghệ Massachusetts đã được
Tập đoàn Toyota trao tặng 50 triệu USD cho việc phát triển cơng nghệ lái xe hồn tồn tự
động. Đầu năm 2016, Đại học Cambridge đã phát triển hệ thống SegNet và hệ thống
PoseNet, tạo ra một bước đột phá mới trong ô tô xoay quanh nhận thức đối tượng và tự
định vị. Đồng thời, đại học Oxford đã thành lập công ty Oxbotica để phát triển phần mềm
khơng người lái.
1.2.2. Tình hình nghiên cứu trong nước
Xe tự hành ứng dụng các công nghệ AI cũng đang được các trường đại học và công ty ở
Việt Nam nghiên cứu. FPT Software đã giới thiệu mơ hình thử nghiệm xe tự lái do công
ty tự nghiên cứu phát triển từ tháng 8/2016. Nhóm nghiên cứu đã tiến hành lắp ráp và lập
trình xe tự hành trong 3 tháng với các linh kiện nhập từ nhiều nước. Mẫu xe tự lái ở khu
vực TPHCM đã chạy trong vòng 200 giờ trong khn viên tồ nhà F-Town (thuộc Khu
cơng nghệ cao TP HCM) để kiểm tra nhiều tình huống khác nhau xảy ra trên đường đi.
Công nghệ xe tự lái của FPT đang sử dụng phối hợp nhiều ứng dụng và công nghệ mới để
thu thập dữ liệu, theo dõi môi trường xung quanh. Cùng với đó trường Đại học Sư phạm
Kĩ thuật TPHCM cũng đã mở thêm ngành đào tạo AI vào năm 2019 để bắt kịp xu hướng
phát triển AI trên thế giới. Cùng với đó các sinh viên ngành ô tô trong trường cũng đã
nghiên cứu và chế tạo các hệ thống AI ứng dụng trên ô tô như “Hệ thống nhận diện và theo
dõi làn đường cho xe tự lái” là đồ án tốt nghiệp của sinh viên khóa K15.

1.3. Mục đích, đối tượng, phạm vi nghiên cứu
1.3.1. Mục đích nghiên cứu
Nắm được các kiến thức về trí tuệ nhân tạo và biết cách ứng dụng các kiến thức vừa tìm
hiểu trên ơ tơ.
Tìm thêm hướng phát triển và cải tiến cho giải thuật ứng dụng AI trên ô tô.
2

1.3.2. Đối tượng nghiên cứu
Lý thuyết xử lý ảnh, học máy và mạng nơ-ron thần kinh.
Các xe tự hành do sinh viên trường làm, các chương trình hệ thống ngồi thực tế có ứng
dụng giải thuật AI trên xe.
1.3.3. Phạm vi nghiên cứu
Đồ án chỉ nghiên cứu các kiến thức tổng quan và khái quát của mạng nơ-ron tích chập và
hồi tiếp có ứng dụng trên ơ tơ.
1.4. Nội dung nghiên cứu
Nghiên cứu về các bài toán học máy và xử lý ảnh.
Nghiên cứu về các mạng nơ-ron thần kinh học sâu. Cụ thể là mạng tích chập và mạng hồi
tiếp; ứng dụng của hai mạng này trong các chương trình nhận diện vật thể và dự đốn hành
vi tài xế.
Nghiên cứu về các phần mềm và thư viện liên quan có sử dụng.
1.5. Phương pháp nghiên cứu
Để hồn thành đồ án này chúng em sử dụng các phương pháp nghiên cứu sau:
Phương pháp tìm kiếm và tham khảo tài liệu.
Phương pháp phân tích các kiến thức đã hiểu được để đưa ra các nhận xét cho các ví dụ
sản phẩm cụ thể.
Đánh giá và cải tiến cho các giải thuật AI trên xe.
Phần lớn là tìm hiểu thơng tin cần thiết thơng qua các giáo trình và sách hướng dẫn trong
trường, đồng thời tra cứu và tìm hiểu thơng tin liên quan trên mạng Internet.

3

Chương 2. NGHIÊN CỨU CƠ SỞ LÝ THUYẾT
2.1. Định nghĩa về AI và các hướng nghiên cứu của AI
Để tìm hiểu về AI ta cần hiểu trí tuệ (trí thơng minh) là gì? Từ đó sẽ có các phương pháp
để làm một trí tuệ nhân tạo: định nghĩa chính xác về trí tuệ rất phức tạp nên khơng có một
định nghĩa nào là chính xác, trí tuệ được định nghĩa theo nhiều cách khác nhau bao gồm
khả năng logic, trừu tượng, sự hiểu biết, tự nhận thức, học tập, có trí tuệ xúc cảm, trí nhớ,
kế hoạch, giải quyết vấn đề … Dựa trên các kiến thức đã có của các bộ mơn nghiên cứu về
cấu trúc trí tuệ con người như sinh học, thần kinh học, ngôn ngữ học, tâm lí học, … người
ta dùng nó để có thể bắt chước và làm nên các kiến thức nền để thiết kế ra được những cỗ
máy có trí tuệ như con người. AI được định nghĩa lần đầu tiện tại một hội thảo khoa học ở
Đại học Dartmouth năm 1956 bởi một nhà khoa học máy tính tên là John McCarthy, ơng
định nghĩa AI là phát triển máy móc sao cho chúng có thể cư xử như thể chúng có sự thông
minh. Đến bây giờ, AI được xem như là một mơn khoa học để làm cho máy tính có thể làm
được những việc mà con người làm tốt hơn máy tính ở thời điểm đó. Vấn đề lớn nhất trong
việc làm AI là chúng ta cần rất nhiều dữ liệu được dãn nhãn và máy tính cần phải có tốc
độ xử lý nhanh, chính xác.
Các mục tiêu của nghiên cứu AI bao gồm 9 vấn đề phụ sau:
1) Lập luận và giải quyết vấn đề: máy có khả năng lập luận từng bước một bằng cách khấu
trừ các logic khơng chắc chắn.
2) Diễn đạt tri thức: trình bày thơng tin về thế giới trong một form mà máy tính có thể dùng
nó để giải quyết các việc phức tạp.
3) Lên kế hoạch: máy có khả năng tự động tối ưu hóa kế hoạch và lịch trình các cơng việc
để thực hiện một chuỗi liên tiếp chúng.
4) Máy học: máy có khả năng tự học dựa vào các thuật tốn đã được tự động cải tiến thông
qua kinh nghiệm đã thực hiện và dữ liệu đã học mà không cần chạy qua các chương trình
cụ thể.
5) Xử lý ngơn ngữ tự nhiên: máy có khả năng đọc hiểu ngơn ngữ của con người.

6) Nhận thức: máy có khả năng dùng các tín hiệu đầu vào từ các cảm biến cho việc suy
đốn các khía cạnh của thế giới và cảm nhận mơi trường xung quanh nó.
7) Chuyển động và thao tác điều khiển: máy có khả năng lên kế hoạch cho các hành động
và tiền hành điều khiển các hành động một cách hiệu quả.
4

8) Hình thành trí tuệ xã hội: máy có khả năng nhận diện, thông dịch, xử lý và mô phỏng
những thứ ảnh hưởng và liên quan đến con người.
9) Trí thơng minh nói chung: máy đạt được đầy đủ khả năng nhận thức của con người (AI
hoàn thiện hay AI hoàn chỉnh).
Với từng vấn đề phụ của AI, chúng ta có thể dùng các cơng cụ tốn học và các phương
pháp để giải quyết lần lượt các vần đề đó. Cơng cụ tốn học gồm các thuật tốn là một tập
hợp các lệnh rõ ràng mà máy tính cơ học có thể thực thi. Một thuật tốn phức tạp thường
được xây dựng dựa trên các thuật toán khác đơn giản hơn. Các phương pháp bao gồm các
bài toán tối ưu hóa tìm kiếm, mạng nơ-ron nhân tạo và tốn thống kê, xác suất và kinh tế
học. Trong phạm vi đồ án chúng em chỉ nghiên cứu 2 vấn đề phụ của AI có liên quan đến
ơ tơ (xe tự hành) là 4) và 6).
2.2. Nhận thức
2.2.1. Thị giác máy tính (Computer Vision – CV)
Ở lĩnh vực 4) Nhận thức máy cần làm sao cho có thể có được sự nhận thức như con người
(mô tả được các kiến thức về môi trường xung quanh của máy). Để làm được điều này ta
dùng 2 công cụ sau: thị giác máy (machine vision) và thị giác máy tính. Hai cơng cụ này
khác nhau ở chỗ hệ thống thị giác máy là những hệ thống sử dụng cảm biến để diễn giải
được môi trường xung quanh mình, cịn thị giác máy tính sử dụng các thuật tốn xử lý và
giải thích dữ liệu của cảm biến đó, trước khi hướng dẫn các thành phần khác trong hệ thống
thị giác máy hành động dựa trên đã xử lí này. Phần này sẽ tập trung vào CV (khả năng khôi
phục dữ liệu từ camera). CV được mô tả tổng thể là một tập hợp các q trình tự động và
tích hợp các thuật tốn cho các nhận thức về thị giác. Nó được ví như mắt người để có thể
nhận thức sự vật xung quanh, được ứng dụng vào nhiều mục đích khác nhau trong cuộc

sống. Cụ thể khi nhìn vào một bức ảnh, một người với thị giác bình thường có thể dễ dàng
mơ tả nội dung, nhận biết và phát hiện các đối tượng được thể hiện trong bức ảnh cũng như
vị trí chính xác của chúng. Tuy nhiên, việc này (đọc và hiểu một bức ảnh) khó khăn hơn
nhiều đối với máy tính khi nó “nhìn” mỗi bức ảnh chỉ đơn thuần là một ma trận số. Mục
tiêu chính của CV là tìm ra đầu nối giữ ma trận số này và thông tin ngữ nghĩa chứa trong
ảnh. CV tập trung giải quyết những bài toán như:
Phân loại ảnh, miêu tả ảnh, …
Phát hiện vật thể trong ảnh: Xe, con người, đèn giao thông, làn đường, …
5

Tạo ảnh với những phong cách khác nhau: hiển thị nội dung ngữ nghĩa của ảnh gốc theo
những phong cách khác nhau.

Hình 2.1 Mối quan hệ giữa AI, ML và CV
Máy tính có khả năng nhận thức được mơi trường xung quanh nếu sử dụng các cảm biến
làm đầu vào: Camera, Lidar, Radar, … để tạo lập nên nhận thức của máy. Cụ thể thì đầu
vào của camera (ảnh/video) được phân tích và các thơng tin về ảnh sẽ được trích xuất.
Trong thực tế, CV sẽ tập trung vào camera vì các lí do sau:
Camera là cảm biến rẻ nhất của ơ tơ.
Camera có nhiều điểm tương đồng với mắt người.
Ảnh chụp từ camera bao gồm hầu hết các thông tin về mơi trường xung quanh.
Ảnh chụp từ camera có thể được xử lý bằng các thuật toán cơ bản của CV và các thuật
toán của Học sâu.
Hạn chế khi dùng camera:
Các đối tượng vật thể có thể có rất nhiều hình dạng và hình dạng của chúng có thể thay
đổi liên tục theo thời gian.
Mất thông tin trong quá trình tái hiện vật thể 3D khi thể hiện trên hình ảnh 2D.
Thiếu dữ liệu do bị che khuất hay do các bề mặt ẩn.
Bóng mờ và nhiễu gây ảnh hưởng xấu đến tín hiệu.

6

Hình 2.2 Sự thay đổi ánh sáng trong ảnh
2.2.2. Các kiến thức cơ bản về ảnh:
Điểm ảnh (pixel) là một phần tử của ảnh số có hai đặc trưng cơ bản là vị trí tọa độ (x, y)
và mức xám (hoặc màu nhất định) của nó. Mức xám của điểm ảnh là cường độ sáng của
nó được gán bằng giá trị số tại điểm đó. Kích thước và khoảng cách giữa các điểm ảnh
được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám
(hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận ảnh được gọi là một
phần tử ảnh.
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là mức phổ dụng.
Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: mức xám dùng 1
byte biểu diễn: 28 = 256 mức, tức là từ 0 đến 255).
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với mức xám ở các
điểm ảnh có thể khác nhau.
Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt (tức dùng 1 bit mô tả 2 mức khác
nhau là 0 và 255). Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1.
Ảnh màu: trong khn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới màu,
người ta thường dùng 3 byte để mơ tả mức màu, khi đó các giá trị màu: 28*3 = 224 ≈ 16,7
triệu màu.
Độ phân giải (resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được
hiển thị. Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt
người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên một
mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong không
gian hai chiều.
7

2.2.3. Xử lí ảnh (Image processing)
Xử lí ảnh sẽ giải quyết các vấn đề khi một thông tin trên bức ảnh khơng rõ ràng. Nó là
q trình tạo ra một hình ảnh mới từ hình ảnh đã có, thường tối ưu hóa hoặc nâng cao nội
dung của bức ảnh theo một cách nào đó. Nó là một loại xử lý tín hiệu số và khơng liên
quan đến việc hiểu nội dung của hình ảnh. Ý nghĩa của xử lí ảnh được biểu diễn thơng qua
các hoạt động:

Hình 2.3 Các hoạt động của xử lí ảnh
Chọn phần cứng camera, ống kính: ảnh có thể nhận qua camera màu hoặc đen trắng.
Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số
1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hố (như loại CCD – Change Coupled
Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh. Camera thường dùng là loại
quét dòng, ảnh tạo ra có dạng hai chiều. Chất lượng một ảnh thu nhận được phụ thuộc vào
thiết bị thu, vào môi trường (ánh sáng, phong cảnh).
Sự thu nhận ảnh: mắt người có thể nhìn tốt trong nhiều điều kiện ánh sáng, nhưng hệ
thống thị giác máy tính khơng có khả năng như vậy. Do đó, ta phải chiếu sáng quang cảnh
đang quan sát để hệ thống thị giác máy có thể ‘nhìn’ được rõ ràng. Ví dụ như với một xe
tự hành có rất nhiều vấn đề cần phải giải quyết như là: cường độ ánh sáng thay đổi dựa vào
thời gian trong ngày, theo điều kiện thời tiết, …

8

Hình 2.4 Q trình thu ảnh và xử lí
Cách hoạt động của camera (đầu đo): ống kính sẽ tập hợp ánh sáng phản xạ hoặc truyền
thẳng từ các vật thể trong trường quan sát (Field of View – FOV là kích thước của khu vực
chụp được) của camera và tạo thành hình ảnh trong cảm biến của máy. Ống kính thích hợp
cho phép ta điều chỉnh FOV và khoảng cách đặt camera so với quang cảnh để thuận tiện
cho việc lấy ảnh. Camera có một cảm biến chuyển ánh sáng từ ống kính thành tín hiệu
điện. Các giá trị này được số hóa thành một mảng giá trị điểm ảnh (pixel). Độ phân giải

của ảnh phụ thuộc vào khoảng cách làm việc của máy ảnh, trường quan sát (FOV) và số
lượng điểm ảnh vật lý trong cảm biến của camera.
Bộ lấy khung (Frame grabber) và các phần mềm xử lý CV: khi nhấn nút chụp lúc này ảnh
sẽ được bộ lấy khung chuyển đổi từ dịng hình ảnh đang thu sang 1 tấm ảnh muốn thu. Sau
đó ảnh gửi qua máy tính thơng qua các giao diện như USB, Ethernet và "FireWire". Những
phần mềm và thư viện xử lí phổ biến là OpenCV, Mathlab, …
Hình trên được biểu diễn lại một cách đơn giản như sau:

Hình 2.5 Các thành phần cơ bản của hệ thống xử lý ảnh
9

Một hệ thống xử lý ảnh cơ bản có thể gồm: máy tính cá nhân kèm theo vi mạch chuyển
đổi đồ hoạ VGA hoặc SVGA, đĩa chứa các ảnh dùng để kiểm tra các thuật tốn và một
màn hình có hỗ trợ VGA hoặc SVGA. Nếu điều kiện cho phép, nên có một hệ thống bao
gồm một máy tính PC kèm theo thiết bị xử lý ảnh. Nối với cổng vào của thiết bị thu nhận
ảnh là một video camera, và cổng ra nối với một màn hình (nên có kết nối HDMI).
Tiền xử lí ảnh: sau khi thu nhận; ảnh có thể nhiễu, độ tương phản thấp nên cần đưa vào
bộ tiền xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng
độ tương phản để làm ảnh rõ hơn, nét hơn.
Phát hiện, trích xuất đặc trưng: đặc trưng là một phần thông tin liên quan đến đối tượng
để giải quyết việc tính tốn liên quan đến một số ứng dụng nhất định. Việc chọn các tính
chất để thể hiện ảnh gọi là trích xuất đặc trưng (Feature Extraction) gắn với việc tách các
đặc tính của ảnh dưới dạng các thơng tin định lượng hoặc làm cơ sở để phân biệt lớp đối
tượng này với đối tượng khác trong phạm vi ảnh nhận được. Các đặc trưng thu được sẽ là
các tập con của miền ảnh, thường ở dạng các điểm biệt lập, các đường cong liên tục hoặc
các vùng kết nối (biên, góc, đỉnh, …). Cụ thể gồm các phương pháp sau:
1. Phát hiện biên: là xác định những thay đổi đột ngột (gián đoạn) trong một hình ảnh
(biên của vật thể) vì một cách trực quan ta có thể thấy hầu hết thơng tin về nội dung và
hình dạng của hình ảnh (vật thể) được mã hóa trong các phần biên (cạnh).

2. Phát hiện đường thẳng, đường trịn: tính năng phát hiện biên giúp giảm đáng kể
lượng dữ liệu trong hình ảnh. Tuy nhiên, kết quả đầu ra từ việc tìm biên vẫn là hình ảnh
được mơ tả bởi chính các điểm ảnh biên của nó. Nếu các đường thẳng, hình elip, … có
thể được xác định bằng các phương trình đặc trưng của chúng thì lượng dữ liệu sẽ cịn
giảm nhiều hơn nữa. Chúng ta có thể sử dụng Thuật toán Đường Hough, thuật toán này
ban đầu được phát triển để nhận dạng các đường và sau đó đã được tổng qt hóa để
bao gồm các hình dạng tùy ý.

10

Hình 2.6 Thuật tốn đường Hough
3. Phát hiện góc: ta có thể dễ dàng nhận ra điểm cần tìm bằng cách nhìn qua một cửa
sổ nhỏ. Dịch chuyển cửa sổ theo bất kỳ hướng nào sẽ tạo ra sự thay đổi lớn về cường
độ sáng thì ta sẽ tìm được góc của bức ảnh

Hình 2.7 Phát hiện mặt, biên, góc
4. Phát hiện chiều sâu: theo cấu tạo sinh học của con người, ảnh thu được từ hai mắt
có sự chênh lệnh nhất định. Chênh lệch hai mắt là sự khác biệt về vị trí hình ảnh của
một đối tượng mà mắt trái và mắt phải nhìn thấy, do sự phân tách theo chiều ngang của
mắt (thị sai). Bộ não sử dụng sự chênh lệch hai mắt để trích xuất thơng tin về chiều sâu
từ hình ảnh hai chiều được tạo nên trong võng mạc. Trong CV, chênh lệch hai mắt đề
cập đến sự khác biệt về tọa độ của các đối tượng khi camera di chuyển tương tự như
trong hai mắt con người.

11

Hình 2.8 Cơng thức tính khoảng cách dùng trong phát hiện chiều sâu
Trích xuất thơng tin từ đặc trưng: ta biết ảnh là một đối tượng khá phức tạp về đường nét,

độ sáng tối, dung lượng điểm ảnh, môi trường để thu ảnh rất phong phú kéo theo nhiễu.
Trong nhiều khâu xử lý và phân tích ảnh ngồi việc đơn giản hóa các phương pháp tốn
học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp nhận và xử
lý ảnh theo cách của con người. Trong các bước xử lý đó, nhiều khâu hiện nay đã xử lý
theo các phương pháp trí tuệ con người. Vì vậy, ở đây các cơ sở tri thức được phát huy khi
con người gắn các tri thức về thông tin đã biết từ đặc trưng.
Cụ thể các hoạt động trên được biểu diễn qua các bước khái quát như sau:

Hình 2.9 Các bước mơ tả khái qt xử lí ảnh
12

Hiệu chỉnh camera: tìm số lượng các thơng số ảnh hưởng đến q trình xử lý ảnh: gồm
thơng số bên ngồi camera: vị trí tâm camera, góc quay ống kính camera, … và thông số
bên trong camera: độ dài tiêu cự, định dạng cảm biến hình ảnh, …
Chuyển đổi kĩ thuật số:

Hình 2.10 Ảnh kĩ thuật số
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Để xử lý bằng máy
tính (số), ảnh cần phải được số hoá. Số hoá ảnh là sự biến đổi gần đúng một ảnh liên tục
thành một tập điểm phù hợp với ảnh thật về vị trí (khơng gian) và độ sáng (mức xám hay
hệ màu).
Lên hệ màu:
Các hệ màu dùng để tái tạo lại cảm nhận về màu sắc giống như thị giác của con người.
Các hệ màu khác nhau được dùng để giải quyết các vấn đề khác nhau. Ta có thể dùng nhiều
hệ màu khác nhau để trích xuất được các màu sắc chính xác hơn. Tổ chức quốc tế về chuẩn
hóa màu CIE (Commission Internationale d’Eclairage) đưa ra một số chuẩn để biểu diễn
màu. Các hệ màu khác nhau sẽ có các chuẩn riêng.
Hệ chuẩn màu CIE-RGB dùng 3 màu cơ bản R, G, B và ký hiệu RGBCIE để phân biệt
với các chuẩn khác. Một màu là tổ hợp của các màu cơ bản theo một tỷ lệ nào đó. Như vậy,

mỗi pixel ảnh màu ký hiệu Px, được viết: (T: trong công thức dưới đây là ký hiệu chuyển
vị):

Px = [red, green, blue] T

[2.1]

Người ta dùng hệ tọa độ ba màu R-G-B (tương ứng với hệ tọa độ x-y-z) để biểu diễn
màu như sau:

13

Hình 2.11 Hệ tọa độ RGB
Trong cách biểu diễn này ta có cơng thức: đỏ + lục + lơ = 1

[2.1]

Hệ màu HSV là không gian màu được dùng nhiều trong việc chỉnh sửa ảnh, phân tích
ảnh và một phần của lĩnh vực CV. Hệ màu này dựa vào ba thông số để mô tả màu sắc:
H viết tắt của từ HUE có nghĩa là vùng màu.
S Viết tắt của từ SATURATION có nghĩa là độ bảo hịa màu.
V viết tắt của chữ VALUE có nghĩ là giá trị hay độ sáng của màu sắc.

Hình 2.12 Hệ màu HSV và vịng trịn biểu diễn màu sắc (HUE)
Theo đó, đi theo vòng tròn từ 0 -360 độ là trường biểu diễn màu sắc (Hue). Trường này
bắt đầu từ màu đỏ đầu tiên (red primary) tới màu xanh lục đầu tiên (green primary) nằm
trong khoảng 0-120 độ, từ 120-240 độ là màu xanh lục tới xanh lơ (green primary - blue
primary). Từ 240-360 độ là từ màu đen tới lại màu đỏ. Theo như cách biểu diễn khơng gian
màu theo hình trụ như trên, đi từ giá trị độ sáng (V) được biểu diễn bằng cách đi từ dưới

đáy hình trụ lên và nằm trong khoảng từ 0 tới 1. Ở đáy hình trụ V có giá trị là 0, là tối nhất
và trên đỉnh hình trụ là độ sáng lớn nhất (V= 1). Đi từ tâm hình trụ ra mặt trụ là giá trị bão
hịa của màu sắc (S). S có giá trị từ 0 tới 1. 0 ứng với tâm hình trụ là chỗ mà màu sắc là
14

nhạt nhất. S = 1 ở ngoài mặt trụ, là nơi mà giá trị màu sắc là đậm đặc nhất. Như vậy với
mỗi giá trị (H, S, V) sẽ cho ta một màu sắc mà ở đó mơ tả đầy đủ thông tin về máu sắc, độ
đậm đặc và độ sáng của màu đó.
CMYK là hệ màu được sử dụng phổ biến trong ngành công nghiệp in ấn. Ý tưởng cơ bản
của hệ không gian này là dùng 4 màu sắc cơ bản để phục vụ cho việc pha trộn mực in. Trên
thực tế, người ta dùng 3 màu là C (Cyan): xanh lơ, M (Magenta): hồng xẫm và Y (Yellow):
vàng để biểu diễn các màu sắc khác nhau. Nếu lấy màu hồng xẫm cộng với vàng sẽ ra màu
đỏ, màu hồng xẫm kết hợp với xanh lơ sẽ cho xanh lam, ... Sự kết hợp của 3 màu trên sẽ
cho ra màu đen, tuy nhiên màu đen ở đây khơn phải là đen tuyệt đối và thường có độ tương
phản lớn, nên để tiết kiệm mực in người ta thêm vào màu đen để in những chi tiết có màu
đen thay vì phải kết hợp 3 màu sắc trên. Chữ K ở đây là để kí hiệu màu đen (Black).

Hình 2.13 Hệ màu CMYK
Nguyên lý làm việc của hệ màu này như sau: Trên một nền giấy trắng, khi mỗi màu này
được in lên sẽ loại bỏ dần đi thành phần màu trắng. 3 màu C, M, Y khác nhau in theo những
tỉ lệ khác nhau sẽ loại bỏ đi thành phần đó một cách khác nhau và cuối cùng cho ta màu
sắc cần in. Khi cần in màu đen, thay vì phải in cả 3 màu người ta dùng màu đen để in lên.
Nguyên lý này khác với nguyên lý làm việc của hệ RGB ở chỗ hệ RGB là sự kết hợp của
các thành phần màu, còn hệ CMYK là sự loại bỏ lẫn nhau của các thành phần màu.

Hình 2.14 Các hệ màu thường dùng
15

Xử lý nâng cao chất lượng ảnh: là bước cần thiết trong xử lý ảnh nhằm hoàn thiện một số
đặc tính của ảnh. Nâng cao chất lượng ảnh gồm hai công đoạn khác nhau: tăng cường ảnh
và khôi phục ảnh (hồi phục lại ảnh thật khi ảnh nhận được bị méo). Tăng cường ảnh nhằm
hồn thiện các đặc tính của ảnh như:
Lọc nhiễu hay làm trơn ảnh: có 2 bộ lọc chính hay được sử dụng là:
1. Bơ lọc ảnh trong miền khơng gian: là một phép tốn (tích chập) của một ma trận lưới
các số. Công dụng: làm mịn, làm sắc nét, đo kết cấu.
2. Bộ lọc ảnh trong miền tần số: cách lọc là cách thay đổi tần số của ảnh. Cơng dụng:
khử nhiễu, lấy mẫu, nén ảnh.

Hình 2.15 Lọc nhiễu ảnh
Tăng độ tương phản, điều chỉnh mức xám của ảnh: độ tương phản là khoảng chênh lệch
giữa các tông màu khác nhau trong một bức ảnh. Trong ảnh trắng đen, độ tương phản mô
tả sự khác biệt giữa tơng màu tối nhất và sáng nhất, và nó cũng xác định thang độ xám.
Trong ảnh màu, độ tương phản để chỉ độ nổi bật của các màu sắc khác nhau trong ảnh. Độ
tương phản thấp đồng nghĩa với việc các giá trị màu hình ảnh tập trung lại trong một phạm
vi hẹp. Độ tương phản có thể được biểu diễn bằng đồ thị (biểu diễn sự phân bố của tơng
màu trong ảnh kỹ thuật số). Ta có thể tăng cường độ tương phản bằng cách thay đổi phân
bố giá trị các màu của điểm ảnh sao cho chúng bao phủ ở một phạm vi rộng hơn.

16

Hình 2.16 Độ tương phản trên ảnh trắng đen
Biến đổi Affine: là phép biến đổi tọa độ điểm đặc trưng của đối tượng thành tập tương
ứng các điểm mới (là điểm trong miền tọa độ mới) để tạo ra các hiệu ứng mới cho toàn đối
tượng để nâng cao được chất lượng hình ảnh.

Hình 2.17 Các biến đổi Affine
Khơi phục ảnh: là kỹ thuật toán học được sử dụng để tạo một phiên bản mới của hình ảnh

với chiều rộng (hoặc) chiều cao khác (tính bằng điểm ảnh – pixel) hoặc có thể khơi phục
về đúng kích thước cũ. Tăng kích thước của một hình ảnh được gọi là upsampling; giảm
kích thước của nó được gọi là downsampling, giữ kích thước gọi là resampling.

17

Hình 2.18 Khơi phục ảnh
Giá trị cho mỗi ơ điểm ảnh mới phải được tính bằng cách lấy mẫu cũ hoặc nội suy trên
một số vùng lân cận của các ô ở vị trí tương ứng trong đối tượng điểm ảnh ban đầu. Trong
xử lý ảnh do số điểm ảnh lớn các tính tốn nhiều (độ phức tạp tính tốn cao) địi hỏi dung
lượng bộ nhớ lớn, thời gian tính toán lâu. Các phương pháp khoa học kinh điển áp dụng
cho xử lý ảnh hầu hết khó khả thi. Người ta sử dụng các phép toán tương đương hoặc biến
đổi sang miền xử lý khác để dễ tính tốn. Sau khi xử lý dễ dàng hơn được thực hiện, dùng
biến đổi ngược để đưa về miền xác định ban đầu. Các biến đổi thường gặp trong xử lý ảnh:
Biến đổi Fourier, Cosin, Sin.
Biến đổi (mơ tả) ảnh bằng tích chập, tích Kronecker
Các biến đổi khác như KL (Karhumen Loeve), Hadamard, …
Các thuật toán triển khai việc nâng cao chất lượng ảnh hầu hết dựa trên các kỹ thuật trong
miền điểm, khơng gian và tần số. Tốn tử điểm là phép biến đổi đối với từng điểm ảnh
đang xét, không liên quan đến các điểm lân cận khác, trong khi đó, tốn tử khơng gian sử
dụng các điểm lân cận để quy chiếu tới điểm ảnh đang xét. Một số phép biến đổi có tính
tốn phức tạp được chuyển sang miền tần số để thực hiện, kết quả cuối cùng được chuyển
trở lại miền không gian nhờ các biến đổi ngược.
Nén ảnh: nếu lưu trữ ảnh trực tiếp từ các ảnh thơ, địi hỏi dung lượng bộ nhớ cực lớn và
khơng hiệu quả theo quan điểm ứng dụng và công nghệ. Thơng thường, các ảnh thơ đó
được đặc tả (biểu diễn) lại (hay đơn giản là mã hoá) theo các đặc điểm của từ bước trích
xuất đặc trưng ảnh (Image Features) như: biên ảnh, góc ảnh, … Các giai đoạn nén ảnh có
thể chia ra thế hệ 1, thế hệ 2. Hiện nay, các chuẩn MPEG được dùng với ảnh đang phát huy
hiệu quả.

18

Trên là các bước cơ bản tổng quan trong các khâu xử lý ảnh. Trong thực tế, các quá
trình sử dụng ảnh số không nhất thiết phải qua hết các khâu đó và thứ tự các khâu
cũng khác tùy theo đặc điểm ứng dụng. Hình dưới đây sẽ cho sơ đồ phân tích và xử
lý ảnh và lưu đồ thơng tin giữa các bước một cách khá đầy đủ hơn.

Hình 2.19 Sơ đồ phân tích và xử lý ảnh và lưu đồ thông tin giữa các khối
2.3. Máy học (Machine Learning – ML)
2.3.1. Định nghĩa
Máy học hay Học máy là khả năng tự học hỏi dựa trên dữ liệu đưa vào mà khơng cần phải
được lập trình cụ thể (theo Wiki). Chi tiết hơn khi chúng ta muốn máy tính thực hiện một
tác vụ hay mục tiêu nào đó (các mục tiêu sẽ được gắn liền với một tập các kỹ thuật để đạt
được mục tiêu đó, bao gồm các kiểu dữ liệu, mơ hình, kỹ thuật huấn luyện, …), chúng ta
sẽ cho chúng học từ các dữ liệu có sẵn để máy tính rút ra được những đặc trưng, quy luật
riêng của dữ liệu đó, từ đó áp dụng các quy luật này để có thể thực hiện tác vụ mà chúng
ta mong muốn.
Cụ thể trình tự dịng cơng việc cần thực hiện là:
Máy tính sẽ được cấp một số lượng dữ liệu ban đầu.
Máy tính sẽ xử lý các dữ liệu cho đó bằng một thuật tốn nào đó mà thuật tốn này sẽ
được dùng để nhận biết các mẫu (hoặc quy luật, tính chất nào đó) của dữ liệu (trích xuất
đặc trưng của dữ liệu và vector hóa thành dạng số).
Từ các đặc trưng đã chọn lọc trên, nhờ các thuật tốn ML máy tính sẽ “học” từ dữ liệu
đó để rút ra được những kiến thức ẩn trong dữ liệu.

19

Sau khi hồn thành các q trình trên, máy tính bây giờ có thể dự đốn một mẫu nào đó
mà nó chưa gặp dựa trên những dữ liệu nó học được.
ML khác với các lập trình cụ thể ở chỗ máy tính sẽ khơng hồn tồn tn theo các chỉ dẫn
từ ngơn ngữ lập trình cụ thể mà nó tổng quát được ra kiến thức ẩn trong dữ liệu từ các thuật
toán trên và dùng kiến thức học được để đáp ứng một yêu cầu đầu ra mong muốn của con
người.
2.3.2. Các thuật ngữ về các thành phần chính
Dữ liệu (data): thơng thường thì chúng ta quan tâm đến một bộ mẫu (cịn được gọi là điểm
dữ liệu, ví dụ hoặc trường hợp). Để làm việc với dữ liệu một cách hữu ích, chúng ta thường
cần có một cách biễu diễn chúng phù hợp dưới dạng các thuộc tính số (vector hóa). Mỗi
mẫu thường bao gồm một bộ thuộc tính số gọi là đặc trưng (feature). Trong các bài toán
ML, một đặc trưng đặc biệt được chọn làm mục tiêu dự đốn, (cịn được gọi là nhãn (label)
hoặc biến phụ thuộc). Tập hợp đặc trưng và nhãn của một mẫu gọi là đầu vào, hiệp biến
hoặc biến độc lập.
Nhiễu (outliers, noise): là những dữ liệu không tuân theo tập hợp cấu trúc của phần lớn
dữ liệu. Những dữ liệu này nằm thường nằm riêng biệt hoặc mang các tính chất khác hoàn
toàn so với tập hợp toàn bộ dữ liệu, mang các đặc trưng mà chúng ta không mong muốn
hay làm cho các thuật tốn bị nhầm lẫn, chạy khơng hiệu quả. Dữ liệu nhiễu luôn luôn tồn
tại trong một tập dữ liệu (xuất hiện càng nhiều thì tập dữ liệu càng khó để sử dụng cho máy
học) và nên được xử lý trước khi nạp thuật tốn vào.
Mơ hình (model): Trí óc con người đã nghĩ ra những cách lập luận không thể đo lường
được hay đôi khi không có những lời giải thích hợp lý cho những sự kiện khác nhau trong
cuộc sống. Đôi khi, một vấn đề khó có thể khó giải quyết bằng tính tốn thay vì sử dụng
cách suy luận trí óc logic con người. Điều này làm phát sinh hai lớp mơ hình: mơ hình cấu
trúc và mơ hình chức năng. Các mơ hình cấu trúc nhằm mục đích bắt chước một cách đơn
sơ các hoạt động thơng minh cơ bản của tâm trí con người như lý luận và logic. Mơ hình
chức năng đề cập đến dữ liệu tương quan với đối tác được tính tốn của nó. Trong ML, ta
chỉ dùng mơ hình chức năng và gọi tắt đây là mơ hình. Phần lớn ML đều liên quan đến
việc biến đổi dữ liệu theo một cách nào đó. Ở đây mơ hình là một hệ thống tính tốn nhận
đầu vào là một dạng dữ liệu và sau đó trả về kết quả dự đốn, có thể ở một dạng dữ liệu

khác. Cụ thể, ta quan tâm tới các mơ hình thống kê mà ta có thể ước lượng được từ dữ liệu.
20

Hàm mục tiêu (objective function): để có thể phát triển một tiêu chuẩn tốn học chính
quy cho ML, chúng ta cần những phép đo chính quy xem mơ hình đang tốt (hoặc tệ) như
thế nào thì trong ML, ta gọi chúng là các hàm mục tiêu. Theo quy ước, ta thường định
nghĩa các hàm mục tiêu sao cho giá trị càng thấp thì mơ hình càng tốt. Chính vì ta mong
muốn hàm có giá trị thấp, nó cịn được gọi là hàm mất mát (loss function hay cost function).
2.3.3. Phân loại
Các bài toán ML chia chủ yếu vào 4 dạng chính sau:
1. Học có giám sát (Supervised Learning)

Hình 2.20 Mơ hình học có giám sát
Học có giám sát giải quyết tác vụ dự đoán đầu ra hay mục tiêu (outcome) của một dữ liệu
mới bằng cách học với một bộ dữ liệu đã có đăc trưng và mục tiêu cho trước. Các mục tiêu
thường được gọi là nhãn, phần lớn được ký hiệu bằng y. Dữ liệu đầu vào, thường được gọi
là đặc trưng thông thường được ký hiệu là x. Mỗi cặp (đặc trưng, nhãn) mà đã cho trước
được gọi là một mẫu. Ta ký hiệu một mẫu cụ thể với một chỉ số dưới, thường là i, ví dụ
(𝑥𝑖 , 𝑦𝑖 ). Một tập dữ liệu cho trước là một tập của n mẫu {𝑥𝑖 , 𝑦𝑖 }𝑛𝑖=1 . Mục đích của chúng ta
là xây dựng một mơ hình 𝑓0 ánh xạ đầu vào bất kỳ 𝑥𝑖 tới một dự đốn 𝑦𝑖 = 𝑓0 (𝑥𝑖 ). Học có
giám sát là nhóm phổ biến nhất trong các thuật tốn ML. Theo mơ hình tốn, ta có thể biễu
diễn gọn lại như sau:
𝑋 = {𝑥1 , 𝑥2 , … 𝑥𝑛 }: đặc trưng cho trước
𝑌 = {𝑦1 , 𝑦2 , … 𝑦𝑛 }: nhãn cho trước
Với tổng bộ mẫu (𝑥𝑖 , 𝑦𝑖 ) = 𝑋𝘹𝑌 là tập dữ liệu huấn luyện (𝑥𝑖 , 𝑦𝑖 là các véctơ)
Từ dữ liệu huấn luyện mơ hình cần tìm ánh xạ: 𝑓0 sao cho 𝑦𝑖 ≈ 𝑓0 (𝑥𝑖 ), Ɐ𝑖 = 1,2, … , 𝑁
Mục đích là xấp xỉ hàm số 𝑓0 thật tốt để khi có một dữ liệu có đặc trưng x mới, chúng ta
có thể tính được nhãn tương ứng của nó 𝑦 = 𝑓0 (𝑥). Từ đây học có giám sát tiếp tục chia
nhỏ ra thành hai loại phụ khác: thuật toán Hồi quy và thuật toán Phân loại.

2. Học không giám sát (Unsupervised Learning)
21

Hình 2.21 Mơ hình học khơng giám sát
Trong thuật tốn này dữ liệu đầu vào của chúng ta chỉ có các đặc trưng chứ khơng có các
nhãn đã cho trước nữa. Thuật tốn Học khơng giám sát sẽ dựa vào cấu trúc của dữ liệu để
thực hiện một tác vụ, cơng việc nào đó, ví dụ như phân cụm cho dữ liệu hay giảm số chiều
dữ liệu để thuận tiện cho trong việc lưu trữ và tính tốn. Quy về theo ngơn ngữ tốn học,
thuật tốn này chỉ có ta X mà không hề biết nhãn Y tương ứng. Đây chính là điểm khác biệt
chính so với Học có giám sát, thể hiện ở chỗ sẽ có nhiều đáp án khác nhau và khơng có
một trả lời nào chính xác hoàn toàn cho mỗi đặc trưng đầu vào. Quyết định lựa chọn đầu
ra hay nhãn như thế nào là tùy vào mục tiêu của người lập trình. Học khơng giám sát cũng
được chia ra 2 loại nhỏ hơn là: thuật toán phân cụm và thuật toán liên kết (Assocition).
3. Học bán giám sát (Semi-Supervised Learning)
Các bài toán khi chúng ta có một lượng lớn dữ liệu có đặc trưng X nhưng chỉ một phần
trong chúng được gán nhãn được gọi là Học bán giám sát. Những bài tốn thuộc nhóm này
nằm giữa hai nhóm đã được nêu bên trên và chính là bài tốn kết hợp cho 2 thuật tốn Học
có giám sát và Học khơng giám sát.
4. Học tăng cường (Reinforcement Learning)
Học tăng cường là các bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên
hồn cảnh để đạt được lợi ích cao nhất (maximizing the performance). Hiện tại, Học tăng
cường chủ yếu được áp dụng vào Lý thuyết trò chơi (Game Theory), các thuật toán cần
xác định nước đi tiếp theo để đạt được điểm số cao nhất.
2.3.4. Các kiến thức cần biết
Để giải quyết một bài tốn ML, ta cần hồn thành 3 bước chính như sau: Mơ hình hóa
(Modeling), Máy học (Learning) và Suy luận (Inference).
Mơ hình hóa: là việc đi tìm mơt mơ hình thích hợp cho bài tốn cần giải quyết. Với mỗi
bài tốn khác nhau ta cần tìm một mơ hình thích hợp khác nhau để giải quyết. Việc này
được thực hiện bằng cách quan sát cấu trúc của dữ liệu, từ đó tìm ra quy luật và sử dụng

22

một mơ hình có thể tổng qt được quy luật đó. Một mơ hình của bài tốn ML thường sẽ
gồm các đơn vị sau: Trọng số - thường được kí hiệu là w (weight), Hệ số điều chỉnh (hay
Độ dời) – thường được kí hiệu là b (bias).
Máy học: là bước tiến hành điều chỉnh và tối ưu các giá trị Tham số (Tham số bao gồm
Trọng số và Hệ số điều chỉnh) để mơ hình có thể tìm ra quy luật phù hợp đối với mỗi bài
toán (với Học có giám sát là tìm được ánh xạ, Học khơng giám sát là tìm được đặc trưng
tổng quát, …). Quá trình này được thực hiện bằng cách máy sẽ tự động cập nhật liên tục
các Tham số đến khi tối ưu hóa được hàm mục tiêu (đây chính là đơn vị để đo một quy luật
tìm ra có thực sự phù hợp đối với mỗi mơ hình hay khơng). Cụ thể như sau: ta kí hiệu nhãn
mà máy dự đốn được sau khi đã được huấn luyện là 𝑦̂ (y mũ); giá trị nhãn thực sự của đặc
trưng đó ngồi thực tế sẽ là y. Một mơ hình gọi là tốt hiển nhiên theo mong muốn của
chúng ta sẽ là sai số của y và 𝑦̂ là nhỏ nhất (tức là máy sẽ dự đoán ra gần đúng nhất so với
thực tế). Người ta gọi hàm số thể hiện độ sai số của hai đại lượng này chính là hàm mục
tiêu và quá trình làm cho hàm mục tiêu nhỏ nhất là tối ưu hóa. Về kí hiệu tốn ta sẽ có:
𝐿(𝜃) = |𝑦 − 𝑦̂|
Với θ chính là Tham số được điều chỉnh
Người ta gọi hàm này là hám mất mát (Loss function) vì nó thể hiện độ mất mát của mơ
hình so với thực tế. Các giá trị Tham số khi đã tìm được làm cho hàm số trên đạt giá trị
nhỏ nhất (được tối ưu) gọi là Tham số huấn luyện (hay điểm tối ưu).
Kết luận: là bước dự đoán nhãn (output) của dữ liệu mới dựa trên các Tham số huấn luyện
tìm được và đã được thêm vào mơ hình ở bước trên. So với hai bước đầu việc kết luận
thường là đơn giản nhất. Một yêu cầu thiết yếu và bắt buộc phải tuân theo là tập dữ liệu
mới dùng để kiểm tra mơ hình khơng được phép dùng trước đó để huấn luyện mơ hình
(thường có nhiều trường hợp do vơ ý đã vi phạm nguyên tắc này).
2.3.4.1. Đánh giá hàm mất mát
Hàm số được biểu diễn như trên chỉ là ở dạng đơn giản để ta có thể hiểu được hàm mất
mát. Đây là phương pháp để định lượng khoảng cách giữa giá trị thực và giá trị dự đốn

của mơ hình (mức độ khớp). Độ mất mát thường là một số không âm và có giá trị càng nhỏ
càng tốt. Khi các dự đốn của máy đạt đến mức hồn hảo, chúng sẽ có độ mất mát bằng 0
(sẽ khơng có trường hợp bài tốn thực tế có được kết quả như thế này). Thông thường trong

23

thực tế, ta không dùng dạng đơn giản như trên mà dùng các hàm số sau để đo hàm mất
mát:
1. Hàm mất mát trung bình bình phương (hay cịn được gọi dưới nhiều tên khác như
trung bình bình phương của lỗi, sai số tồn phương trung bình – Mean Square Error
(MSE) gọi tắt là Mất mát L2):

[2.3]
Ưu điểm:
Rất quan trọng và được dùng phổ biến trong các cài đặt thiết lập của nhiều bài tốn trong
thực tế.
Có thể dễ dàng phân tích được đạo hàm.
Hạn chế:
Khơng kháng nhiễu tốt (nhiễu nếu tuân theo phân phối Gauss vẫn dùng hàm trên được).
2. Hàm mất mát trung bình tuyệt đối ( hay cịn được gọi là trung bình tuyệt đối lỗi hay
sai số tuyệt đối trung bình – Mean Absolute Error (MAE) gọi tắt là Mất mát L1):

[2.3]
Ưu điểm:
Kháng nhiễu tốt (với những nhiễu tn theo phân phối Laplace).
Hạn chế:
Khơng tính đạo hàm trực tiếp được.
Không khả vi tại mọi điểm.
3. Hàm mất mát Hubber:

[2.3]
Ưu điểm:
Kết hợp cả hai của hàm mất mát L1 và L2.
Kháng nhiễu tốt và khả vi tại mọi điểm.
Hạn chế:
24

Thêm nhiều tham số hơn.
Khơng tính đạo hàm trực tiếp được.
So sánh giữa các hàm mất mát:
Hàm mất mát L2 có tính khả vi nhất và có thể tính được được đạo hàm một cách trực tiếp.
Vì thế khi gặp một bài toán ML, ta thường sẽ dùng hàm L2 nếu có thể. Hàm Hubber là kết
hợp của cả L1 và L2 nên sẽ phức tạp nhất nhưng một vài bài toán với những phân phối đặc
biệt cần phải dùng hàm Hubber. Ngoài ra, mất mát L2 tương ứng với giả sử rằng dữ liệu
của chúng ta có nhiễu Gauss, trong khi mất mát L1 tương ứng với giả sử nhiễu đến từ một
phân phối Laplace.
Mở rộng:
4. Hàm mất mát Entropy chéo (Cross Entropy): đối với những bài toán đầu ra là phân
phối xác suất, ta không thể dùng 3 hàm trên mà phải dùng những hàm riêng trong xác
suất, cụ thể ta có hàm mất mát Entropy chéo:
Hàm mất mát Entropy chéo được sử dụng rộng rãi khi tính khoảng cách giữa hai phân
phối xác suất. Entropy chéo giữa hai phân phối p và q được định nghĩa là:

𝐻 = (𝑞, 𝑝) = − ∑𝑖 𝑝𝑖 log 𝑞𝑖

[2.4]

Với log 𝑞𝑖 là logarit cơ số ⅇ của xác suất 𝑞𝑖

2.3.4.2. Các trường hợp xảy ra của mơ hình
Khi một mơ hình được xây dựng, sẽ có các trường hợp sau xảy ra:

Hình 2.22 Các trường hợp xảy ra của một mơ hình
Mơ hình được xây dựng khơng khớp với dữ liệu được huấn luyện (khơng khái qt hóa
hoặc tổng qt được các đặc trưng của mẫu đầu vào), khi đem mơ hình dự đốn đầu ra của
tập dữ liệu mới (tập dữ liệu kiểm tra) cũng khơng có độ chính xác cao, ta gọi đây là mơ
hình bị dưới khớp (underfitted).

25

Nghiên cứu lý thuyết trí tuệ nhân tạo và ứng dụng trên ô tô

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về