Tải bản đầy đủ (.pdf) (26 trang)

Báo cáo giữa kì: XÂY DỰNG HỆ THỐNG NHẬN DIỆN NGƯỜI ( HUMAN DETECTION)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.61 MB, 26 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MƠN KỸ THUẬT MÁY TÍNH – VIỄN THƠNG

BÁO CÁO GIỮA KÌ
XÂY DỰNG HỆ THỐNG NHẬN DIỆN
NGƯỜI ( HUMAN DETECTION)

NGÀNH CƠNG NGHỆ KỸ THUẬT MÁY TÍNH

Hướng dẫn :

TS. TRẦN VŨ HỒNG

Sinh viên

TRẦN NGUYỄN
THANH DUY

MSSV: 17119064

LÊ ANH KHƠI

MSSV: 17119103

:

Hồ Chí Minh, Tháng 11/2020


Mục lục


LỜI CẢM ƠN ...................................................................................................................... 1
CHƯƠNG 1: MỤC TIÊU CỦA PROJECT ........................................................................ 1
CHƯƠNG 2: LÝ DO CHỌN PROJECT ............................................................................ 3
CHƯƠNG 3: CÁC THỬ THÁCH CỦA PROJECT ........................................................... 4
3.1

Nhiễu do background ............................................................................................. 4

3.2 Ánh sáng .................................................................................................................. 4
3.3

Kích thước người thay đổi ..................................................................................... 4

3.4

Mơ hình để train phải phù hợp ............................................................................... 5

CHƯỚNG 4: CÁC PHƯƠNG PHÁP ĐÃ ĐƯỢC ĐỀ XUẤT ........................................... 6
4.1

Haar Cascades ........................................................................................................ 7

4.2

Histogram of Oriented Gradients ......................................................................... 10

4.3

SSD ...................................................................................................................... 16


4.4

Faster RCNN ...................................................................................................... 16

CHƯƠNG 5: LỰA CHỌN GIẢI PHÁP ........................................................................... 20
CHƯƠNG 6: TẬP DỮ LIỆU DỰ KIẾN SẼ SỬ DỤNG .................................................. 22
CHƯƠNG 7: PHƯƠNG PHÁP ĐÁNH GIÁ DỰ KIẾN SẼ SỬ DỤNG.......................... 22
Precision vs Recall..................................................................................................... 22
IoU

....................................................................................................................... 24


LỜI CẢM ƠN
Để hoàn thành đề tài nghiên cứu này, lời đầu tiên tôi xin chân thành cảm ơn các thầy
cô giáo Trường Đại học Sư Phạm Kỹ Thuật TP.HCM nói chung và các thầy cơ trong Khoa
Điện - Điện tử nói riêng, những người đã dạy dỗ, trang bị cho tôi những kiến thức nền tảng
và chuyên ngành bổ ích, giúp tơi có được cơ sở lý thuyết vững vàng và tạo điều kiện giúp
đỡ tơi trong q trình học tập.
Đặc biệt, tôi xin chân thành cảm ơn thầy Trần Vũ Hồng đã tận tình giúp đỡ, trực tiếp
chỉ bảo, đưa ra những định hướng nghiên cứu cũng như hướng giải quyết một số vấn đề
cho tôi trong suốt thời gian nghiên cứu đề tài. Trong thời gian làm việc với thầy, tôi không
ngừng tiếp thu thêm nhiều kiến thức, thái độ nghiên cứu khoa học nghiêm túc, hiệu quả,
đây là điều rất cần thiết trong quá trình học tập và công tác sau này.
Đồng thời tôi cũng gửi lời cảm ơn tới bạn bè, các anh chị trong Khoa Điện - Điện tử
đã góp ý, chia sẻ kinh nghiệm, hỗ trợ trong quá trình nghiên cứu và thực hiện đề tài tốt
nghiệp.
Tôi xin chân thành cảm ơn!

TP.HCM, ngày 29 tháng 11 năm 2020

Người thực hiện đề tài

1


CHƯƠNG 1: MỤC TIÊU CỦA PROJECT

Công nghệ thông tin ngày càng phát triển và có vai trị hết sức quan trọng
không thể thiếu trong cuộc sống hiện đại. Con người ngày càng tạo ra những cỗ
máy thơng minh có khả năng tự nhận biết và xử lí được các cơng việc một cách tự
động, phục vụ cho lợi ích của con người. Trong những năm gần đây, một trong
những bài toán nhận được nhiều sự quan tâm và tốn nhiều cơng sức nhất của lĩnh
vực cơng nghệ thơng tin, đó chính là bài tốn nhận dạng. Tuy mới xuất hiện chưa
lâu nhưng nó đã rất được quan tâm vì tính ứng dụng thực tế của bài toán cũng như
sự phức tạp của nó. Một trong số đó là bài tốn nhận dạng con người, từ đó có thể biết
được phát hiện sự kiện bất thường, đặc điểm dáng đi của con người, đếm số người, xác
định và theo dõi người, phát hiện người đi bộ, phân loại giới tính, phát hiện ngã của
người cao tuổi, v.v.

2


CHƯƠNG 2: LÝ DO CHỌN PROJECT
Nhận dạng con người là một đề tài có tính ứng dụng cao trong thực tiễn. Bài tốn
nhận dạng con người có nhiều ứng dụng như:
 Phát hiện sự kiện bất thường
 Đặc điểm dáng đi của con người
 Đếm số người, xác định và theo dõi người
 Phát hiện người đi bộ
 Phát hiện và cảnh báo khoảng cách cách ly an toàn do dịch bệnh covid-19 hiện tại

Đề tài áp dụng những kiến thức thực tế mà thầy đã dạy trên lớp, vừa giúp sinh viên
tìm hiểu những điều mới về lĩnh vực AI và góp phần củng cố kiến thức đã học.

3


CHƯƠNG 3: CÁC THỬ THÁCH CỦA PROJECT

3.1 Nhiễu do background
Hầu hết các bài toán liên quan đến nhận dạng xử lý ảnh đề phải gặp vấn đề về việc
nhiễm do background và đề này này cũng không ngoại lệ. Để có thể chiết xuất lấy phần
cánh tay và loại bỏ phần backgroud sẽ khá phức tạp do background sẽ không có định, tùy
vào mỗi người mà cammera nhìn thấy thì background sẽ thay đổi. Nếu background có
màu đen hồn tồn , hay một màu nào đó tương phản với màu da và đồng màu trên cả
khung hình thì việc xử lý sẽ dễ dàng hơn. Nhưng đời không như là mơ, hầu hết các
trường hợp khi ứng dụng thực tế sẽ chẳng có nơi nào như vậy. Mơi trường hoạt động của
project sẽ là những nơi đông người,trong nhà …. Vì vậy xử lý nhiễu background là vấn
đề bắt buộc phải quan tâm nếu muốn đề tài có thể ứng dụng được.
3.2 Ánh sáng
Giống như background thì ánh sáng cũng là yếu tố quan trọng ảnh hưởng lớn để kết
quả đánh giá của model. Việc thiếu hay thừa ánh sáng sẽ dẫn đến độ tương phản giữa bàn
tay và background không rõ ràng, việc này dẫn đến nhận dạng sai ký tự.
3.3 Kích thước người thay đổi
Trong khi nhận dạng, việc kích thước của người, ví dụ như chiều cao, và khoảng
cách giữa nhiều người với ảnh hưởng rất nhiều đến việc phận loại, phát hiện, việc này sẽ
rất phụ thuộc vào bộ dataset của chúng ta, nếu bộ dataset đủ chi tiết để phát hiện người ở
cự li xa thì việc này sẽ đc giải quyết, và nếu ngược lại thì việc phát hiện của hệ thống sẽ
bị sai sót, dẫn đến độ chính xác sẽ giảm đi khơng mong muốn

4



3.4

Mơ hình để train phải phù hợp
Do u cầu một hệ thống có thể đáp ứng được thời gian thực nên, việc lựa

chọn các giải pháp giải quyết vấn đề phải tối ưu với phần cứng hiện có, nếu lựa chọn khơng
phù hợp có thể dẫn đế độ chính xác của hệ thống không được như mong muốn, làm cho hệ
thống giật lag, độ trễ lớn, delay nhiều. Do đó việc đánh đổi giữa độ chính xác và tốc độ của
hệ thống là một bài tóa rất khó mà nhóm phải giải quyết

5


CHƯỚNG 4: CÁC PHƯƠNG PHÁP ĐÃ ĐƯỢC ĐỀ XUẤT
Theo khảo sát của chúng tôi qua các bài báo từ nước ngồi, có rất nhiều phương
pháp được đề xuất và thực hiện trước đây. Trong bài nguyên cứu này chúng tôi sẽ chọn ra
4 phương pháp để đánh giá.





Haar Cascades
Histograms of Oriented Gradients
SSD Mobilenet
Faster RCNN

6



4.1 Haar Cascades
Đặc trưng Haar áp dụng trên nhận diện vật thể được công bố bởi Paul Viola và Michael
Jones trong bài luận “Rapid Object Detection using a Boosted Cascade of Simple
Features” vào năm 2001. Sau đó cơng nghệ này được ứng dụng rộng rãi trong việc nhận
diện khuôn mặt.
Về cơ bản là sử dụng các đặc trưng loại Haar và sau đó sử dụng thật nhiều đặc trưng đó
qua nhiều lượt (cascade) để tạo thành một cỗ máy nhận diện
Đặc trưng Haar:
Sử dụng bộ lọc khác một chút so với các cửa sổ bộ lọc bên CNN. Ở CNN, bộ lọc chiếm
toàn bộ cửa sổ trượt, trong khi ở đặc trưng Haar, bộ lọc chỉ chiếm một phần trong cửa sổ
trượt. Điều đó được minh hoạ trên ảnh sau:

Các đặc trưng thường gặp:
- Đặc trưng cạnh (edge feature)
- Đặc trưng đường (line feature)
- Đặc trưng xung quanh tâm (center-surround features)
Và cịn có đặc trưng như Đặc trưng 4 hình (four-rectangle featrures)
Cửa sổ trượt được đặt ngay ngắn vừa gọn để nhìn được phần đang qt. Bộ lọc đầu trong
đó đang tìm một "cạnh" phân cách giữa mắt/lơng mày với mũi, vì ở đoạn đọc có chênh
lệch về màu đáng kể. Ở bộ lọc sau, mơ hình đang tìm đường sống mũi, vì ở đó sẽ có màu
sáng hơn so với 2 bên. Bộ lọc Haar chỉ nhìn cụ thể vào một vùng trong cửa sổ để tìm
bằng phương pháp thích hợp nhất: ví dụ trong khn mặt thì mũi lúc nào cũng ở chính
giữa chứ khơng ở các góc, nên ta cần tập trung vào đường giữa và không cần nhìn vào
các góc.
7


Nhận biết bộ lọc Haar tốt

Có rất nhiều bộ lộc haar như vậy trong 1 bức hình đã được quét. Ta có thể sử dụng
Adaboost (adaptive boosting) để kết hợp các bộ lọc trên
Boosting:
Với các classifier yếu khác nhau, kết hợp chúng để tạo thành một classifier mạnh hơn.
Việc kết hợp tương tự như logic AND/OR phụ thuộc vào kết quả được đưa ra. Cấu trả lời
cuối cùng sẽ cho kết quả gần với thực tế nhất.

8


Adaptive:
Đối với Boosting thì các classifier yếu trên độ quan trọng ngang nhau và tất cả đều được
tận dụng giống nhau trong việc tính tốn kết quả, nhưng sau khi qua Adaboost, nhưng
classifier mạch hơn sẽ được chú trọng hơn, có độ ưu tiên cao hơn.

Theo hình thì kết quả là 2 bộ lọc ở mục trên là những bộ lọc tốt nhất theo như Adaboost.
Phương pháp quét Haar Cascade
Việc Cascade đó được thiết kế như sau: trong rất nhiều đặc trưng, chia chúng ra thành rất
nhiều bước. Trong đó, mỗi lần cửa sổ trượt qua một vùng bước ảnh, từng bước một sẽ
được xử lý: nếu bước 1 nhận đúng đối tượng, chúng ta chuyển qua bước 2; và nếu khơng
thì chúng ta bỏ qua vùng đó và trượt cửa sổ tiếp tục đi chỗ khác. Nếu một vùng đạt đủ
yêu cầu đặc trưng của toàn bộ các bước test mặt đó thì cửa sổ đó có chứa đối tượng.

Các vùng không chứa đối tượng sẽ bị vứt vào hộp đỏ kia và không bao giờ được nhớ tới
nữa, và các vùng có đối tượng sẽ được đưa vào hộp xanh chờ để xử lý tiếp.

9


Trong q trình train, mơ hình sẽ lựa chọn các classifier tốt nhất với độ tự tin hợp lý để

ưu tiên việc false negative không được phép tồn tại — vì nếu chúng ta gặp false positive,
các bước sau sẽ loại ví dụ đó cho chúng ta.
Sau đó các cửa sổ nằm trong ô xanh sẽ được trả lại làm các ơ chứa đối tượng: nếu có các
ơ đè lên nhau cùng chứa một mặt, các toạ độ các góc sẽ được cộng vào lấy trung bình.

4.2 Histogram of Oriented Gradients
HOG là viết tắt của Histogram of Oriented Gradient - một loại “feature descriptor”. Mục
đích của “featura descriptor” là trừu tượng hóa đối tượng bằng cách trích xuất ra những
đặc trưng của đối tượng đó và bỏ đi những thơng tin khơng hữu ích. Vì vậy, HOG được sử
dụng chủ yếu để mơ tả hình dạng và sự xuất hiện của một đối tượng trong ảnh.

Bản chất của phương pháp HOG là sử dụng thông tin về sự phân bố của các cường độ
gradient (intensity gradient) hoặc của hướng biên (edge directins) để mô tả các đối tượng
cục bộ trong ảnh. Các toán tử HOG được cài đặt bằng cách chia nhỏ một bức ảnh thành
các vùng con, được gọi là “tế bào” (cells) và với mỗi cell, ta sẽ tính tốn một histogram về
các hướng của gradients cho các điểm nằm trong cell. Ghép các histogram lại với nhau ta
sẽ có một biểu diễn cho bức ảnh ban đầu. Để tăng cường hiệu năng nhận dạng, các
histogram cục bộ có thể được chuẩn hóa về độ tương phản bằng cách tính một ngưỡng
cường độ trong một vùng lớn hơn cell, gọi là các khối (blocks) và sử dụng giá trị ngưỡng
đó để chuẩn hóa tất cả các cell trong khối. Kết quả sau bước chuẩn hóa sẽ là một vector
đặc trưng có tính bất biến cao hơn đối với các thay đổi về điều kiện ánh sáng.
10


Có 5 bước cơ bản để xây dựng một vector HOG cho hình ảnh, bao gồm:
1. Tiền xử lý:
Trong bài tốn này, để thuận tiện cho việc chia đều hình ảnh thành các khối, ơ và
tính tốn đặc trưng ở các bước tiếp theo, chúng ta cần resize kích thước tất cả các
hình ảnh trong tập dữ liệu về một kích thước chung.


2. Tính gradient
Đây là bước đầu tiên, được thực hiện bằng hai phép nhân chập ảnh gốc với 2 chiều,
tương ứng với các toán tử lấy đạo hàm theo hai hướng Ox và Oy.

Và nếu bạn có một ảnh input là I, ta sẽ có 2 ảnh đạo hàm riêng theo 2 hướng đó,
theo cơng thức:

Khi đó, bạn có thể tính được Gradient bao gồm hai thành phần cường độ(Gradient
Magnitude) và hướng(Gradient Derection) theo công thức (*):

11


Chúng ta sẽ áp dụng các công thức trên để tính được gradient của điểm ảnh này:

Sau bước này, kết quả thu được sẽ là:

3. Tính vector đặc trưng cho từng ơ (cells)
Để tính tốn vector đặc trưng cho từng ô (cell), chúng ta cần chia hình ảnh thành
các block, mỗi block lại chia đều thành các cell. Để xác định được số block, chúng
ta sẽ sử dụng công thức sau:

12


Sau khi xác định số block và kích thước mỗi block, cell, để tính tốn vector đặc trưng cho
từng cell, chúng ta cần:
1. Chia không gian hướng thành p bin(số chiều vector đặc trưng của ơ).
2. Rời rạc hóa góc hướng nghiêng tại mỗi điểm ảnh vào trong các bin.
Giả sử góc hướng nghiêng tại pixel ở vị trí (x,y) có độ lớn là alpha(x,y)

Trường hợp rời rạc hóa unsigned-HOG với p=9:

Trường hợp rời rạc hóa signed-HOG với p=18:

Giá trị bin được định lượng bởi tổng cường độ biến thiên của các pixels thuộc về
bin đó. Sau khi tính tốn đặc trưng ô, ta sẽ nối các vector đặc trưng ô để thu được
vector đặc trưng khối. Số chiều vector đặc trưng khối tính theo cơng thức :

13


4. Chuẩn hóa khối (blocks)
Để tăng cường hiệu năng nhận dạng, các histogram cục bộ sẽ được chuẩn hóa về
độ tương phản bằng cách tính một ngưỡng cường độ trong một khối và sử dụng giá
trị đó để chuẩn hóa tất cả các ô trong khối. Kết quả sau bước chuẩn hóa sẽ là một
vector đặc trưng có tính bất biến cao hơn đối với các thay đổi về điều kiện ánh
sáng.

Có nhiều phương pháp có thể được dùng để chuẩn hóa khối. Gọi v là vector cần
chuẩn hóa chứa tất cả các histogram của mội khối. ‖v(k)‖ là giá trị chuẩn hóa của v
theo các chuẩn k=1, 3 và e là một hằng số nhỏ. Khi đó, các giá trị chuẩn hóa có thể
tính bằng một trong những cơng thức sau:

14


Ghép các vector đặc trưng khối sẽ thu được vector đặc trưng R-HOG cho ảnh. Số
chiều vector đặc trưng ảnh tính theo cơng thức :

5. Tính tốn vector HOG




Với mỗi hình ảnh kích thước 64x128, chia thành các block 16x16 chồng nhau, sẽ
có 7 block ngang và 15 block dọc, nên sẽ có 7x15 = 105 blocks.



Mỗi block gồm 4 cell. Khi áp dụng biểu đồ 9-bin cho mỗi cell, mỗi block sẽ được
đại diện bởi một vector có kích thước 36x1.



Vì vậy, khi nối tất cả các vector trong một block lại với nhau, ta sẽ thu được vector
đặc trưng HOG của ảnh có kích thước 105x36x1 = 3780x1.

15


4.3 SSD
SSD được thiết kế để phát hiện đối tượng trong thời gian thực. SSD tăng tốc quá trình
bằng cách loại bỏ sự cần thiết của mạng đề xuất khu vực. Để giải quyết về vấn đề độ
chính xác giảm, SSD áp dụng một vài cải tiến bao gồm các feature map đa kích thước
và sử dụng các bounding-box mặc định. Những cải tiến này cho phép SSD tiến gần
được với độ chính xác của Faster R-CNN nhưng lại có thể sử dụng hình ảnh có độ
phân giải thấp hơn, giúp đẩy tốc độ cao hơn.

Hình 4. Ssd Architecture

4.4


Faster RCNN

Faster R-CNN là mơ hình tốt nhất của họ nhà R-CNN, được công bố đầu tiên vào
năm 2015. Phiên bản đầu tiên của Faster R-CNN là R-CNN, với nguyên lí đơn giản.
Trong các bài báo của các mạng họ R-CNN, sự phát triển giữa các phiên bản dựa vào
hiệu năng tính tốn (tích hợp các giai đoạn đào tạo khác nhau), giảm thời gian thử
nghiệm và cải thiện hiệu suất (mAP). Các mạng này thường bao gồm:





Một thuật tốn để tìm ra các "bouding box" hoặc các vị trí của đối tượng
có thể có trong ảnh.
Giai đoạn lấy ra các đặc trưng của đối tượng này, thường sử dụng mạng
CNN.
Một lớp phân loại để dự đoán lớp này thuộc đối tường nào
Một lớp hồi quy để làm các tọa độ của "bouding box" giới hạn đối tượng
chính xác hơn.

16


Hình 1. Model Faster R-CNN.
Faster R-CNN kết hợp 2 modules. Module thứ 1 là sử dụng DNN để đề xuất ra các
vùng và module thứ 2 là mơ hình Fast R-CNN sử dụng các vùng được đề xuất ra.
Region proposal network (RPN):





RPN là sự cải tiến chính làm cho mạng Faster R-CNN trở nên tốt nhất trong
họ nhà R-CNN, RPN giải quyết các vấn đề bằng cách huấn luyện mạng
neural network để đảm nhận thay vai trò của các thuật toán như selective
search vốn rất chậm chạp.
Một Region Proposal Network nhận đầu vào là ảnh với kích thước bất kì và
cho đầu ra là region proposal (tập vị trí của các hình chữ nhật có thể chứa
vật thể), cùng với xác suất chứa vật thể của hình chữ nhật tương ứng.

17




Hình 2. RPN network model.
RPN có 2 bươc chính;
 Feed forward ảnh qua DNN để thu được convolutional features
 Sử dụng cửa sổ trượt lên convolutional features:
Để tạo ra region proposals, chúng ta sử dụng một cửa sổ trượt còn gọi là
sliding window. Đầu ra của layer này là đầu vào của 2 fully-connected
layer dự đốn vị trí của regions (box-regression layer), cũng như xác suất
chứa object(box-classification) của hộp ấy.

18










Hình 3. Convolutional feature
Tại mỗi vị trí của cửa sổ trượt chúng ta dự đoán đồng thời nhiều nhiều region
proposal cùng một lúc, với k là số proposal tương ứng với mỗi vị trí. Vậy reg layer
có 4k đầu ra dự đốn vị trí của k proposal, cls layer chứa 2k đầu ra dự đoán xác
suất chứa vật thể hoặc không chứa vật thể của mỗi proposal. k proposals được
tham chiếu hóa tới k boxes, cịn được gọi là anchor.
Anchor
 Trong bài tốn phát hiện đối tượng trong ảnh thì số lượng đầu ra sẽ khác
nhau. Vì vậy ta phải dựa vào anchor để cố định số lượng output.
 Các anchors này sẽ được gán mác là positive hoặc negative dựa vào diện
tích overlap với ground truth box theo IoU, anchor nào có IoU so với
ground truth lớn hơn 0.7 sẽ là positive, nhỏ hơn 0.3 thì là negative.
 Từ đây ta xác định được tiêu đầu ra của box-regression layer và boxclassification.
Box-classification dự đoán xác suất chứa vật thể của k region proposal, tương ứng
với k anchor tại từng vị trí của sliding-window.
Box-regression dự đốn khoảng cách tư anchor đến ground truth box tương ứng.

19


CHƯƠNG 5: LỰA CHỌN GIẢI PHÁP
Để chọn một giải pháp phù hợp với tiêu chí mà chúng tơi đã đặt ra cho đề tài này
nên chúng tôi đã làm bảng đánh giá, so sánh các giải pháp với nhau để lựa chọn giải pháp
tốt nhất.
Kích thước đối tượng nhận điện: đối với các đối tượng lớn, SSD hoạt động khá tốt
ngay cả với một extractor đơn giản. Nhưng SSD hoạt động kém hơn nhiều trên các đối

tượng nhỏ so với các phương pháp khác.

- Frame per second: FPS của SSD cao nhất rồi đến Faster R-CNN và R-FCN( trên tập
VOC 2007 testing set)

20


- Độ chính xác khi sử dụng mạng Resnet và bộ dataset COCO

Qua khảo sát phương pháp dùng Faster R-CNN có tỷ lệ accuracy cao nhất và có
thể chạy tạm ổn trên phần cứng của nhóm, nên nhóm đã quyết định giảm đi 1 chút hiệu
năng và tăng độc chính xác của hệ thơng, nên sẽ sử dụng thuật tốn Faster R-CNN.

21


CHƯƠNG 6: TẬP DỮ LIỆU DỰ KIẾN SẼ SỬ DỤNG
Tập dữ liệu COCO dataset 2014 dự kiến sẽ được nhóm thực hiện lựa chọn gồm
83.0000 bức ảnh khác nhau. ( https://cocodataset.org/#download )

CHƯƠNG 7: PHƯƠNG PHÁP ĐÁNH GIÁ DỰ KIẾN SẼ SỬ DỤNG
Precision vs Recall


Precision và Recall. Với Precision được mô tả theo công thức sau

và recall




Hãy cùng định nghĩa rõ hơn các thông số TP / FP / TN / FN trong công thức của
precision và recall. Đầu tiên, cần phải hiểu rõ True / False và Positive / Negative ở
đây là biểu thị cho điều gì?



Ví dụ bạn làm 1 bài tốn về phân loại mail spam thì việc mail là spam sẽ được coi
là Positive, mail ko phải spam là Negative. True / False ở đây sẽ biểu thị rằng việc
chẩn đốn của mơ hình là đúng hay sai. Ví dụ:
o True Positive: mail được mơ hình dự đốn là spam (Positive) và thực tế thì
mail đó đúng là spam (True)
o

False Positive: mail được mơ hình dự đốn là spam (Positive) nhưng thực tế
thì mail đó khơng phải spam (False), nghĩa là dự đốn nhầm 1 mail khơng
phải spam là spam

o

True Negative: mail được dự đốn khơng phải spam (Negative) và đúng là
như vậy (True)

22


o




False Negative: mail được dự đốn khơng phải spam (Negative) nhưng thực
tế điều đó là sai (False), nghĩa là dự đốn nhầm 1 mail spam là khơng
spam!

Mở rộng hơn ra các bài tốn khác, ví dụ với bài tốn chẩn đoán bệnh ung thư cũng
tương tự như vậy. Vậy nên, trong trường hợp này, người ta thường sẽ để ý đến
thông số FN (False Negative) hơn là thông số (FP) False Positive, tức việc dự đốn
nhầm người có bệnh thành khơng có bệnh sẽ nguy hiểm hơn chiều ngược lại (FN >
FP)
23


×