Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (981.92 KB, 26 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN
THÔNG
---------------------------------------

NGÔ XUÂN BÁCH
XÂY DỰNG HỆ THỐNG PHÂN LOẠI NỘI DUNG
VIDEO THEO THỂ LOẠI

Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

TP. HỒ CHÍ MINH – 2017

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS. Tân Hạnh…..………………
(Ghi rõ học hàm, học vị)

Phản biện 1: ………………………………………………….
Phản biện 2: …………………………….……………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc
sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc:

....... giờ ......... ngày ........ tháng ....... năm ...........

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

1

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong những năm gần đây bài toán về khai thác, xử lý
và quản lý dữ liệu ngày càng có ý nghĩa quan trọng trong
lĩnh vực công nghệ thông tin. Với sự phát triển không
ngừng của công nghệ thông tin, ngày càng có nhiều kiểu dữ
liệu ra đời như dữ liệu hình ảnh, dữ liệu âm thanh, dữ liệu
video, dữ liệu tài liệu, dữ liệu viết tay. Cùng với nó là nhu
cầu về quản lý, khai thác và xử lý nó được đặt ra. Các kiểu
dữ liệu trên đây chỉ là một phần trong rất nhiều hình thức
biểu hiện của dữ liệu phát sinh tự nhiên trong các ứng dụng
khác nhau.
Những thành tựu của khoa học kỹ thuật trong lĩnh vực
công nghệ thông tin, công nghệ phát thanh, truyền hình và
đặc biệt là internet đã tạo ra sự bùng nổ thông tin trên phạm
vi toàn cầu. Các cá nhân, tổ chức muốn theo kịp trình độ
phát triển chung của xã hội thì cần phải đẩy mạnh việc ứng
dụng công nghệ thông tin, khai thác sự đa dạng của thông
tin, đặc biệt là thông đa phương tiện.
Trong các loại dữ liệu đa phương tiện đó, dữ liệu video
thể thao rất được nhiều người quan tâm, kể cả trong việc
phục vụ mục đích giải trí nói chung và dùng cho việc huấn
luyện của các chuyên gia nói riêng.

2

2. Tổng quan về vấn đề nghiên cứu
Dạng thông tin video ngày càng phát triển mạnh mẽ và
phong phú. Xu hướng dữ liệu nghe nhìn trở nên sinh động
và hấp dẫn hơn, tăng tính khách quan và chân thực, đồng
thời thông tin dạng video này trở nên dễ hiểu, cô đọng, súc
tích và dễ tiếp nhận hơn.
Trong thể thao, các video mang lại cho mọi người hâm
mộ một kênh giải trí tuyệt vời, giúp họ có thể xem đi xem
lại một số trận thể thao yêu thích. Đối với các chuyên gia,
thì đây là một kênh để xem xét các tình huống, nhằm phân
tích cho mục đích học hỏi và huấn luyện.
Trong phần này, tôi nghiên cứu phân tích các video, các
đặc tính đặc trưng và các giải thuật phân loại; trong đó chỉ
quan tâm đến video thể thao nhằm mục đích phân loại các
video thể thao thành các thể loại, cụ thể là bốn thể loại có
thể quan tâm ở Việt Nam: bóng đá, bóng chuyền, tennis,
cầu lông.

3. Mục đích nghiên cứu
 Mục đích của luận văn là xây dựng hệ thống phân
loại dữ liệu video theo thể loại.
 Mục tiêu cụ thể của hệ thống:
1. Quản lý video theo nội dung.
2. Phân loại tự động các video theo thể loại.

3

3. Truy hồi video dựa vào nội dung (hình ảnh,
đoạn video) theo từng thể loại.

4. Đối tượng và phạm vi nghiên cứu
 Đối tượng nghiên cứu:
- Phân tích, xử lý video: tách shot, xác định
keyframe.
-

Xác định các tính chất đặc trưng cho từng thể

loại thể thao.
- Các kỹ thuật phân loại các video theo thể loại
thể thao.
 Phạm vi nghiên cứu:
- Một số loại thể thao có một số đặc trưng như

-

sân có kích thước xác định, các đối tượng của
môn thể thao: bóng đá, bóng chuyền, cầu
lông, tennis, bóng rỗ ...
Các video được giới hạn trong phạm vi của
bốn loại thể thao: bóng đá, bóng chuyền,
bóng rỗ và cầu lông.

-

Kích thước video xử lý: 240 x 180.

-

Nguồn dữ liệu video từ kênh thể thao,
youtube, chuẩn Full HD.

5. Phương pháp nghiên cứu
-

Thu thập, phân tích tài liệu và các thông tin liên
quan:

4

o Xử lý tách shot video,
o Phương pháp xác định keyframe của
shot/video.
o Phương pháp xác định đặc trưng cho từng thể
loại thể thao.
o Các phương pháp phân loại video thể thao
-

theo thể loại.
Tìm hiểu các công trình liên quan.
Phân tích, lựa chọn phương hướng giải quyết vấn đề.

-

Triển khai xây dựng mô hình.

Kiểm tra, thử nghiệm và đánh giá kết quả đạt được.

Nội dung bài báo cáo bao gồm 3 chương:
Chương 1: Tổng quan về dữ liệu đa phương tiện.
Chương 2: Cơ sở lý thuyết.
Chương 3: Hệ thống đề xuất

5

CHƯƠNG 1 - TỔNG QUAN VỀ DỮ LIỆU
ĐA PHƯƠNG TIỆN
1. Dữ liệu đa phương tiện
Đa phương tiện là bao gồm các phương tiện: văn
bản, hình ảnh, âm thanh, video; là kỹ thuật mô phỏng và
sử dụng đồng thời nhiều dạng phương tiện chuyển hoá
thông tin và các tác phẩm từ các kỹ thuật đó.
- Dữ liệu tài liệu (Document data)

- Dữ liệu hình ảnh (Image data)

- Dữ liệu âm thanh (Audio data)

- Dữ liệu Video (Video data)

2. Tổng quan về video

Hình 1.1: Cấu trúc phân cấp của video

3. Một số thuộc tính đặc trưng của video

Video có bốn đặc trưng chính: color (màu), texture
(kết cấu), shape (hình dáng), motion (chuyển động).

3.1. Color
3.2. Texture
3.3. Shape
3.4. Motion

6

CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT
1. Tách shot video và xác định keyframe
1.1. Tách lia trên cơ sở histogram của các khung hình

Hình 2.1: Sơ đồ ứng dụng kỹ thuật trừ ảnh vào phân
đoạn video

Hãy gọi Hi(j) là biểu đồ màu cho frame thứ i, trong
đó j là một trong G mức xám có thể. Sau đó, chênh lệch
giữa frame thứ i và frame trước đó được tính bởi công
thức sau:
(2.1)
Công thức (2.1): Tính chênh lệch biểu đồ màu

1.2. Kỹ thuật nhảy trong phân đoạn video

2. Phương pháp xác định đặc trưng
2.1. Đặc trưng màu sắc
3.2.1. Đặc trưng màu sắc

 Lược đồ màu RGB:
(2.3)

Trong đó N là số lượng điểm có trong ảnh.

7

3.2.2. Độ đo tương đồng về màu sắc
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu
của hai ảnh I và ảnh M. Khoảng cách Ơclit:
Đây là khoảng cách Ơclit thông thường giữa
các K bin:

Hoặc:
(2.4)
2.2. Đặc trưng kết cấu
2.3. Đặc trưng hình dạng
3.3.1. Đặc trưng hình dạng
3.3.2. Độ đo tương đồng cho hình dạng

3. Phương pháp phân loại
3.1. Khái niệm về phân loại
3.2. Quá trình phân loại
Một quá trình phân lớp gồm 2 bước:
Bước thứ nhất: Học/Huấn luyện
Bước thứ 2: Phân lớp (Classification)
Một số kỹ thuật phân lớp:
+ Mô hình phân lớp dùng cây quyết định (Decision
tree classification)

+ Phân lớp dùng mạng Bayesian
+ Phân lớp với K-nearest neighbor classifier

8

+ Phân lớp dùng SVM (Support Vector Machines)
+ Phân lớp dùng mô hình Markov ẩn (hidden
markov models)
+ Phân lớp dùng mạng Neural (Neural Network)
3.3. Phân loại dùng Neural Network
4.3.1. Mô hình của một neuron nhân tạo

4.3.2. Phản hồi (feedback)
4.3.3. Kiến trúc mạng neuron
4.3.3.1.
4.3.3.2.
4.3.3.3.

Các mạng tiến (feedforward) đơn mức
Các mạng tiến đa mức
Các mạng hồi quy (recurrent network)

4.3.4. Lý thuyết học và vấn đề nhận dạng mẫu
4.3.4.1.
4.3.4.2.
4.3.4.3.

Quy tắc học hiệu chỉnh lỗi
Mô hình học

Vấn đề nhận dạng mẫu

4.3.5. Mạng neural tích chập
4.3.5.1. Convolution (tích chập)

9

Tích chập được sử dụng đầu tiên trong xử lý tín
hiệu số (Signal processing). Nhờ vào nguyên lý
biến đổi thông tin, các nhà khoa học đã áp dụng
kĩ thuật này vào xử lý ảnh và video số.
Ta có thể xem tích chập như một cửa sổ trượt
(sliding window) áp đặt lên một ma trận.

4.3.5.2.

Mạng Convolutional Network

Mạng CNN (Convolutional Neural Network) là
một tập hợp các lớp Convolution chồng lên nhau
và sử dụng các hàm nonlinear activation như
ReLU để kích hoạt các trọng số trong các node.
Mỗi một lớp sau khi thông qua các hàm kích hoạt
sẽ tạo ra các thông tin trừu tượng hơn cho các lớp
tiếp theo. Mỗi neuron ở lớp kế tiếp sinh ra từ kết
quả của filter áp đặt lên một vùng ảnh cục bộ của
neuron trước đó.

10

Mỗi một lớp được sử dụng các filter khác nhau
thông thường có hàng trăm hàng nghìn filter như
vậy và kết hợp kết quả của chúng lại. Ngoài ra có
một số layer khác như pooling/subsampling layer
dùng để chắt lọc lại các thông tin hữu ích hơn
(loại bỏ các thông tin nhiễu). Trong quá trình
huấn luyện mạng (traning) CNN tự động học các
giá trị qua các lớp fliter dựa vào cách thức mà
bạn thực hiện. Ví dụ trong tác vụ phân lớp ảnh,
CNNs sẽ cố gắng tìm ra thông số tối ưu cho các
filter tương ứng theo thứ tự raw pixel > edges >
shapes > facial > high-level features. Layer cuối
cùng được dùng để phân lớp ảnh.

Hình 2.15: Mô hình mạng Neural tích
chập

11

CHƯƠNG 3 - HỆ THỐNG ĐỀ XUẤT
1. Khảo sát, phân tích
Thể thao là tất cả các loại hình hoạt động thể chất và
trò chơi có tính cạnh tranh với mục đích sử dụng, duy trì và
cải thiện các kĩ năng và năng lực thể chất, đem lại niềm vui,
hứng khởi cho những người tham gia và sự giải trí cho
người xem. Thông thường cuộc thi đấu hay trò chơi diễn ra
giữa hai bên, mỗi bên cố gắng để chiến thắng đối phương.

Ngày nay có hàng trăm môn thể thao được tổ chức, từ
những môn được tranh tài giữa các cá nhân, cho tới những
môn có hàng trăm người tham gia cùng một lúc.
Mỗi môn thể thao có một vài đặc điểm riêng như:
 số lượng người tham gia, cách thức chơi (chơi bằng

tay hay bằng chân, chơi có bóng hay không có
bóng…);
 nếu là chơi có bóng thì hình dạng quả bóng đó thế

nào (kích thước, hình dạng, cấu tạo…);
 có cầu môn hoặc lưới hay không có (ví dụ: bóng đá,
bóng ném thì có cầu môn, bóng rổ thì có rổ hứng
bóng, bóng chuyền hay tennis thì có lưới ngăn giữa
sân, nhưng bóng chày thì không có…);
 trò chơi có công cụ hỗ trợ hay không (ví dụ: môn cầu
lông hay tennis đều phải sử dụng vợt, hay môn bóng
chày phải sử dụng gậy đánh bóng…);

12
 phương thức chuyển động trong mỗi trò chơi cũng

khác nhau, chẳng hạn môn bóng chuyền thì khu vực
chuyển động thường tập trung dọc hai bên lưới, bóng
đá thì di chuyển nhanh hơn ở các khu vực có bóng
trên sân…
 sân chơi cũng là một đặc điểm: kích thước sân chơi
của mỗi loại mỗi khác, khác nhau từ đường biên,
vạch chỉ, hình dáng, thậm chí là cả màu sắc của mặt

sân…
Điều quan trọng là cần có đội ngũ tìm hiểu phân tích tất
cả các tập đặc tính của các thể loại thể thao; sau đó mang
so sánh các đặc tính của mỗi thể loại để chọn ra các đặc tính
riêng hoặc là tập đặc tính có thể khác biệt với tập đặc tính
các môn thể thao khác nhằm để có thể phân loại đúng nhất.
Phân loại nội dung video là một yếu tố quan trọng để
truy cập và truy xuất hiệu quả video trong bất kỳ hệ thống
quản lý nội dung phương tiện truyền thông nào. Phân loại
các phân đoạn video có thể giúp cung cấp sự tiện lợi và dễ
dàng trong việc truy cập vào nội dung video có liên quan
mà không cần quét theo trình tự. Trong phần này, trước tiên
tôi trình bày các phương thức giải quyết vấn đề liên quan
như là phương pháp trích xuất key-frames của video, cách
tiếp cận trích chọn đặc trưng video theo nội dung nội dung,
tiếp theo tôi dự kiến trình bày kỹ thuật phân loại dựa trên

13

mô hình Neuron Network đối với các đặc trưng đã chọn
được.

2. Công việc thực hiện
2.1. Tách key frames
Trong phần này, tôi sử dụng một thuật toán
để trích xuất các khung hình chính cho video. Thuật
toán sử này dựa vào sự khác biệt biên giữa hai khung
hình liên tiếp để tìm ra sự khác biệt giữa nội dung
của chúng bằng cách phát hiện, và sau đó là trích

xuất khung hình chính từ mỗi shot (các cảnh quay).
-

Thuật toán trích xuất Key frames
Đầu vào: Video V, bao gồm N khung.

-

Đầu ra: Các khung hình chính.

Bước 1:
For each frame k = 1 to N
{
1. Đọc frame V k và Vk+1.
2. Lấy hình ảnh mức xám của Vk và Vk+1
Gk = image to gray (Vk)
Gk+1 = image to gray (Vk+1)
3. Tìm sự khác biệt giữa Gk và Gk+1 bằng
thuật toán phát hiện biên Sobel.
Gọi: diff(k) là sự khác biệt giữa hai
frame:

14

diff(k) = ∑ ∑(𝐺𝑘 − 𝐺𝑘+1 )
𝑖

𝑗

trong đó i, j là chỉ số hàng và cột của
frame.
}
Bước 2:
Tính giá trị trung bình và độ lệch chuẩn:
Trị trung bình:
∑𝑁−1
𝑑𝑖𝑓𝑓(𝑖)
1
𝑚𝑒𝑎𝑛 =
𝑁−1
Độ lệch chuẩn:
𝑠𝑡𝑑 = √

(𝑑𝑖𝑓𝑓 (𝑖) − 𝑚𝑒𝑎𝑛)2
∑𝑁−1
1
𝑁−1

Bước 3:
Tính giá trị ngưỡng:
Threshold = mean + a * std
Trong đó: a là hàng số.
Bước 4:
Tìm các key frame:
for k = 1 to (N-1)
{ if diff(k) > Threshold
{ Ghi nhận frame Vk+1 là key-frame.
}
}

15

2.2. Khai thác đặc trưng nhận dạng mẫu
Nhận dạng mẫu nhằm mục đích phân loại dữ
liệu (là các mẫu) dựa trên: hoặc là kiến thức tiên
nghiệm hoặc dựa vào thông tin thống kê được trích
rút từ các mẫu có sẵn. Các mẫu cần phân loại thường
được biểu diễn thành các nhóm của các dữ liệu đo
đạc hay quan sát được, mỗi nhóm là một điểm ở
trong một không gian đa chiều phù hợp. Đó là không
gian của các đặc tính để dựa vào đó ta có thể phân
loại.
Trong giới hạn của đề tài này, tôi thực nghiệm
phân loại video dựa vào tập đặc tính nội dung cảnh
sân bóng của bốn loại video gồm tập các cảnh sân
bóng đá, bóng chuyền, tennis, cầu lông.

Hình 3.1: Ảnh mức xám

16

Sau khi tách keyframe của mỗi loại thể thao,
các keyframe thu được các cảnh quay này sẽ được
chọn lọc để loại bỏ đi những cảnh quay phụ không
mang nội dung thi đấu.
Trong thực nghiệm này, tôi sử dụng phương
pháp mạng neural tích chập (Convolutional Neural

Network) để rút trích đặc trưng và phân loại dữ liệu.

3. Thiết kế hệ thống và công nghệ hỗ trợ
3.1.Thiết kế
Mô hình dự kiến cho việc phân loại 4 thể loại
video thể thao là mô hình mạng Neuron, dựa vào bộ
đặc tả cảnh của mỗi loại môn thể thao. Bộ dữ liệu
mẫu đặc tả cảnh này gồm hơn 4000 frame cho 4 loại
thể thao, mỗi loại gồm hơn 1000 frame, được đưa
vào huấn luyện cho mô hình là 1000 frame mỗi loại.
Hệ thống thiết kế sẽ bao gồm các công việc sau
+ Tách frame từ video đầu vào.
+ Chuyển ảnh màu thành ảnh mức xám.
+ Trích đặc trưng nội dung các cảnh của
video (cấu tạo mặt sân, biên).
+ Chọn mô hình Neuron Network.
+ Huấn luyện mô hình.
+ Dùng mô hình đă huấn luyện để phân loại.

17
Vide

Tách
frame

Chuyển
mức
xám
Bóng

Chuyền

Trích đặc
trưng (edge

Bóng Đá

Phân loại
(Neural
Network)

Tennis

Cầu Lông

Công nghệ nền hỗ trợ
MATLAB – phần mềm nổi tiếng của công ty
MathWorks, là một ngôn ngữ hiệu năng cao cho tính
toán kỹ thuật. Nó tích hợp tính toán, hiện thị và lập
trình trong một môi trường dễ sử dụng. Các ứng
dụng tiêu biểu của MATLAB bao gồm:
 Hỗ trợ toán học và tính toán
 Phát triển thuật toán
 Mô hình, mô phỏng
 Phân tích, khảo sát và hiển thị số liệu
 Đồ họa khoa học và kỹ thuật
 Phát triển ứng dụng với các giao diện đồ
họa.

18

Computer Vision System Toolbox cung cấp
các thuật toán, hàm và ứng dụng để thiết kế và mô
phỏng các hệ thống xử lý video và thị giác máy tính.
Neural Network Toolbox cung cấp các thuật
toán, mô hình sơ bộ và ứng dụng để tạo, đào tạo,
hình dung và mô phỏng cả mạng thần kinh cạn và
sâu.
Các mạng học tập sâu bao gồm các mạng
neuron tích chập (ConvNets, CNNs) và các bộ mã
hóa tự động để phân loại hình ảnh, hồi quy và học
tập đặc trưng.
Mạng neuron tích chập (convNet) là công cụ
được sử dụng rộng rãi cho việc học sâu. Chúng thích
hợp cho đầu vào như là hình ảnh, mặc dù chúng cũng
được sử dụng cho các ứng dụng khác như văn bản,
tín hiệu, và các phản hồi liên tục khác.

4. Xây dựng hệ thống
Sau khi tách được các keyframes từ 4 loại video
thể thao gồm tennis, bóng đá, bóng chuyền và cầu lông,
chúng ta chuyển ảnh về mức xám với kích thước ảnh là
180x240. Tiếp theo, sử dụng kỹ thuật tách biên để nhận
dạng đặc điểm cấu tạo và cảnh sân bóng. Sau đó các đặc

19

điểm biên này được đưa vào mô hình mạng neural tích

chập để training.

Im
age

Hình 3.4: Mô hình mạng neural tích chập
được xây dựng

Mạng neural tích chập này được định nghĩa như
sau:
layers = [imageInputLayer([180
240 1])
convolution2dLayer(5,20)
reluLayer
maxPooling2dLayer(2,'Stride',2)
convolution2dLayer(5,20)
reluLayer
maxPooling2dLayer(2,'Stride',2)
fullyConnectedLayer(4)
softmaxLayer

20
classificationLayer];
Video
- Historgram
- Canny
Extract KeyFrames
- Color
- Surf

Features
Image/video
Retreival

- k-mean
Clustering

FeaturesI
nternatio

Indexing

Similar Images

Result Images

Hình 3.5: Mô hình truy hồi thông tin

Hệ thống truy xuất hình ảnh dựa trên nội dung
(CBIR) được sử dụng để tìm hình ảnh tương tự như hình
ảnh truy vấn. Việc áp dụng các hệ thống CBIR có thể
được tìm thấy trong nhiều lĩnh vực như tìm kiếm sản
phẩm dựa trên web, giám sát, và nhận dạng địa điểm thị
giác. Một kỹ thuật phổ biến được sử dụng để thực hiện

21

một hệ thống CBIR là túi các từ trực quan, còn được gọi
là túi các tính năng.

Các tính năng hình ảnh này được sử dụng để
đánh giá sự tương đồng giữa các hình ảnh và có thể bao
gồm các tính năng hình ảnh toàn cục như màu sắc, kết
cấu và hình dạng. Các tính năng hình ảnh cũng có thể là
các tính năng hình ảnh cục bộ như kyw thuật SURF,
biểu đồ gradient (HOG). Lợi ích của cách tiếp cận túi
tính năng là các loại tính năng được sử dụng để tạo từ
vựng trực quan có thể được tùy chỉnh để phù hợp với
ứng dụng.
Các bước sau phác thảo thủ tục có thể thưc hiện
như sau:
-

Lập chỉ mục giữa video với các keyframes.
Chọn tính năng của các frames để truy hồi.
Tạo một túi các tính năng.
Lập chỉ mục các frames.
Tìm kiếm hình ảnh tương tự.

5. Cài đặt, thử nghiệm và đánh giá
Với việc sử dụng 93 video để kiểm tra hệ thống phân
loại bao gồm: 12 video bóng chuyền, 34 video bóng đá,
17 video cầu lông và 30 video tennis - các video này
không thuộc tập huấn luyện và tập kiểm tra. - bằng cách
lấy 1000 frame từ video đầu vào (khoảng 40 giây), sau

22

đó tính số frame lớn nhất trong các nhãn đã thu được

sau khi phân loại frame để đưa ra quyết định là video đó
thuộc thể loại nào trong bốn thể loại khảo sát. Kết quả
phân loại video như sau:
Hệ số đánh
giá

Bóng
chuyền

Bóng đá

Tennis

Cầu lông

Precision

0.53

0.81

0.72

0.91

Reacall

0.66

0.79

0.8

0.64

6. Kết luận
6.1. Các vấn đề đạt được
Khai thác dữ liệu là vấn đề thường nhật của cuộc
sống trong đó bài toán phân loại là một trong những ứng
dụng của nó. Phương pháp phân loại trình bày trong bài
luận văn này đạt được một số điểm:
-

Hiện thực được các vấn đề cơ bản của xử lý
ảnh.

-

Xác định keyframe, tách shot.

-

Xây dựng được mô hình Neural Network với
công cụ hỗ trợ Matlab.

-

Xây dựng được hệ phân loại bước đầu, có thể
làm cơ sở cho việc xây dựng hệ thống phân
loại nâng cao.

23

Qua bảng đánh giá hệ số Precision và Recall, hai thể
loại là bóng đá và tennis cho kết quả tốt nhất.
-

Đối với bóng đá, hệ số Precision và Recall lần
lượt là 0.81 và 0.79.

-

Đối với tennis, hệ số Precision và Recall lần
lượt là 0.72 và 0.8.

-

Đối với bóng chuyền, hệ số Precision và
Recall lần lượt là 0.53 và 0.66.

-

Đối với câu lông, hệ số Precision và Recall
lần lượt là 0.91 và 0.64.

6.2. Các vấn đề tồn tại
Hệ thống phụ thuộc góc quay của camera. Thông
thường, camera hướng vào khu vực sân bóng từ trên
xuống với góc khoảng 40 đến 45 độ, nếu camera đặt

thấp hệ thống có thể nhận diện không đúng do nhiễu.
Vấn đề tiếp theo là bộ dữ liệu mẫu không đại diện
cho tất cả, nguồn dữ liệu không đầy đủ do vấn đề bản
quyền của các loại video thể thao. Với mỗi trận đấu ở
những địa phương khác nhau cấu tạo, màu sắc mặt sân
cũng có thể khác nhau.

Xây Dựng Hệ Thống Phân Loại Nội Dung Video Theo Thể Loại (tt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về