Bài tập lớn Trí tuệ nhân tạo Ứng dụng Computer Vision tự động nhận diện lứa tuổi (trẻ con, trưởng thành, người già) của người đi trong thang máy để phát clip quảng cáo phù hợp. (Áp dụng cho doanh nghiệp PG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.49 MB, 25 trang )

HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
-----🙞🙞🙞🙞🙞-----

BÀI TẬP LỚN
Mơn: Trí tuệ nhân tạo trong kinh doanh
Chủ đề
Ứng dụng Computer Vision tự động nhận diện lứa tuổi
(trẻ con, trưởng thành, người già) của người đi trong thang máy
để phát clip quảng cáo phù hợp.
(Áp dụng cho doanh nghiệp P&G)

Giảng viên

: Bùi Thị Hồng Nhung

Lớp

: K22CLCB

Nhóm thực hiện

: 10

Hà Nội, ngày 10 tháng 04 năm 2022

1

Danh sách thành viên
Họ tên

MSV

Tỉ lệ % đóng góp

Nguyễn Thị Lan

22A4010150

33%

Phạm Thị Minh Hằng

22A4010281

34%

Đỗ Minh Hằng

22A4010258

33%

2

Mục Lục
Mở đầu ................................................................................................................. 4
Nội dung .............................................................................................................. 4
I.

XÁC ĐỊNH VẤN ĐỀ ................................................................................. 4
1, Giới thiệu về doanh nghiệp P&G ................................................................ 4
2, Các vấn đề tồn tại ........................................................................................ 5
3, Mong muốn của công ty .............................................................................. 6

II.

LẬP KẾ HOẠCH ....................................................................................... 6
1, Lý do P&G nên áp dụng trí tuệ nhân tạo AI nhận diện khuôn mặt ............. 6
2, Xác định dữ liệu cần thu thập ...................................................................... 8

III. THUẬT TOÁN SỬ DỤNG...................................................................... 10
1, Giới thiệu tổng quan về các thuật toán ...................................................... 10
2, CNN là gì? ................................................................................................. 11
IV. MÃ LỆNH CHƯƠNG TRÌNH ................................................................... 15
1, Đăng nhập Google Colab .......................................................................... 15
2, Mã lệnh chương trình ................................................................................ 15
2.1. Bài tốn 1: Chạy mơ hình nhận diện lứa tuổi ......................................... 15
2.2. Bài toán 2: Mở rộng bài tốn 1 ............................................................... 20
V. ĐỀ XUẤT NÂNG CAO MƠ HÌNH VÀ ĐÁNH GIÁ ................................. 23
1, Nhận xét chung về bài tốn 1 và 2 ............................................................ 23
2, Tóm tắt các phần mở rộng mơ hình........................................................... 24
Kết luận ............................................................................................................. 24
Tài liệu tham khảo ............................................................................................. 25

3

Mở đầu

Theo dịng chảy của cuộc cách mạng 4.0, trí tuệ nhân tạo ngày càng được phổ
biến và ứng dụng rộng rãi trong mọi lĩnh vực của cuộc sống, mặc dù được John
McCarthy – nhà khoa học máy tính người Mỹ đề cập lần đầu tiên vào những năm 1950
nhưng đến ngày nay thuật ngữ trí tuệ nhân tạo mới thực sự được biết đến rộng rãi và
được các “ông lớn” của làng công nghệ chạy đua phát triển.
AI là cơng nghệ sử dụng đến kỹ thuật số có khả năng thực hiện những nhiệm vụ
mà bình thường phải cần tới trí thơng minh của con người, được xem là phổ biến nhất.
Đặc trưng của công nghệ AI là năng lực “tự học” của máy tính, do đó có thể tự phán
đốn, phân tích trước các dữ liệu mới mà khơng cần sự hỗ trợ của con người, đồng thời
có khả năng xử lý dữ liệu với số lượng rất lớn và tốc độ cao. Các nhà khoa học xây
dựng các thuật tốn, lập trình bằng các cơng cụ phần mềm cơng nghệ thơng tin, giúp
các máy tính có thể tự động xử lý các hành vi thông minh như con người.
Trí tuệ nhân tạo trong kinh doanh là thuật ngữ được quan tâm trong những năm
gần đây, khi thị trường ngày càng cạnh tranh khốc liệt và sự lên ngôi của AI đã tạo ra
những thay đổi mới trong lĩnh vực kinh doanh. Có thể hiểu đơn giản là trí tuệ nhân tạo
trong kinh doanh là cơng việc ứng dụng trí tuệ nhân tạo (AI) và các hoạt động kinh
doanh. Sử dụng trí tuệ nhân tạo là xu hướng tất yếu trong quá trình phát triển sản xuất,
kinh doanh, vì giúp doanh nghiệp nâng cao chất lượng sản phẩm, tiết kiệm chi phí vận
hành, chăm sóc khách hàng tốt hơn...
Hiểu và nắm bắt được tầm quan trọng của trí tuệ nhân tạo trong cuộc cách mạng
công nghệ 4.0 này, em đề xuất một công nghệ AI Computer Vision được rất nhiều doanh
nghiệp sử dụng : “Nhận diện diện lứa tuổi (trẻ con, trưởng thành, người già) trong thang
máy để phát clip quảng cáo phù hợp với độ tuổi, áp dụng cho doanh nghiệp P&G”. Mục
đích của dự án này là giúp cho doanh nghiệp có thể tối ưu hố nhất việc marketing sản
phẩm đến với khách hàng tiềm năng, tiết kiệm nguồn nhân lực và chi phí cho doanh
nghiệp.

Nội dung
I.

XÁC ĐỊNH VẤN ĐỀ

1, Giới thiệu về doanh nghiệp P&G
P&G là viết tắt của từ Procter & Gamble là tập đồn đa quốc gia chun về nhóm
ngành hàng tiêu dùng đến từ Hoa Kỳ có trụ sở nằm tại trung tâm Cincinati – Bang Ohio.
Đây được coi là nhà sản xuất những sản phẩm, nhãn hiệu hàng tiêu dùng hàng đầu trên
thế giới với số lượng đa dạng cùng với đó là doanh thu với con số vơ cùng ấn tượng.
Chính bởi yếu tố trên mà hãng được coi là “ông lớn” của ngành hàng FMCG ( Fast
Moving Consumer Goods - ngành hàng tiêu dùng nhanh) trên thế giới, hãng cùng được
coi là tập đoàn nổi tiếng về sáng kiến kinh doanh cũng như quản trị thương hiệu, quảng
cáo sản phẩm. Nó chuyên về các sản phẩm chăm sóc và vệ sinh cả nhân; những sản
4

phẩm này được tổ chức thành nhiều phân khúc bao gồm Làm đẹp; Chăm sóc sức khỏe;
Vải & Chăm sóc tại nhà; và chăm sóc em bé, phụ nữ và gia đình. Trước khi bản Pringles
cho Kellogg's, danh mục sản phẩm của nó cũng bao gồm thực phẩm, đồ ăn nhẹ và đồ
uống.
Với sự mở rộng cùng chiến lược thâm nhập thị trường đúng đắn thì hiện nay
P&G đã có mặt tại hơn 70 quốc gia, cùng phân phối tại hơn 180 thị trường. Doanh số
bán hàng của hãng đang đạt ở mức cao nhất thị trường FMCG cùng lợi nhuận lên đến
10,5 tỷ với thị trường trọng điểm hiện nay tại Châu Á rộng lớn. Hiện nay, các nơi được
coi là trung tâm của sự sáng tạo P&G bao gồm thị trường Trung Quốc, Mỹ Latin và một
số nơi tại Châu Phi.

(Ảnh: Các sản phẩm của P&G)

2, Các vấn đề tồn tại
a, Có nhiều đối thủ cạnh tranh
Sự cạnh tranh trong ngành của các đối thủ đối với P&G là rất lớn và khốc liệt.

Công ty phải đối mặt với rất nhiều đối thủ cạnh tranh như Johnson & Johnson, Unilever,
Nestlé, Nivea, Colgate-Palmolive, Kraft Foods, Mars Incorporated, Reckitt Benckiser
và Henkel. Đây hầu hết là những đối thủ lớn và có tiềm lực tài chính mạnh. Ngồi ra
người tiêu dùng dễ dàng chuyển đổi sử dụng các sản phẩm từ hãng này sang hãng khác.
Chính vì vậy, áp lực cạnh tranh đến từ các đối thủ trong ngành là rất lớn và P&G cần
coi yếu tố đối thủ cạnh tranh là yếu tố quan tâm hàng đầu.
b, Quyền thương lượng từ khách hàng
Chi phí chuyển đổi giữa các sản phẩm của P&G và các sản phẩm của công ty
khác là thấp. Chính vì vậy mà yếu tố này đã góp phần ảnh hưởng đến khả năng thương
lượng của khách hàng. Không chỉ vậy, hiện nay thông tin truyền thông ngày càng phát

5

triển mạnh mẽ, người tiêu dùng có thể tiếp cận và so sánh những thơng tin chính xác về
sản phẩm, từ đó giúp họ dễ dàng quyết định khi lựa chọn mua các sản phẩm P&G hay
các nhãn hàng khác.
Ví dụ: Người mua có thể so sánh các sản phẩm từ thành phần, bao bì mẫu mã,
giá cả một cách dễ dàng và trực quan nhất trên thông tin trực tuyến.
Ngoài ra việc mua hàng đơn lẻ của một người tiêu dùng cá nhân không ảnh
hưởng đến lợi nhuận của P&G. Tuy nhiên chi phí chuyển đổi thấp và khả năng tiếp cận
thông tin cao vượt trội là những yếu tố ảnh hưởng mạnh mạnh đến hoạt động kinh doanh
hàng tiêu dùng của P&G.
c, Sự đe dọa đến từ các sản phẩm thay thế
Chi phí chuyển đổi thấp cũng giúp người tiêu dùng dễ dàng tiếp cận gần hơn đến
với các sản phẩm thay thế của P&G. Yếu tố bên ngồi này tác động mạnh mẽ đến cơng
ty cũng như môi trường ngành hàng tiêu dùng.
d, Mối đe dọa từ những doanh nghiệp mới tham gia
Chi phí chuyển đổi thấp sẽ cho phép những doanh nghiệp mới tham gia gây một
áp lực mạnh mẽ chống lại P&G. Điển hình là các doanh nghiệp nội địa cũng đang tấn

công, cạnh tranh thị trường với các doanh nghiệp ngoại.
Ví dụ: Người tiêu dùng có thể dễ dàng quyết định dùng thử các sản phẩm mới
của những hãng mới.
Tuy nhiên, để có thể xây dựng thương hiệu mạnh như P&G thì sẽ cần một nguồn
vốn vô vùng lớn và không phải doanh nghiệp mới nào cũng có thể làm được. Hơn nữa
P&G tận dụng lợi thế của quy mô kinh tế cao, hỗ trợ giá cả cạnh tranh và hiệu quả tổ
chức cao mà các công ty mới thường thiếu. Kết quả là, cơng ty vẫn mạnh dù có những
người mới gia nhập; nhưng cũng cần cảnh giác trước sự phát triển không ngừng của
doanh nghiệp nội.

3, Mong muốn của công ty
P&G mong muốn sẽ cung cấp các sản phẩm và dịch vụ có thương hiệu với chất
lượng và giá trị vượt trội để cải thiện cuộc sống của người tiêu dùng thế giới, hiện tại
và cho các thế hệ tiếp theo. Bên cạnh đó, cơng ty cũng muốn nhiều người tiêu dùng
biết đến sản phẩm của mình hơn với một chất lượng tốt nhất và sự khác biệt mà không
một doanh nghiệp nào khác có.Từ đây, cơng ty muốn tiếp tục giữ vị trí đặc biệt trong
thị trường hàng hóa hiện nay để khẳng định cho đối thủ cạnh tranh biết bản thân P&G
không phải là một doanh nghiệp dễ đánh bại.

II.

LẬP KẾ HOẠCH

1, Lý do P&G nên áp dụng trí tuệ nhân tạo AI nhận diện khuôn
mặt
Thị trường ngày nay rất sôi nổi, đa dạng với nhiều sản phẩm được sản xuất và
phân phối rộng khắp mọi miền đất nước. Người tiêu dùng thường bị phân vân, bối rối
giữa nhiều lựa chọn nhãn hàng sản phẩm tiêu dùng, chăm sóc cho gia đình như P&G
cạnh tranh trực tiếp với Unilever ở nhiều phân khúc thị trường. Yếu tố giá cả cũng được
mọi người quan tâm, nhưng vì có đối thủ mạnh là Unilever cho nên để mang lại lợi thế

6

marketing thì quảng cáo sản phẩm ở những nơi dễ thấy, dễ gặp là điều bắt buộc đối với
doanh nghiệp P&G.
Với sự phát triển của cơng nghệ 4.0, trí tuệ nhân tạo khơng cịn q xa lạ với các
thế hệ bây giờ với nền kinh tế lớn mạnh, đời sống tinh thần vật chất của con người được
nâng cao. Đặc biệt, con người có xu hướng chuyển ra những thành phố lớn để có thể
hưởng thụ nhiều tiện ích của cuộc sống, trong đó khơng thể kể đến các chung cư, trung
tâm thương mại hay văn phịng ở những tồ nhà cao tầng,... Ở đó ln có nhiều tiện ích
của 1 khu dân cư thu nhỏ giữa một thành phố lớn. Và dĩ nhiên ở những tồ nhà đó khơng
thể khơng có thang máy hoặc thang cuống - giúp cho con người có thể dễ dàng di chuyển
và tiết kiệm thời gian. Có thể thấy doanh nghiệp có thể tận dụng AI để có thể nhận diện
hình ảnh của con người (từ độ tuổi của em bé cho đến người già) và chiếu những quảng
cáo phù hợp khi họ đang ở trong thang máy - một không gian hẹp rất dễ để nhận diện
hình ảnh. Từ đó, doanh nghiệp P&G sẽ có chiến lược quảng cáo phù hợp, đúng thời
điểm với từng độ tuổi để có thể đánh vào đúng nhu cầu của người đó.
Có thể thấy trong tình hình phức tạp của dịch bệnh, việc cắt giảm chi phí là cần
thiết, nhưng việc quảng cáo marketing vẫn phải đạt hiệu quả tối ưu để có thể duy trì
doanh thu của doanh nghiệp. Vì vậy, chúng tơi đề xuất cho P&G chiến lược quảng cáo
kết hợp với AI nhận diện khuôn mặt (trẻ em, người trưởng thành, người cao tuổi) để có
thể phát quảng cáo phù hợp trong khơng gian cụ thể là thang máy. Kế hoạch cụ thể này
có thể giúp doanh nghiệp tiết kiệm chi phí nhưng vẫn có hiệu quả cao khi mà đã xác
nhận được đúng đối tượng nhận thông tin từ nhãn hàng.
Đối với trẻ em (độ tuổi từ 2 tuổi đến 15 tuổi):
P&G có thể phát những video quảng cáo ngắn về các sản phẩm chăm sóc răng
miệng như bàn chải Oral-B, kem đánh răng Cest; sản phẩm xà bơng như Safeguard…
Vì đối với trẻ nhỏ thì đây là những sản phẩm phải sử dụng hàng ngày để vệ sinh cá
nhân, vì vậy khi P&G phát những clip quảng cáo vui nhộn nhưng có thông điệp hay vừa
thu hút trẻ em bởi sự thân thiện vừa hướng tới việc giáo dục trẻ em nên xây dựng thói

quen tự chăm sóc răng miệng, tay chân sạch sẽ là cần thiết. Bên cạnh đó, P&G có sản
phẩm chăm sóc trẻ em là bỉm Pamper, sẽ
Đối với người trưởng thành và người cao tuổi:
Ở độ tuổi trưởng thành, phụ nữ sẽ có nhiều nhu cầu về những sản phẩm chăm
sóc, tiêu dùng gia đình như xà phịng, dầu gội, băng vệ sinh, nước giặt, nước rửa chén,...
Nhìn nhận, đánh giá được nhu cầu của chị em phụ nữ ở độ tuổi trưởng thành này, từ
nguồn dữ liệu sẵn có và khi cơng nghệ AI đã nhận dạng được đối tượng là người trưởng
thành thì doanh nghiệp sẽ phát những clip quảng cáo về các sản phẩm:
- Sản phẩm nước giặt: Ariel, Downy, Tide.
- Sản phẩm về dầu gội, sữa tắm: Head & Shoulders, Pantene, Rejoice.
- Sản phẩm chăm sóc da như Olay, Gillette.
Bên cạnh đó, đối với người cao tuổi, họ thường ưu tiên những sản phẩm đồ dùng
gia đình chăm sóc sức khỏe, quan tâm đến chất lượng, thành phần có an tồn, đảm bảo.
Sản phẩm chăm sóc nhà cửa là máy khử mùi Ambi Pur rất cần thiết đối với người cao
tuổi, họ sẽ thích khơng khí trong nhà lúc nào cũng phải sạch sẽ, trong lành. Từ việc
nhận diện khn mặt, doanh nghiệp có thể phát quảng cáo của Ambi pur khi AI đã nhận
biết được đang có người cao tuổi trong thang máy.

7

2, Xác định dữ liệu cần thu thập
+ Số lượng người trong thang máy
+ Tập hình ảnh để nhận dạng trẻ con: nhóm đã tìm kiếm, thu thập các hình ảnh
về trẻ em ở nhiều độ tuổi từ lúc còn là bé sơ sinh cho đến độ tuổi hết lớp 5 để AI có thể
có nguồn dữ liệu nhiều nhất và nhận diện đúng được khoảng tuổi chính xác của đối
tượng là trẻ con:

Tập hình ảnh để nhận dạng người trưởng thành: người trưởng thành thường là
những người trong độ tuổi từ 17 đến 55, họ đã phát triển về mặt tâm sinh lý, và có nhận

thức đầy đủ. Các hình ảnh về người lớn sẽ gồm các tập dữ liệu hình ảnh khác nhau về
giới tính nam, nữ; biểu cảm, tâm trạng vui, buồn, giận dữ,... thể hiện ra trên khn mặt:

Tập hình ảnh để nhận dạng người cao tuổi: dựa trên quy định của luật Việt Nam,
người lớn tuổi thường sẽ là người từ 60 tuổi trở lên, cho nên nhóm đã thu thập các hình
ảnh về người lớn tuổi có các đặc điểm bên ngồi như sau: tóc bạc, da nhăn, đi đứng
chậm chạp,...

8

Thu thập dữ liệu bao gồm:
Số lượng và hình ảnh người được cung cấp từ phần mềm theo dõi.
Data hình ảnh mẫu về 3 nhóm người cụ thể nhóm đã phân loại ở trên, được lấy
từ mạng xã hội hay nền tảng internet.
Hình ảnh trích xuất từ camera trong thang máy của chung cư, tồ nhà văn phịng
cao tầng.
Số lượng từng tệp dữ liệu ảnh
Gồm 3 tệp: train, test, validation
Tệp train: mỗi tệp nhỏ “treem”, “truongthanh”, “nguoigia” gồm 120 ảnh. Tổng
cộng tệp train có 358 ảnh có thể nhận diện được.
Tệp validation: mỗi tệp nhỏ “treem”, “truongthanh”, “nguoigia” chỉ chứa 50 bức
ảnh. Vậy tổng cộng tệp validation chứa 148 ảnh có thể nhận diện được.
Tệp test gồm 60 bức ảnh nổi bật nhất.
Cách tổ chức lưu trữ dữ liệu trên máy tính
Đăng nhập vào google drive -> “drive của tơi” -> “thư mục mới” và đặt tên là
AI. Tạo thêm một thư mục mới nữa với tên là “Data”

9

Lên trình duyệt google và tìm kiếm ảnh về 3 lứa tuổi đã chọn trong bài: trẻ con, trưởng
thành, người già.
Bước 1 là tìm đủ 120 ảnh định dạng jpg về trẻ con xong lưu về máy.
Bước 2 là bấm giữ phím ctrl và nhấn vào các bức ảnh để cùng lúc có thể chọn
được nhiều bức ảnh tải lên vào tệp train.
Bước 3 là bấm ctrl + C để sao chép toàn bộ 120 bức ảnh vào một folder mới đặt
tên là train, bấm ctrl + V để chuyển toàn bộ ảnh vào tệp train.
Tương tự với tệp test và validation.

III. THUẬT TOÁN SỬ DỤNG
1, Giới thiệu tổng quan về các thuật tốn
Các thuật tốn:
1.1. Học có giám sát
Supervised learning (học có giám sát) là thuật tốn dự đốn đầu ra (outcome) của
một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước. Cặp dữ
liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn). Supervised learning là nhóm
phổ biến nhất trong các thuật toán Machine Learning.

10

Trong đề tài này, phần mềm sẽ sử dụng những dữ liệu đã được gán nhãn (hình
ảnh về trẻ con, người trưởng thành, người già) dạy cho AI cách nhận biết được lứa tuổi
để phát clip quảng cáo trong thang máy cho phù hợp.
1.2. Học sâu (deep learning):
Đây là một chức năng của trí tuệ nhân tạo (AI), bắt chước hoạt động của bộ não
con người trong việc xử lí dữ liệu và tạo ra các mẫu để sử dụng cho việc ra quyết định.
Học sâu là tập con của học máy trong AI, có các mạng lưới có khả năng "học" mà không
bị giám sát từ dữ liệu không có cấu trúc hoặc khơng được gắn nhãn.

Thuật tốn học sâu giúp AI nhận diện, phân tích lứa tuổi một cách nhanh hơn,
chính xác hơn
1.3. Thị giác máy tính:
Thị giác máy tính là một hình thức cơng nghệ dùng để mơ tả khả năng của bộ
máy có thể thu nhận và phân tích các dữ liệu trực quan và sau đó sẽ tiến hành đưa ra
các quyết định về nó. Nói cho dễ hiểu đây là một cơng nghệ thuộc lĩnh vực trí tuệ nhân
tạo và khoa học máy tính, thiết lập cho máy có tầm nhìn và xử lý nhận dạng như con
người.
Trong đề tài này, thông qua những hình ảnh được cung cấp từ trước, khi có người
bước vào thang máy, qua camera hình ảnh của người đó sẽ được gửi đến hệ thống, AI
lập tức phân tích đặc điểm bên ngồi của người đó tương đương với hình ảnh nào đã
được cung cấp để từ đó hệ thống sẽ tự động phát clip quảng cáo trên màn hình của thang
máy phù hợp với lứa tuổi của người đó

2, CNN là gì?
Giới Thiệu về CNN
Convolutional Neural Networks (CNN) là một trong những mơ hình deep
learning phổ biến nhất và có ảnh hưởng nhiều nhất trong cộng đồng Computer Vision.
CNN được dùng trong trong nhiều bài toán như nhân dạng ảnh, phân tích video, ảnh
MRI, hoặc cho bài các bài của lĩnh vự xử lý ngôn ngữ tự nhiên,và hầu hết đều giải quyết
tốt các bài toán này.
Đặc trưng của CNN
CNN so sánh hình ảnh theo từng mảnh, mỗi mảnh đó được gọi là feature (đặc
trưng). Mỗi feature được coi như là một hình ảnh mini, tức chúng là những mảng hai
chiều nhỏ. Các feature sẽ được khớp với các khía cạnh chung của bức ảnh nghĩa là
feature này sẽ tương ứng với khía cạnh nào đó của bức ảnh và chúng sẽ được khớp lại
với nhau. Khi xem một hình ảnh mới, vì CNN sẽ khơng biết nó ở vị trí nào và các feature
khớp với nhau ở đâu nên nó thử chúng ở tất cả các vị trí khác nhau. Trong q trình đó
chúng tạo thành một bộ lọc, gọi là filter. Và để thực hiện điều này, chúng ta sử dụng
phép tốn tích chập. Phép tích chập là phép nhân giữa mỗi điểm ảnh trong feature với

giá trị của điểm ảnh tương ứng trong hình ảnh đó.
Về kỹ thuật, mơ hình CNN để training và kiểm tra. Mỗi hình ảnh đầu vào sẽ
được chuyển qua 1 loạt các lớp tích chập với các bộ lọc (Kernels/Filters) để phát hiện
các đặc trưng có tính khơng gian hiệu quả; sử dụng các hàm kích hoạt phi tuyến để giới
hạn phạm vi biên độ cho phép của giá trị đầu ra; sau đó đến lớp Pooling Layer để làm
giảm kích thước ảnh đầu ra mà vẫn giữ được các thông tin quan trọng của ảnh đầu vào;
cuối cùng là chuyển ma trận đặc trưng ở lớp trước thành vector chứa xác suất của các

11

đối tượng cần được dự đốn (Fully Connected Layer). Hình dưới đây là tồn bộ luồng
CNN để xử lý hình ảnh đầu vào và phân loại các đối tượng dựa trên giá trị.

2.1. Kiến trúc cơ bản của mạng CNN :
CNN bao gồm tập hợp các lớp cơ bản bao gồm: convolution layer + nonlinear
layer, pooling layer, fully connected layer. Các lớp này liên kết với nhau theo một thứ
tự nhất định. Thông thường, một ảnh sẽ được lan truyền qua tầng convolution layer +
nonlinear layer đầu tiên, sau đó các giá trị tính tốn được sẽ lan truyền qua pooling
layer, bộ ba convolution layer + nonlinear layer + pooling layer có thể được lặp lại nhiều
lần trong network. Và sau đó được lan truyền qua tầng fully connected layer và softmax
để tính sác xuất ảnh đó chứa vật thế gì.
2.1.1. Lớp tích chập Convolution Layer.
Convolution layer là lớp quan trọng nhất và cũng là lớp đầu tiên của của mơ hình
CNN. Lớp này có chức năng chính là phát hiện các đặc trưng có tính khơng gian hiệu
quả. Trong tầng này có 4 đối tượng chính là: ma trận đầu vào, bộ filters, và receptive
field, feature map. Conv layer nhận đầu vào là một ma trận 3 chiều và một bộ filters cần
phải học. Bộ filters này sẽ trượt qua từng vị trí trên bức ảnh để tính tích chập
(convolution) giữa bộ filter và phần tương ứng trên bức ảnh. Phần tưng ứng này trên
bức ảnh gọi là receptive field, tức là vùng mà một neuron có thể nhìn thấy để đưa ra

quyết định, và mà trận cho ra bới quá trình này được gọi là feature map. Để hình dung,
các bạn có thể tưởng tượng, bộ filters giống như các tháp canh trong nhà tù quét lần
lượt qua khơng gian xung quanh để tìm kiếm tên tù nhân bỏ trốn. Khi phát hiện tên tù
nhân bỏ trốn, thì chuông báo động sẽ reo lên, giống như các bộ filters tìm kiếm được
đặc trưng nhất định thì tích chập đó sẽ cho giá trị lớn.
Tầng convolution như là feature detector
Tầng convolution có chức năng chính là phát hiện đặc trưng cụ thể của bức ảnh.
Những đặc trưng này bao gồm đặc trưng cơ bản là góc,cạnh, màu sắc, hoặc đặc trưng
phức tạp hơn như texture của ảnh. Vì bộ filter quét qua toàn bộ bức ảnh, nên những đặc
trưng này có thể nằm ở vị trí bất kì trong bức ảnh, cho dù ảnh bị xốy trái/phải thì những
đặc trưng này vẫn bị phát hiện.
Ở minh họa dưới, các bạn có một filter 5x5 dùng để phát hiện góc/cạnh với, filter
này chỉ có giá trị một tại các điểm tương ứng một góc cong.

12

Dùng filter ở trên trược qua ảnh của nhân vật Olaf trong trong bộ phim Frozen.
Chúng ta thấy rằng, chỉ ở những vị trí trên bức ảnh có dạng góc như đặc trưng ở filter
thì mới có giá trị lớn trên feature map, những vị trí cịn lại sẽ cho giá trị thấp hơn. Điều
này có nghĩa là, filter đã phát hiện thành cơng một dạng góc/cạnh trên dự liệu đầu vào.
Tập hơn nhiều bộ filters sẽ cho phép các bạn phát hiện được nhiều loại đặc trưng khác
nhau,và giúp định danh được đối tượng.

Các tham số của tầng convolution: Kích thước bộ filter, stride và padding
Kích thước bộ filter là một trong những tham số quan trọng nhất của tầng
convolution. Kích thước này tỉ lệ thuận với số tham số cần học tại mỗi tầng convolution
và là tham số quyết định receptive field của tầng này. Kích thước phổ biến nhất của bộ
filter là 3x3.
Ngoài ra, các bạn cần lưu ý tham số stride, thể hiện số pixel bạn cần phải dịch

chuyển mỗi khi trượt bộ filter qua bức ảnh. Ở ví dụ bên dưới, với tham số stride bằng
2, bộ filter sẽ dịch chuyển 2 pixel mỗi lần áp dụng phép convolution.

13

2.1.2. Lớp kích hoạt phi tuyến (Nonlinear Layer)
Lớp kích hoạt phi tuyến được xây dựng để đảm bảo tính phi tuyến của mơ hình
huấn luyện sau khi đã thực hiện một loạt các phép tính tốn tuyến tính qua các lớp tích
chập. Lớp kích hoạt phi tuyến sử dụng các hàm kích hoạt phi tuyến như ReLU hoặc
Sigmoid, Tanh, Leaky relu, Maxout… để giới hạn phạm vi biên độ cho phép của giá trị
đầu ra. Trong số các hàm kích hoạt này, hàm ReLU được chọn do cài đặt đơn giản, tốc
độ xử lý nhanh mà vẫn đảm bảo được tính tốn hiệu quả. Phép tính tốn của hàm ReLU
chỉ đơn giản là chuyển tất cả các giá trị âm thành giá trị 0.
Lớp Relu được áp dụng ngay phía sau lớp tích chập, với đầu ra là một ảnh mới
có kích thước giống với ảnh đầu vào, các giá trị điểm ảnh cũng hoàn toàn tương tự, trừ
các giá trị âm đã bị loại bỏ.
2.1.3. Lớp lấy mẫu Pooling Layer (Pooling Layer)
Sau hàm kích hoạt, thơng thường chúng ta sử dụng tầng pooling. Một số loại
pooling layer phổ biến như là max-pooling, average pooling, với chức năng chính là
giảm chiều của tầng trước đó. Với một pooling có kích thước 2x2, các bạn cần phải
trược filter 2x2 này trên những vùng ảnh có kích thước tương tự rồi sau đó tính max,
hay average cho vùng ảnh đó.

Ý tưởng đằng sau tầng pooling là vị trí tuyệt đối của những đặc trưng trong khơng
gian ảnh khơng cịn cần cần thiết, thay vào đó vị trí tương đối giữa các đặc trưng đã đủ

14

để phân loại đối tượng. Hơn giảm tầng pooling có khả năng giảm chiều cực kì nhiều,
làm hạn chế overfit, và giảm thời gian huấn luyện tốt.
2.1.4. Lớp kết nối đầy đủ (Fully Connected Layer)
Lớp cuối cùng của mơ hình CNN trong bài toán phân loại ảnh là lớp Fully
Connected Layer. Lớp này có chức năng đưa ma trận đặc trưng ở lớp trước vào mạng
kết nối đầy đủ như mạng nơ ron bình thường.
Flatten: chuyển ma trận đặc trưng ở lớp trước thành vector chứa xác suất của các
đối tượng cần được dự đoán (chuyển ảnh từ dạng ma trận về mảng 1 chiều).
Sau khi ảnh được truyền qua nhiều lớp CNN thì mơ hình đã học được các đặc
điểm của ảnh, khi đó output của lớp CNN cuối cùng là một ma trận, sẽ được chuyển về
1 vector một chiều.

IV. MÃ LỆNH CHƯƠNG TRÌNH
1, Đăng nhập Google Colab
Bước 1: Tạo thư mục dự án
Đăng nhập Gmail, truy cập vào Drive
Kích chọn Drive của tơi/ chọn Ứng dụng khác
Chọn Google Colaboratory, đặt tên thư mục lần lượt là Nhandienkhuonmat và
Morongbaitoan.

2, Mã lệnh chương trình
2.1. Bài tốn 1: Chạy mơ hình nhận diện lứa tuổi
Khai báo các thư viện sử dụng
Trong hầu hết các trường hợp bạn có thể thực hiện Import các thư viện bằng lệnh
import như bạn thực hiện trên các phần mềm khác.

15

Kết nối với Google Drive để đọc và lưu dữ liệu

Chạy đoạn code kết quả hiện ra như sau:
Chọn kết nối với Google Drive

Chọn vào gmail của mình

Cuối cùng, bấm “cho phép”

16

Kết quả xuất hiện thông báo:
Khai báo đường dẫn thư mục chứa dữ liệu ảnh

Gán nhãn dữ liệu: tên và thứ tự các nhãn tương ứng với tên và thứ tự các
thư mục chứa ảnh huấn luyện và kiểm định

Tiền xử lý dữ liệu ảnh với ImageGenertor
Với mỗi ảnh, mỗi điểm ảnh tương ứng được lưu dưới dạng 1 ma trận sữ liệu số
trong khoảng từ 0 đến 255. Tham số rescale cho phép chuyển giá trị pixel từ 0:255 thành
thang đo 0:1

Đọc dữ liệu train và validation
Target size là các ảnh sẽ được chỉnh sửa về kích thước theo nhóm làm là ( 100,
1000)
Batch_size = 30 tức là mỗi lần học sẽ có 30 ảnh và nó sẽ học hết từ bài này qua
bài khác tới khi hết ảnh.

17

Kết quả cho thấy tập train có 358 ảnh và Validation có 148 ảnh thuộc 3 lớp
Xây dựng mơ hình
Mơ hình gồm 5 tầng: Input image -> CNN1 -> CNN2 -> Fully connected layer > Output.

Thiết lập các tham số để huấn luyện mơ hình
Optimize ta chọn learing_rate là 0,001 tức là nếu mơ hình cảm thấy nó họ khơng
tốt hơn thì sẽ tự động tăng tỷ lệ học lên là 0,001.
loss: hàm tính tốn sai số giữa giá trị học được và giá trị thực tếcategorical_crossentropy dùng trong trường hợp dự đoán nhiều lớp
metrics: thước đo để ta đánh giá độ chính xác accuracy của mơ hình

Huấn luyện mơ hình

18

Kết quả:

EPOCHS là số lần học lặp lại của mô hình
Trong lần 74/100 là tốt nhất vì độ chính xác của tệp train chạm tới 100% và độ
chính xác của validation là 98,33% tỷ lệ sai số là 0,0253.
Sử dụng mơ hình để nhận diện hình ảnh

Ấn vào chọn tệp để chọn ảnh

19

2.2. Bài toán 2: Mở rộng bài toán 1
+ Khai báo thư viện cần sử dụng

+ Kết nối với Google Drive để đọc file và lưu file

+ Khai báo đường dẫn đến 2 thư mục chứa ảnh để huấn luyện và kiểm định
mơ hình

20

+ Gán nhãn tương ứng
+ Tiền xử lí dữ liệu ảnh

+ Đọc hai dữ liệu train, validation và gán nhãn tương ứng với cấu trúc của
các thư mục con

+ Xây dựng mơ hình khi thêm 2 lớp CNN3 và CNN4

+ Thiết lập các tham số cho mơ hình

21

+ Huấn luyện mơ hình
Mơ hình được tăng số vịng lặp lên 150 vòng

Kết quả:

+ Lệnh lưu model đã huấn luyện vào thư mục trong drive

+ Sử dụng mơ hình để nhận diện lứa tuổi

22

V. ĐỀ XUẤT NÂNG CAO MƠ HÌNH VÀ ĐÁNH GIÁ
1, Nhận xét chung về bài toán 1 và 2
Trong bài toán 2 ta đã sử dụng thêm 2 lớp Mạng nơ-ron tích chập( CNNs) tức là
tiếp tục dùng ma trận trượt trên ảnh để tìm thêm các điểm nổi bật.. Ví dụ, đối với người
cao tuổi nếu sử dụng 2 lớp CNNs chỉ phát hiện được 2 trưng là da nhăn và tóc bạc nhưng
nếu sử dụng thêm lớp CNNs sẽ tìm thêm được các đặc trưng khác nữa như răng đen,…
Ngồi ra bài tốn 2 cũng sử dụng số vịng lặp là 150. Điều này làm cho q trình
dự đốn các lứa tuổi sẽ có kết quả chính xác hơn. Nếu bạn nhìn kỹ bài tốn 2 sẽ nhận
ra ngay hầu hết độ chính xác của tệp train và test lên tới con số 100%. Điều này chứng
tỏ mô hình 2 dự đốn rất tốt.

23

2, Tóm tắt các phần mở rộng mơ hình
+ Thêm 2 lớp CNN 3 và CNN 4 ở bài toán 2.
+ Thay đổi số lượng vòng lặp EPOCHS từ 100 ở bài toán 1 thành 150 ở bài toán
2
+ Thiết lập tham số khác, thay thế tham số cô hướng dẫn trên lớp là RMSprop
thành Adam.
+ Lưu model đã huấn luyện vào 1 thư mục mới trong google drive.

Kết luận
Từ quá trình thực hành đề tài: “Nhận diện diện lứa tuổi (trẻ con, trưởng thành,
người già) trong thang máy để phát clip quảng cáo phù hợp với độ tuổi, áp dụng cho
doanh nghiệp P&G.”, nhóm chúng em đã nhận thấy được tầm quan trọng cũng như lợi

ích của AI trong nhận diện khuôn mặt trong thời đại công nghệ số phát triển mạnh mẽ.
Nhóm em đã tìm hiểu và học được cách thực hành google colab để áp dụng vào bài toán
nhận diện trong thực tiễn, đem lại hiệu quả ứng dụng tốt trong đời sống - xã hội của con
người hiện nay.
Nói chung, AI đem lại khá nhiều lợi ích cho doanh nghiệp P&G khi họ có thể tối
ưu chi phí quảng cáo khi đã xác định được đúng đối tượng cần quảng cáo, đem lại sự
hài lòng cho khách hàng khi thấy quảng cáo đúng nhu cầu hiện tại của bản thân. Không
chỉ riêng P&G, mà đối với marketing của nhiều ngành nghề cũng nên áp dụng AI nhận
diện khn mặt để có thể hịa nhập vào thời đại công nghệ số 4.0, bắt kịp được với yêu
cầu của khách hàng.
Những lợi ích của AI trí tuệ nhân tạo trong ứng dụng Computer Vision để nhận
diện tự động lứa tuổi (bao gồm trẻ con, trưởng thành, cao tuổi) của người trong thang
máy với P&G nói riêng và mọi doanh nghiệp nói chung cùng với lợi ích cho khách
hàng:
- AI nhận diện, đánh giá cá nhân con người dựa trên 3 lứa tuổi, sau đó đưa ra
những quảng cáo phù hợp nhất với nhu cầu của độ tuổi đó. Quá trình tìm hiểu nhu cầu
cụ thể của khách hàng được rút ngắn, giúp doanh nghiệp tiết kiệm thời gian và chi phí
thu thập dữ liệu nhưng vẫn tạo cảm giác hài lịng cho khách hàng đó..
- Có thể thấy việc ứng dụng trí tuệ nhân tạo vào thực tiễn là trong thang máy để
phát quảng cáo phù hợp sẽ giúp P&G tối ưu hố chi phí quảng cáo, có sự linh hoạt trong
việc lựa chọn và đưa những quảng cáo sản phẩm đến với khách hàng chỉ trong thời gian
đi thang máy, từ đó hiệu quả marketing của doanh nghiệp sẽ được cải thiện và đạt hiệu
quả cao hơn so với doanh nghiệp không tận dụng công nghệ AI.
- Sự kết hợp giữa doanh nghiệp và công nghệ hiện đại sẽ là một điểm cộng lớn
trong mắt khách hàng. Điều này thể hiện doanh nghiệp rất biết cách khai thác nhu cầu,
thu hút được sự hiếu kỳ của người sẽ đi thang máy. Từ đó có thể thấy chiến lược
marketing kết hợp AI này đem lại hiệu quả là sự để tâm nhất định của khách hàng dành
cho sản phẩm của công ty khi họ đã xem quảng cáo trong thang máy, từ đó phát triển
và mở rộng doanh nghiệp để tiếp cận khách hàng một cách dễ dàng hơn.

24

Tài liệu tham khảo
1. Bài toán 1:
/>2. Bài toán 2: Mở rộng bài toán 1
/>MGX
3. Học viện Ngân hàng khoa Hệ thống thông tin quản lý, Chương 6 Thị giác máy
tính (Computer Vision), Side bài giảng mơn Trí tuệ nhân tạo trong kinh doanh,
Học viện Ngân hàng.
4. Trang chủ doanh nghiệp P&G Việt Nam, />5. Khánh Hà (2020), “P&G Việt Nam “đuối sức” đường trường?”,
/>
25

Bài tập lớn Trí tuệ nhân tạo Ứng dụng Computer Vision tự động nhận diện lứa tuổi (trẻ con, trưởng thành, người già) của người đi trong thang máy để phát clip quảng cáo phù hợp. (Áp dụng cho doanh nghiệp PG

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về