Tải bản đầy đủ (.pdf) (72 trang)

Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.92 MB, 72 trang )

TÓM TẮT
Ngày nay, với sự bùng nổ về khoa học kỹ thuật và công nghệ thông tin, tốc
độ đô thị hoá ngày càng phát triển, nhu cầu đi lại của con người ngày càng cao. Tuy
nhiên cở sở hạ tầng, hệ thống giao thông hiện nay chưa đáp ứng đủ nhu cầu đó.
Hiện tượng ùn tắc xảy ra thường xuyên, liên tục trên hầu khắp các con đường, môi
trường ngày càng ô nhiễm. Việc giảm thời gian chờ của các phương tiện bằng cách
áp dụng trí tuệ nhân tạo sẽ giúp tăng tính tiện lợi trong việc lưu thơng, giảm thiểu
việc con người phải chỉnh thời gian đèn tại các ngã tư. Trên ý tưởng đó đề tài “Ứng
dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm
giảm tổng thời gian chờ của các phương tiện tại một nút giao thông ” sẽ đáp ứng và

hiện thực hóa ý tưởng trên.
Mục tiêu đề tài này đặt ra là ứng dụng được trí tuệ nhân tạo vào việc quản lý
đèn giao thông thông minh để giảm tổng thời gian chờ của các phương tiện.

ABSTRACT
Nowadays, the explosion of science technology and information technology,
the urbanization is speeding, the number of vehicles is increasing. However, the
current infrastructure and transport system do not meet that demand. The
phenomenon of congestion occurs regularly and continuously on almost all roads,
the environment is increasingly polluted. Reducing the waiting time for vehicles by
applying artificial intelligence will increase the convenience of traffic and minimize
the human presence who adjust the time of the traffic lights at intersections.
According to that idea, the topic “Applying artificial intelligence for managing the
smart traffic light system to reduce the total waiting time of vehicles at a traffic
node" will meet and realize the idea.
The objective of this project, which apply artificial intelligence to the
management of the smart traffic light system for reducing the cumulative waiting
time of vehicles.



MỤC LỤC
CHƯƠNG 1: TỔNG QUAN .......................................................................................1
1.1. Giới thiệu ............................................................................................................1
1.1.1. Công trình liên quan ....................................................................................1
1.1.2. Vấn đề tồn tại cần giải quyết .......................................................................3
1.2. Lý do chọn đề tài ................................................................................................3
1.3. Mục tiêu nghiên cứu ...........................................................................................4
1.4. Đối tượng, phạm vi nghiên cứu ..........................................................................4
1.5. Nội dung nghiên cứu ..........................................................................................4
1.6. Phương pháp nghiên cứu ....................................................................................4
1.7. Bố cục đề tài .......................................................................................................4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ...........................................................................6
2.1. Tổng quan trí tuệ nhân tạo (AI – Artificial Intelligence) ...................................6
2.1.1.

Định nghĩa ..................................................................................................6

2.1.2. Lịch sử trí tuệ nhân tạo................................................................................7
2.1.3. Quá trình hình thành và phát triển của AI ...................................................7
2.1.4. Mục đích của trí tuệ nhân tạo ........................................................................8
2.1.5. Trí tuệ nhân tạo trong cách ngành liên quan .................................................9
2.2. Nơ-ron nhân tạo (Neural Networks).................................................................10
2.2.1. Khởi đầu với nơron .....................................................................................10
2.2.2. Học sâu (Deep Learning) ............................................................................11
2.2.3. Mạng nơ-ron tích chập (Convolutional Neural Network) ..........................12
2.2.3.1. Định nghĩa ............................................................................................12
2.2.3.2. Cấu trúc của mạng CNN ......................................................................12
2.3. Học tăng cường (Reinforcement Learning) .....................................................13
2.3.1. Định nghĩa .................................................................................................13
2.3.2. Q-Learning ................................................................................................15

2.4. TensorFlow .......................................................................................................16
2.4.1. Giới thiệu...................................................................................................16


2.4.2. Lịch sử phát triển TensorFlow ..................................................................17
2.4.3. Các thuộc tính của Tensor .........................................................................18
CHƯƠNG 3 : GIẢI PHÁP GIẢM THỜI GIAN CHỜ CỦA PHƯƠNG TIỆN DỰA
VÀO MẠNG NƠ-RON TÍCH CHẬP CÙNG VỚI HỌC TĂNG CƯỜNG .............20
3.1. Giới thiệu ..........................................................................................................20
3.2. Phần mềm mô phỏng hoạt động của phương tiện giao thông (SUMO) ............22
3.3. Lưu lượng giao thơng .......................................................................................22
3.4. Lựa chọn mơ hình mạng huấn luyện .................................................................25
3.5. Giải pháp ...........................................................................................................25
CHƯƠNG 4: THỰC NGHIỆM ................................................................................30
4.1. Môi trường thực nghiệm...................................................................................30
4.2. Kết quả thực nghiệm .........................................................................................30
4.2.1. Hệ thống đèn tĩnh ......................................................................................30
4.2.2. Kết quả quá trình huấn luyện ....................................................................30
4.2.2.1.

Huấn luyện tác nhân với hệ số γ = 0.09 ............................................31

4.2.2.2.

Huấn luyện tác nhân với hệ số γ = 0.25 ............................................32

4.2.2.3.

Huấn luyện tác nhân với hệ số γ = 0.75 ............................................33


4.2.3. Đánh giá hiệu suất của các mơ hình ..........................................................34
CHƯƠNG 5: KẾT LUẬN – HƯỚNG PHÁT TRIỂN .............................................36
5.1. Kết luận ............................................................................................................36
5.2. Hướng phát triển ...............................................................................................36
TÀI LIỆU THAM KHẢO .........................................................................................37
PHỤ LỤC ..................................................................................................................40


DANH MỤC HÌNH ẢNH
Hình 2.1: Tổng quan về trí tuệ nhân tạo ........................................................................... 6
Hình 2.2: Lịch sử phát triển trí tuệ nhân tạo ..................................................................... 8
Hình 2.3: Các ngành nghề áp dụng trí tuệ nhân tạo.......................................................... 9
Hình 2.4: Cấu tạo nơ-ron sinh học ................................................................................ 10
Hình 2.5: Cấu tạo nơ-ron nhân tạo ................................................................................. 11
Hình 2.6: Mạng nơ-ron sâu (DNN) ................................................................................ 12
Hình 2.7: Cấu trúc mạng Convolutional Neural Network .............................................. 13
Hình 2.8: Cách thức hoạt động của học tăng cường ....................................................... 14
Hình 3.1: Minh họa trạng thái các vị trí xe trên một phía của một nút giao thơng ........ 20
Hình 3.2: Qui trình hệ thống đưa ra các giá trị Q-value ................................................. 21
Hình 3.3: Mơ phỏng số lượng xe được tạo ra theo thời gian .......................................... 23
Hình 3.4: Quá trình hệ thống được huấn luyện .............................................................. 26
Hình 3.5: Qui trình lưu mẫu từ các trạng thái của nút giao thông vào hệ thống ............. 27
Hình 3.6: Minh hoạ phương pháp đề xuất ...................................................................... 28
Hình 3.7: Minh hoạ bốn hành động tại một nút giao thơng ............................................ 29
Hình 4.1: Phần thưởng nhận được khi huấn luyện hệ thống với hệ số γ bằng 0.09........ 31
Hình 4.2: So sánh tổng thời gian chờ của các phương tiện giữa hệ thống đèn tĩnh và hệ
thống được huấn luyện với γ = 0.09 ............................................................................... 31
Hình 4.3: Phần thưởng nhận được khi huấn luyện hệ thống với hệ số γ bằng 0.25........ 32
Hình 4.4: So sánh tổng thời gian chờ của các phương tiện giữa hệ thống được huấn
luyện với γ = 0.09 và γ = 0.25 ........................................................................................ 32

Hình 4.5: Phần thưởng nhận được khi huấn luyện hệ thống với hệ số γ bằng 0.75........ 33
Hình 4.6: So sánh tổng thời gian chờ của các phương tiện giữa hệ thống được huấn
luyện với γ = 0.09, γ = 0.25 và γ = 0.75 ......................................................................... 33
Hình 4.7: So sánh tổng thời gian chờ của các phương tiện qua các lần thử nghiệm ...... 34


DANH MỤC BẢNG BIỂU
Bảng 1.1: Kết quả so sánh thực nghiệm với hệ thống đèn tĩnh của Andrea Vidali

cùng các đồng sự ............................................................................................................. 3
Bảng 2.1: Q-Learning về các trạng thái được khởi tạo từ 0, sau đó mỗi ơ được cập nhật
thông qua đào tạo .......................................................................................................... 16
Bảng 3.1: Khả năng xuất hiện của một xe trong trường hợp lưu lượng đơng và ít ........ 23
Bảng 3.2: Khả năng xuất hiện của một xe trong trường hợp lưu lượng đi đa số từ hướng
Bắc, Nam ........................................................................................................................ 24
Bảng 3.3: Khả năng xuất hiện của một xe trong trường hợp lưu lượng đi đa số từ hướng
Bắc, Nam ........................................................................................................................ 24
Bảng 3.4: Đặc tính của một chiếc xe .............................................................................. 25
Bảng 4.1: Thời gian đèn của hệ thống đèn tĩnh .............................................................. 30
Bảng 4.2: Kết quả sau khi chạy mô phỏng trên hệ thống đèn tĩnh ................................. 30
Bảng 4.3: Hệ số dùng để huấn luyện hệ thống đèn giao thông thông minh ................... 31
Bảng 4.4: Kết quả sau khi chạy mô phỏng với hệ số γ = 0.09 ........................................ 31
Bảng 4.5: Kết quả sau khi chạy mô phỏng với hệ số γ bằng 0.25 .................................. 32
Bảng 4.6: Kết quả sau khi chạy mô phỏng với hệ số γ bằng 0.75 .................................. 33
Bảng 4.7: So sánh hiệu suất của các mơ hình đề xuất với hệ thống đèn tĩnh (thấp hơn là
tốt hơn) ........................................................................................................................... 35


CÁC TỪ VIẾT TẮT
Từ viết tắt


Thuật ngữ

ITS

Intelligent Transport System

AI

Artificial Intelligence

NN

Neural Networks

DNN

Deep Neural Networks

DL

Deep Learning

DRL

Deep Reinforcement Learning

A2C

Actor Critic


MDP

Markov Decision Process

CNN

Convolutional Neural Network

RL

Reinforcement Learning

SL

Supervised Learning

UL

Unsupervised Learning

API

Application Programming Interface

CPU

Central Processing Unit

GPU


Graphics Processing Unit

CUDA

Compute Unified Device Architecture

STL

Static Traffic Light

Twt

Total waiting time

LGA

Low Γ Agent

MGA

Medium Γ Agent

HGA

High Γ Agent

IHGA

Improved High Γ Agent


GCNN

Graph Convolutional Neural Network

NFQI

Neural fitted Q-iteration


SUMO

Simulation of Urban MObility

TraCI

Traffic Control Interface


Chương 1 : Tổng Quan
Chương 1

TỔNG QUAN
1.1.

Giới thiệu
Trong những ngày qua, khái niệm “Cách mạng Công nghiệp 4.0” được nhắc

đến nhiều trên truyền thông và mạng xã hội. Cùng với đó là những hứa hẹn về cuộc
“đổi đời” của các doanh nghiệp tại Việt Nam nếu đón được làn sóng này.

Việc áp dụng công nghệ tiên tiến để hỗ trợ việc quản lí dịng phương tiện đã
trở nên phổ biến trong hơn 70 năm qua với những nỗ lực ban đầu trong việc kiểm
sốt tín hiệu giao thơng ở các ngã tư và khu vực giao cắt tại các con đường. Những
nhà sản xuất phương tiện đã phát triển các công nghệ tiên tiến để tạo ra loại phương
tiện an toàn hơn, thoải mái hơn, giảm áp lực khi lái xe.
Những công nghệ tiên tiến được áp dụng ngày càng nhiều trong việc quản lí
những mạng lưới giao thơng cơng cộng lớn, và trong việc cập nhật thông tin điểm
đến của xe bus và tàu cho hành khách. Trong lĩnh vực vận tải hàng hóa, một loạt
những cơng nghệ đã được áp dụng để việc di chuyển của các phương tiện trở nên dễ
dàng hơn và trợ giúp những giao dịch thương mại nhưng là một bộ phận của chuỗi
cung cấp. Nhìn chung, những cơng nghệ đó giờ được biết đến với cái tên “hệ thống
giao thông thông minh” (ITS). Khi được áp dụng một cách cẩn thận, ITS có thể tạo
ra hệ thống giao thơng an tồn hơn, an ninh hơn, thuận tiện hơn, và giảm tác động
đến môi trường.
Mục đích của hệ thống này là giúp con người đưa ra quyết định và nó như
những cố vấn giúp họ hiểu cái gì nên cân nhắc để có thể tạo phương án sử dụng ITS
tốt nhất; cơ hội và những thử thách gì đối với ITS có thể đưa ra; và làm thế nào để
giải quyết và tận dụng tốt nhất những thử thách và cơ hội đó.
1.1.1. Cơng trình liên quan
Để tiến hành thực hiện đề tài này tơi đã tìm hiểu các hệ thống giao thơng
thơng minh hiện nay trên thị trường và nghiên cứu các công trình bài báo liên quan:

1


Chương 1 : Tổng Quan
Năm 2016, tác giả Elise van der Pol và Frans A. Oliehoek [1] mô tả sự cố
gắng điều khiển đèn giao thông bằng cách sử dụng các thành phần của MDP, trong
đó trạng thái của con đường được biểu diễn bằng một ma trận nhị phân cùng với đó
là trạng thái của đèn tín hiệu giao thơng. Sau đó ơng kết hợp các tác nhân tại các nút

giao thơng khác nhau cho q trình huấn luyện và thu được kết quả tốt so với hệ
thống đèn tĩnh.
Năm 2016, Li Li cùng các đồng sự [2] đã đề xuất phương pháp áp dụng mạng
học sâu cùng phương pháp học tăng cường để xử lý dữ liệu đầu vào là các trạng thái
bao gồm: tốc độ, độ dài của hàng đợi các xe trên làn đường, … sau đó hệ thống sẽ
điều chỉnh thời gian đèn thích hợp. Tác giả đã thu được kết quả là số lương xe dừng
chờ đã giảm và thời gian chờ trung bình của các phương tiện có thể giảm khoảng
14% nếu sử dụng phương pháp đề xuất thay vì phương pháp học tăng cường thông
thường.
Năm 2017, Juntao Gao cùng các đồng nghiệp [3] đã đề xuất một thuật toán
học tăng cường kết hợp mạng học sâu tự động trích xuất các đặc trưng hữu ích từ
dữ liệu của hệ thống giao thơng như vị trí xe, tốc độ xe ở mỗi đường và trạng thái
tín hiệu của các đèn giao thơng tại một nút giao thơng. Qua đó tác nhân có thể học
các chính sách tối ưu để kiểm sốt tín hiệu của hệ thống đèn giao thông một cách
hợp lý.
Năm 2018, Yilun Lin cùng các đồng sự [4] đã đề xuất một thuật tốn học tập
tăng cường sâu (DRL). Mơ hình của tác nhân được sử dụng là mơ hình A2C. Các
thí nghiệm mơ phỏng đã chỉ ra rằng phương pháp của họ vượt trội hơn so với các
phương pháp dựa trên quy tắc truyền thống và có khả năng xử lý các vấn đề phức
tạp hơn trong thế giới thực.
Năm 2018, một nghiên cứu khác của tác giả Tomoki Nishi [5] chỉ ra rằng việc
trích xuất những thuộc tính ảo từ dữ liệu, cảm biến từ dữ liệu đầu vào, một véc tơ
hoặc ma trận là rất cần thiết cho mạng nơron. Và phương pháp đề xuất sử dụng
GCNN [6] để trích xuất trực tiếp các tính năng của mạng NFQI. Kết quả cho thấy,

2


Chương 1 : Tổng Quan
NFQI với GCNN thu được các luật lệ có thể so sánh nhanh hơn so với hệ thống đèn

mặc định.
Năm 2019, Andrea Vidali cùng các đồng sự [7] đã áp dụng phương pháp học
tăng cường cùng mạng học sâu bằng việc đưa vị trí của các xe trên các làn đường
thành 1 vec-tơ như là dữ liệu đầu vào để cho hệ thống học. Qua đó họ so sánh với
hệ thống đèn tĩnh và thu được kết quả như bảng dưới:
Bảng 1.1: Kết quả so sánh thực nghiệm với hệ thống đèn tĩnh của Andrea Vidali
cùng các đồng sự [7]

1.1.2. Vấn đề tồn tại cần giải quyết
Việc làm giảm tổng thời gian chờ của các phương tiện với các phương pháp
khác nhau thì sẽ cho ra kết quả khác nhau. Thực tế cho thấy rằng các bài báo liên
quan đều đưa dữ liệu đầu vào là một ma trận hoặc vec-tơ của các con đường tại một
nút giao thông. Vậy câu hỏi đặt ra là liệu có một phương pháp tiếp cận khác đem lại
kết quả tối ưu hơn so với đèn giao thông tĩnh thông thường.
1.2.

Lý do chọn đề tài
Các giải pháp hiện tại của việc giảm tổng thời gian chờ của các phương tiện

tại các nút giao thông chủ yếu tập trung việc ma trận hóa các nút giao thơng sau đó
mới đưa cho mơ hình mạng học sâu để đưa ra kết quả cho việc học tăng cường. Vì
thế nên tơi muốn áp dụng mơ hình mạng nơ-ron tích chập (CNN) để phân tích tình
trạng giao thơng tại nút giao thơng sau đó mơ hình học tăng cường sẽ lấy các kết

3


Chương 1 : Tổng Quan
quả đó học và cải thiện việc chọn một hành động là vấn đề luận văn tập trung
nghiên cứu.

1.3.

Mục tiêu nghiên cứu
Mục tiêu đề ra của bài nghiên cứu này là làm giảm tổng thời gian chờ của các

phương tiện tại một nút giao thông bằng phương pháp sử dụng mơ hình mạng CNN
với dữ liệu đầu vào là hình ảnh một nút giao thơng sau đó áp dụng kết quả đầu ra
cho việc học tăng cường.
1.4.

Đối tượng, phạm vi nghiên cứu
Đối tượng nghiên cứu là một phần mềm tích hợp trí tuệ nhân tạo giúp tối ưu

tổng thời gian chờ của các phương tiện.
Phạm vi nghiên cứu là mơ phỏng q trình tự học của phần mềm với dữ liệu
đầu vào là hình ảnh của con đường giúp giảm tổng thời gian chờ của các phương
tiện giao thông. Mô phỏng việc các phương tiện giao thông di chuyển tại một nút
giao thông bằng phần mềm SUMO để tính tổng thời gian chờ.
Thời gian ước tính để hồn tất cơng trình nghiên cứu là 12 tháng.
1.5.

Nội dung nghiên cứu
Nghiên cứu thiết kế mạng CNN cho phù hợp với mục tiêu nghiên cứu của đề

tài đã đề ra.
Nghiên cứu và áp dụng phương pháp mơ hình mạng CNN và học tăng cường
để cải thiện thời gian chờ của phương tiện giao thông.
So sánh tổng thời gian chờ của hệ thống đèn giao thông khi áp dụng mô hình
mạng nơ-ron tích chập và phương pháp học tăng cường với hệ thống đèn tĩnh.
1.6.


Phương pháp nghiên cứu
Phương pháp phân tích và tổng hợp lý thuyết.
Phương pháp phân loại và hệ thống hóa lý thuyết.
Phương pháp mơ phỏng.

1.7. Bố cục đề tài
Chương 1: Tổng Quan

4


Chương 1 : Tổng Quan
Chương này trình bày đặt vấn đề dẫn nhập lý do chọn đề tài, cơng trình liên
quan, mục tiêu nghiên cứu, nội dung nghiên cứu, phương pháp nghiên cứu, các giới
hạn đề tài và bố cục đề tài.
Chương 2: Cơ Sở Lý Thuyết
Chương này giới thiệu về lý thuyết cơ bản về trí tuệ nhân tạo và các ứng
dụng của nó trong đời sống.
Chương 3: Giải pháp giảm thời gian chờ của phương tiện dựa vào mạng nơron tích chập cùng với học tăng cường.
Chương này giới thiệu về hướng đề xuất của luận văn.
Chương 4: Kết luận – Hướng phát triển
Chương này trình bày tóm tắt những gì đã làm được trong luận văn. Và nêu
ra hướng phát triển của đề tài trong tương lai.

5


Chương 2 : Cơ Sở Lý Thuyết
Chương 2


CƠ SỞ LÝ THUYẾT
2.1.

Tổng quan trí tuệ nhân tạo (AI – Artificial Intelligence)

2.1.1. Định nghĩa
Trí tuệ nhân tạo (Artificial Intelligence) có thể được định nghĩa như một
ngành của khoa học máy tính liên quan đến việc tự động hóa các hành vi thơng
minh [8]. AI là một bộ phận của khoa học máy tính và do đó nó phải được đặt trên
những ngun lý lý thuyết vững chắc, có khả năng ứng dụng được của lĩnh vực này.
Ở thời điểm hiện tại, Thuật ngữ này thường dùng để nói đến các máy tính có
mục đích khơng nhất định và ngành khoa học nghiên cứu về các lý thuyết và ứng
dụng của trí tuệ nhân tạo. Tức là mỗi loại trí tuệ nhân tạo hiện nay đang dừng lại ở
mức độ những máy tính hoặc siêu máy tính dùng để xử lý một loại cơng việc nào đó
như điều khiển một ngơi nhà, nghiên cứu nhận diện hình ảnh, xử lý dữ liệu của
bệnh nhân để đưa ra phác đồ điều trị, xử lý dữ liệu để tự học hỏi, khả năng trả lời
các câu hỏi về chẩn đoán bệnh, trả lời khách hàng về các sản phẩm của một cơng
ty,...

Hình 2.1: Tổng quan về trí tuệ nhân tạo
Nguồn: />
6


Chương 2 : Cơ Sở Lý Thuyết
2.1.2. Lịch sử trí tuệ nhân tạo
Ý tưởng xây dựng một chương trình AI xuất hiện lần đầu vào tháng 10 năm
1950 [9], khi nhà bác học người Anh Alan Turing xem xét vấn đề “liệu máy tính có
khả năng suy nghĩ hay khơng?”. Để trả lời câu hỏi này, ông đã đưa ra khái niệm

"phép thử bắt chước" mà sau này người ta gọi là “phép thử Turing”, phép thử được
thực hiện dưới dạng một trị chơi. Theo đó, có ba đối tượng tham gia trị chơi (gồm
hai người và một máy tính). Một người (người thẩm vấn) ngồi trong một phịng kín
tách biệt với hai đối tượng còn lại. Người này đặt các câu hỏi và nhận các câu trả lời
từ người kia (người trả lời thẩm vấn) và từ máy tính. Cuối cùng, nếu người thẩm
vấn không phân biệt được câu trả lời nào là của người, câu trả lời nào là của máy
tính thì lúc đó có thể nói máy tính đã có khả năng “suy nghĩ” giống như người.
Đến mùa hè năm 1956, tại hội nghị do Marvin Minsky và John McCarthy tổ
chức với sự tham dự của vài chục nhà khoa học tại trường Dartmouth, Mỹ, tên gọi
“Artificial Intelligence” được chính thức cơng nhận và được dùng cho đến ngày
nay. Cũng tại đây, Bộ mơn nghiên cứu trí tuệ nhân tạo đầu tiên đã được thành lập.
2.1.3. Quá trình hình thành và phát triển của AI
Từ 1950 – 1965, các nhà khoa học như John McArthy, Marvin Minsky,
Allen Newell và Herbert Simon cùng với những sinh viên đã viết nên những lập
trình giúp máy vi tính giải được những bài toán đố của đại số, chứng minh các định
lý và nói được tiếng Anh [10].
Một số thành tựu ban đầu của giai đoạn này có thể kể đến như: chương trình
chơi cờ của Samuel, chương trình lý luận logic của Newell và Simon, chương trình
chứng minh các định lý hình học của Gelernter [10].
Bước sang thập nên 60, các nghiên cứu về trí tuệ nhân tạo chủ yếu tập trung
vào biểu diễn tri thức và phương thức giao tiếp giữa người và máy tính bằng ngơn
ngữ tự nhiên. Tuy nhiên, tất cả đều thất bại do tiến bộ tin học thời bấy giờ vẫn chưa
đạt đến mức để có thể thực hiện.

7


Chương 2 : Cơ Sở Lý Thuyết
Đến năm 1997, sau trận đấu lịch sử giữa kiện tướng cờ vua Garry Kasparov
với máy tính DeepBlue của IBM [10], niềm hy vọng về trí tuệ nhân tạo mới được

hồi sinh.
Năm 2015, sự phát triển của nền tảng điện toán đám mây với chi phí ở mức
chấp nhận được, cùng những bộ dữ liệu phong phú, các công cụ phát triển phần
mềm miễn phí hoặc giá rẻ đã hỗ trợ rất nhiều cho các nhà nghiên cứu. Nhờ đó,
những nghiên cứu về cơng nghệ học hỏi cho máy tính, cịn được gọi các mạng thần
kinh, từ chỗ vô cùng tốn kém đã trở nên tương đối rẻ.
Tất cả đã giúp cho mảnh đất trí tuệ nhân tạo thu hút đơng đảo các ơng lớn
như: Facebook, Google, Microsoft, …tham gia nghiên cứu, phát triển sản phẩm và
mở ra kỷ nguyên mới cho trí tuệ nhân tạo.

Hình 2.2: Lịch sử phát triển trí tuệ nhân tạo
Nguồn: />
2.1.4. Mục đích của trí tuệ nhân tạo
Việc phát triển trí tuệ nhân tạo giúp cho máy móc có trí tuệ như con người:
tạo ra các hệ thống có thể hiểu, suy nghĩ, học hỏi và hành xử giống con người. Hơn

8


Chương 2 : Cơ Sở Lý Thuyết
thế nữa, các hệ thống này có thể thể hiện hành vi thơng minh, học hỏi, chứng minh,
giải thích và tư vấn cho người dùng của mình.
2.1.5. Trí tuệ nhân tạo trong cách ngành liên quan
Trí tuệ nhân tạo có thể đóng góp để xây dựng các hệ thống thông minh cho
các ngành như sau: Khoa học máy tính, sinh học, tâm lý học, ngơn ngữ học, tốn
học, xã hội học, khoa học nơ-ron.

Hình 2.3: Các ngành nghề áp dụng trí tuệ nhân tạo
Nguồn: />
2.1.6. Một số ứng dụng của AI trong thực tiễn

Hiện tại, trí tuệ nhân tạo được ứng dụng trong đời sống theo hai hướng:
Dùng máy tính để bắt chước quá trình xử lý của con người và thiết kế những máy
tính thơng minh độc lập với cách suy nghĩ của con người.
Một số ứng dụng của trí tuệ nhân tạo trong cuộc sống thực tiễn có thể kể đến
như: nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự động, tìm kiếm thơng tin,
khai phá dữ liệu và phát triển tri thức, lái xe tự động, robot, …
Trong tương lai, trí tuệ nhân tạo với sự quan tâm và phát triển của các ông
lớn trong ngành công nghệ, dự kiến sẽ mở rộng hơn nữa phạm vi ứng dụng sang
các lĩnh vực như: Y tế, xây dựng, ngân hàng, công nghệ siêu vi, …

9


Chương 2 : Cơ Sở Lý Thuyết
Đến nay, trí tuệ nhân tạo đã góp phần khơng nhỏ trong việc giúp con người
tiết kiệm sức lao động, đẩy nhanh quá trình tự động hóa và số hóa nền kinh tế của
nhân loại, với chi phí khá rẻ. Mặc dù, vẫn có nhiều ý kiến lo ngại về công ăn việc
làm của con người khi trí tuệ nhân tạo phát triển. Nhưng thiết nghĩ, nếu chúng ta có
những chính sách phù hợp thì trí tuệ nhân tạo sẽ là nền tảng đưa loài người bước
lên một tầm cao mới.
2.1.7. Những nguy cơ tiềm ẩn
Rất nhiều hãng cơng nghệ nổi tiếng có tham vọng tạo ra được cổ máy với trí
tuệ nhân tạo vì giá trị của chúng là vơ cùng lớn, giải quyết được rất nhiều vấn đề
của con người mà loài người đang chưa giải quyết được.
Tuy trí tuệ nhân tạo mang lại rất nhiều giá trị cho cuộc sống loài người,
nhưng chúng cũng tiềm ẩn những nguy cơ. Rất nhiều chuyên gia lo lắng rằng khi
trí tuệ nhân tạo đạt tới 1 ngưỡng tiến hóa nào đó thì đó cũng là thời điểm loài người
bị tận diệt. Rất nhiều các bộ phim đã khai thác đề tài này với nhiều góc nhìn, nhưng
qua đó đều muốn cảnh báo lồi người về mối nguy đặc biệt này.
2.2.


Nơ-ron nhân tạo (Neural Networks)

2.2.1. Khởi đầu với nơron
Một mạng nơ-ron được cấu thành bởi các nơ-ron đơn lẻ được gọi là các tri
giác (perceptron). Một nơ-ron có thể nhận nhiều đầu vào và cho ra một kết quả duy
nhất.

Hình 2.4: Cấu tạo nơ-ron sinh học [11]
Nơ-ron nhân tạo được lấy cảm hứng từ nơ-ron sinh học với cách hoạt động
tương tự, nó là sự kết hợp từ nhiều đơn vị (unit), và tín hiệu sẽ được xử lý theo

10


Chương 2 : Cơ Sở Lý Thuyết
từng lớp (layer), như trên hình, lớp ở giữa được gọi là lớp ẩn (hidden layer), còn lại
là lớp vào (input layer) và lớp ra (output layer).
Để sử dụng phát triển một mạng nơ-ron người ta quan tâm đến các layer sắp
xếp như thế nào, layer loại nào được sử dụng, có bao nhiêu nơ-ron trong một
layer…
Các biến số không kém phần quan trọng trong mạng nơ-ron như: trọng số
(weights – w) và biases (b) hoặc các tham số của mạng nơ-ron.
Mục đích của việc huấn luyện một mạng nơ-ron nhân là đi tìm tất cả giá trị
tốt nhất của các thông số mạng, để đưa ra cách giải quyết vấn đề một cách tin cậy.
Mà hai thông số quan trọng nhất của quá trình này, chính là trọng số và biases.

Hình 2.5: Cấu tạo nơ-ron nhân tạo
Nguồn: />
2.2.2. Học sâu (Deep Learning)

Deep Learning có thể hiểu là một mạng nơ-ron với nhiều đơn vị lớp ẩn giữa
lớp đầu vào và đầu ra. Mỗi lớp ẩn sẽ có một nhiệm vụ, dữ liệu đầu ra của lớp này
sẽ là dữ liệu đầu vào của lớp sau.

11


Chương 2 : Cơ Sở Lý Thuyết

Hình 2.6: Mạng nơ-ron sâu (DNN)
Nguồn: />
Ứng dụng của Deep Learning [12]:
. Xe tự lái
. Tìm kiếm bằng giọng nói, trợ lý ảo
. Dịch tự động
. Nhận dạng ảnh (Image Recognition)
.…
2.2.3. Mạng nơ-ron tích chập (Convolutional Neural Network)
2.2.3.1. Định nghĩa
Convolutional Neural Network (CNN), mạng nơ-ron tích chập, là một trong
những mơ hình học sâu tiên tiến. Nó giúp cho chúng ta xây dựng được những hệ
thống thơng minh với độ chính xác cao như hiện nay.
CNN chứa đựng một hoặc nhiều convolutional layer, pooling hoặc fully
connected.
2.2.3.2. Cấu trúc của mạng CNN
Mạng CNN là một tập hợp các lớp tích chập chồng lên nhau và sử dụng các
hàm kích hoạt như ReLU, Sigmoid để kích hoạt các trọng số trong các nút [13].

12



Chương 2 : Cơ Sở Lý Thuyết
Mỗi một lớp sau khi thơng qua các hàm kích hoạt sẽ tạo ra các thông tin
trừu tượng hơn cho các lớp tiếp theo. Trong mơ hình mạng truyền ngược (feed
forward neural network) thì mỗi nơ-ron đầu vào (input node) cho mỗi nơ-ron đầu ra
trong các lớp tiếp theo.
Mơ hình này gọi là mạng kết nối đầy đủ (fully connected layer) hay mạng
toàn vẹn (affine layer). Cịn trong mơ hình CNN thì ngược lại. Các lớp liên kết được
với nhau thông qua cơ chế tích chập.
Lớp tiếp theo là kết quả convolution từ layer trước đó, nhờ vậy mà ta có
được các kết nối cục bộ. Như vậy mỗi neuron ở lớp kế tiếp sinh ra từ kết quả của
filter áp đặt lên một vùng ảnh cục bộ của neuron trước đó.
Mỗi một lớp được sử dụng các filter khác nhau thơng thường có hàng trăm
hàng nghìn filter như vậy và kết hợp kết quả của chúng lại. Ngồi ra có một số layer
khác như pooling/subsampling layer dùng để chắt lọc lại các thông tin hữu ích hơn
(loại bỏ các thơng tin nhiễu). Trong quá trình huấn luyện mạng (traning) CNN tự
động học các giá trị qua các lớp filter dựa vào cách thức mà bạn thực hiện.

Hình 2.7: Cấu trúc mạng Convolutional Neural Network
Nguồn:
/>_kecdep.png

2.3.

Học tăng cường (Reinforcement Learning)

2.3.1. Định nghĩa
Reinforcement Learning (RL) là một trong ba kiểu học máy chính [14] bên
cạnh học giám sát (SL) và học không giám sát (UL). Bản chất của RL là thực hiện


13


Chương 2 : Cơ Sở Lý Thuyết
tốt một nhiệm vụ (task) bằng cách tương tác với môi trường (environment) thông
qua hành động (action) và nhận được phần thưởng (reward). Cách học này rất giống
với cách con người học từ môi trường bằng cách thử sai.
Có 8 thuật ngữ chính xuất hiện trong học tăng cường: Agent, Environment,
State, Action, Reward, Episode, Policy, Accumulative Reward.
Environment (môi trường): là không gian mà máy tương tác.
Actions (hành động): là hành động của chủ thể.
Agent (tác nhân): tác nhân quan sát môi trường và sinh ra hành động tương
ứng.
Policy (luật lệ): máy sẽ dựa theo luật lệ được đặt ra như thế nào để đạt được
mục đích.
Reward (phần thưởng): phần thưởng tương ứng từ mơi trường mà máy nhận
được khi thực hiện một hành động.
State (trạng thái): trạng thái của môi trường mà máy nhận được.
Episode (tập): một chuỗi các trạng thái và hành động cho đến trạng thái kết
thúc s1, a1, s2, a2, s3, a3, … sn, an.
Accumulative Reward (phần thưởng tích lũy): tổng phần thưởng tích lũy từ
một state đến state cuối cùng.
Như vậy tại state s, agent tương tác với environment với hành động a, dẫn
đến state mới st+1 và nhận được phần thưởng tương ứng rt+1. Vòng lặp như thế cho
tới state cuối cùng sT.

Hình 2.8: Cách thức hoạt động của học tăng cường
Nguồn: />
14



Chương 2 : Cơ Sở Lý Thuyết
Gần đây, RL đã đạt được những thành tựu đáng kể khi các thuật toán của
DeepMind (AlphaGo, AlphaZero, AlphaStar,...) đã chiến thắng áp đảo các tuyển thủ
thế giới trong những trò chơi mà con người đã từng nghĩ rằng máy móc sẽ khơng
bao giờ có thể vượt mặt
2.3.2. Q-Learning
Q-learning là một thuật tốn học tăng cường khơng mơ hình (model free).
Mục tiêu của Q-learning là học một chính sách, chính sách cho biết máy sẽ thực
hiện hành động nào trong hồn cảnh nào. Nó khơng u cầu một mơ hình (do đó
hàm ý “khơng mơ hình”) của mơi trường và nó có thể xử lý các vấn đề với chuyển
đổi và phần thưởng ngẫu nhiên, mà không cần điều chỉnh.
Q-value là giá trị giúp tác nhân biết phải chọn hành động nào để đạt được
phần thưởng lớn nhất. Q-value được tính bằng cơng thức sau :
𝑄 (𝑠, 𝑎) = 𝑟(𝑠, 𝑎) + 𝛾 𝑚𝑎𝑥 𝑄(𝑠 ′ , 𝑎)
𝑎

(2.1)

Công thức này cho thấy Q-value của hành động a tại state s bằng phần
thưởng r(s,a) cộng với Q-value lớn nhất của các states s' tiếp theo khi thực hiện
hành động a. Từ công thức trên chúng ta có thể tạo ra một ma trận các hành động
tương ứng với các trạng thái con đường. Từ đó với mỗi trạng thái thì tác nhân chỉ
cần tìm hành động nào có Q-value lớn nhất. Tuy nhiên Q-value ở thời điểm trước và
sau khi thực hiện hành động sẽ khác nhau. Khác biệt này gọi là Temporal
Difference được thể hiện dưới công thức sau:
𝑇𝐷 (𝑠, 𝑎) = 𝑅(𝑠, 𝑎) + 𝛾 𝑚𝑎𝑥 𝑄(𝑠 ′ , 𝑎′ ) − 𝑄𝑡−1 (𝑠, 𝑎)
𝑎′

(2.2)


Như vậy, ma trận Q(s, a) cần phải cập nhật trọng số dựa trên TD:
𝑄𝑡 (𝑠, 𝑎) = 𝑄𝑡−1 (𝑠, 𝑎) + 𝛼𝑇𝐷𝑡 (𝑠, 𝑎)

(2.3)

Trong đó α là learning rate. Qua các lần tác nhân thực hiện các hành động,
Q(s, a) sẽ dần hội tụ. Q trình này chính là Q-Learning.

15


Chương 2 : Cơ Sở Lý Thuyết
Bảng 2.1: Q-Learning về các trạng thái được khởi tạo từ 0, sau đó mỗi ô được cập
nhật thông qua đào tạo [15]

2.4.

TensorFlow

2.4.1. Giới thiệu
Sự phát triển của trí tuệ nhân tạo dẫn đến việc tìm hiểu về máy học và học
sâu đã trở thành xu thế hiện nay. Việc sử dụng các thư viện có sẵn để tính tốn đã
giúp việc tiếp cận các bài toán trở nên đơn giản hơn. TensorFlow là một nền tảng
nguồn mở đầu cuối để học máy. TensorFlow là một hệ thống phong phú để quản lý

16


Chương 2 : Cơ Sở Lý Thuyết

tất cả các khía cạnh của hệ thống máy học. Nền tảng này tập trung vào việc sử dụng
API TensorFlow cụ thể để phát triển và huấn luyện các mơ hình học máy.
Các API của TensorFlow được sắp xếp theo thứ bậc, với các API cấp cao
được xây dựng trên các API cấp thấp. Các nhà nghiên cứu về máy học sử dụng các
API cấp thấp để tạo và khám phá các thuật toán học máy mới.
2.4.2. Lịch sử phát triển TensorFlow
Bắt đầu từ năm 2011, Google Brain xây dựng DistBelief [16] như là hệ thống
máy học thế hệ đầu tiên, độc quyền của mình. Hơn 50 đội tại Google và các cơng ty
Alphabet khác đã triển khai các mạng nơ-ron học sâu của DistBelief trong các sản
phẩm thương mại của Google, bao gồm Google Search, Google Voice Search,
Google Ads, Google Photos, Google Maps, Google Street View, Google Translate,
và YouTube. Google đã chỉ định các nhà khoa học máy tính, như tiến sĩ Geoffrey
Hinton và tiến sĩ Jeff Dean, để đơn giản hóa và cải tiến mã nguồn của DistBelief để
trở thành một thư viện lớp ứng dụng nhanh hơn, mạnh mẽ hơn, mà sau này trở
thành TensorFlow. Trong năm 2009, đội ngũ được lãnh đạo bởi Hinton đã có thể
giảm số lỗi trong các mạng nơ-ron sử dụng DistBelief một lượng đáng kể; đột phá
này đã được thực hiện bởi các đột phá khoa học của Hinton trong truyền ngược tổng
quát hóa. Đột phá đáng chú ý nhất của Hinton trực tiếp dẫn đến việc giảm lỗi trong
phần mềm nhận dạng giọng nói của Google ít nhất là 25%.
TensorFlow là hệ thống thế hệ thứ hai của Google Brain, với một bản cài đặt
tham khảo đã phát hành dưới dạng phần mềm mã nguồn mở vào ngày 9 tháng 11
năm 2015. Trong khi bản cài đặt tham khảo chạy trên một thiết bị đơn, TensorFlow
có thể chạy trên nhiều CPU và GPU (với nhiều nhân CUDA[17] tùy chọn cho việc
tính tốn đa năng trên các GPU). Nó chạy trên máy tính có cài hệ điều hành Linux,
Mac OS hoặc các hệ thống máy chủ, cũng như trên các nền tảng điện toán di động,
bao gồm Android và iOS của Apple. Các tính tốn của TensorFlow được thể hiện
dưới dạng các biểu đồ chi tiết. Nhiều nhóm tại Google đã chuyển từ DistBelief sang
TensorFlow để phục vụ cho việc nghiên cứu và sản xuất. Thư viện thuật toán này
bắt nguồn từ nhu cầu của Google để hướng dẫn các hệ thống máy tính, được gọi là


17


Chương 2 : Cơ Sở Lý Thuyết
mạng nơron, để tìm hiểu và lý luận tương tự cách thức của con người, vì vậy mà các
ứng dụng mới có thể được xuất phát từ đây có thể đảm nhận các vai trò và chức
năng vốn trước đây chỉ dành cho những người có khả năng. Cái tên TensorFlow bản
thân nó xuất phát từ các thao tác mà các mạng nơ-ron như vậy thực hiện trên các
mảng dữ liệu đa chiều. Những mảng đa chiều được gọi là các “tensor”. Mục đích là
để huấn luyện các mạng nơron phát hiện và giải mã các dữ liệu mẫu và các mối
tương quan.
Vào tháng 6 năm 2016, Jeff Dean của Google cho biết đã có 1500 repository
(kho) trên GitHub đề cập tới TensorFlow, trong đó chỉ có 5 đến từ Google.
Đơn vị xử lý tenor (TPU) [18] là mạch tích hợp dành riêng cho ứng dụng
tăng tốc AI (ASIC) được Google phát triển dành riêng cho việc học máy mạng thần
kinh, đặc biệt là sử dụng phần mềm TensorFlow của chính Google. Google bắt đầu
sử dụng TPU trong nội bộ vào năm 2015 và năm 2018 đã cung cấp chúng cho bên
thứ ba sử dụng, như là một phần của cơ sở hạ tầng đám mây và bằng cách cung cấp
một phiên bản chip nhỏ hơn để bán.
2.4.3. Các thuộc tính của Tensor
Tensor có 3 thuộc tính cơ bản là rank, shape và type.
Rank là số bậc của Tensor. Khái niệm rank ở đây khơng giống trong tốn
học. Ví dụ: Tensor = [1] thì có rank = 1, Tensor = [[3,4],[5,6]] thì sẽ có rank = 2.
Việc phân rank này khá quan trọng vì nó đồng thời cũng giúp phân loại dữ liệu của
Tensor. Khi các rank đặc biệt cụ thể, Tensor có những tên gọi riêng như sau:
. Scalar: Khi Tensor có rank bằng 0
. Vector: Vector là một tensor rank 1.
Matrix: Đây là một Tensor rank 2 hay mảng hai chiều theo khái niệm của
Python.
. N-Tensor: Khi rank của Tensor tăng lên lớn hơn 2, chúng được gọi chung là

N-Tensor.

18


×