lOMoARcPSD|17838488
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN
TIẾNG ANH CHUYÊN NGÀNH TRÍ TUỆ NHÂN TẠO
ĐỀ TÀI:
ALGORITHMS
Sinh viên thực hiện
: TRẦN THANH PHƯƠNG
Giảng viên hướng dẫn : PHẠM THỊ KIM DUNG
Ngành
: CÔNG NGHỆ THÔNG TIN
Chuyên ngành
: TRÍ TUỆ NHÂN TẠO & THỊ
GIÁC MÁY TÍNH
Lớp
: D14TTNT&TGMT
Khóa
: 2019-2024
Hà Nội, tháng 6 năm 2022
1
lOMoARcPSD|17838488
PHIẾU CHẤM ĐIỂM
STT Họ và tên sinh viên
1
Nội dung thực hiện
Điểm
Trần Thanh Phương
(19810000588)
Họ và tên giảng viên
Giảng viên chấm 1:
Giảng viên chấm 2:
Chữ ký
Ghi chú
Chữ
ký
lOMoARcPSD|17838488
MỤC LỤC
LỜI MỞ ĐẦU...........................................................................................................4
CHƯƠNG I. DOCUMENT FRAGMENT: ALGORITHMS....................................3
1.
Document......................................................................................................3
CHƯƠNG II. DOCUMENT TRANSLATION: ALGORITHMS.............................8
2.1. Translate.........................................................................................................8
2.2.1. Mindmap................................................................................................18
2.2.2. Keywork & make a sentence.................................................................19
KẾT LUẬN.............................................................................................................22
3
lOMoARcPSD|17838488
LỜI MỞ ĐẦU
Lời đầu tiên, em xin chân thành gửi lời cảm ơn tới các thầy cô giáo trong
Trường Đại học Điện Lực nói chung và các thầy cơ giáo trong Khoa Cơng nghệ
thơng tin nói riêng đã tận tình giảng dạy, truyền đạt cho chúng em những kiến thức
cũng như kinh nghiệm quý báu trong suốt quá trình học.
Đặc biệt, em gửi lời cảm ơn đến Giáo viên hướng dẫn Phạm Thị Kim Dung,
cơ đã tận tình theo sát giúp đỡ, trực tiếp chỉ bảo, hướng dẫn trong suốt quá trình
nghiên cứu tài liệu và học tập của chúng em. Trong thời gian học tập với cô, chúng
em không những tiếp thu thêm nhiều kiến thức bổ ích mà còn học tập được tinh
thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu quả. Đây là những
điều rất cần thiết cho chúng em trong quá trình học tập và công tác sau này. Chúng
em muốn gửi lời cảm ơn đặc biệt nhất, sâu sắc nhất, thân thương nhất đến cô và
chúc thầy luôn dồi dào sức khỏe, tiếp tục giảng dạy hết tâm huyết của mình cho
những lứa học trò sau này để đất nước ta ngày càng có nhiều nhân tài, những người
giỏi trong các doanh nghiệp, xây dựng đất nước phát triển hơn nữa.
Em xin chân thành cảm ơn!
4
lOMoARcPSD|17838488
CHƯƠNG I. DOCUMENT FRAGMENT: ALGORITHMS
1. Document
WHAT IS SPECIAL ABOUT AI/ML ALGORITHMS?
Generally, an algorithm takes some input and uses mathematics and logic to
produce the output. In contrast, an AI algorithm takes a combination of both –
inputs and outputs– simultaneously in order to ‘learn’ from the data. In ML, once it
has been trained, the ML can produce outputs when given new inputs.
WHAT ARE SELF-LEARNING ALGORITHMS?
A self-learning algorithm is programmed to refine through iteration its own
performance,that is, it learns from itself to improve its accuracy in its ability to
perform. In the context of ML, this often requires considerable computational
resource. It can be best described as a system into which you feed your
requirements (i.e. the desired outcome plus various parameters) and over time the
outcome is achieved. An example is recommendation engines where the system
gets better and better at recommending ‘things’, which people then purchase as
more data points are processed.
WHAT ARE THE ALGORITHMS USED IN MACHINE LEARNING AND
ARTIFICIAL INTELLIGENCE?
ML and AI algorithms include:
Linear regression – this is a model that assumes a linear relationship between
the input variables (x) and the single output variable (y). More specifically, that y
can be calculated from a linear combination of the input variables (x). For
example,imagine arranging a number of blocks by weight variable y when you
cannot weigh them and only know their x (length, height and width) variables. A
single input is known as simple linear regression and multiple input is known as
multi-variable, multi-variate or multiple linear regression. One use could be to
predict a human’s ideal weight based on height, build, gender and so on.
3
lOMoARcPSD|17838488
Logistic regression – this is a mathematical model used in statistics and ML to
estimate the probability of an event occurring having been given some previous
data. Logistic regression works with data where either the event variable (y)
happens (1), or the event does not happen (0). An example could be around credit
card transaction approval when multiple inputs such as time of purchase, place
of purchase and type of purchase may determine if the transaction is approved
or not.
Decision tree – this is one of the most common ML algorithms in use today. It is
a supervised learning algorithm used for classifying problems by moving down a
tree root from node to node testing an attribute at each node. It is typically used
in expert or smart systems: it can advise a course of action to be taken based on
previous successful actions, and is typically seen as a series of questions and
suggestions culminating in a ‘was this information useful?’ question on self-help
computer systems. An example could be the fault light on a non-functioning
printer: is it red or green? If green, then check if there is paper in the input tray,
if the answer is yes, then check for a paper jam and so on, until the problem is
identified. The learning element of the algorithm can weight suggestions based on
previous successes with particular attributes. Equally, decision trees can be used
in association to classify patients and likely disease based on health questions, or
loan applications and previous credit history.
Random forest – this is an ensemble learning method for classification, regression
and other tasks. It operates by constructing a multitude of decision trees at training
time and outputting the class that is the mode of the classes or mean/average
prediction of the individual trees. With that said, random forests are a strong
modelling technique and much more robust than a single decision tree. Random
forests aggregate many decision trees, which limits the over-fitting problem of
deep decision trees as well as error due to bias and therefore the ability of the
system to give useful and meaningful results. The use of random forest adds
additional randomness to the model, while growing the trees. Instead of searching
for the most important feature while splitting a node, it searches for the best
feature among a random subset of features.
A commonly used example to explain the difference between decision trees and
random forests is that in a decision tree a person may ask one friend to recommend
a holiday destination based on a number of questions about preferences and
previous holidays, whereas in random forest mode a person may ask the advice
separately of multiple friends who again ask a series of different random questions
based on their individual likes/dislikes and previous experiences of different
4
lOMoARcPSD|17838488
holiday experiences.
k-NN – or k-Nearest Neighbour, is a supervised learning algorithm. This means
that we train it under supervision and using the labelled data already available to
us. It is a relatively simple algorithm used by many organisations and software
tools – simple in that it assumes that similar things exist in close proximity to one
another. It is typically used in recommendation applications or ‘more like this’ type
systems such as Amazon recommending books or Netflix recommending films
based on a particular genre, category, rating, lead actor, director and so on.
The classic travelling salesperson problem is often solved using a nearest
neighbour heuristic, and is one of the first algorithms that comes to mind in
attempting to solve this particular type of location/route problem. This classic
problem is one in which a salesperson has to plan a tour of cities that is of minimal
length. In this heuristic, the salesperson starts at some random city and then visits
the city nearest to the starting city and so on, only taking care not to visit a city
twice. At the end, all cities must be visited and the salesperson must return to
the starting city. Use of the k-NN algorithm gives a quick solution compared to a
brute force approach where every permutation is calculated. It should be noted,
however, that k-NN may not always give the optimal route, especially if there are
many data points. The k-NN can be applied to many other movement problems,
such as moving a robot or planning the router of a machine tool.
SVM – support vector machine is a supervised ML algorithm that can be used
for both classification and regression challenges. An SVM model can be best
described as points in space mapped into categories separated by gaps that are
as wide as possible. New data points then fall on one side of the gap and are then
placed into that category. SVMs have many uses ranging from image recognition
to handwriting recognition to satellite data classification. A simple example may
be categorising images of cats and dogs where an image must fall on one side or
other of the gap.
When supervised learning is not possible due to unlabelled data, then an
unsupervised approach needs to be taken. SVM attempts to find natural clustering
of data into groups and new data will then fall into one of these groups.
Naive Bayes – is a classification technique based on Bayes’ theorem with an
assumption of strong independence among predictors. Simply put, a Naive Bayes
classifier assumes that the presence of a particular feature in a class is unrelated to
the presence of any other feature. It is used in predicting membership probabilities
for each class, such as the probability that a given record or data point belongs to a
5
lOMoARcPSD|17838488
particular class. A simple example could be the prediction of the probability of you
having a particular illness or disease based on the data recorded about you, which
may include ethnicity, age and gender, and not just a list of dependent symptoms
such as a rash or high temperature.
K-means – this is a centroid based clustering algorithm, which means that data
are clustered around a centre. K-means is an iterative algorithm, and has two
unique steps: the first being a cluster assignment and the second being a move
to the centroid step.
Initially, you must select a number of clustered centres depending on the number
of clustered groups you want to create. Measurements are then made from the
various data points through each of the data points and, depending on which
cluster is closer – whether the cluster A centroid or cluster B centroid or cluster
C centroid and so on – the algorithm assigns the data points to one of the cluster
centroids. K-means then moves the centroids to the average of the points in a
cluster. In other words, the algorithm calculates the average of all the points in a
cluster and moves the centroid to that average location. The two steps are then
repeated until an end condition is met.
A real-world example of this algorithm is in the segmentation of customers for
marketing purposes into various persona categories to allow better targeted
marketing messages to be sent to the different personas, thereby helping to
increase engagement or sales. In marketing you would typically try to limit the
number of personas to a manageable number – let’s say six would be optimum –
but how we determine that for our particular industry or market segment requires
some learning from experience.
The choice of the number of clusters to determine the optimum number of clusters
(i.e. the ‘k’) can be quite complex and may be decided by adding an additional
cluster until it no longer makes a significant difference. A single data point could
also be considered a cluster. The decision criteria for k is beyond the scope of
this book. Again, we see the importance of learning from experience while we are
building our AI or ML technique.
The examples above are the tip of the iceberg in terms of the algorithms used in
ML and AI, where there are literally thousands, if not millions, used for specific
industries, for solving specific problems or within individual applications.
6
lOMoARcPSD|17838488
CHƯƠNG II. DOCUMENT TRANSLATION: ALGORITHMS
2.1. Translate
Chủ ngữ: in đậm
Động từ chính: chữ nghiêng và gạch chân
ALGORITHMS – Thuật tốn
WHAT IS SPECIAL ABOUT AI/ML ALGORITHMS?
CĨ GÌ ĐẶC BIỆT VỀ THUẬT TỐN AI / ML?
Generally, an algorithm takes some input and uses mathematics and logic to
produce the output.
Nói chung, một thuật tốn lấy một số đầu vào và sử dụng toán học và logic
để tạo ra đầu ra.(câu đơn, thì hiện tại)
In contrast, an AI algorithm takes a combination of both – inputs and
outputs– simultaneously in order to ‘learn’ from the data.
Ngược lại, một thuật tốn AI có sự kết hợp của cả hai - đầu vào và đầu ra,
đồng thời để tìm hiểu từ dữ liệu.(câu đơn, thì hiện tại)
In ML, once it has been trained, the ML can produce outputs when given
new inputs
Trong ML, một khi nó đã được đào tạo, ML có thể sản xuất đầu ra khi được
cung cấp đầu vào mới.(câu bị động)
WHAT ARE SELF-LEARNING ALGORITHMS?
THUẬT TOÁN TỰ HỌC LÀ GÌ?
A self-learning algorithm is programmed to refine through iteration its own
performance,that is, it learns from itself to improve its accuracy in its ability to
perform.
8
lOMoARcPSD|17838488
Một thuật tốn tự học được lập trình để tinh chỉnh thơng qua việc lặp lại hiệu
suất của chính nó, nghĩa là nó học hỏi từ chính nó để cải thiện độ chính xác của nó
trong khả năng thực hiện.(câu đơn, bị động)
In the context of ML, this often requires considerable computational
resource
Trong bối cảnh của ML, điều này thường đòi hỏi tài ngun tính tốn đáng
kể.(câu đơn, thì hiện tại đơn)
It can be best described as a system into which you feed your requirements
(i.e. the desired outcome plus various parameters) and over time the outcome is
achieved.
Nó có thể được mơ tả tốt nhất là một hệ thống mà bạn cung cấp các yêu cầu
của mình (tức là kết quả mong muốn cộng với các thông số khác nhau) và đạt được
kết quả theo thời gian.(câu ghép, câu bị đông và câu thì hiện tại đơn)
An example is recommendation engines where the system gets better and
better at recommending ‘things’, which people then purchase as more data points
are processed.
Một ví dụ là các cơng cụ đề xuất trong đó hệ thống ngày càng tốt hơn trong
việc đề xuất 'mọi thứ', mà mọi người mua khi có nhiều điểm dữ liệu được xử lý.
WHAT ARE THE ALGORITHMS USED IN MACHINE LEARNING AND
ARTIFICIAL INTELLIGENCE?
NHỮNG THUẬT TỐN ĐƯỢC SỬ DỤNG TRONG VIỆC HỌC MÁY VÀ
TRÍ TUỆ NHÂN TẠO LÀ GÌ?
ML and AI algorithms include:
Các thuật toán ML và AI bao gồm:
Linear regression – this is a model that assumes a linear relationship between the
input variables (x) and the single output variable (y).
9
lOMoARcPSD|17838488
Hồi quy tuyến tính – đây là một mơ hình giả định mối quan hệ tuyến tính giữa các
biến đầu vào (x) và biến đầu ra duy nhất (y).(Hiện tại đơn)
More specifically, that y can be calculated from a linear combination of the input
variables (x).
Cụ thể hơn, y đó có thể được tính tốn từ một sự kết hợp tuyến tính của các biến
đầu vào (x).(Câu bị động)
For example,imagine arranging a number of blocks by weight variable y when you
cannot weigh them and only know their x (length, height and width) variables.
Ví dụ, hãy tưởng tượng sắp xếp một số khối theo biến trọng lượng y khi bạn không
thể cân chúng và chỉ biết các biến x (chiều dài, chiều cao và chiều rộng) của chúng.
(Câu ghép, thì hiện tại đơn)
A single input is known as simple linear regression and multiple input is known
as multi-variable, multi-variate or multiple linear regression.
Một đầu vào duy nhất được gọi là hồi quy tuyến tính đơn giản và nhiều đầu vào
được gọi là hồi quy tuyến tính đa biến, nhiều biến thể hoặc nhiều biến. (thì hiện tại
đơn)
One use could be to predict a human’s ideal weight based on height, build, gender
and so on.
Một cơng dụng có thể là dự đốn cân nặng lý tưởng của một người dựa trên chiều
cao, hình dáng cơ thể, giới tính, v.v.
Logistic regression – this is a mathematical model used in statistics and ML to
estimate the probability of an event occurring having been given some previous
data.
Hồi quy logistic - đây là một mơ hình tốn học được sử dụng trong thống kê và ML
để ước tính xác suất của một sự kiện xảy ra đã được cung cấp một số dữ liệu trước
đó.
10
Downloaded by hây hay ()
lOMoARcPSD|17838488
Logistic regression works with data where either the event variable (y) happens
(1), or the event does not happen (0).
Hồi quy logistic hoạt động với dữ liệu trong đó biến sự kiện (y) xảy ra (1) hoặc sự
kiện không xảy ra (0).(Thì hiện tại đơn)
An example could be around credit card transaction approval when multiple inputs
such as time of purchase, place of purchase and type of purchase may determine if
the transaction is approved or not.
Một ví dụ có thể là về việc phê duyệt một giao dịch thẻ tín dụng trong đó nhiều yếu
tố đầu vào như thời gian mua, địa điểm mua và cách thức thanh tốn để có thể xác
định xem giao dịch có được chấp thuận hay khơng.
Random forest – this is an ensemble learning method for classification, regression
and other tasks.
Rừng ngẫu nhiên - đây là một phương pháp học tập tổng hợp để phân loại, hồi quy
và các nhiệm vụ khác. (Thì hiện tại đơn)
It operates by constructing a multitude of decision trees at training time and
outputting the class that is the mode of the classes or mean/average prediction of
the individual trees.
Nó hoạt động bằng cách xây dựng vô số cây quyết định vào thời điểm đào tạo và
xuất ra lớp là chế độ của các lớp hoặc dự đốn trung bình/trung bình của các cây
riêng lẻ.
With that said, random forests are a strong modelling technique and much more
robust than a single decision tree.
Như đã nói, rừng ngẫu nhiên là một kỹ thuật mơ hình hóa mạnh mẽ và mạnh mẽ
hơn nhiều so với một cây quyết định duy nhất.(Hiện tại đơn)
Random forests aggregate many decision trees, which limits the over-fitting
problem of deep decision trees as well as error due to bias and therefore the ability
of the system to give useful and meaningful results.
11
Downloaded by hây hay ()
lOMoARcPSD|17838488
Rừng ngẫu nhiên tổng hợp nhiều cây quyết định, điều này hạn chế vấn đề quá mức
của cây quyết định sâu cũng như lỗi do sai lệch và do đó khả năng của hệ thống
cho kết quả hữu ích và có ý nghĩa.
The use of random forest adds additional randomness to the model, while growing
the trees.
Việc sử dụng rừng ngẫu nhiên làm tăng thêm sự ngẫu nhiên cho mơ hình, trong khi
trồng cây.
Instead of searching for the most important feature while splitting a node, it
searches for the best feature among a random subset of features.
Thay vì tìm kiếm tính năng quan trọng nhất trong khi tách một nút, nó tìm kiếm
tính năng tốt nhất trong số một tập hợp con ngẫu nhiên của các tính năng.
A commonly used example to explain the difference between decision trees and
random forests is that in a decision tree a person may ask one friend to recommend
a holiday destination based on a number of questions about preferences and
previous holidays, whereas in random forest mode a person may ask the advice
separately of multiple friends who again ask a series of different random questions
based on their individual likes/dislikes and previous experiences of different
holiday experiences.
Một ví dụ thường được sử dụng để giải thích sự khác biệt giữa cây quyết định và
rừng ngẫu nhiên là trong một cây quyết định, một người có thể nhờ một người bạn
giới thiệu một điểm đến kỳ nghỉ dựa trên một số câu hỏi về sở thích và những ngày
nghỉ trước đó, trong khi ở chế độ rừng ngẫu nhiên, một người có thể hỏi lời khuyên
riêng của nhiều bạn bè, những người lại hỏi một loạt các câu hỏi ngẫu nhiên khác
nhau dựa trên lượt thích / khơng thích của cá nhân họ và những trải nghiệm trước
đây về các trải nghiệm kỳ nghỉ.
k-NN – or k-Nearest Neighbour, is a supervised learning algorithm.
k-NN - hay k láng giềng gần nhất, là một thuật tốn học có giám sát.
This means that we train it under supervision and using the labelled data already
available to us.
12
Downloaded by hây hay ()
lOMoARcPSD|17838488
Điều này có nghĩa là chúng tơi đào tạo nó dưới sự giám sát và sử dụng dữ liệu
được gắn nhãn đã có sẵn cho chúng.(thì hiện tại đơn)
It is a relatively simple algorithm used by many organisations and software
tools – simple in that it assumes that similar things exist in close proximity to one
another.
Đây là một thuật toán tương đối đơn giản được sử dụng bởi nhiều tổ chức và cơng
cụ phần mềm - đơn giản ở chỗ nó giả định rằng những điều tương tự tồn tại gần
nhau.(thì hiện tại đơn)
It is typically used in recommendation applications or ‘more like this’ type
systems such as Amazon recommending books or Netflix recommending films
based on a particular genre, category, rating, lead actor, director and so on.
Nó thường được sử dụng trong các ứng dụng đề xuất hoặc các hệ thống kiểu
‘tương tự hơn thế này’ như Amazon đề xuất sách hoặc Netflix đề xuất phim dựa
trên một thể loại, danh mục, xếp hạng cụ thể, diễn viên chính, đạo diễn, v.v.
The classic travelling salesperson problem is often solved using a nearest
neighbour heuristic, and is one of the first algorithms that comes to mind in
attempting to solve this particular type of location/route problem.
Bài toán nhân viên bán hàng đi du lịch cổ điển thường được giải bằng cách sử
dụng phương pháp phỏng đốn hàng xóm gần nhất và là một trong những thuật
toán đầu tiên xuất hiện trong đầu khi cố gắng giải quyết loại vấn đề vị trí / tuyến
đường cụ thể này.
This classic problem is one in which a salesperson has to plan a tour of cities that
is of minimal length.
Bài tốn kinh điển này là bài tốn trong đó nhân viên bán hàng phải lên kế hoạch
cho chuyến tham quan các thành phố có độ dài tối thiểu.
In this heuristic, the salesperson starts at some random city and then visits
the city nearest to the starting city and so on, only taking care not to visit a city
twice.
Trong kinh nghiệm này, nhân viên bán hàng bắt đầu từ một thành phố ngẫu nhiên
nào đó và sau đó đến thăm thành phố gần nhất với thành phố xuất phát và cứ tiếp
tục như vậy, chỉ lưu ý không đến một thành phố hai lần.
13
Downloaded by hây hay ()
lOMoARcPSD|17838488
At the end, all cities must be visited and the salesperson must return to
the starting city.
Cuối cùng, tất cả các thành phố phải được ghé thăm và nhân viên bán hàng phải trở
về thành phố bắt đầu.
Use of the k-NN algorithm gives a quick solution compared to a brute force
approach where every permutation is calculated.
Việc sử dụng thuật toán K-NN đưa ra một giải pháp nhanh chóng so với cách tìm
kiếm tồn diện trong đó mọi hốn vị được tính toán.
It should be noted,however, that k-NN may not always give the optimal route,
especially if there are many data points.
Tuy nhiên, cần lưu ý rằng K-NN có thể khơng phải lúc nào cũng đưa ra lộ trình tối
ưu, đặc biệt là nếu có nhiều điểm dữ liệu.
The k-NN can be applied to many other movement problems,such as moving a
robot or planning the router of a machine tool.
K-NN có thể được áp dụng cho nhiều vấn đề chuyển động khác, chẳng hạn như di
chuyển robot hoặc lên kế hoạch cho bộ định tuyến của máy công cụ.
SVM – support vector machine is a supervised ML algorithm that can be used
for both classification and regression challenges.
SVM - máy vectơ hỗ trợ là một thuật tốn ML được giám sát có thể được sử dụng
cho cả phân loại và hồi quy.
An SVM model can be best described as points in space mapped into categories
separated by gaps that are as wide as possible.
Một mơ hình SVM có thể được mơ tả tốt nhất là các điểm trong không gian được
ánh xạ thành các loại được phân tách bởi các khoảng trống càng rộng càng tốt.
New data points then fall on one side of the gap and are then placed into that
category.
14
Downloaded by hây hay ()
lOMoARcPSD|17838488
Các điểm dữ liệu mới sau đó rơi vào một bên của khoảng cách và sau đó được đặt
vào danh mục đó.
SVMs have many uses ranging from image recognition to handwriting recognition
to satellite data classification.
SVM có nhiều ứng dụng khác nhau, từ nhận dạng hình ảnh đến nhận dạng chữ viết
tay đến phân loại dữ liệu vệ tinh
A simple example may be categorising images of cats and dogs where an image
must fall on one side or other of the gap.
Một ví dụ đơn giản có thể là phân loại hình ảnh của mèo và chó, nơi một hình ảnh
phải rơi ở một bên hoặc bên kia của khoảng cách.
When supervised learning is not possible due to unlabelled data, then an
unsupervised approach needs to be taken.
Khi việc học có giám sát là không thể do dữ liệu không được dán nhãn, thì một
cách tiếp cận khơng giám sát cần phải được thực hiện.
SVM attempts to find natural clustering of data into groups and new data will then
fall into one of these groups.
SVM cố gắng tìm cách phân cụm dữ liệu tự nhiên thành các nhóm và dữ liệu mới
sau đó sẽ thuộc một trong các nhóm này.
Naive Bayes – is a classification technique based on Bayes’ theorem with an
assumption of strong independence among predictors.
Naive Bayes - là một kỹ thuật phân loại dựa trên định lý Bayes, với giả định về sự
độc lập mạnh mẽ giữa các dự đoán.
Simply put, a Naive Bayes classifier assumes that the presence of a particular
feature in a class is unrelated to the presence of any other feature.
Nói một cách đơn giản, một phân loại Naive Bayes giả định rằng sự hiện diện của
một tính năng cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ
tính năng nào khác.
15
Downloaded by hây hay ()
lOMoARcPSD|17838488
It is used in predicting membership probabilities for each class, such as the
probability that a given record or data point belongs to a particular class.
Nó được sử dụng để dự đoán xác suất thành viên cho mỗi lớp, chẳng hạn như xác
suất là một bản ghi hoặc điểm dữ liệu nhất định thuộc về một lớp cụ thể.
A simple example could be the prediction of the probability of you having a
particular illness or disease based on the data recorded about you, which
may include ethnicity, age and gender, and not just a list of dependent symptoms
such as a rash or high temperature.
Một ví dụ đơn giản có thể là dự đốn về khả năng bạn có một bệnh hoặc bệnh cụ
thể dựa trên dữ liệu được ghi lại về bạn, có thể bao gồm dân tộc, tuổi tác và giới
tính, và không chỉ là danh sách các triệu chứng phụ thuộc là phát ban hoặc nhiệt độ
cao.
K-means – this is a centroid based clustering algorithm, which means that data
are clustered around a centre.
K-Means-Đây là một thuật toán phân cụm dựa trên tâm, có nghĩa là dữ liệu được
phân cụm xung quanh một trung tâm.
K-means is an iterative algorithm, and has two unique steps: the first being a
cluster assignment and the second being a move to the centroid step.
K-mean là một thuật tốn lặp lại và chỉ có hai bước: bước đầu tiên là gán cụm và
bước thứ hai là chuyển đổi thành bước trung tâm.
Initially, you must select a number of clustered centres depending on the number
of clustered groups you want to create.
Ban đầu, bạn phải chọn một số trung tâm cụm tùy thuộc vào số lượng nhóm cụm
mà bạn muốn tạo.
Measurements are then made from the various data points through each of the
data points and, depending on which cluster is closer – whether the cluster A
centroid or cluster B centroid or cluster C centroid and so on – the algorithm
assigns the data points to one of the cluster centroids.
16
Downloaded by hây hay ()
lOMoARcPSD|17838488
Các phép đo sau đó được thực hiện từ các điểm dữ liệu khác nhau thông qua mỗi
điểm dữ liệu và tùy thuộc vào cụm nào gần hơn - cho dù cụm trung tâm A hay cụm
trung tâm B hay cụm trung tâm C, v.v. - thuật toán chỉ định các điểm dữ liệu cho
một trong các trung tâm cụm.
K-means then moves the centroids to the average of the points in a cluster.
K-Means sau đó di chuyển các trung tâm đến mức trung bình của các điểm trong
một cụm.
In other words, the algorithm calculates the average of all the points in a
cluster and moves the centroid to that average location.
Nói cách khác, thuật tốn tính tốn trung bình của tất cả các điểm trong một cụm
và di chuyển tâm đến vị trí trung bình đó.
The two steps are then repeated until an end condition is met.
Hai bước sau đó được lặp lại cho đến khi một điều kiện kết thúc được đáp ứng.
A real-world example of this algorithm is in the segmentation of customers for
marketing purposes into various persona categories to allow better targeted
marketing messages to be sent to the different personas, thereby helping to
increase engagement or sales.
Một ví dụ thực tế của thuật toán này là trong việc phân khúc khách hàng cho mục
đích tiếp thị thành các danh mục cá nhân khác nhau để cho phép các thông điệp
tiếp thị được nhắm mục tiêu tốt hơn được gửi đến các cá nhân khác nhau, do đó
giúp tăng mức độ tương tác hoặc doanh số bán hàng.
In marketing you would typically try to limit the number of personas to a
manageable number – let’s say six would be optimum – but how we determine that
for our particular industry or market segment requires some learning from
experience.
Trong tiếp thị, bạn thường cố gắng giới hạn số lượng nhân vật ở một con số có thể
quản lý được - giả sử sáu sẽ là tối ưu - nhưng cách chúng tôi xác định điều đó cho
ngành hoặc phân khúc thị trường cụ thể của chúng tơi địi hỏi một số học hỏi từ
kinh nghiệm.
17
Downloaded by hây hay ()
lOMoARcPSD|17838488
The choice of the number of clusters to determine the optimum number of clusters
(i.e. the ‘k’) can be quite complex and may be decided by adding an additional
cluster until it no longer makes a significant difference.
Việc lựa chọn số lượng cụm để xác định số lượng cụm tối ưu (tức là ‘k’) có thể khá
phức tạp và có thể được quyết định bằng cách thêm một cụm bổ sung cho đến khi
nó khơng cịn tạo ra sự khác biệt đáng kể.
A single data point could also be considered a cluster.
Một điểm dữ liệu duy nhất cũng có thể được coi là một cụm.
The decision criteria for k is beyond the scope of this book.
Các tiêu chí quyết định cho k nằm ngoài phạm vi của cuốn sách này.
Again, we see the importance of learning from experience while we are
building our AI or ML technique.
Một lần nữa, chúng tôi thấy tầm quan trọng của việc học hỏi từ kinh nghiệm trong
khi chúng tôi đang xây dựng kỹ thuật AI hoặc ML của mình.
The examples above are the tip of the iceberg in terms of the algorithms used in
ML and AI, where there are literally thousands, if not millions, used for specific
industries, for solving specific problems or within individual applications.
Các ví dụ trên là phần nổi của tảng băng trôi về các thuật tốn được sử dụng trong
ML và AI, nơi có hàng ngàn, nếu không phải hàng triệu, được sử dụng cho các
ngành công nghiệp cụ thể, để giải quyết các vấn đề cụ thể hoặc trong các ứng dụng
riêng lẻ.
2.2. Mindmap, Keywork & make a sentence
2.2.1. Mindmap
18
Downloaded by hây hay ()
lOMoARcPSD|17838488
2.2.2. Keywork & make a sentence
2.2.2.1. Keywork
Model
Train
Data
Linear regression
Logistic regression
Decision tree
Random forest
K-NN
SVM
Naive Bayes
K-means
Learn
Input
output
19
Downloaded by hây hay ()