Tải bản đầy đủ (.docx) (24 trang)

ĐỒ án lập TRÌNH WEB NÂNG CAO đề tài xây dựng chương trình qa của một cuộc hội thoại chatbot tiếng việt sử dụng BERT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (843.94 KB, 24 trang )

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN LẬP TRÌNH WEB NÂNG CAO
ĐỀ TÀI: Xây dựng chương trình Q&A của một cuộc hội thoại
Chatbot tiếng việt sử dụng BERT.

Sinh viên thực hiện
Ngành
Chuyên ngành
Lớp
Khóa


TIEU LUAN MOI download :


PHIẾU CHẤM ĐIỂM
Sinh viên thực hiện:
STT
1

Họ
Nguyễn Văn Anh Mã
SV: 19810310265

TIEU LUAN MOI download :


LỜI MỞ ĐẦU
1. Lý do chọn đề tài



Từ lâu con người đã có suy nghĩ muốn tạo ra một cỗ máy có thể tự
suy nghĩ và hành động. Chính vì thế, trí tuệ nhân tạo (AI) trở thành một một lĩnh vực
mới trong thời đại công nghệ thông tin ngày nay. Các ngành nghề trong xã hội đang
có xu hướng xử dụng AI để khiến máy móc thơng minh hơn. Trong giải trí, trong y tế,
hay cả trong giáo dục, rất nhiều robot thơng minh được tạo ra có thể thay thế con
người dạy học, giúp đỡ người già, thực hiện các cơng đoạn trong cơng nghiệp,...
Vì những ứng dụng hữu ích của nó, em xin trình bày đề tài” Xây dựng chương trình
Q&A của một cuộc hội thoại Chatbot tiếng việt sử dụng BERT.”.Mong muốn

thông qua đề tài này, em sẽ có những cái nhìn cụ thể về AI, từ đó mở
rộng để nghiên cứu và phát triển thêm.
2. Mục tiêu và nhiệm vụ
-Mục tiêu:
+Tìm hiểu định nghĩa, lịch sử phát triển của trí tuệ nhân tạo
+Tìm hiểu cấu trúc, các thuật toán và cách hoạt động của AI
-Nhiệm vụ:
+Ứng dụng nghiên cứu để lập trình Q&A của một cuộc hội thoại chatbot tiếng
việt sử dụng BERT
3. Đối tượng và phạm vi nghiêm cứu
- Đối tượng nghiên cứu: Lĩnh vực AI
-Phạm vi nghiên cứu: trong một cuộc hội thoại giữa người và máy
4. Phương pháp nghiên

cứu -Nghiên cứu dựa trên:
+Tài liệu
+Tham khảo từ giáo viên hướng dẫn
+Thực hành viết mã trên máy tính bằng python
5. Dự kiến kết quả


Đạt được mục tiêu đã nêu ra, lập trình thành cơng Q&A của một
cuộc hội thoại chatbot tiếng việt sử dụng BERT. Dự kiến hoàn thành trong khoảng 1
tháng.
Do kiên thưc còn han chê nên bai bao cao không tranh khỏi nhưng sai sot, kinh
mong thầy cô day bô môn đưa ra nhưng nhân xét va gop y đê bai bao cao đươc hoan
chỉnh hơn. Em xin chân thanh cam ơn!

CHƯƠNG I: GIỚI THIỆU VỀỀ̀ AI

TIEU LUAN MOI download :


1.1. GIỚI THIỆU VỀỀ̀ AI
1.1.1. Tìm hiểu khái niệm
Cơng nghệ AI (viết tắt của Artifical Intelligence) hoặc trí thơng minh
nhân tạo là cơng nghệ mơ phỏỏ̉ng các q trình suy nghĩ và học tập của con
người cho máy móc, đặc biệt là các hệ thống máy tính. Các q trình này bao
gồm việc học tập (thu thập thông tin và các quy tắc sử dụng thông tin), lập luận
(sử dụng các quy tắc để đạt được kết luận gầầ̀n đúng hoặc xác định), và tự sửa
lỗi. Các ứng dụng đặc biệt của AI bao gồm các hệ thống chuyên gia, nhận dạng
tiếng nói và thị giác máy tính (nhận diện khn mặt, vật thể hoặc chữ viết).
Định nghĩa trí tuệ nhân tạo: (AI: Artificial Intelligence) có thể được định
nghĩa như một ngành của khoa học máy tính liên quan đến việc tự động hóa các
hành vi thơng minh. AI là một bộ phận của khoa học máy tính và do đó nó phải
được đặt trên những nguyên lý lý thuyết vững chắc, có khả năng ứng dụng
được của lĩnh vực này.
Khái niệm về công nghệ AI xuất hiện đầầ̀u tiên bởi John McCarthy, một
nhà khoa học máy tính Mỹ, vào năm 1956 tại Hội nghị The Dartmouth. Ngày
nay, công nghệ AI là một thuật ngữ bao gồm tất cả mọi thứ từ q trình tự động
hố robot đến người máy thực tế.

Công nghệ AI gầầ̀n đây trở nên nổi tiếng, nhận được sự quan tâm của
nhiều người là nhờ Dữ liệu lớn (Big Data), mối quan tâm của các doanh nghiệp
về tầầ̀m quan trọng của dữ liệu cùng với công nghệ phầầ̀n cứng đã phát triển mạnh
mẽ hơn, cho phéé́p xử lý công nghệ AI với tốc độ nhanh hơn bao giờ hết.
thời điểm hiện tại, Thuật ngữ này thường dùng để nói đến các MÁY
TÍNH có mục đích khơng nhất định và ngành khoa học nghiên cứu về các lý
thuyết và ứng dụng của trí tuệ nhân tạo. Tức là mỗi loại trí tuệ nhân tạo hiện nay
đang dừng lại ở mức độ những máy tính hoặc siêu máy tính dùng để xử lý một
loại cơng việc nào đó như điều khiển một ngôi nhà, nghiên cứu nhận diện hình
ảnh, xử lý dữ liệu của bệnh nhân để đưa ra phác đồ điều trị, xử lý dữ liệu để tự
học hỏỏ̉i, khả năng trả lời các câu hỏỏ̉i về chẩn đoán bệnh, trả lời khách hàng về
các sản phẩm của một công ty,...


AI là một bộ phận của khoa học máy tính và do đó nó phải được đặt trên
những ngun lý lý thuyết vững chắc.
Nói nơm na cho dễ hiểu: đó là trí tuệ của máy móc được tạo ra bởi con
người. Trí tuệ này có thể tư duy, suy nghĩ, học hỏỏ̉i,... như trí tuệ con người. Xử
lý dữ liệu ở mức rộng lớn hơn, quy mô hơn, hệ thống, khoa học và nhanh hơn
so với con người.
Trí tuệ nhân tạo mang lại rất nhiều giá trị cho cuộc sống loài người, nhưng cũng
tiềm ẩn những nguy cơ. Rất nhiều chuyên gia lo lắng rằng khi trí tuệ nhân tạo

TIEU LUAN MOI download :


đạt tới 1 ngưỡng tiến hóa nào đó thì đó cũng là thời điểm loài người bị tận diệt.
Rất nhiều các bộ phim đã khai thác đề tài này với nhiều góc nhìn, nhưng qua
đó đều muốn cảnh báo lồi người về mối nguy đặc biệt này.
1.1.2. Lịch sử phát triển

Thực ra nguồn gốc ra đời trí tuệ nhân tạo AI khơng hề sớm như đã nói,
nhưng nó là thành quả tất yếu của sự phát triển khoa học và cơng nghệ, là giải
pháp giải quyết những bài tốn khó của sự phát triển loài người trong tương lai.
Dưới đây chúng ta cùng điểm lại những cột mốc của lịch sử phát triển trí tuệ
nhân tạo AI
Ngày nay, việc tiếp tục nghiên cứu và cải tiến trí tuệ nhân tạo AI về các
công nghệ nền tảng đã thể hiện rõ trong các kỹ năng tự động hóa và lý luận có
thể được tích hợp trong điện thoại, máy tính và máy móc…. Trí tuệ nhân tạo AI
theo cách nào đang trở thành một thực tế nền tảng của thế giới hiện nay.
Nghiên cứu lịch sử trí tuệ nhân tạo AI sớm vào những năm thập niên 60
đã khám phá các vấn đề mà cơng nghệ này có thể giải quyết. Vào những năm
1960, Bộ Quốc phòầ̀ng Hoa Kỳ đã quan tâm đến loại công việc này và bắt đầầ̀u
đào tạo máy tính để bắt chước lý luận cơ bản của con người. Ví dụ, Cơ quan Dự
án Nghiên cứu Quốc phòầ̀ng Tiên tiến (DARPA) đã hoàn thành các dự án lập bản
đồ đường phố vào những năm 1970. Và DARPA đã sản xuất trợ lý cá nhân
thông minh vào năm 2003…
Công việc ban đầầ̀u này đã mở đường cho tự động hóa và lý luận chính
thức mà chúng ta thấy trong các máy tính ngày nay, bao gồm các hệ thống hỗ
trợ quyết định và hệ thống tìm kiếm thơng minh có thể được thiết kế để bổ sung
và tăng cường khả năng của con người.
1943
Warren McCullough và Walter Pitts xuất bản cuốn “A Logical Calculus
of Ideas Immanent in Nervous Activity”, dịch ra là “Một tính tốn logic
của những ý tưởng tiềm ẩn trong hoạt động thầầ̀n kinh”. Bài viết đề xuất
mơ hình tốn học đầầ̀u tiên để xây dựng một mạng lưới thầầ̀n kinh.
1949
Trong cuốn sách “The Organization of Behavior: A Neuropsychological
Theory”- Tổ chức hành vi: Một lý thuyết thần kinh học,Donald Hebb đề
xuất lý thuyết về các hệ thống con đường thầầ̀n kinh được tạo ra từ các kết
nối giữa các tế bào thầầ̀n kinh trở nên mạnh mẽ hơn.

1950

TIEU LUAN MOI download :


Alan Turing xuất bản “Computing Machinery and Intelligence” – Máy
tính và trí thơng minh, đề xuất Thử nghiệm Turing, một phương pháp để
xác định xem một máy tính có thơng minh hay không.

Alan Turing và Phéé́p thử Turing (1950)
Đại học Harvard Marvin Minsky và Dean Edmonds xây dựng SNARC,
máy tính mạng thầầ̀n kinh đầầ̀u tiên.
Claude Shannon xuất bản bài báo “Lập trình máy tính để chơi cờ”.
Isaac Asimov xuất bản “Ba định luật về robot”.

TIEU LUAN MOI download :


1952
Arthur Samuel phát triển một chương trình tự học để chơi cờ.
1954
Thí nghiệm dịch máy Georgetown-IBM tự động dịch 60 câu tiếng Nga
được chọn cẩn thận sang tiếng Anh.
1956
Cụm từ trí tuệ nhân tạo lầầ̀n đầầ̀u tiên được nói đến tại “Dự án nghiên cứu
mùa hè về trí tuệ nhân tạo”. Với sự dẫn đầầ̀u bởi John McCarthy, hội nghị,
trong đó xác định phạm vi và mục tiêu của AI, được coi là sự ra đời của
trí tuệ nhân tạo như chúng ta biết ngày nay.

TIEU LUAN MOI download :



Hội nghị Dartmouth với sự dẫn đầầ̀u bởi John McCarthy

Allen Newell và Herbert Simon trình diễn Nhà lý luận logic (LT), chương
trình lý luận đầầ̀u tiên.
1958
John McCarthy phát triển ngơn ngữ lập trình AI Lisp và xuất bản bài báo
“Programs with Common Sense”. Bài viết đã đề xuất nhà tư vấn giả
thuyết, một hệ thống AI hoàn chỉỏ̉nh với khả năng học hỏỏ̉i kinh nghiệm
hiệu quả như con người.
1959
Allen Newell, Herbert Simon và JC Shaw giải quyết vấn đề chung (GPS),
một chương trình được thiết kế để bắt chước giải quyết vấn đề của con
người.
Herbert Gelernter phát triển chương trình Định lý hình học.
Arthur Samuel đồng xu với thuật ngữ học máy khi còầ̀n ở IBM.
John McCarthy và Marvin Minsky đã tìm thấy Dự án Trí tuệ nhân tạo
MIT.
1963
John McCarthy bắt đầầ̀u Phòầ̀ng thí nghiệm AI tại Stanford.

TIEU LUAN MOI download :


1966
Báo cáo của Ủy ban Tư vấn xử lý ngôn ngữ tự động (ALPAC) của chính
phủ Hoa Kỳ nêu chi tiết về sự thiếu tiến bộ trong nghiên cứu dịch máy,
một sáng kiến lớn của chiến tranh lạnh với lời hứa dịch tự động tiếng
Nga. Báo cáo ALPAC dẫn đến việc hủy bỏỏ̉ tất cả các dự án MT do chính

phủ tài trợ.
1969
Các hệ thống chun gia thành cơng đầầ̀u tiên được phát triển trong
DENDRAL, một chương trình XX và MYCIN, được thiết kế để chẩn
đoán nhiễm trùng máu, được tạo ra tại Stanford.
Năm 1972
Ngơn ngữ lập trình logic PRITAL được tạo ra.
Năm 1973
“Báo cáo Lighthill”, nêu chi tiết về sự thất bại trong nghiên cứu AI, được
chính phủ Anh công bố, từ đây dẫn đến việc cắt giảm nghiêm trọng tài trợ
cho các dự án trí tuệ nhân tạo.
1974-1980
Liên tiếp là sự thất vọng với sự phát triển của AI dẫn đến sự cắt giảm
DARPA lớn trong các khoản trợ cấp học thuật. Kết hợp với báo cáo
ALPAC trước đó và “Báo cáo Lighthill” năm trước, tài trợ trí tuệ nhân
tạo làm khô và các quầầ̀y nghiên cứu. Thời kỳ này được gọi là “Mùa đơng
AI đầầ̀u tiên.”
1980
Tập đồn thiết bị kỹ thuật số phát triển R1 (còầ̀n được gọi là XCON), hệ
thống chuyên gia thương mại thành công đầầ̀u tiên. Được thiết kế để định
cấu hình các đơn đặt hàng cho các hệ thống máy tính mới, R1 khởi đầầ̀u sự
bùng nổ đầầ̀u tư vào các hệ thống chuyên gia sẽ tồn tại trong phầầ̀n lớn thập
kỷ, kết thúc hiệu quả “Mùa đông AI” đầầ̀u tiên.
1982
Bộ Thương mại Quốc tế và Công nghiệp Nhật Bản khởi động dự án Hệ
thống máy tính thế hệ thứ năm đầầ̀y tham vọng. Mục tiêu của FGCS là

TIEU LUAN MOI download :



phát triển hiệu năng giống như siêu máy tính và một nền tảng để phát
triển trí tuệ nhân tạo AI.
1983
Đáp lại FGCS của Nhật Bản, chính phủ Hoa Kỳ khởi động Sáng kiến
điện toán chiến lược để cung cấp nghiên cứu được tài trợ bởi DARPA
trong điện toán tiên tiến và trí tuệ nhân tạo.
1985
Các cơng ty đang chi hơn một tỷ đô la một năm cho các hệ thống chun
gia và tồn bộ ngành cơng nghiệp được gọi là thị trường máy Lisp mọc
lên để hỗ trợ họ. Các công ty như Symbolics và Lisp Machines Inc. xây
dựng các máy tính chun dụng để chạy trên ngơn ngữ lập trình AI Lisp.
1987-1993
Khi cơng nghệ điện tốn đám mây được cải thiện, có nhiều lựa chọn thay
thế rẻ hơn xuất hiện và thị trường máy Lisp sụp đổ vào năm 1987, mở ra
“Mùa đông AI thứ hai”. Các chuyên gia AI rất chật vật và không được sự
ủng hộ trong giai đoạn này
DARPA kết thúc Sáng kiến Điện toán Chiến lược vào năm 1993 sau khi
chi gầầ̀n 1 tỷ đô la và khơng đạt được kỳ vọng như đã tính toán

TIEU LUAN MOI download :


1991
Lực lượng Hoa Kỳ triển khai DART, một công cụ lập kế hoạch và lập kế
hoạch hậu cầầ̀n tự động, trong Chiến tranh vùng Vịnh.
2005
STANLEY, một chiếc xe tự lái, chiến thắng DARPA Grand Challenge.
Quân đội Hoa Kỳ bắt đầầ̀u đầầ̀u tư vào các robot tự hành như “Big Dog”
của Boston Dynamic và “PackBot” của iRobot.
2008

Google tạo ra những bước đột phá trong nhận dạng giọng nói và giới
thiệu tính năng này trong ứng dụng iPhone.
2011
Watson của IBM tuyên bố cạnh tranh về Jeopardy!.
2012

TIEU LUAN MOI download :


Andrew Ng, người sáng lập dự án Google Brain Deep Learning, cung cấp
một mạng lưới thầầ̀n kinh bằng cách sử dụng thuật toán 10 triệu video
YouTube dưới dạng tập huấn luyện. Mạng lưới thầầ̀n kinh đã học cách
nhận ra một con mèo mà không được cho biết con mèo là gì
2014
Google tạo ra chiếc xe tự lái đầầ̀u tiên để vượt qua bài kiểm tra lái xe của
nhà nước.
2016
AlphaGo của Google DeepMind đánh bại nhà vô địch thế giới cờ vây Lee
Sedol. Sự phức tạp của tròầ̀ chơi Trung Quốc cổ đại được coi là một trở
ngại lớn để giải tỏỏ̉a trong AI.
1.1.3. Ứng dụng của AI
1.

AI trong chăm sóc sức khỏe

– Ứng dụng nổi bật của trí tuệ nhân tạo AI là cải thiện sức khỏỏ̉e của con người
và giảm chi phí. Các bệnh viện đang áp dụng máy để chẩn đoán tốt hơn và
nhanh hơn con người. Một trong những biết cơng nghệ tốt nhất chăm sóc sức
khỏỏ̉e là IBM Watson. Nó có thể hiểu ngơn ngữ tự nhiên và có khả năng trả lời
các câu hỏỏ̉i. Hệ thống khai thác dữ liệu bệnh nhân và các nguồn dữ liệu có sẵn

khác để tạo thành một giả thuyết, sau đó đưa ra một lược đồ chấm điểm tin cậy.
– Các ứng dụng AI khác bao gồm chatbot , chương trình máy tính được sử dụng
trực tuyến để trả lời các câu hỏỏ̉i và hỗ trợ khách hàng, giúp sắp xếp các cuộc
hẹn theo dõi hoặc hỗ trợ bệnh nhân thơng qua quy trình thanh tốn và trợ lý sức
khỏỏ̉e ảo cung cấp phản hồi y tế cơ bản.
2. AI trong kinh doanh
– Tự động hóa q trình robot đang được áp dụng cho các cơng việc có tính
chất lặp đi lặp lại.
– Các thuật tốn được tích hợp vào các nền tảng phân tích và CRM để khám
phá thông tin về cách phục vụ khách hàng tốt hơn.
– Chatbots đã được kết hợp vào các trang web để cung cấp dịch vụ ngay lập tức
cho khách hàng.
3. AI trong giáo dục

TIEU LUAN MOI download :


AI có thể tự động hóa việc chấm điểm, giúp các giáo viên có thêm thời
gian. AI có thể đánh giá năng lực và quản lý sinh viên. Gia sư AI có thể cung
cấp hỗ trợ cho sinh viên, đảm bảo họ hồn thành đúng theo giáo trình từ trước.
Thậm AI có thể thay thế một số giáo viên.
4. AI trong tài chính
AI được ứng dụng trong lĩnh vực tài chính, các ứng dụng như thu thập dữ
liệu cá nhân và cung cấp tư vấn tài chính.
5. AI trong pháp luật
Q trình khám phá, sàng lọc thơng tin tài liệu trong pháp luật thường là
công việc dành cho con người. Tuy nhiên tự động hóa trong q trình này đang
giúp con người sử dụng thời gian hiệu quả hơn.
6. AI trong sản xuất
Đây là một lĩnh vực đã đi đầầ̀u trong việc kết hợp robot vào quy trình làm

việc. Robot công nghiệp được sử dụng để thực hiện các nhiệm vụ đơn lẻ và giải
phóng sức lao động của con người
1.1.4 Các lĩnh vực nghiên cứu của AI
Trí tuệ con người (Human Intelligence): Cho đến nay có hai khái niệm về trí
tuệ con người được chấp nhận và sử dụng nhiều nhất, đó là:
Khái niệm trí tuệ theo quan điểm của Turing
“Trí tuệ là những gì có thể đánh giá được thơng qua các trắc nghiệm thơng
minh”
Khái niệm trí tuệ đưa ra trong tụ điển bách khoa tồn thư:
“Trí tuệ là khả năng:
Phản ứng một cách thích hợp những tình huống mới thơng qua hiệu chỉỏ̉nh
hành vi một cách thích đáng.
Hiểu rõ những mối liên hệ qua lại của các sự kiện của thế giới bên ngoài
nhằm đưa ra những hành động phù hợp đạt tới một mục đích nào đó.
Những nghiên cứu các chuyên gia tâm lý học nhận thức chỉỏ̉ ra rằng q trình
hoạt động trí tuệ của con người bao gồm 4 thao tác cơ bản:

TIEU LUAN MOI download :


1- Xác định tập đích (goals).
2- Thu thập các sự kiện (facts) và các luật suy diễn (inference rules) để đạt được
đích đặt ra.
3- Thu gọn (pruning) q trình suy luận nhằm xác định tập các suy diễn có
thể sử dụng được.
4- Áp dụng các cơ chế suy diễn cụ thể (inference mechanisms) để đưa các sự
kiện ban đầầ̀u đi đến đích.
Trí tuệ máy: cũng khơng có một định nghĩa tổng quat, nhưng cũng có thể nêu
các đặc trưng chính:
1- Khả năng học.

2- Khả năng mô phỏỏ̉ng hành vi của con người.
3- Khả năng trừu tượng hoá, tổng quát hoá và suy diễn .
4- Khả năng tự giải thích hành vi.
5- Khả năng thích nghi tình huống mới kể cả thu nạp tri thức và dữ liệu.
6- Khả năng xử lý các biểu diễn hình thức như các ký hiệu tượng trưng.
7- Khả năng sử dụng tri thức heuristic.
8- Khả năng xử lý các thông tin không đầầ̀y đủ, không chính xác
1.2 NHỮNG VẤN ĐỀỀ̀ CHƯA ĐƯỢC GIẢI QUYẾT CỦA TRÍ TUỆ NHÂN
TẠO
Những thành tựu nghiên cứu và ứng dụng các kỹ thuật Trí tuệ nhân tạo đã
khẳng định tính thực tiễn của các dự án xây dựng máy tính có khả năng suy
nghĩ. Tuy vậy trong một số phạm vi, máy tính cịn thua xa so với hoạt động
của hệ thần kinh con người:
Sự khác nhau trong hoạt động giữa máy tính và bộ não con người, điều này
thể hiện ưu thế của máy tính so với bộ não người vì khả năng tính tốn rất lớn
(nhất là trong các chương trình xử lý dữ liệu lớn).

TIEU LUAN MOI download :


Xử lý song song: mặc dù công nghệ điện tử hiện đại cho phéé́p xây dựng các
bộ đa xử lý, song máy tính khơng thể hoạt động song song như bộ não con
người được.
Khả năng diễn giải: con người có thể xem xéé́t cùng một vấn đề theo những
phương pháp khác nhau, từ đó diễn giải theo cách dễ hiểu nhất. Ngược lại, sự
linh hoạt này không thể mô phỏỏ̉ng được trong các hệ thống Trí tuệ nhân tạo.
Lơgic rời rạc và tính liên tục: một thách đố lớn với các hệ thống Trí tuệ
nhân tạo là khả năng kết hợp các phương pháp xử lý thông tin trong môi trường
liên tục với các thao tác xử lý thông tin rời rạc.
Khả năng học: mặc dù hiện nay máy tính có nhiều tính năng cao nhưng

cũng khơng thể mơ phỏỏ̉ng được hoàn toàn khả năng học giống bộ não con
người.
Khả năng tự tổ chức: cho tới nay, người ta chưa thể tạo lập được các hệ
thống Trí tuệ nhân tạo có khả năng tự tổ chức, tự điều khiển hoạt động của nó
để thích nghi với mơi trường.
1.3 NHỮNG ƯU ĐIỂM VÀỀ̀ RỦI RO
1.3.1 Ưu điểm
Công nghệ Ai được nghiên cứu và phát triển sâu rộng. Đặc biệt ở những
nước phát triển, điều này càng được thực hiện nhiều hơn. Trí tuệ nhân tạo có thể
xử lý được khối lượng lớn công việc. Với những dữ liệu lớn hơn, rắc rối hơn
cũng như cơng nghệ Ai có thể đưa ra dự đốn chính xác hơn con người. Điều
này chính là một ưu điểm lớn của công nghệ Ai hiện nay.
Thông thường khi xử lý một lượng dữ liệu lớn, con người chúng ta khó
có thể chính xác hồn tồn. Tuy nhiên điều này có thể thực hiện được bởi cơng
nghệ trí tuệ nhân tạo. Ngay cả những nhà khoa học cũng cảm thấy khó khăn khi
giải quyết số lượng dữ liệu lớn. AI sử dụng học máy để có thể lấy những dữ liệu
đó và nhanh chóng biến nó thành thơng tin có thể thực hiện được. Đây cũng
chính là lời giải đáp cho ưu điểm của công nghệ AI là gì?
1.3.2 Rủi ro

TIEU LUAN MOI download :


Rủi ro tự động hóa và thất nghiệp
Trong những thành công gầầ̀n đây trong lĩnh vực máy học (Machine
Learning) và robot, dường như chỉỏ̉ còầ̀n là vấn đề thời gian ngay cả những
cơng việc phức tạp đòầ̀i hỏỏ̉i trí thơng minh cao cũng có thể được tiếp quản tồn
diện bởi máy móc.
Những người sẽ được hưởng lợi nhiều nhất từ công nghệ tiến bộ là người
dân và quốc gia hiểu tận dụng các cơ hội công nghệ mới và các ảnh hưởng của

dữ liệu lớn trên mạng. Trong khi ngành cơng nghiệp giải trí có cơ hội quan
trọng để phát triển giáo dục tốt hơn thơng qua cá nhân hóa dạy học bằng AI và
ứng dụng hóa tài liệu học tập, nó đồng thời cũng làm tăng nguy cơ tỷ lệ những
người trẻ tuổi sẽ gặp khó khăn trong việc hoàn thành giáo dục của họ do nghiện
bệnh lý đối với các tròầ̀ chơi video và/hoặc internet.
Tiến bộ công nghệ làm tăng năng suất xã hội, lầầ̀n lượt nâng mức sống
trung bình. Nếu cơng việc được thực hiện bởi máy móc nhiều hơn, thời gian
rảnh rỗi của con người dành cho giải trí và tự phát triển cho con người tang lên
(một ưu điểm của sử dụng AI). Tuy nhiên, nhược điểm của cơng nghệ AI là tăng
tự động hóa và gia tăng năng suất sẽ dẫn tới sự bất bình đẳng xã hội ngày càng
tăng cũng như sự gia tăng về mức sống trung bình khơng có sự trùng hợp với sự
gia tăng chất lượng trung bình của cuộc sống. Các chuyên gia như kinh tế học
MIT giáo sư Erik Brynjolfsson thậm chí lo lắng rằng cơng nghệ tiến bộ đe dọa
làm cho cuộc sống của đa số của những người tồi tệ hơn.
Rủi ro tình báo và siêu trí tuệ nói chung
Trí thơng minh chung là khả năng đạt được mục tiêu chung trong các môi
trường khác nhau. Trí thơng minh này có thể gây ra rủi ro (thảm khốc) nếu các
mục tiêu của các máy móc khơng phù hợp với con người. Nếu một trí thơng
minh chung đạt đến một mức độ siêu phàm, nó trở thành một siêu trí tuệ; đó là,
một thuật tốn vượt trội so với trí thơng minh của con người trong mọi cách, kể
cả sáng tạo khoa học, phổ biến, cảm giác, và năng lực xã hội. Lưu ý rằng định
nghĩa này để ngỏỏ̉ câu hỏỏ̉i về việc có hay khơng một siêu trí tuệ sẽ có ý thức.
Trong trường hợp tốt nhất, một siêu trí tuệ có thể giải quyết vơ số vấn đề
cho nhân loại, giúp chúng ta vượt qua đạt được những thành tựu khoa học, đạo
đức, sinh thái và kinh tế trước những thách thức của tương lai. Tuy nhiên, nếu
các mục tiêu của một siêu trí tuệ khơng tương thích với sở thích của con người
và các sinh vật khác, AI sẽ mang tới một mối đe dọa tồn tại chưa từng có, có
khả năng gây ra hậu quả nhiều hơn so với bất kỳ sự kiện nào trước đó trong vũ
trụ.


TIEU LUAN MOI download :


Rủi ro của y thức nhân tạo
Hai câu hỏỏ̉i liên quan phải được phân biệt thực sự: Thứ nhất, liệu máy
móc có thể phát triển ý thức và khả năng của đau đớn; và thứ hai, nếu câu trả lời
cho câu hỏỏ̉i đầầ̀u tiên là có, loại máy nào (sẽ) có ý thức.
Nhìn lướt qua tình trạng nghiên cứu cho thấy rằng câu hỏỏ̉i đầầ̀u tiên dễ trả
lời hơn thứ hai. Hiện tại có sự đồng thuận đáng kể, nhưng khơng phải là tồn bộ
trong số các chun gia rằng máy móc về nguyên tắc có thể có ý thức, và ít nhất
là có thể trong thầầ̀n kinh máy tính.
Những cân nhắc này có hậu quả đạo đức sâu rộng. Nếu máy móc có thể
có ý thức, thì nó về mặt đạo đức sẽ vô lương tâm khi khai thác chúng như một
lực lượng lao động và sử dụng chúng cho các cơng việc rủi ro như gỡ rối mìn
hoặc xử lý các chất nguy hiểm. Triển vọng này đặc biệt đáng lo ngại bởi vì có
thể hình dung rằng AI sẽ được tạo ra như vậy những con số khổng lồ trong
trường hợp xấu nhất, có thể là một số nạn nhân thiên văn, đông hơn bất kỳ thảm
họa được biết đến trong quá khứ.
Hiện nay, chúng ta đang chứng kiến sự lan rộng của công nghệ AI với các
tiềm năng đáng ngạc nhiên. Công nghệ AI hiện đang đứng sau những chiếc xe
không người lái, y tế hỗ trợ Watson chẩn đốn, và máy bay khơng người lái của
quân đội Hoa Kỳ sẽ dầầ̀n dầầ̀n trở thành những sản phẩm thực tiễn trong tương lai
gầầ̀n. Điều cốt yếu là các khung pháp lý được xây dựng cẩn thận diễn ra trước khi
điều này xảy ra, để nhận ra tiềm năng của những công nghệ này theo cách giảm
thiểu rủi ro một cách an toàn của một sự phát triển tổng thể tiêu cực.

Càng tiến bộ hơn trong lĩnh vực công nghệ AI, càng nhấn mạnh một cách
tiếp cận hợp lý, tầầ̀m nhìn xa những thách thức liên quan trở thành. Bởi vì chính
trị và tiến bộ pháp lý có xu hướng tụt hậu so với sự phát triển cơng nghệ, có một
trách nhiệm đặc biệt lớn dựa trên các nhà nghiên cứu và nhà phát triển cá nhân

trực tiếp tham gia vào bất kỳ tiến trình đang được thực hiện. Tuy nhiên, cầầ̀n
những khuyến khích kinh tế mạnh mẽ cho sự phát triển của các công nghệ mới
diễn ra nhanh nhất có thể mà khơng làm lãng phí thời gian phân tích rủi ro.

TIEU LUAN MOI download :


CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI
THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT
2.1 GIỚI THIỆU VỀỀ̀ BERT
2.1.1 Khái niệm BERT
BERT được viết tắt của “Bidirectional Encoder Representations from
Transformers ”, một kiến trúc mới cho lớp bài toán Language Representation
đươc Google công bố vào đầầ̀u tháng 11 vừa qua. Khơng giống như các mơ hình
trước đó, BERT được thiết kế để đào tạo ra các vector đại diện cho ngôn ngữ
văn bản thông qua ngữ cảnh 2 chiều (trái và phải) của chúng. Kết quả là, vector
đại diện được sinh ra từ mơ hình BERT được tính chỉỏ̉nh với các lớp đầầ̀u ra bổ
sung đã tạo ra nhiều kiến trúc cải tiến đáng kể cho các nhiệm vụ xử lý ngôn ngữ
tự nhiên như Question Answering, Language Inference,...mà không cầầ̀n thay đổi
quá nhiều từ các kiến trúc cũ.
BERT là một khái niệm đơn giản nhưng lại mang lại hiệu quả cực lớn
trong thực tế. Nó đã thu được kết quả tối ưu mới nhất cho 11 nhiệm vụ xử lý
ngôn ngữ tự nhiên, bao gồm việc đẩy kết quả của nhiệm vụ GLUE
benchmark lên 80.4%(cải tiến thêm 7.6%) và SQuAD v.1.1 với F1 score trên
tập test đạt 93.2%(cải tiến thêm 1.5%), tốt hơn con người 2%.
Lớp bài toán Representation cho mơ hình ngơn ngữ đã cho thấy hiệu quả
trong việc cải thiện nhiều nhiệm vụ trong lĩnh vực xử lí ngơn ngữ tự nhiên.
Những nhiệm vụ này có thể là những nhiệm vụ cấp câu như Natural language
inference, Paraphrasing nhằm dự đoán mối quan hệ giữa các câu bằng cách
phân tích tổng thể chúng và cũng có thể là những nhiệm vụ cấp từ như nhận

dạng thực thể có tên(NER), Question Answering với yêu cầầ̀u trả ra kết quả
chính xác cho câu hỏỏ̉i ở dạng từ,...
Có 2 chiến lược để sử dụng các biểu diễn ngôn ngữ được huấn luyện
trước này cho các nhiệm vụ về sau, gồm feature-based và fine-tuning.

Tuy nhiên, các kỹ thuật hiện tại bị hạn chế rất nhiều trong việc thể hiện
khả năng của các mơ hình vector đại diện, đặc biệt là hướng tiếp cận finetuning. Hạn chế chính ở đây là do các mơ hình ngơn ngữ được xây dựng dựa
trên ngữ cảnh 1 chiều gây nên sự hạn chế trong việc lựa chọn mơ hình kiến
trúc được sử dụng trong q trình sử dụng pre-training. Ví dụ như trong
OpenAI GPT, các tác giả sử dụng kiến trúc left-to-right, nghĩa là các tokens chỉỏ̉
phụ thuộc vào các token ở trước đó.
Trong kiến trúc mới này, chúng ta sẽ được cung cấp một hướng tiếp cận
dựa trên fine-tuning đã khắc phục được những hạn chế đó, được gọi
là “Bidirectional Encoder Representations from Transformers”.

TIEU LUAN MOI download :


2.1.2 Sự ra đời của BERT
Các nhà nghiên cứu làm việc tại Google AI tái khẳng định, sự thiếu hụt
dữ liệu đào tạo là một trong những thách thức lớn nhất trong lĩnh vực xử lý
ngôn ngữ tự nhiên. Đây là một lĩnh vực rộng lớn và đa dạng với nhiều nhiệm vụ
riêng biệt, hầầ̀u hết các tập dữ liệu đều chỉỏ̉ đặc thù cho từng nhiệm vụ. Để thực
hiện được tốt những nhiệm vụ này ta cầầ̀n những bộ dữ liệu lớn chứa hàng triệu
thậm chí hàng tỷ ví dụ mẫu. Tuy nhiên, trong thực tế hầầ̀u hết các tập dữ liệu
hiện giờ chỉỏ̉ chứa vài nghìn hoặc vài trăm nghìn mẫu được đánh nhãn bằng tay
bởi con người(các chuyên gia ngôn ngữ học). Sự thiếu hụt dữ liệu có nhãn chất
lượng cao để đào tạo mơ hình gây cản trở lớn cho sự phát triển của NLP nói
chung.
Để giải quyết thách thức này, các mơ hình xử lý ngôn ngữ tự nhiên sử

dụng một cơ chế tiền xử lý dữ liệu huấn luyện bằng việc transfer từ một mơ
hình chung được đào tạo từ một lượng lớn các dữ liệu khơng được gán nhãn.
Ví dụ một số mơ hình đã được nghiên cứu trước đây để thực hiện nhiệm vụ này
như Word2vec, Glove hay FastText.
Việc nghiên cứu các mơ hình này sẽ giúp thu hẹp khoảng cách giữa các
tập dữ liệu chuyên biệt cho đào tạo bằng việc xây dựng mơ hình tìm ra đại diện
chung của ngơn ngữ sử dụng một số lượng lớn các văn bản chưa được gán
nhãn lấy từ các trang web.
Các pre-train model khi được tinh chỉỏ̉nh lại trên các nhiệm vụ khác nhau
với các bộ dữ liệu nhỏỏ̉ như Question Answering, Sentiment Analysis,...sẽ dẫn
đến sự cải thiện đáng kể về độ chính xác cho so với các mơ hình được huấn
luyện trước với các bộ dữ liệu này.
Tuy nhiên, các mơ hình kể trên có những yếu điểm riêng của nó, đặc biệt
là không thể hiện được sự đại diện theo ngữ cảnh cụ thể của từ trong từng lĩnh
vực hay văn cảnh cụ thể.
Tiếp nối sự thành công nhất định của các mơ hình trước đó, Google đã
cơng bố thêm 1 kỹ thuật mới được gọi là Bidirectional Encoder Representations
from Transformers(BERT). Với lầầ̀n công bố này(kèm mã nguồn dự án), Google
khẳng định bất kỳ ai trên thế giới đều có thể đào tạo được các hệ thống hỏỏ̉i
đáp(Question Answering) cải tiến hơn cho riêng mình hoặc rất nhiều các mơ
hình NLP khác chỉỏ̉ bằng 1 vài giờ GPU duy nhất hoặc chỉỏ̉ khoảng 30p TPU(có
thể bạn chưa biết, Google đã cho phéé́p bạn sử dụng TPU của họ 1 cách miễn phí
tại Google Colab).
Một số trích dẫn từ các nhà nghiên cứu của Google AI sẽ cho bạn cái
nhìn khái quát hơn:

TIEU LUAN MOI download :


"BERT is the first deeply bidirectional, unsupervised language representation,

pre-trained using only a plain text corpus (in this case, Wikipedia)"
"Integrating a bidirectional model supports access to context from both past,
future and unsupervised directions of data – it can consume data that has not
yet been categorized."
Hiện tại, BERT đã có sẵn trên Github và hiện mới chỉỏ̉ hỗ trợ tiếng Anh
nhưng mục tiêu của Google sẽ là phát hành các mơ hình được đào tạo trên
nhiều ngôn ngữ khác nhau trong tương lai.
2.1.3 Kết quả mà BERT đạt được
Để đánh giá hiệu quả mà BERT đem lại, các kỹ sư thuộc Google AI đã so
sánh BERT với các mơ hình tốt nhất về NLP trước đây. Điều quan trọng là
chúng ta chỉỏ̉ việc sử dụng BERT thay cho các pre-train model trước đây mà
không cầầ̀n thực hiện bất kỳ thay đổi nào trong kiến trúc mạng neural sâu.
Kết quả là, trên SQUAD v1.1, BERT đạt được kết quả F1_score = 93.2%,
vượt kết quả tốt nhất trước đó là 91.6% và hiệu năng mà con người đạt được là
91.2%.

Trên SQUAD v2.0, Top 6 kết quả tốt nhất hiện giờ toàn bộ là của BERT.

TIEU LUAN MOI download :


BERT cũng cải thiện được hiệu năng tốt nhất trong thách thức GLUE
benchmark, một bộ 9 nhiệm vụ Natural Language Understanding (NLU).

BERT gầầ̀n như đã chiếm top tất cả các nhiệm vụ của xử lý ngôn ngữ tự
nhiên từ trước đến nay như 1 lầầ̀n nữa khẳng định lại sức mạnh của mình. Đây có
thể coi là 1 bước nhảy vượt bậc của Google trong lĩnh vực xử lý ngôn ngữ tự
nhiên và mình cũng tự hỏỏ̉i phải chăng đây cũng là 1 cú hích lớn để cải tiến các
bài tốn trong xử lí ngơn ngữ tự nhiên cho tiếng Việt.


TIEU LUAN MOI download :


2.2 Áp dụng vào bài tốn
Khi mơ hình nhận input đầầ̀u vào nó sẽ thực hiện trích xuất dựa theo câu
hỏỏ̉i trên bộ data có sẵn bằng cách encode câu hỏỏ̉i và các đoạn văn bản rồi tính
độ tương đồng, sau đó lấy ra 1 tập các câu trả lời có độ tương đồng với câu
hỏỏ̉i cao nhất. Tiếp đến nó sẽ đưa qua mơ hình rerank để đánh giá lại khả năng
các đoạn văn bản đó là câu trả lời cho câu hỏỏ̉i, tính xác suất rồi sắp xếp theo
điểm số. Câu trả lời đưa ra là câu có điểm số cao nhất.

TIEU LUAN MOI download :


2.3 Kêt Qua

2.4 Rui ro
Do data còn han chê nên se xay ra trương hơp kêt qua in ra bi lêch
vơi câu hỏi.

TIEU LUAN MOI download :



×