Tải bản đầy đủ (.pdf) (14 trang)

Báo Cáo Môn Các Chuyên Đề Về Khoa Học Máy Tính Đề Tài Alphago To Alphazero.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.88 MB, 14 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ</b>

<b>BÁO CÁO MÔN:</b>

<b>CÁC CHUYÊN ĐỀ VỀ KHOA HỌC MÁY TÍNHĐỀ TÀI:</b>

<b>AlphaGo to AlphaZero</b>

Hà Nội, 2023

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>II. Mạng nơ-ron của AlphaZero:</b> 4

<b>III.Cây tìm kiếm Monte Carlo & Cơ chế Self-play (tự chơi):</b> 5

<b>IV. Cơ chế Đấu trường (Arena):</b> 8

<b>Chương 4: Tiềm năng, hạn chế</b> 9

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>Chương 1: Lịch sử</b>

<b> 02/1996: Siêu máy tính Deep Blue của IBM giành được 1 ván thắng trước</b>

nhà vô địch cờ vua lúc bấy giờ là đại kiện tướng Garry Kasparov đó là ván đấu đầu tiên trong tổng số 6 ván mặc dù Deep đã để thua 3 ván và hòa 2 ván sau nhưng đây vẫn đánh dấu 1 cột mốc quan trọng trong việc ứng dụng trí tuệ nhân tạo và máy tính trong các trò chơi của con người.

<b> 05/1997: Trận tái đấu giữa siêu máy tính Deep Blue và Garry Kasparov</b>

được diễn ra nhưng lần này siêu máy tính Deep Blue đã dành chiến thắng chung cuộc sau 6 ván đấu với tỉ số 2 ván thắng, 1 ván thua và 6 ván hòa. Đặc biệt ở ván 6 Garry Kasparov đã để thua chóng vánh sau 19 nước đi. Chiến thắng này của Deep Blue đã đánh dấu cột mốc máy tính và trí tuệ nhân tạo đã hồn tồn vượt qua con người trong bộ môn cờ vua.

<b> Năm 2016: DeepMind của Google ra mắt AlphaGo, một phần mềm chơi cờ</b>

vây và AlphaGo đã đánh bại Lee Sedol nhà vô địch cờ vây thế giới 18 lần với tỉ số 4-1 và chiến thắng Ke Jie - nhà đương kim vô địch cờ vây thế giới với tỉ số 3-0

<b> 10/2017: Phiên bản tân tiến hơn của AlphaGo là AlphaGo Zero ra mắt vượt</b>

qua tất cả phiên bản tốt nhất của AlphaGo chỉ trong 40 ngày với tỉ số 100-0. Và như chữ “Zero” trong tên Alpha Zero không cần bất cứ nước đi nào của loài người

<b> 12/2017: Thành viên tiếp theo trong gia đình “Alpha” AlphaZero được ra</b>

mắt không chỉ giới hạn ở cờ vây, AlphaZero được mở rộng và chơi được các bộ môn cờ khác như shogi và cờ vua.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>Chương 2: AlphaGo</b>

<b>I. Tổng quan: </b>

Việc AlphaGo đánh bại Lee Sedol đã gây chấn động giới cờ vây và một bộ phim tài liệu có tựa đề “AlphaGo” cũng được ra mắt thuật lại tồn bộ q trình phát triển AlphaGo và những trận đấu với Lee Sedol

<b>II. Mạng nơ-ron:</b>

AlphaGo sử dụng 4 Deep Convolutional Neural Network (Mạng nơ-ron tích chập sâu), 3 Policy Network (Mạng chính sách) và 1 Value Network (Mạng giá trị).  Supervised Learning Policy Network (Mạng chính sách học có giám sát): 2 mạng chính sách được học các nước đi của các kì thủ, hay còn gọi là Imitation Learning (học bắt chước).

 Reinforcement Learning Policy Network (mạng chính sách học tăng cường): Mạng chính sách thứ ba này được học tăng cường dựa trên cơ chế self-play (tự chơi). Mạng hiện tại luôn được chơi với một mạng được chọn ngẫu nhiên từ một vài lần lặp trước đó.

 Rollout policy (chính sách triển khai) là một mạng nơ-ron nhỏ hơn. Rollout policy nhằm mô phỏng một cách nhanh chóng và đơn giản các nước đi tiếp theo từ một trạng thái cụ thể trên bàn cờ. Trong q trình rollout, khơng có sự giả định về chiến thuật hay chiến lược cao cấp. Thay vào đó, rollout policy đơn giản chỉ đưa ra quyết định tạm thời mà không cần phải suy nghĩ sâu về chiến thuật chiến lược. Tuy nhiên, thời gian suy luận của mạng chính sách triển khai rất ngắn, điều này rất hữu ích cho việc mơ phỏng trên cây tìm kiếm Monte Carlo

 Sau đó, bộ dữ liệu self-play (tự chơi) đào tạo Mạng giá trị để dự đoán người thắng cuộc tại trạng thái hiện tại của trị chơi.

<i><small>Hình 1: Các mạng nơ-ron bên trong AlphaGo.</small></i>

 Cuối cùng, toàn bộ các Mạng trạng thái và Mạng giá trị ở trên được gom lại và đưa vào Monte Carlo Tree Search (Cây tìm kiếm Monte Carlo). Cây Monte

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Carlo hoạt động dựa trên 4 cơ chế chính: Selection (Lựa chọn) – Expansion (Mở rộng) – Evaluation (Đánh giá) – Backup (Cập nhật). Chuỗi nước đi đại diện như một nhánh cây. Nhánh được truy cập nhiều nhất được đánh dấu là nước đi tốt nhất.

<i><small>Hình 2: Các bước hoạt động trong cây tìm kiếm Monte Carlo</small></i>

<b>III.Hạn chế: </b>

Ở trận đấu thứ 4 bằng nước đi thứ 78 Lee Sedol đã đánh bại AlphaGo. Điều quan trọng là sau nước đi thứ 78 AlphaGo vẫn tự tin vào tỉ lệ thắng của mình và rất nhanh lựa chọn ra nước đi có tỉ lệ thắng cao nhất và sau đó 10 nước từ nước đi thứ 87 tỉ lệ thắng được tính tốn bởi AlphaGo giảm mạnh và thời gian tính tốn tăng đột ngột và cuối cùng phải đầu hàng ở nước 105. Điều này được nhà phát triển nhận định nguyên nhân do AlphaGo học vẹt nước đi của con người quá nhiều khiến cho trong quá trình tìm kiếm cây Monte Carlo, AlphaGo đã cố gắng cắt bỏ những nhánh trình tự ít liên quan hơn nên với những nước cờ đặc biệt.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>Chương 3: AlphaGo Zero – AlphaZero</b>

<b>I. Tổng quan: </b>

Để khắc phục hạn chế của AlphaGo phiên bản tân tiến hơn AlphaGo Zero đã được ra bắt đầu từ “con số 0”, không cần bất cứ nước đi chuyên gia của loài người.

 Ngay sau 2 tháng thành viên mới của gia đình Alpha là AlphaZero được ra mắt khơng những không bị giới hạn ở bộ môn cờ vây như thành viên tiền nhiệm AlphaGo Zero, AlphaZero còn đánh bại AlphaGo Zero ở chính bộ mơn cờ vây đồng thời đánh bại các chương trình máy tính hàng đầu khác như Stockfish ở môn cờ vua và Elmo ở mơn Shogi.

<i><small>Hình 3: Tỉ lệ thắng của AlphaZero với các chương trình đánh cờ</small></i>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

 AlphaZero chỉ mất 4 tiếng để đánh bại Stockfish, 2 tiếng để đánh bại Elmo và 30 tiếng để vượt qua người tiền nhiệm AlphaGo Zero

<b>II. Mạng nơ-ron của AlphaZero:</b>

 Loại bỏ mạng học có giám sát trên nước đi của chuyên gia, dữ liệu hoàn toàn tự sinh dựa trên cơ chế tự học, tự chơi (self-play).

 Đầu vào của mạng nơ-ron là tình trạng bàn cờ (vị trí các qn cờ trên bàn). Dữ liệu thông tin của bàn cờ tiếp tục được đưa vào 1 lớp Convolutional (tích chập), theo sau bởi 19 hoặc 39 lớp Residual.

 Cuối cùng, mạng nơ-ron xuất ra hai đầu là Value Head (Đầu ra Giá trị) và Policy Head (Đầu ra Chính sách).

 Một điểm nâng cấp quan trọng nữa của AlphaZero so với AlphaGo là AlphaZero đã kết hợp Mạng chính sách và Mạng giá trị để cùng chia sẻ các tham số. Mục đích là để học hỏi xem những trạng thái nào sẽ dẫn đến kết quả thắng hoặc thua. Ngồi ra, q trình học Chính sách cung cấp ước tính khả thi hơn về những nước cờ tốt nhất tại trạng thái bàn cờ hiện tại. Kiến trúc của mạng nơ-ron nói chung sẽ phụ thuộc hồn tồn vào trị chơi. Hầu hết các loại trò chơi bàn cờ như cờ vây, cờ vua, cờ shogi… đều có thể sử dụng kiến trúc mạng tích

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

chập nhiều lớp.

<i><small>Hình 5: Cấu trúc mạng nơ-ron của AlphaZero</small></i>

<b>III.Cây tìm kiếm Monte Carlo & Cơ chế Self-play (tự chơi): </b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Cây tìm kiếm Monte Carlo vẫn được DeepMind tin tưởng để sử dụng làm nịng cốt của q trình tự chơi của AlphaZero. Trên cây tìm kiếm, mỗi nút trên cây được định nghĩa là một trạng thái của bàn cờ. Cơ chế tự chơi được phối hợp với cây tìm kiếm Monte Carlo bao gồm 4 bước như sau:

 Lựa chọn: Những nước đi được lựa chọn dựa trên những thông tin đã có trên cây Monte Carlo. Hàm lựa chọn được thực hiện theo lối đệ quy cho đến khi đạt tới một nút lá trên cây, đồng nghĩa hàm lựa chọn đã tìm đến trạng thái chưa được truy cập.

 Mở rộng: một nút, hay một trạng thái hoàn toàn mới, chưa được truy cập sẽ được chọn ngẫu nhiên và được gắn thêm vào cây tìm kiếm.

 Mơ phỏng: Từ trạng thái vừa được mở rộng, một quá trình mơ phỏng chuỗi các nước đi hồn tồn ngẫu nhiên trong tương lai, cho đến khi ván đấu khép lại và quyết định người chiến thắng. Với cờ vua, giá trị kết thúc của bàn cờ có thể được quy là +1 (cờ trắng thắng), 0 (hòa cờ) và -1 (cờ đen thắng).

 Cập nhật: Tất cả các nút trên đường dẫn đã chọn đều được cập nhật thông tin, tương ứng với kết quả của ván đấu thu được từ q trình mơ phỏng.

<i><small>Hình 6: 4 bước trong chu trình hình thành cây tìm kiếm Monte Carlo</small></i>

 Tại trạng thái bàn cờ đầu tiên, cây tìm kiếm bắt đầu từ nút gốc của cây và thực hiện quá trình mơ phỏng với độ sâu tối đa của cây là 1600 nước đi trong tương lai – dựa theo thơng số trong bài báo của DeepMind.

 Trong q trình mô phỏng, hành động tối ưu nhất sẽ được chọn, tùy thuộc vào chỉ số khám phá (đi thử những nước đi mới) hoặc khai thác (chọn nước đi có phần thưởng cao nhất).

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

 Sau đó, trạng thái bàn cờ hiện tại được đưa vào mạng nơ-ron và xuất ra dự đoán hai giá trị sau: Xác suất của các nước đi (Policy) và Giá trị của trạng thái (Value). Các nước cờ khả thi tại trạng thái bàn cờ mới sẽ được gắn thêm giá trị xác suất.

 Đồng thời, tất cả các nước cờ dẫn tới trạng thái bàn cờ hiện tại sẽ được cập nhật lại ba giá trị khác nhau: Số lần thực hiện nước cờ, Tổng giá trị của nước cờ và Giá trị trung bình của nước cờ.

 Cuối cùng, nước cờ tiếp theo sẽ được quyết định dựa vào yếu tố khai thác hay khám phá. Chi tiết quá trình này được mơ tả trong hình dưới đây.

<i><small>Hình 7: Quá trình chọn nước cờ mới từ trạng thái bàn cờ hiện tại</small></i>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>IV. Cơ chế Đấu trường (Arena):</b>

Sau khi tồn bộ cây tìm kiếm Monte Carlo đã được hồn thiện, mơ hình mạng nơ-ron cũng đã được tối ưu, một phiên bản AlphaZero ra đời. Và để đánh giá phiên bản AlphaZero nào là vượt trội DeepMind đã áp dụng cơ chế Đấu trường (Arena) để cho các phiên bản AlphaZero khác nhau thi đấu với nhau. Phiên bản nào giành được số ván thắng vượt trội hơn sẽ được lựa chọn làm nhà vô địch. Các phiên bản mới khác sẽ đóng vai kẻ thách đấu với hi vọng lật đổ phiên bản vô địch trước đó. Đến cuối cùng, phiên bản vơ đối nhất, đã đánh bại hàng trăm phiên bản khác sẽ được chọn là phiên bản cuối cùng.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>Chương 4: Tiềm năng, hạn chế </b>

<b>I. Tiềm năng:</b>

<b>1. Trong các bộ môn cờ: Đầu tiên, bằng cơ chế tự chơi, AlphaZero sẽ chơi</b>

những nước cờ nằm trong dự kiến. Đặc biệt, với cơ chế cân bằng khám phá và khai thác, nó ưu tiên những nước đi hứa hẹn, đồng thời cân nhắc xem liệu đối phương sẽ phản ứng với nước đi của mình như thế nào. Song song, nó vẫn tiếp tục khám phá và thử nghiệm những nước đi mới mẻ.

 Khi gặp một thế cờ lạ, AlphaZero sẽ đánh giá mức độ thuận lợi của các nước đi khả thi và xếp hạng điểm số chuỗi nước đi dẫn tới thế cờ hiện tại.  Sau khi đã suy nghĩ xong về các khả năng trong tương lai, AlphaZero sẽ ra tay đi nước cờ tiếp theo. Cho đến khi ván đấu khép lại, ta sẽ quay lại và đánh giá xem mình đã đánh giá sai ở đâu, giá trị của các vị trí trong tương lai và cập nhật kiến thức của bản thân cho phù hợp.

 Nghe có vẻ giống như cách loài người chúng ta học chơi cờ phải khơng? Do đó các nước cờ của AlphaZero được các đại kiện tướng của các bộ môn cờ là sáng tạo khơng bị gị bó bởi kiến thức của con người. Thậm trí việc nghiên cứu nước đi của AlphaZero còn được Matthew Sadler một kiện tướng quốc tế ví như “Nó giống như khám phá những cuốn sổ ghi chép bí mật của một kỳ thủ vĩ đại nào đó trong quá khứ.”

<b>2. Ứng dụng trong cuộc sống: Việc AlphaZero có thể Self-play (tự chơi) để</b>

tự sinh dữ liệu mà không cần đến dữ liệu con người có thể mở ra rất nhiều tiềm năng ứng dụng trong cuộc sống.

<i><small>Hình 6: Câu trả lời của đội trưởng đội nghiên cứu AlphaZero</small></i>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>II. Hạn chế: </b>

Mục tiêu hồn hảo cho một thế giới khơng hồn hảo: Một đặc điểm chung của nhiều trị chơi, bao gồm cả cờ vua và cờ vây, là người chơi có thể nhìn thấy tất cả các qn cờ của cả hai bên vào mọi lúc. Mỗi người chơi ln có cái được gọi là “thơng tin hồn hảo” về trạng thái của trị chơi. Dù trị chơi có phức tạp đến mức nào, tất cả những gì bạn cần làm là suy nghĩ về tình hình hiện tại.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>TÀI LIỆU THAM KHẢO:</b>

[1] Rudolf, Anna; (2018), “AlphaZero’s Attacking Chess”, (accessed Oct. 15, 2020).

[3] For a very detailed analysis: Hassabis, Silver, et. All (2018) “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play.

[4] “AlphaGo | DeepMind.”

(accessed Oct. 15, 2020).

</div>

×