slide thuyết trình mô hình transformer

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.91 MB, 31 trang )

<span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

• Transformer:

1. TỔNG QUAN

<small>Được giới thiệu vào năm 2017, dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên (NLP)</small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Định nghĩa

• Là một mơ hình học sâu được đào tạo để xử lý và chuyển đổi đầu vào dữ

liệu tuần tự thành đầu ra dữ liệu tuần tự cụ thể.

Điểm yếu:

• Thời gian và tốc độ train rất chậm, khơng tận dụng được tính tốn song song trên GPU.

• Xử lý khơng tốt với những câu dài do hiện tượng Gradient

Recurrent Neural Networks (RNNs)

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Long-short Term Memory (LSTM)

Định nghĩa

• LSTM được phát triển để giải quyết vấn đề Gradient Vanishing của RNNs. LSTM cell có thêm một nhánh C cho phép tồn bộ

thơng tin đi qua cell, giúp duy trì thơng tin cho những câu dài.

Điểm yếu:

• Thời gian và tốc độ train rất chậm, khơng tận dụng được tính tốn song song trên GPU.

• Xử lý khơng tốt với những câu dài do hiện tượng Gradient Vanishing/Exploding.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Làm thế nào để biểu diễn một từ cho máy hiểu được?

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Word Embedding

<small>là một phương pháp biểu diễn các từ bằng vecto theo cách mà các từ tương tự có vecto tương tự. </small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Positional Encoding

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Self Attentiontính tốn mối quan hệ của các từ với nhau

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Self Attention

• Query: vector dùng để chứa thơng tin của từ được tìm kiếm, so sánh.

• Key : vector dùng để biểu diễn thông tin các từ được so sánh với từ cần

tìm kiếm ở trên.

• Value : vector biểu diễn nội dung, ý nghĩa của các từ

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Self Attention

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Multi Head Attention

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

DECODER

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Masked Multi Head Attention

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Transformer big Transformer base

3. KẾT QUẢ THỰC NGHIỆM

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

3.1. DỊCH MÁY

<small>Hình 2: Hiệu suất của mơ hình máy biến áp trong q trình dịch thuật so với các mơ hình khác</small>

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

3.2. CÁC BIẾN THỂ CỦA MƠ HÌNH

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<small>Hình 4: Hiệu suất của mơ hình máy biến áp trong nhiệm vụ phân tích cú pháp bằng Tiếng Anh</small>

3.3. PHÂN TÍCH CÚ PHÁP TIẾNG ANH

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

4. ỨNG DỤNG

01. Mơ hình Transformer đã đạt được thành cơng lớn trong việc dịch ngôn ngữ, nhận dạng giọng nói, dịch giọng nói và dự đốn chuỗi thời

gian.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<small>• Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer vulputate vel ipsum ac fringilla. Nunc cursus, arcu nec pretium aliquet.</small>

<small>03. Trong tài chính, mơ hình Transformer được sử dụng để phân tích dữ liệu chuỗi thời gian</small>

4. ỨNG DỤNG

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

5. KẾT LUẬN

<small>CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN HIỆU SUẤT</small>

<small>TỐI ƯU HĨA VÀ HUẤN LUYỆNHIỆU SUẤT MƠ HÌNH</small>

<small>Mơ hình có khả năng tổng quát hóa tốt đối với các nhiệm vụ </small>

<small>khác như phân tích cú pháp tiếng Anh</small>

<small>Mơ hình Transformer cho thấy hiệu suất xuất sắc trong nhiệm vụ </small>

<small>dịch máy cho thấy sự vượt trội so với các mơ hình trước đó. </small>

<small>Thơng qua việc sử dụng bộ tối ưu hóa Adam và điều chỉnh tốc độ học, áp dụng các phương pháp chuẩn hóa như dropout và label </small>

<small>smoothing.Số lượng và kích thước của đầu chú </small>

<small>ý, kích thước mơ hình, việc áp dụng các kỹ thuật như dropout và </small>

<small>label smoothing, </small>

</div>

slide thuyết trình mô hình transformer

• Transformer:

1. TỔNG QUAN

Định nghĩa

• Là một mơ hình học sâu được đào tạo để xử lý và chuyển đổi đầu vào dữ

liệu tuần tự thành đầu ra dữ liệu tuần tự cụ thể.

Recurrent Neural Networks (RNNs)

Long-short Term Memory (LSTM)

Làm thế nào để biểu diễn một từ cho máy hiểu được?

Word Embedding

Positional Encoding

Self Attentiontính tốn mối quan hệ của các từ với nhau

Self Attention

• Query: vector dùng để chứa thơng tin của từ được tìm kiếm, so sánh.

• Key : vector dùng để biểu diễn thông tin các từ được so sánh với từ cần

tìm kiếm ở trên.

• Value : vector biểu diễn nội dung, ý nghĩa của các từ

Self Attention

Multi Head Attention

DECODER

Masked Multi Head Attention

Transformer big Transformer base

3. KẾT QUẢ THỰC NGHIỆM

3.1. DỊCH MÁY

3.2. CÁC BIẾN THỂ CỦA MƠ HÌNH

3.3. PHÂN TÍCH CÚ PHÁP TIẾNG ANH

4. ỨNG DỤNG

4. ỨNG DỤNG

5. KẾT LUẬN

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về