Tải bản đầy đủ (.pdf) (11 trang)

Optimizing Mobile-Edge Ai-Generated Everything (Aigx) Services By Prompt Engineering Fundamental, Framework, And Case Study.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.71 MB, 11 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

<b>KHOA HỌC DỊCH VỤ</b>

Học kỳ I - Năm học: 2023-2024 Giảng viên: PGS. TS Hà Quang Thụy

<b>BÁO CÁO TIỂU LUẬN CUỐI KỲOptimizing Mobile-Edge AI-Generated Everything(AIGX) Services by Prompt Engineering: Fundamental,</b>

<b>Framework, and Case Study</b>

<b>Thực hiện: Nhóm 5</b>

Nguyễn Phạm Tú Anh Phạm Đức Long Nguyễn An Minh

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Bảng thuật ngữ

FPM Pretrained Foundation Model Mơ hình nền được huấn luyện trước

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>1. Đặt vấn đề</b>

AIGC, hay Trí tuệ Nhân tạo Tạo sinh Nội dung, đã đánh dấu một bước quan trọng trong lĩnh vực sáng tạo nội dung. Nó đã thành cơng trong việc tạo ra nội dung tự động thông qua GAI (Trí tuệ Nhân tạo Tạo sinh) dựa trên yêu cầu của người dùng. Tính đến hiện tại, sự tiến triển của AIGC được thấy rõ qua sức mạnh ngày càng gia tăng của GAI, đặc biệt là sự xuất hiện của các Mơ hình Nền Móng Huấn luyện sẵn (PFMs) với hàng tỉ tham số và phương thức thiết kế prompt.

Tuy nhiên, để đáp ứng nhu cầu ngày càng cao và đa dạng của con người, hệ thống, và mạng lưới, chúng ta cần đến một bước tiến mới, đó là AIGX, hay Trí tuệ Nhân tạo Tạo sinh Mọi Thứ. AIGX không chỉ là sự tiếp nối của AIGC mà còn mang lại những cải tiến đáng kể. Điều quan trọng là AIGX không chỉ là một bước tiến về quy mơ, mà cịn mang lại khả năng linh hoạt và đa dạng hóa trong ứng dụng. AIGX có khả năng đáp ứng nhanh chóng với các yêu cầu phức tạp và đa dạng, từ thiết kế mạng đến mã hóa kênh

Bằng cách này, AIGX khơng chỉ là sự mở rộng tự nhiên từ AIGC mà còn là bước tiến quan trọng hướng tới sự linh hoạt và hiệu suất cao hơn trong tạo sinh nội dung bằng trí tuệ nhân tạo

Bố cục bài báo cáo: - Chương I: đặt vấn đề

- Chương II: giới thiệu bài báo và tác giả - Chương III: phân tích nội dung bài báo - Chương IV: triển khai thực nghiệm - Chương V: bản dịch bài báo - Chương VI: kết luận

<b>2. Giới thiệu bài báo và tác giả</b>

<b>2.1. Giới thiệu bài báo</b>

Bài báo trình bày khái niệm về mọi thứ sinh bởi trí tuệ nhân tạo (AIGX) ở biên di động. Cụ thể, bài báo xem xét các thành phần xây dựng nên AIGX, quá trình phát triển từ AIGC sang AIGX, cũng như các ứng dụng của AIGX vào thực tế. Sau đó, bài báo trình bày một khung kiến trúc AIGX di động thống nhất, sử dụng các thiết bị biên để cung cấp các dịch vụ AIGX được hỗ trợ bởi PFM và tối ưu hóa các dịch vụ đó thơng qua kỹ thuật tinh chỉnh u cầu. Quan trọng hơn, bài báo chứng minh rằng các yêu cầu kém chất lượng sẽ dẫn đến chất lượng sinh giảm sút, ảnh hưởng xấu đến trải nghiệm người dùng, hiệu suất sử dụng mạng và tài nguyên. Theo đó, bài báo cũng tiến hành một nghiên cứu, thể hiện cách huấn luyện một trình tối ưu hóa u cầu một cách hiệu quả sử dụng ChatGPT và xem xét mức độ cải thiện có thể đạt được với tinh chỉnh

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

yêu cầu về các phương diện như trải nghiệm người dùng, chất lượng sinh, và hiệu suất mạng.

Bài báo xuất bản vào 3/9/2023, được tham chiếu bởi 1 bài báo khác và có tham chiếu tới 5 bài báo khác trong bài.

<b>2.2. Giới thiệu về tác giả</b>

Yinqiu Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Shuguang Cui, Xuemin Shen, Ping Zhang – 7 tác giả.

Các tác giả chính:

<b>Yinqiu Liu:</b>

● DBLP: 9 bài báo tạp chí và 5 bài báo hội nghị

● Scopus: 11 bài báo công bố, 302 tham chiếu, h-index là 4

● Google Scholar: (toàn bộ = 5 năm gần nhất): 426 tham chiếu, h-index là 8 và i10-index là 6

<b>Hongyang Du:</b>

● DBLP: 23 bài báo tạp chí và 11 bài báo hội nghị ● Scopus: 46 bài báo công bố, 373 tham chiếu, h-index là 12 ● Google Scholar:

o Toàn bộ: 1065 tham chiếu, h-index là 21 và i10-index là 31 o 5 năm: 1064 tham chiếu, h-index là 21 và i10-index là 31

<b>Ping Zhang:</b>

● DBLP: 244 bài báo tạp chí và 258 bài báo hội nghị

● Scopus: 1002 tài liệu công bố, 9325 tham chiếu, h-index là 42

<b>3. Phân tích nội dung bài báo</b>

<b>3.1. Cấu trúc bài báo</b>

Bài báo gồm 6 phần :

- Giới thiệu về AIGC, AIGX và các rào cản khi chuyển từ AIGC sang AIGX - AIGX: các thành phần, cơ bản và ứng dụng

- Tối ưu hóa AIGX biên di động bằng thiết kế prompts

- Nghiên cứu trường hợp: Thiết kế nội thất dùng VR hiệu quả tài nguyên bằng thiết kế prompts

- Phương hướng tương lai - Kết luận

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>3.2. Đóng góp chính</b>

Những đóng góp chính của nhóm tác giả trong bài báo này gồm:

- Đề xuất khái niệm và khung Mobile-Edge AI-Generated Everything (AIGX), mở rộng khái niệm AIGC và đưa ra các ứng dụng thực tế của AIGX. Điều này mở ra tiềm năng sử dụng AI-Generated Everything trong nhiều lĩnh vực thông qua các dịch vụ AIGX trên di động. Giới thiệu khung mobile-edge AIGX, sử dụng edge devices để cung cấp dịch vụ AIGX và tối ưu hóa thơng qua Prompt Engineering. - Bài báo đề xuất sử dụng Prompt Engineering để cải thiện chất lượng đầu ra, sự hài

lòng của người dùng, hiệu suất mạng và tận dụng tài nguyên một cách tối ưu. - Bài báo cũng trình bày một Case Study về việc huấn luyện một bộ tối ưu hóa

prompt và khảo sát hiệu quả của Prompt Engineering. Bài báo minh họa rằng việc sử dụng Prompt Engineering đúng cách có thể cải thiện trải nghiệm người dùng, chất lượng sinh ra và hiệu suất mạng.

⟹ Đóng góp của bài báo này giúp thúc đẩy sự phát triển và ứng dụng của AI-Generated Everything trên nền tảng di động, đồng thời nhấn mạnh vai trò quan trọng của prompt engineering trong tối ưu hóa dịch vụ AIGX để đạt được kết quả tốt nhất cho người dùng và mạng.

<b>3.3. Phương pháp</b>

Nhóm tác giả đề xuất một framework AIGX biên di động gồm 3 lớp như hình sau:

<b>Kiến trúc hệ thống:</b>

<b>- Mobile-Edge-Cloud: Kiến trúc tương tự như NetGPT, áp dụng kiến trúc đám mây</b>

biên di động có thể tận dụng tối đa tài nguyên đám mây và di động, chứng minh rằng AIGX có thể triển khai khắp nơi và có thể mở rộng.

<b>- AIGX Service Providers (ASPs): cịn gọi là Edge layer, các máy chủ có đủ tài</b>

ngun có thể đóng vai trị là ASPs, vận hành các mơ hình AIGX và cung cấp dịch vụ cho người dùng ở Mobile layer

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>- Cloud Computing: Cloud layer hỗ trợ Edge layer, nó có thể vận hành các PFM</b>

cực lớn(GPT-4, DALLE-3..) và cung cấp dịch vụ lưu trữ,....

<b>- Prompt Engineering Service Providers (PESPs): Các PESPs có thể chạy ở các</b>

tầng Edge layer hoặc Cloud layer, vận hành các kỹ thuật Prompt Engineering khác nhau và giúp người dùng ở Mobile layer tối ưu hóa các lời nhắc thô (raw prompts)

Để sử dụng hệ thống một cách hiệu quả, nhóm tác giả đề xuất một luồng làm việc của người dùng như sau:

<b>- Service Configuration: Mobile users nên chọn ASPs phù hợp cho từng mục đích.- Prompt Engineering Configuration: Mobile user chọn PESPs phù hợp để có thể</b>

tối ưu hóa dạng prompts nhất định.

<b>- Optimization Formulation: Tối ưu hóa các dịch vụ AIGX. Có thể xem xét các</b>

chỉ số như QoG, KPIs, QoE, với mỗi một nhiệm vụ AIGX cụ thể, các chỉ số có thể xác định theo nhiều cách khác nhau.

<b>- Inference & Iterative Refinement: Khi Mobile user gọi các ASPs, họ có thể cải</b>

thiện QoE bằng cách điều chỉnh PESPs. Ex: trong bước 4, qua mỗi vịng, người dùng sẽ quyết định có nên gọi PESPs hay không và đo lường QoG. Nếu giá trị thỏa mãn u cầu thì sẽ vào vịng tiếp theo, cịn khơng thì họ sẽ u cầu ASP tạo

- Để làm như vậy, trước tiên, nhà thiết kế tạo ra các bản vẽ 2D, sau đó sử dụng công cụ tạo môi trường VR

- Ở trong thực nghiệm này, chúng em sẽ tạo bản thiết kế nội thất cho nhà bếp

<b>Mơ hình hệ thống:</b>

- Sử dụng hệ thống ASPs (Stable Diffusion(DALLE-2) để tạo ảnh(text-to-image))

- Sử dụng Prompt Engineering Service Providers(PESPs) triển khai dựa trên ChatGPT tạo prompt đầu vào cho DALLE-2

<b>Đầu vào: lời nhắc thơ (raw prompt) có dạng A[x], with [y], trong đó x là tên khơng</b>

gian nội thất(kitchen) và y là một vật dụng trong không gian đó(cooking machines) Ví dụ: A Kitchen, with cooking machines.

<b>Đầu ra: các mẫu hình ảnh 2D về thiết kế của nhà bếp</b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>4.2. Tiến hành thực nghiệm</b>

Khi đưa lời nhắc thô gửi tới ChatGPT, câu trả lời mang lại khơng có nhiều ý nghĩa với những mục tiêu mà ta hướng tới.

Tác giả đã thiết kế một Prompting process để có thể giúp cho ChatGPT hiểu được chúng ta cần gì và mang lại câu trả lời đúng với kỳ vọng. Gồm 5 bước sau:

<b>Bước 1: Tạo cho ChatGPT một vai trị như một người có kỹ năng viết văn chuyên</b>

nghiệp và yêu cầu làm theo các chỉ dẫn tiếp theo

<b>Bước 2: Tiếp theo đó sẽ yêu cầu chatbot tạo một “image prompt” với giới hạn là 1500</b>

từ làm đầu vào cho trình tạo ảnh từ văn bản MidJourney và mơ tả về căn phịng một cách chi tiết, sử dụng từ vựng phong phú, ngôn từ mơ tả hình ảnh, cảnh quan và ánh sáng một cách cụ thể.

<b>Bước 3: Sau mô tả, dạy cho ChatGPT một số kỹ thuật thêm vào cuối prompt một số từ</b>

khóa để nâng cao chất lượng ảnh như: độ phân giải 2K, chi tiết tinh tế, khử răng cưa...

<b>Bước 4: Tiếp theo là thêm vào cuối prompt một số từ khóa tiêu cực như: mờ mịt, sai</b>

lệch, thiếu chi tiết...để tránh các kết quả không mong muốn.

<b>Bước 5: Cuối cùng, sẽ mô tả chi tiết hơn về khái niệm, bối cảnh và ánh sáng theo yêu</b>

cầu của người dùng để tạo ra một prompt tưởng tượng chi tiết hơn.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Dựa theo những chỉ dẫn của nhóm tác giả, chúng em sử dụng Prompt Engineering gồm 5 bước, theo 6 khía cạnh như bảng sau:

<b>TênSự miêu tả</b>

<b>The objects &Relationship</b>

Các chi tiết của vật thể( chất liệu, hình dạng, kết cấu) và mối quan hệ vị trí của vật thể)

<b>Background setting</b> Chi tiết của [x]

<b>Mood</b> Cảm xúc mà người sáng tạo muốn truyền tải, ảnh hưởng tới tông màu của hình ảnh

<b>Lighting</b> Nguồn ánh sáng và tác dụng của ánh sáng chiếu vào vật thể

<b>Quality booster</b> Tính từ hướng dẫn suy luận nhằm tạo ra hình ảnh chất lượng cao

<b>Negative prompt</b> Tránh tạo ra ảnh chất lượng thấp

Lúc này, ChatGPT đã trả về kết quả đúng với những những gì chúng ta cần

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Sau đó, từ prompt image, chúng em sử dụng trình tạo ảnh từ văn bản để tạo ra hình ảnh phịng bếp với các yếu tố khác nhau.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>5. Bản dịch bài báo6. Kết luận</b>

</div>

×