Báo cáo học phần mạng xã hội phân tích mạng các bài báo chatgpt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.66 MB, 17 trang )

Trang 1<div class="page_container" data-page="1">

1.2. Mục tiêu nghiên cứu của đồ án ... 3

CHƯƠNG 2. THU THẬP VÀ XỬ LÝ DỮ LIỆU ... 4

2.1. Thu thập dữ liệu ... 4

2.2. Tiền xử lý dữ liệu ... 5

2.3. Phân tích Wordcloud của tóm tắt ... 7

CHƯƠNG 3. XÂY DỰNG VÀ PHÂN TÍCH MẠNG ... 9

</div>Trang 2<div class="page_container" data-page="2">

DANH MỤC HÌNH

Hình 1. Nội dung mẫu dữ liệu dùng để thực nghiệm ... 5

Hình 2. Dữ liệu các bài báo bị loại ... 6

Hình 3. Thống kê số bài báo bị loại và đạt yêu cầu ... 6

Hình 4. Dữ liệu dùng để tạo đồ thị ... 7

Hình 5. Danh sách stopword được sử dụng ... 7

Hình 6. Wordcloud của tất cả các tóm tắt... 8

Hình 7. Wordcloud của 20 từ nổi bật ... 8

Hình 7. Giao diện làm việc của Gephi ... 9

Hình 8. Minh họa dữ liệu đỉnh ... 9

Hình 9. Minh họa dữ liệu cạnh ... 10

Hình 10. Cấu trúc mạng tổng thể ... 11

Hình 11. Sự phân bố bậc của nút ... 12

Hình 12. Độ trung tâm của nút theo độ trung tâm ở giữa ... 13

Hình 13. Độ trung tâm của nút dựa trên sự gần gũi ... 13

Hình 14. Độ trung tâm dựa trên sự gần gũi từ 0 đến 0.5 ... 14

</div>Trang 3<div class="page_container" data-page="3">

1.1. Lý do chọn đề tài

Ngày nay, với sự bùng nổ của công nghệ thông tin, đặc biệt là trí thơng minh nhân tạo (Artificial Intelligence - AI), các công cụ hỗ trợ công việc hằng ngày cho con người dựa trên AI ra đời ngày càng nhiều và phát triển nhanh chóng. Trong đó, ChatGPT (Chat Generative Pre-training Transformer) được đánh là cơng cụ phổ biến nhất và là “chatbot trí tuệ nhân tạo tốt nhất” [1]. ChatGPT là một chatbot được công ty OpenAI phát triển và ra mắt lần đầu tiên vào tháng 11 năm 2022. ChatGPT là một ứng dụng AI được phát triển từ mơ hình GPT-3.5, một mơ hình ngơn ngữ lớn của OpenAI được huấn luyện đồng thời bằng cả hai kỹ thuật học có giám sát (supervised learning) lẫn học tăng cường (reinforcement). Sự phối hợp của hai kỹ thuật này nhằm đưa ra câu trả lời giống như một cuộc trò chuyện với người thật. Theo số liệu của cơng ty phân tích Similarweb Ltd., hiện nay có khoảng 1.8

tỷ lượt truy cập vào trang web chat.openai.com hàng tháng [2]. Với khả năng xử lý ngôn

ngữ tự nhiên vượt trội và kho dữ liệu huấn luyện khổng lồ, ChatGPT có thể hỗ trợ tốt trong giáo dục, giúp tìm kiếm thơng tin, xử lý và giải quyết vấn đề một cách hiệu quả. Theo Chen và cộng sự [3], ChatGPT có khả năng tự động tạo ra câu trả lời và sinh văn bản, phục vụ cho nhiều mục đích như trả lời câu hỏi, dịch thuật và các ứng dụng khác. Ngồi ra, ChatGPT cũng có khả năng viết các bài viết với các chủ đề khác nhau [4], hoặc tóm tắt văn bản, tạo nội dung, tạo mã, và sáng tác các câu chuyện, vở kịch, và nhiều hình thức văn bản khác [5]. Như vậy, có thể thấy rằng, ChatGPT đã và đang được ứng dụng rộng rãi trong hầu hết các lĩnh vực của đời sống. Tuy nhiên, để có cái nhìn chi tiết hơn về ứng dụng của ChatGPT trong lĩnh vực giáo dục, cụ thể là trong nghiên cứu khoa học, tơi chọn đề tài “Phân tích mạng các bài báo ChatGPT” nhằm phân tích và tìm ra những nhà khoa học có nhiều bài báo mà có sử dụng hoặc có nghiên cứu liên quan đến ChatGPT.

1.2. Mục tiêu nghiên cứu của đồ án

Trong đồ án này, mục tiêu chính là thu thập các bài báo có ứng dụng hoặc có liên quan đến ChatGPT để thực hiện các nhiệm vụ sau:

• Phân tích wordcloud [6] dựa trên tóm tắt của các bài báo để xác định các từ khóa quan trọng trong các bài báo đó.

• Xây dựng và phân tích mạng từ dữ liệu các bài báo để xác định các tác giả có nhiều ảnh hưởng hoặc ít ảnh hưởng trong mạng.

</div>Trang 4<div class="page_container" data-page="4">

2.1. Thu thập dữ liệu

Trong đề tài này, tôi sử dụng tập dữ liệu thu được từ cơ sở dữ liệu Semantic Scholar ( Dữ liệu được thu thập bằng cách sử dụng API (Application Programming Interface) được viết bằng ngơn ngữ lập trình Python để thu thập các nội dung như tiêu đề, các tác giả, tóm tắt,… của các bài báo có chứa từ khoá ChatGPT, GPT-3.5 hoặc GPT-4 trong tiêu đề [7]. Dữ liệu sau khi thu thập là một tập tin dạng *jsonl có cấu trúc như sau:

• Item paper: loại bài báo, có thể là bài báo hoặc bài báo cáo hội thảo • Authors: các tác giả của bài báo

• Title: tiêu đề bài báo

• Journal: tên tạp chí xuất bản • Pulication year: năm xuất bản • URLs: địa chỉ web của bài báo • DOI: mã định danh của bài báo

• PMID: mã định danh của bài báo trên thư viện Pubmed • Abstract: tóm tắt của bài báo

Hình 1 minh họa cấu trúc một mẫu dữ liệu sau khi thu thập. Trong đề tài này, tôi đã thu thập được bộ dữ liệu gồm 1192 bài báo với tiêu đề có chứa từ khố ChatGPT, GPT-3.5 hoặc GPT-4. Mỗi bài báo trong bộ dữ liệu thu được có hơn 10 trường, Tuy nhiên, tôi chỉ quan tâm sử dụng các trường gồm title, authors và abstract cho việc xây dựng và phân tích mạng.

</div>Trang 5<div class="page_container" data-page="5">

Hình 1. Nội dung mẫu dữ liệu dùng để thực nghiệm

2.2. Tiền xử lý dữ liệu

Do do dữ liệu được thu thập tự động nên trong 1192 kết quả thu thập có một số kết quả khơng đúng như u cầu. Vì vậy, trước khi xây dựng mạng, ngồi một số dịng dữ liệu bị lỗi, tơi cũng tiến hành loại bỏ thêm các dịng dữ liệu khơng đạt yêu cầu với 3 tiêu chí loại như sau:

• Tiêu đề bài báo khơng có chứa từ khóa ChatGPT, GPT-3.5 hoặc GPT-4;

• Bài báo khơng thu thập được tóm tắt để sử dụng cho việc tạo đám mây từ khóa (wordcloud);

• Bài báo được viết bằng tiếng Tây Ban Nha, Bồ Đào Nha, Slovakia, Thổ Nhĩ Kỳ, Bosnia, Ukraina,…

Hình 2 minh họa cho các bài báo bị loại bởi 3 tiêu chí như đề cập ở trên. Sau khi tiến hành loại bỏ, bộ dữ liệu còn lại 766 bài báo

</div>Trang 6<div class="page_container" data-page="6">

Hình 2. Dữ liệu các bài báo bị loại

Hình 3 thống kê số lượng các bài báo bị loại theo 3 tiêu chí trên và các bài báo thỏa điều kiện làm dữ liệu cho việc xây dựng đồ thị mạng. Từ Hình 3 ta thấy trong 1192 bài thì có 17 bài dữ liệu bị lỗi, 96 bài khơng có từ khóa ChatGPT hoặc ChatGPT-3.5 hoặc ChatGPT-4, 288 bài khơng thu thập được tóm tắt, 25 bài viết bằng các ngôn ngữ không phải là tiếng Anh và cịn lại 766 bài đạt u cầu.

Hình 3. Thống kê số bài báo bị loại và đạt yêu cầu

Thống kê từ Bảng 1 cho thấy, trong 766 bài báo cịn lại thì số tác giả độc lập chiếm tỉ lệ cao (205 bài) và bài báo có nhiều tác giả nhất (31 tác giả) là 1 bài.

</div>Trang 7<div class="page_container" data-page="7">

Bảng 1. Thống kê số tác giả của bài báo

Sau khi được loại bỏ những dịng dữ liệu khơng phù hợp, dữ liệu tiếp tục được xử lý bằng python nhằm tạo ra những cặp tác giả có mối quan hệ đồng tác giả để làm cạnh của đồ thị. Hình 4 thể hiện dữ liệu sau khi được xử lý để tạo đồ thị

Hình 4. Dữ liệu dùng để tạo đồ thị

2.3. Phân tích Wordcloud của tóm tắt

Để tìm hiểu các tác giả đã sử dụng ChatGPT hỗ trợ cơng việc gì, tơi sử dụng cơng cụ wordcloud [6] để phân tích nội dung của các tóm tắt. Trước khi đưa dữ liệu vào phân tích, các tóm tắt sẽ được loại bỏ các từ không ảnh hưởng đến nội dung của câu (stopword) như: had, into, the, then….và loại bỏ các dấu câu, các kí tự đặc biệt,…Danh sách stopword đã sử dụng được thể hiện trong Hình 5

Hình 5. Danh sách stopword được sử dụng

Hình 6 thể hiện wordcloud của 766 tóm tắt đã thu thập được. Từ Hình 6 ta thấy từ được xuất hiện nhiều nhất hay phổ biến nhất là ChatGPT, tiếp đến là research, question, topic, human, model, human, study…Ngồi ra, 20 từ có tần suất xuất hiện nhiều nhất trong 766 tóm tắt cũng được thể hiện trong Hình 7.

</div>Trang 8<div class="page_container" data-page="8">

Hình 6. Wordcloud của tất cả các tóm tắt

Hình 7. Wordcloud của 20 từ nổi bật

</div>Trang 9<div class="page_container" data-page="9">

3.1. Cấu trúc đồ thị

Trong nghiên cứu này, dữ liệu sau khi được thu thập và tiền xử lý, sẽ được phân tích và mơ hình hóa bằng phần mềm Gephi [8]. Gephi là một trong những phần mềm mã nguồn mở hàng đầu trong việc khám phá, trực quan hóa nhiều loại đồ thị và mạng. Gephi có giao diện làm việc như Hình 8

Hình 8. Giao diện làm việc của Gephi

Từ dữ liệu sau khi đã được xử lý, tơi tiến hành phân tích và mơ hình hóa thành đồ thị vô hướng với cấu trúc đỉnh và cạnh của đồ thị như sau:

• Đỉnh: mỗi đỉnh của đồ thị tương ứng với một tác giả.

• Cạnh: khi tác giả A và tác giả B là đồng tác giả của một bài báo thì sẽ có cạnh nối hai đỉnh tương ứng với A và B.

Ngoài ra, nếu A và B là đồng tác giả của nhiều bài báo thì trọng số cạnh AB chính là số lượng bài báo đồng tác giả (mặc định thì trọng số của cạnh là 1). Hình 9 và Hình 10 sau đây minh họa một phần dữ liệu đỉnh và cạnh của mạng.

Hình 9. Minh họa dữ liệu đỉnh

</div>Trang 10<div class="page_container" data-page="10">

Hình 10. Minh họa dữ liệu cạnh

3.2. Các tiêu chí đánh giá mạng

Trong phân tích mạng xã hội, các thước đo trung tâm là một trong những chỉ số được sử dụng phổ biến nhất nhằm tìm ra các nút (đỉnh) nổi bật và có ảnh hưởng trong mạng xã hội. Trong nghiên cứu này, các thước đo được sử dụng để đánh giá mạng là degree centrality (độ trung tâm dựa trên bậc của nút), closeness centrality (độ trung tâm dựa trên sự gần gũi) và betweeness centrality (độ trung tâm ở giữa) [9]. Các thước đo này được định nghĩa như sau:

Độ trung tâm dựa trên bậc của nút 𝐶𝐷(𝑖): đây là một thước đo đơn giản dùng để đếm số nút lân cận của một nút i nào đó, hay có thể được xác định bằng số cạnh hay số liên kết của nút đó và được tính theo cơng thức (1)

𝐶𝐷(𝑖) = ∑𝑛𝑗=1𝐴𝑖𝑗 (1)

Độ trung tâm dựa trên sự gần gũi 𝐶𝐶(𝑖): chỉ ra một nút i trong mạng có thể liên lạc nhanh tới các nút khác trong mạng, được xác định bằng công thức (2) với 𝑑𝑖𝑗 là đường đi ngắn nhất từ nút i đến nút j

𝐶𝐶(𝑖) = 1

∑𝑛𝑗=1𝑑𝑖𝑗 (2)

Độ trung tâm ở giữa 𝐶𝐵(𝑖): thể hiện mức độ ở giữa của một nút i nào đó so với các nút khác, được xác định bằng công thức (3) với 𝜎𝑠𝑡 là số lượng đường đi ngắn nhất từ s đến t, còn 𝜎𝑠𝑡(𝑖) là số lượng đường đi ngắn nhất từ s đến t mà có đi qua i

𝐵𝐶(𝑖) = ∑ 𝜎𝑠𝑡(𝑖)𝜎𝑠𝑡 𝑠≠𝑡≠𝑖 (2)

3.3. Phân tích mạng

Sau khi mạng xã hội được tạo thành từ dữ liệu thu thập được, các tác giả của các bài báo sẽ được tập hợp thành một số cộng đồng có đặc điểm tương tự nhau hay chính là mối quan hệ đồng tác giả. Bảng 2 thể hiện số liệu tổng thể của mạng

</div>Trang 11<div class="page_container" data-page="11">

Hệ số trung bình phân cụm (average clustering coefficient) 0.976

Bảng 2. Các số liệu tổng thể của mạng

Hình 11 trình bày cấu trúc mạng tổng quát thể hiện tác giả của các bài báo về ChatGPT và mối quan hệ đồng tác giả của họ. Cấu trúc mạng này được bố cục theo kiểu Contraction với scale factor là 2.

Hình 11. Cấu trúc mạng tổng thể

Bảng 3 cho thấy số liệu tổng thể về giá trị bậc của các đỉnh trong mạng. Từ Bảng 3 ta thấy giá trị bậc cao nhất của đỉnh là 44, tức là có một tác giả nào đó có quan hệ hợp tác với tối đa là 44 tác giả khác. Ngược lại, bậc thấp nhất có giá trị là 0 cho thấy có những tác giả chỉ làm việc độc lập mà khơng có sự hợp tác với bất cứ tác giả nào.

</div>Trang 12<div class="page_container" data-page="12">

Hình 12 thể hiện sự phân bố độ bậc của các nút trong mạng, sự phân bố này tuân theo hàm mũ, trong đó có những nút có bậc cao hơn mức trung bình đóng vai trị là các nút trung tâm.

Hình 12. Sự phân bố bậc của nút

Hình 13 và Hình 14 trực quan hóa độ trung tâm của từng nút theo độ trung tâm giữa và độ trung tâm gần gũi [10]. Trong đó, các nút có kích thước lớn và màu xám thể hiện rằng nút đó có độ trung tâm lớn, các nút màu xanh, màu tím…với kích thước nhỏ hơn tương ứng với các nút có độ trung tâm thấp hơn. Dựa vào Hình 13 ta thấy tác giả Liu Y có độ trung tâm ở giữa cao nhất chứng tỏ tác giả này có sự kết nối trong mạng là lớn nhất.

</div>Trang 13<div class="page_container" data-page="13">

Hình 13. Độ trung tâm của nút theo độ trung tâm ở giữa

Từ Hình 14 ta thấy rằng tác giả Liu Y cũng có chỉ số độ trung tâm dựa trên sự gần gũi cao nhất, chứng tỏ khả năng truyền thông tin đến các nút khác trong mạng là nhanh nhất hay chính là nút có ảnh hưởng lớn trong mạng. Các nút có sự ảnh hưởng lớn trong mạng tiếp theo là các tác giả tương ứng với các nút màu cam. Hình 15 thể hiện độ trung tâm gần gũi từ 0 đến 0.5

Hình 14. Độ trung tâm của nút dựa trên sự gần gũi

</div>Trang 14<div class="page_container" data-page="14">

Hình 15. Độ trung tâm dựa trên sự gần gũi từ 0 đến 0.5

Hình 16 và Hình 17 trực quan hóa các cộng đồng sau khi thực thi bằng thuật tốn tìm kiếm cộng đồng trong mạng [11]. Do có nhiều nhóm tác giả khác nhau cũng như có tác giả làm việc độc lập nên có khá nhiều cộng đồng được xác định.

Hình 16. Các cộng đồng trong mạng

Ngồi ra, 6 cộng đồng có số thành viên nhiều nhất được thể hiện chi tiết ở Hình 17. Trong đó, cộng đồng nhiều thành viên nhất là cộng đồng màu tím với số thành viên là 45.

</div>Trang 15<div class="page_container" data-page="15">

Hình 17. Top 6 cộng đồng trong mạng

</div>Trang 16<div class="page_container" data-page="16">

4.1. Kết quả đạt được

Đề tài đã thu thập và phân tích được dữ liệu từ tóm tắt của 1192 bài báo có ứng dụng hoặc liên quan đến ChatGPT. Bằng cách phân tích wordcloud của các tóm tắt, đề tài đã cho thấy một số từ khóa phổ biến được xuất hiện trong các bài báo có liên quan đến ChatGPT như: study, research, question…Ngồi ra, từ mơ hình đồ thị được xây dựng với sự hỗ trợ của cơng cụ Gephi, đã cho thấy cái nhìn tổng quan về ứng dụng ChatGPT trong nghiên cứu khoa học. Từ đồ thị đã xây dựng, ta thấy rằng có rất nhiều nhà nghiên cứu quan tâm đến ChatGPT và ứng dụng nó trong nghiên cứu. Tuy nhiên, số cộng đồng sau khi phân tích của đồ thị này khá lớn, cho thấy các tác giả có xu hướng làm việc độc lập tương đối nhiều.

4.2. Hướng phát triển

Do dữ liệu thu thập còn hạn chế nên mơ hình đồ thị xây dựng được có khá nhiều cộng đồng, điều này dẫn tới việc xác định tầm ảnh hưởng của một nhà nghiên cứu với các nhà nghiên cứu khác chưa được tối ưu. Trong thời gian tới, tơi có thể bổ sung thêm nhiều dữ liệu để có thể xây dựng mạng có nhiều sự liên kết giữa các cộng đồng với nhau. Điều đó giúp cho việc xác định các nhà khoa học có ảnh hưởng nhất trong mạng được tốt hơn.

</div>Trang 17<div class="page_container" data-page="17">

TÀI LIỆU THAM KHẢO

[1] Kevin Roose, “The Brilliance and Weirdness of ChatGPT.” [Online]. Available:

[2] David F. Carr, “ChatGPT’s First Birthday is November 30: A Year in Review.” [Online]. Available:

[3] Y. Chen and S. Eger, “Transformers Go for the LOLs: Generating (Humourous) Titles from Scientific Abstracts End-to-End,” 2022, doi: 10.48550/ARXIV.2212.10522.

[4] H. H. Thorp, “ChatGPT is fun, but not an author,” Science, vol. 379, no. 6630, pp. 313–

313, Jan. 2023, doi: 10.1126/science.adg7879.

[5] T. P. Tate, S. Doroudi, D. Ritchie, Y. Xu, and M. W. Uci, “Educational Research and AI-Generated Writing: Confronting the Coming Tsunami,” EdArXiv, preprint, Jan. [8] “Gephi.” [Online]. Available:

[9] J. Golbeck and J. L. Klavans, Introduction to social media investigation: a hands-on approach. Waltham, MA: Syngress, an imprint of Elsevier, 2015.

[10] Ulrik Brandes, “A Faster Algorithm for Betweenness Centrality,” J. Math. Sociol.,

vol. 25, no. 2, pp. 163–167, 2011.

[11] Vincent D. Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre,

“Fast unfolding of communities in large networks,” J. Stat. Mech. Theory Exp., p. 6,

2008.

</div>