Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.02 MB, 52 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>LỜI CẢM ƠN </b>
Lời đầu tiên, tơi xin gửi lời cảm ơn và lịng biết ơn sâu sắc nhất tới PGS. TS. Hà Quang Thụy, Ths. Phạm Thị Ngân đã tận tình hướng dẫn và chỉ bảo tơi trong suốt q trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn các thầy, cô trong trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho tôi học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong phịng thí nghiệm KT-Lab đã hỗ trợ tôi rất nhiều về kiến thức chuyên mơn trong q trình thực hiện khóa luận. Tơi xin cảm ơn các bạn trong lớp K54CLC đã ủng hộ và khuyến khích tơi trong suốt suốt q trình học tập tại trường.
Cuối cùng, tôi xin được gửi cám ơn vơ hạn tới gia đình và bạn bè, những người đã luôn bên cạnh, giúp và động viên tôi trong quá trình học tập cũng như trong suốt quá trình thực hiện khóa luận này.
Tơi xin chân thành cảm ơn!
Hà Nội, ngày 13 tháng 05 năm 2013
<b>Sinh viên </b>
<b>Bùi Đình Luyến </b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><b>MƠ HÌNH HĨA ẢNH HƯỞNG CỦA BLOGGER TRONG CỘNG ĐỘNG DỰA TRÊN HỌ ĐỘ ĐO H-INDEX </b>
<b>Bùi Đình Luyến </b>
<i>Khóa QH-2009-I/CQ, ngành Cơng nghệ thơng tin </i>
<b>Tóm tắt khóa luận tốt nghiệp: </b>
Ảnh hưởng xã hội xảy ra khi hành động của một người kéo theo các hành động của những người khác. Nếu được khai thác tốt, ảnh hưởng xã hội mang lại rất nhiều ứng dụng mà điển hình là tiếp thị (quảng cáo hướng đối tượng), hệ thống đề nghị, phân tích mạng xã hội, phát hiện sự kiện, tìm kiếm chuyên gia, đoán biết liên kết, xếp hạng… [9, 25]. Trong vài ba năm gần đây, phân tích ảnh hưởng trong mạng xã hội nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu hàn lâm cũng như cơng nghiệp và nhiều cơng trình nghiên cứu đã được cơng bố.
Trên cơ sở mơ hình iFinder đánh giá độ ảnh hưởng của blogger thông qua những bài viết của blogger được Nitin Agarwal và cộng sự đề xuất [25], khóa luận đề xuất một mơ hình mơ hình hóa ảnh hưởng của blogger trong cộng đồng theo họ độ đo h-index [4, 7, 13, 23] theo độ ảnh hưởng của bài viết được iFinder xác định. Phương pháp phân thùng được khóa luận sử dụng để chuyển giá trị thực thuộc đoạn [0..1] sang các giá trị ngun phù hợp với tính tốn theo họ độ đo h-index. Bằng thực nghiệm công phu trên kho dữ liệu blog TUAW, khóa luận đã minh chứng được tính khoa học và thực tiễn của mơ hình đề xuất.
<i><b>Từ khóa: Ảnh hưởng, blogger, iFinder, h-index </b></i>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>MODELING THE INFLUENCE OF BLOGGERS IN THEIR COMMUNITY BASED ON THE H-INDEX MEASUREMENTS </b>
<b>Bui Dinh Luyen </b>
<i>QH-2009-I/CQ course, Information technology faculty </i>
<b>Abstract: </b>
Social influence occurs when a person's actions led to the actions of others. If fully exploited, social influence brought a lot of applications that are typical marketing (object oriented advertising), recommender systems, social network analysis, event detection, experts finding, link prediction, ranking etc [9, 25]. In several recent years, social influence analysis of social networking to get special attention of the community as well as academic research and industrial research works have been published.
Based on iFinder model, the evaluation influence of bloggers through blogger posts Nitin Agarwal and colleagues proposed in 2012 [25], the thesis proposes a model to model the influence of bloggers in the community as the h-index measurements [4, 7, 13, 23] under the influence posts point which identified by iFinder. Binning methods are used to transfer real value in the interval to match the value calculated by the h-index measurements. With elaborate experiments on TUAW blog database, the thesis demonstrates the science and practice of the proposed model.
<i><b>Keywords: Influence, blogger, iFinder, h-index </b></i>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>LỜI CAM ĐOAN </b>
Tơi xin cam đoan mơ hình tính tốn độ ảnh hưởng của blogger của khóa luận áp dụng họ chỉ số h-index và phương pháp phân thùng dựa trên mơ hình iFinder, các thực nghiệm là do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang Thụy và ThS. Phạm Thị Ngân.
Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, khơng có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo.
Hà Nội, ngày 13 tháng 05 năm 2013
<b>Sinh viên </b>
<b>Bùi Đình Luyến </b>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><b>MỤC LỤC </b>
<b>LỜI CẢM ƠN ...i</b>
<b>LỜI CAM ĐOAN ...iv</b>
<i>1.1.1.Nghiên cứu về khai phá dữ liệu Blog ... 3</i>
<i>1.1.2.Ảnh hưởng trong Blog ... 4</i>
1.2. Bài toán xác định ảnh hưởng trên blog ... 5
<b>Chương 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ... 7</b>
2.1. Phân tích ảnh hưởng trong thế giới blog ... 7
2.2. Phương pháp dựa trên chỉ số và phụ thuộc thời gian ... 8
2.3. Thuật tốn IP – Xác định người dùng có ảnh hưởng trên Twitter ... 9
<i>2.4.6.Một số quan hệ toán học của họ chỉ số h-index ... 15</i>
2.5. Ý tưởng của khóa luận ... 15
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><b>Chương 3: MƠ HÌNH GIẢI QUYẾT BÀI TỐN ... 16</b>
3.1. Mơ tả bài tốn ... 16
<i>3.1.1.Định nghĩa blogger có ảnh hưởng ... 16</i>
<i>3.1.2.Đặc trưng của bài viết ... 16</i>
<i>3.1.3.Phát biểu bài toán ... 18</i>
3.2. Mơ hình đề xuất ... 18
<i>3.2.1.Mơ hình dựa trên thuật tốn PageRank ... 18</i>
<i>3.2.2.Mơ hình đề xuất ... 19</i>
<b>Chương 4: THỰC NGHIỆM ... 24</b>
4.1. Mô tả về tiếp cận thực nghiệm ... 24
4.2. Môi trường thực nghiệm ... 24
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><b>DANH SÁCH CÁC BẢNG </b>
<b>Bảng 2.1: Ưu, nhược điểm của chỉ số h-index ... 10</b>
<b>Bảng 2.2: Top 20 bài báo của Leo Egghe giảm dần theo số tham chiếu [4] ... 12</b>
<b>Bảng 3.1: Đặc trưng của một bài viết ... 17</b>
<b>Bảng 4.1: Kết quả điểm ảnh hưởng của các bài viết ... 31</b>
<b>Bảng 4.2: Ví dụ về sắp xếp và đếm số bài của blogger ... 31</b>
<i><b>Bảng 4.3: Ví dụ kết quả h-index ... 32</b></i>
<b>Bảng 4.4: Kết quả thực nghiệm ... 32</b>
<b>Bảng 4.5: Hai danh sách top 5 blogger TUAW và iFinder, [25] ... 33</b>
<b>Bảng 4.6: Danh sách top 5 blogger của mơ hình đề xuất ... 33</b>
<b>Bảng 4.7: Thống kê một số đặc điểm của các blogger (SL: số lượng) ... 34</b>
<b>Bảng 4.8: Điểm ảnh hưởng của các blogger khi phân thùng theo chiều rộng ... 35</b>
<b>Bảng 4.9: Điểm ảnh hưởng của các blogger khi phân thùng theo chiều sâu ... 36</b>
<b>Bảng 4.10: Tác động của thời gian tới thứ hạng blogger ... 39</b>
<b>Bảng 4.11: Top 5 blogger ảnh hưởng nhất qua thời gian ... 39</b>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><b>DANH SÁCH CÁC HÌNH VẼ </b>
<b>Hình 3.1: Dịng ảnh hưởng qua nút , [25]. ... 20</b>
<b>Hình 3.2: Mơ hình đề xuất ... 22</b>
<b>Hình 4.1: Mơ hình thực nghiệm của khóa luận ... 26</b>
<b>Hình 4.2: Lược đồ cơ sở dữ liệu quan hệ ... 27</b>
<b>Hình 4.3: Class ListLinks ... 28</b>
<b>Hình 4.4: Class Main ... 29</b>
<b>Hình 4.5: Biểu đồ thứ hạng top 5 blogger khi phân thùng theo chiều rộng ... 37</b>
<b>Hình 4.6: Biểu đồ thứ hạng top 5 blogger khi phân thùng theo chiều sâu ... 38</b>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><b>DANH SÁCH CÁC TỪ VIẾT TẮT </b>
Technology
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><b>MỞ ĐẦU </b>
Việc phân tích ảnh hưởng là một chủ đề nghiên cứu quan trọng trong khoa học xã hội. Cùng với sự phát triển nhanh chóng của các cộng đồng mạng như mạng xã hội Facebook, Twitter hay những trang thương mại điện tử như Amazon, Netflix, phân tích ảnh hưởng đóng vai trò ngày càng quan trọng trong cuộc sống hàng ngày của xã hội loài người, trở thành chủ đề nghiên cứu liên lĩnh vực. Nghiên cứu ảnh hưởng của các thực thể trong các phương tiện xã hội (social media) khơng chỉ phục vụ cho mục đích nghiên cứu khoa học, mà cịn có ý nghĩa cho nhiều mục đích khác. Ví dụ, phân tích ảnh hưởng sẽ giúp xác định chính xác hơn những ý kiến thăm dị cho các chính trị gia; quảng bá sản phẩm hoặc kiểm soát rủi ro trong kinh doanh cho các doanh nghiệp... Đã có nhiều nghiên cứu về xác định những thực thể có ảnh hưởng cao, chẳng hạn như nghiên cứu của Leonidas Akritidis và cộng sự, 2011 [3] dựa vào tính ảnh hưởng của bài viết blog có biến thời gian; hay nghiên cứu của Daniel M. Romero và cộng sự, 2011 [10] đưa ra thuật toán IP nhằm xác định người dùng Twitter có ảnh
<i>hưởng dựa trên tỉ lệ chấp nhận, tỉ lệ từ chối; và gần đây, nghiên cứu của Michinari </i>
Momma và cộng sự, 2012 [24] phân tích ảnh hưởng của các blogger dựa trên các hành động của họ trên logfile của web server, tập trung vào loại hành động có ảnh hưởng
<i>quan trọng đó là viết bài. Mơ hình iFinder được Nitin Argawal và cộng sự, 2012 [25] </i>
đưa ra nhằm xác định những blogger có ảnh hưởng trong cộng đồng blog nhất định. Nhóm tác giả đánh giá độ ảnh hưởng của blogger dựa trên độ ảnh hưởng của những bài viết mà blogger đó viết.
Dựa trên mơ hình iFinder của Nitin Agarwal và cộng sự [25], khóa luận đề xuất mơ hình tính tốn độ ảnh hưởng của các blogger thông qua chỉ số h-index của blogger theo các bài viết của anh/cô ta. Điểm khác biệt của khóa luận so với mơ hình iFinder đó là iFinder đánh giá ảnh hưởng dựa vào bài viết có ảnh hưởng nhất của blogger, trong khi mơ hình của khóa luận đề xuất đánh giá độ ảnh hưởng dựa vào tập các bài viết của blogger đó. Điểm khác biệt này chính là do khóa luận sử dụng chỉ số h-index được Hirch J.E đưa ra vào năm 2005 [13]. Do miền giá trị của điểm ảnh hưởng của bài viết do mô hình iFinder tính tốn thuộc khoảng thực [0,1], nên trước khi sử dụng chỉ
<i>số h-index, khóa luận tiến hành phân thùng để chuyển điểm ảnh hưởng của bài viết </i>
sang miền giá trị nguyên dương [1 … N].
Tiến hành thực nghiệm mô hình đã đề xuất và tập dữ liệu TUAW do nhóm tác giả [25] chia sẻ, mặc dù với hai quan điểm khác nhau về độ ảnh hưởng, thực nghiệm của khóa luận đã tìm được top blogger có ảnh hưởng nhất; trong đó blogger giống
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">với kết quả top của mô hình iFinder. Khóa luận đã tiến hành phân tích cơng phu nguyên nhân dẫn đến có sự khác biệt ảnh hưởng của hai blogger trong mỗi mơ hình. Hơn nữa, khóa luận cịn tiến hành thực nghiệm đánh giá tác động của các phương pháp phân thùng và ảnh hưởng của thời gian tới độ ảnh hưởng của các blogger. Kết quả ban đầu cũng cho thấy tính đúng đắn và hợp lý của mơ hình đề xuất, cũng là động lực để khóa luận tiếp tục nghiên cứu, cải tiến mơ hình đề xuất.
Nội dung của khóa luận gồm 4 chương:
<b>Chương 1: Đặt vấn đề </b>
Chương này của khóa luận trình bày động lực và mục đích của đề tài khóa luận. Bên cạnh đó, khóa luận cũng giới thiệu một cách khái quát về bài tốn tìm kiếm blogger có ảnh hưởng trong cộng đồng blog.
<b>Chương 2: Các nghiên cứu liên quan </b>
Chương này trình bày các nghiên cứu liên quan đến việc xếp hạng, tìm kiếm những blogger có ảnh hưởng trong cơng trình nghiên cứu của M. Momma và cộng sự [24] và của Leonidas Akritidis và cộng sự [3]; tìm kiếm những người có ảnh hưởng trên Twitter của Daniel M. Romero và cộng sự [10]. Cuối cùng, khóa luận trình bày nền tảng ý tưởng mơ hình của khóa luận dựa trên mơ hình iFinder do Nitin Agarwal và cộng sự đề xuất [25] và một số chỉ số thuộc họ chỉ số h-index được Hirsch J.E đưa ra năm 2005 [13].
<b>Chương 3: Mơ hình giải quyết bài tốn </b>
Chương này mơ tả bài tốn và trình bày mơ hình tìm kiếm những blogger có ảnh hưởng trong một cộng đồng blogger xác định. Khóa luận đề xuất mơ hình dựa trên mơ hình iFinder do Nitin Agarwal và cộng sự [25] đưa ra và kết hợp tìm chỉ số h-index do Hirsch J.E đề xuất [13] xem như đó là điểm ảnh hưởng của các blogger.
<b>Chương 4: Thực nghiệm </b>
Trong chương 4, khóa luận trình bày về phần thực nghiệm, bao gồm hướng tiếp cận thực nghiệm, môi trường thực nghiệm, tập dữ liệu và môi trường thực nghiệm, và cuối cùng là các bước tiến hành thực nghiệm, qua đó đưa ra những kết quả, đánh giá mơ hình.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><b>Chương 1: ĐẶT VẤN ĐỀ 1.1. Động lực và mục đích </b>
<i><b>1.1.1. Nghiên cứu về khai phá dữ liệu Blog </b></i>
Cơng trình nghiên cứu của Craig Macdonald và cộng sự, 2010 [20] cung cấp một
<i><b>bức tranh tổng thể về khai phá dữ liệu Blog. The Text REtrieval Conference (TREC) </b></i>
là một diễn đàn đang phát triển, được Viện Tiêu chuẩn và Công nghệ quốc gia (National Institute of Standards and Technology: NIST<sup>1</sup>) tổ chức hàng năm từ năm 1992 nhằm tạo thêm các phương tiện cho nghiên cứu thực nghiệm trong những task (bài toán) thu hồi thông tin IR (Information Retrieval). TREC bao gồm nhiều track (nhánh), mỗi track tập trung vào xây dựng những tổng hợp kiểm tra khác nhau, nhờ đó những hệ thống thu hồi được đánh giá dựa trên khả năng của chúng trong việc xác định những văn bản thích hợp khi thực hiện những truy vấn kiểm tra. Blog track tại TREC được bắt đầu vào năm 2006 với mục đích khám phá những thơng tin về hành vi trong thế giới blog. Blog track gồm những bài tốn sau: opinion-finding (tìm quan điểm), blog distillation (phân bố blog) và top news identification (định danh các tin tức nổi bật). Về tập dữ liệu, đã có hai tập dữ liệu về blog được thu thập và xây dựng đó là blog06 (được sử dụng trong những năm 2006 - 2008) và blog08 (được sử dụng trong năm 2009).
Thế giới blog phản ánh những sự kiện trong đời sống thực, tại đó những blogger tác giả của những bài viết thảo luận những ý kiến của họ trong những chủ đề mà họ thấy thích thú. Một vài chủ đề có thể thu hút nhiều blogger trong việc đọc nó hay để lại những comment thể hiện ý kiến của họ, một số khác thì ít được thu hút hơn. Trong opinion-finding task được đưa ra tại TREC 2006, mục đích của mỗi truy vấn là xác định ý kiến được thể hiện trong bài viết về một đối tượng nào đó, ví dụ như tên thực thể, địa danh, tổ chức hay là những khái niệm như tên sản phẩm, sự kiện; có thể tóm gọn trong câu hỏi “Mọi người nghĩ thế nào về X?”. Khai phá quan điểm có một lịch sử phát triển lâu dài trong Xử lý ngôn ngữ tự nhiên, tuy nhiên opinion-finding task là một bước đầu nhằm phân tích hiệu quả của khai phá quan điểm. Có hai phương pháp giải quyết chính cho task này đó là dựa trên phân lớp và dựa trên từ vựng. Mục đích của blog distillation task (lần đầu tại TREC 2007) là giúp những hệ thống có khả năng gợi ý những blog thích hợp với những truy vấn, có khoảng 150 chủ đề blog được tạo ra ở TREC 2007 và có hai phương pháp chính giải quyết task này. Thứ nhất, coi đây như là
<small> </small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">một vấn đề lựa chọn tài nguyên trong thu thập thông tin bị phân tán; mục đích là lựa chọn những tài nguyên càng phù hợp với truy vấn được đưa ra càng tốt. Ở trong blog thì được chia làm hai loại văn bản, đó là văn bản lớn chính là những blog, văn bản nhỏ là những bài viết trên blog. Thứ hai, coi blog distillation task như vấn đề tìm kiếm một chun gia. Mục đích chính của tìm kiếm chun gia đó là tìm kiếm những người có kiến thức sâu về những chủ đề được quan tâm, tương tự thế, nhiệm vụ đưa ra những bài viết thích hợp được xem như là xác định những blogger, là những tác giả của những bài viết được quan tâm. Task cuối cùng đó là top news identification task được đưa ra tại TREC 2009, có mục đích đưa ra một gợi ý thứ hạng của những bài mới quan trọng nhất được sử dụng cho những hệ thống dùng dữ liệu blog08. Tính đến TREC 2009 có một vài phương pháp đề xuất giải quyết task này như McCreadie và cộng sự [15] đề suất mơ hình dựa trên mơ hình Voting Model của C. Macdonald và I. Ounis [16]; ngoài ra Y. Lee và cộng sự [14] đề xuất mô hình hóa ngơn ngữ để xếp hạng những bài mới dựa trên độ quan trọng của chúng theo từng ngày, độ quan trọng này được dựa trên những minh chứng rằng bài viết đó được quan tâm nhiều.
Như vậy, hai task cuối trên đây có thể được quan niệm bao gói việc phân tích ảnh hưởng trong thế giới blog và từ đó xác định được các thực thể (blogger hoặc các bài viết) có ảnh hưởng cao.
<i><b>1.1.2. Ảnh hưởng trong Blog </b></i>
Phân tích ảnh hưởng là một chủ đề nghiên cứu quan trọng trong khoa học xã hội và càng quan trọng hơn trong các cộng đồng trực tuyến như các mạng xã hội: Facebook, Twitter, các trang thương mại điện tử như Amazon, Netflix, đóng một vai trị quan trọng cuộc sống thường này. Michinari Momma và cộng sự [24] cho rằng ảnh hưởng xã hội gồm hai thành phần: thứ nhất là hành vi của một đối tượng độc lập, thứ hai là những hành vi đó ảnh hưởng, tác động đến đối tượng khác. Thành phần thứ hai chính là xác định ảnh hưởng của các mối liên kết.
Việc xác định những blogger có ảnh hưởng nhất mang lại nhiều lợi ích, như việc tìm ra những cơ hội kinh doanh mới, giả mạo những nghị sự chính trị, những cuộc thảo luận xã hội, những lợi tức xã hội và nhiều ứng dụng khác. Mặt tiêu cực, những blogger có ảnh hưởng có thể làm dao động những ý kiến trong những chiến dịch chính trị, bầu cử và những tác động phản ứng lại chính phủ. Xác định được những blogger có ảnh hưởng có thể giúp hiểu được những thay đổi, những bẫy giả mạo chính trị hay những điều tương tự, và có những kế hoạch thích hợp, kịp thời, có chuẩn bị trước để ứng phó. Mặt khác, những blogger có ảnh hưởng cũng mang đến sự hỗ trợ và giải
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">pháp, sự tin tưởng cho khách hàng thông qua những kinh nghiệm họ có, về mặt mua bán hay kêu gọi cộng đồng cùng chung tay thực hiện những phong trào mang tính tích cực.
Ví dụ, về lĩnh vực mua sắm thì những blogger có ảnh hưởng sẽ ảnh hưởng đến một phần lớn những quyết định mua sắm của những người khác, nhận thức được điều này, các công ty có những chiến dịch maketing thơng minh là dựa vào những blogger này. Theo báo cáo của T. Elkin, 2007 [8] thì có những công ty quảng cáo nắm bắt được điều này và thực hiện việc đặt những quảng cáo lên những trang blog của những blogger có ảnh hưởng. Theo báo cáo được công bố trên Technorati<sup>2</sup> vào 4/5/2007 số lượng blog tăng theo chu trình sáu tháng; Blogpulse<small>3</small>, một trang web theo dõi và xếp hạng các trang blog, vào ngày 12/12/2010 đã theo dõi hơn 150,000 blog và hơn 848,000 bài viết mỗi ngày. Với sự lớn lên nhanh chóng về số lượng blog, blogger và bài viết thì cần phải có những phương pháp mới nhằm xác định được thứ hạng của những blog, blogger, bài viết đó.
Mục đích của khóa luận là đề xuất một mơ hình nhằm xác định được thứ hạng của những blogger, mà nền tảng là việc tính tốn được điểm ảnh hưởng của những bài viết do họ viết. Và việc tìm tập những blogger có ảnh hưởng nhất từ danh sách đã xếp hạng là dễ dàng.
<b>1.2. Bài toán xác định ảnh hưởng trên blog </b>
Nghiên cứu ảnh hưởng của blogger là tìm ra những blogger có ảnh hưởng nhất trong cộng đồng, từ đó có thể đưa ra những thơng tin thiết thực, đáng tin cậy cho con người trong thế giới ảo cũng như thực, phân tích thơng tin, đưa ra các tiềm năng kinh doanh, hay những bất ổn trong đời sống xã hội,...Dựa trên những mối quan hệ giữa các blogger, dựa trên các bài đăng của blog, những yếu tố liên quan đến các bài đăng đó, đưa ra đánh giá về độ ảnh hưởng của chúng. Từ những dữ liệu sẵn có, phân tích chúng thành những yếu tố đơn giản hơn, xem xét ảnh hưởng của chúng đối với cộng đồng như thế nào, và đưa ra một đơn vị để đo ảnh hưởng của chúng, tổng hợp lại và dựa trên dữ liệu tổng hợp được để đánh giá.
Để đánh giá ảnh hưởng của một blogger dựa vào những bài viết mà họ viết. Có nhiều yếu tố ảnh hưởng đến bài viết. Một bài viết có thể được nhiều blogger tham chiếu đến thì chứng tỏ bài viết đó có ảnh hưởng vì nó được quan tâm, được nêu ra như
<small>2 3</small>
<small> </small>
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">là một dẫn chứng của bài viết khác. Số comment mà nó nhận được thể hiện sự quan tâm về nội dung, ý tưởng của bài viết và dẫn đến những cuộc thảo luận thể hiện qua comment. Bài viết có tính thuyết phục, có lập luận chặt chẽ, có minh chứng cụ thể sẽ nhận được sự đồng ý, tán thành của người đọc. Bên cạnh đó, cũng khơng thể khơng kể đến yếu tố thời gian có thể làm giảm đi sự ảnh hưởng của bài viết. Tuy nhiên ở trong mơ hình của khóa luận khơng xét đến yếu tố thời gian.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16"><b>Chương 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 2.1. Phân tích ảnh hưởng trong thế giới blog </b>
Những cơng trình trước đây nghiên cứu về độ ảnh hưởng trong cộng đồng mạng chủ yếu là dựa vào những thống kê, tuy nhiên rất ít cơng trình thành cơng theo hướng này. Một giới hạn của những phương pháp thống kê là không xác định trực tiếp được hành vi của người dùng, mà phải gián tiếp hoặc bằng kinh nghiệm, điều này sẽ khơng chính xác do có nhiều kênh gây nhiễu. M. Momma và cộng sự [24] đã đề xuất mơ hình xác định ảnh hưởng giữa các blogger trong cộng đồng blog với độ tin cậy cao bằng việc xử lý những file log của web server. Phương pháp này khơng chỉ xác định được blogger nào có ảnh hưởng mà còn xác định được họ ảnh hưởng ở những chủ đề nào, ảnh hưởng đến những blogger nào. Theo nhóm tác giả, ảnh hưởng xã hội gồm hai
<i>thành phần chính đó là suy nghĩ và hành động, suy nghĩ và hành động của người này </i>
có thể bị ảnh hưởng bởi suy nghĩ và hành động của những người khác. Dựa trên điều
<i>này, ý tưởng chính của mơ hình gồm hành động và nguyên nhân. </i>
<i>Hành động chủ yếu trên blog đó là đọc và viết một bài viết. Blogger </i> đọc bài viết do blogger viết, tuy nhiên blogger thường không biết nội dung của trước khi chọn đọc, hoặc là một người rất hay đọc những bài do viết, khơng bỏ sót bất
<i>cứ bài nào, điều này cho thấy hành động đọc khơng có tác dụng nhiều trong việc xác định ảnh hưởng giữa những blogger. M. Momma và cộng sự tập trung vào khai thác hành động viết. Có nhiều yếu tố ảnh hưởng đến bài viết của như những kiến thức </i>
từ những nguồn tài liệu khác, TV…, tuy nhiên nếu chỉ xét riêng trong cộng đồng blog thì chỉ tính tốn độ ảnh hưởng qua việc đã đọc do viết trước khi viết , gọi
<i>mối liên kết này là liên kết ngầm và nó được xác định như là một trọng số thông qua </i>
một khung thời gian từ khi đọc tới khi viết . Thời gian này càng lâu thì giá trị của
<i>liên kết ngầm càng nhỏ. </i>
<i>Có thể có hai giải thích cho mối liên kết ngầm giữa và đó là đọc , bị ảnh </i>
hưởng và viết như là một kết quả, đây là quan hệ nguyên nhân giữa và . Về giải thích thứ hai, có thể đọc trong khi viết hoặc trước khi viết , tuy nhiên về nội dung lại khơng bị ảnh hưởng, vì thế có thể coi và có liên quan với nhau.
<i>M. Momma và cộng sự định nghĩa về ảnh hưởng như sau: bài viết (do blogger </i>
viết) bị ảnh hưởng bởi bài viết (do blogger B viết) nếu được viết trong vòng giờ sau khi đọc và giống hơn tất cả những bài viết mà đã đọc trước khi viết trong vòng giờ.
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Trong khoa học xã hội, có một vài nhân tố được xem là quyết định đến ảnh
<i>hưởng nhưng danh tiếng là yếu tố quan trọng nhất. Hệ quả, blogger </i> đọc những bài viết của blogger hoàn toàn do danh tiếng của thuộc một chủ đề nào đó. Top blogger được Technorati liệt kê đa phần mỗi blogger chỉ có danh tiếng về một lĩnh vực, chủ đề nhất định (chính trị, xã hội, thể thao...), bởi vì mỗi người thường chỉ quen với một lĩnh vực riêng mà họ tập trung vào. Do đó, sự ảnh hưởng cần được đánh giá khác nhau theo mỗi chủ đề. Cũng tương tự như thế, trong mỗi chủ đề riêng biệt, sự ảnh hưởng hoặc bị ảnh hưởng lẫn nhau giữa những blogger là khác nhau.
<b>2.2. Phương pháp dựa trên chỉ số và phụ thuộc thời gian </b>
Leonidas Akritidis và cộng sự [3] đề xuất mơ hình cũng dựa trên những đặc điểm
<i>của một bài viết như độ dài, số lượng comment, liên kết đến inlinks, liên kết đi outlink… và đặc biệt có xét đến một khía cạnh khác ảnh hưởng đến bài viết đó là thời </i>
gian, yếu tố cần thiết trong cộng đồng blog thay đổi một cách nhanh chóng. Điểm của bài viết được tính như sau:
<small> </small>
̅ <sup>(</sup><sub> </sub><sub> </sub> <sub> </sub><sup>)</sup> <sup> </sup>Trong đó là độ dài của bài viết thứ của blogger ; là độ dài trung bình của bài viết; <sub> </sub> là nhãn thời gian của bài viết, là biến thời gian; là các hằng số được xác định trước.
Dựa trên cơng thức (1), nhóm tác giả đã đưa ra một loại chỉ số để xác định ảnh
<i>hưởng của blogger là chỉ số BP-index, chỉ số này dựa vào tuổi của bài viết: Trong một khoảng thời gian t, một blogger j có BP-index bằng P<sub>t</sub><sup>j </sup>Nếu P<sub>t</sub><sup>j </sup>của tập các bài viết của blogger(N<sub>j</sub>) có điểm số <small>j</small></i>
<i>U</i><sub>,</sub> <i>(t) >=P<sub>t</sub><sup>j </sup>và phần còn lại N<sub>j</sub>-P<sub>t</sub><sup>j </sup>có điểm số là <small>jpi</small></i>
<i>U</i> <sub>,</sub> <i>(t) <P<sub>t</sub><sup>j </sup></i>.
Tương tự, nhóm tác giả đã đưa ra thêm ba loại chỉ số là BI-index (dựa vào số inlink và comment), chỉ số MEIBI-index và chỉ số MEIBIX-index (dựa vào số lượng và tuổi của các inlink và comment). Tùy theo các yếu tố xét đến, đưa ra các cơng thức tính điểm phù hợp với mỗi loại chỉ số, và định nghĩa của chúng cũng tương tự như chỉ số BP-index.
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">Phương pháp này có một số ưu điểm như sau :
Các số liệu có thể được tính tốn rất nhanh vì chúng khơng liên quan đến định nghĩa đệ quy phức tạp.
Không sử dụng các thơng số q khó để thiết lập cơng thức.
<b>2.3. Thuật tốn IP – Xác định người dùng có ảnh hưởng trên Twitter </b>
Vấn đề của bài tốn là xác định người dùng đang lan truyền thơng tin trên mạng tốt nhất, không chỉ là những người theo dõi. Cơng việc này có thể được tiến hành bằng cách đếm số retweet của người được theo dõi với người theo dõi họ, tuy nhiên chưa thực sự chính xác, vì vậy D.M. Romero và cộng sự [10] đã đề xuất thuật toán IP, sử dụng phương pháp lặp, tính điểm số ảnh hưởng và bị ảnh hưởng đồng thời. Với đồ thị trọng số có hướng , với các nút , các cung và trọng số của các cung là , ở đó trọng số của cung là <sub> </sub> , đại diện cho tỷ lệ ảnh hưởng của tác động lên .
Thuật toán IP có đầu ra là hàm : , đại diện cho các nút có tác động ảnh hưởng trong mạng; và một hàm , đại diện cho những nút bị ảnh trong mạng đó.
Đối với mỗi cung thuộc , xác định tỉ lệ chấp nhận:
<small> </small> ∑<sub> </sub><sup> </sup> <sub> </sub><sup> </sup>Giá trị này đại diện cho ảnh hưởng của người dùng đã được chấp nhận từ người dùng , ảnh hưởng lên tất cả các người dùng đã chấp nhận người dùng trong mạng.
<i>Bên cạnh đó, xác định một tỉ lệ từ chối : </i>
<small> </small>
<sub> </sub>
∑<sub> </sub>( <sub> </sub>)<sup> </sup>Giá trị <sub> </sub> đại diện cho ảnh hưởng của người dùng <i> bị từ chối từ người dùng , ảnh hưởng lên tất cả các người dùng bị từ chối bởi người dùng trong mạng. </i>
<i><b>Ưu điểm: Việc sử dụng đồ thị trong thuật toán IP có thể dùng để lọc nội dung và </b></i>
xếp hạng các nội dung, chủ đề đang nhận được sự quan tâm của người dùng.
<i><b>Nhược điểm: Đồ thị dùng cho thuật toán này bắt nguồn từ các hoạt động của </b></i>
người dùng, nó được xây dựng theo nhiều cách khác nhau, tuy nhiên trong một số
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19"><i>trường hợp thì thơng tin phản hồi trong các hình thức retweets hay like thì khơng rõ </i>
ràng và khơng có sẵn nên khó xác định được đồ thị phù hợp.
<b>2.4. Họ chỉ số h-index </b>
<i><b>2.4.1. Chỉ số h-index </b></i>
<i>Chỉ số h-index được Hirsch, J. E đưa ra vào năm 2005 [13] như là một chỉ số </i>
khoa học của các nhà nghiên cứu. Được định nghĩa như sau: là số lớn nhất mà tồn tại công bố khoa học của người đó có số lượng trích dẫn . Gọi số lượng bài báo của một nhà nghiên cứu là đã công bố trong năm, số lượng bài tham chiếu đến là với mỗi bài báo , nếu xem tổng số lượng bài tham chiếu đến của tất cả các bài mà nhà nghiên cứu này có thì có cơng thức sau:
<small> </small> Trong đó, <sub> </sub> là tổng số lượng bài tham chiếu đến tất cả các bài báo, là hệ số tỉ lệ. Qua thực nghiệm, tác giả Hirsch, J. E cho rằng nằm trong khoảng từ đến . Một số điểm ưu điểm và nhược điểm của chỉ số h-index được tác giả chỉ ra như ở bảng sau:
Bảng 2.1: Ưu, nhược điểm của chỉ số h-index
Tổng số bài báo Đo được hiệu xuất <sup>Là độ đo không mấy quan </sup>trọng
Tổng số bài tham
chiếu <sub> </sub> <sup>Đo tổng độ ảnh hưởng </sup>
Khó xác định, có thể một tác giả là đồng tác giả của rất nhiều bài báo mà những bài riêng biệt rất ít hoặc khơng có
Số tham chiếu của mỗi bài báo
So sánh được số năm nghiên cứu khoa học của nhóm tác giả
Khó xác định Số lượng bài báo “có
ý nghĩa”, được định nghĩa như là số bài báo , ví dụ
Khắc phục được nhược điểm của ba đặc điểm trên
là tự xác định, với những trường hợp phức tạp cần xác định chặt chẽ hơn Số lượng tham chiếu
đến mỗi bài báo trong bài được tham chiếu nhiều nhất, ví dụ
Khắc phục được nhược điểm của tất cả đặc điểm trên
Không phải là một số độc lập, khó để tìm và so sánh, hơn nữa cũng là tự xác định
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><i><b>2.4.2. Chỉ số g-index </b></i>
<i>H-index được xem là một chỉ số bền vững nếu xem xét tập bài báo không được </i>
tham chiếu (hoặc tham chiếu ít), hoặc trong trường hợp tập những bài báo có lượng tham chiếu nhiều nhất. Tuy nhiên, đây cũng có thể coi là một điểm yếu của h-index vì một cách trực quan thì những bài được tham chiếu nhiều thì phải tác động đến việc tính tốn h-index hơn những bài cịn lại. Ví dụ, xét một bài báo trong top h bài có số lượng tham chiếu nhiều nhất, giả sử số lượng tham chiếu đến bài báo này tăng gấp đơi, gấp ba hay nhiều lần thì giá trị h-index vẫn không thay đổi. Nếu xem h-index bền vững với những bài báo có lượng tham chiếu thấp thì những bài có số lượng tham chiếu nhiều phải tác động được giá trị của h-index.
Leo Egghe, 2006 [4] đưa ra chỉ số g-index dựa trên định nghĩa về h-index: xét
<i>tập bài báo được sắp xếp giảm dần theo số lượng tham chiếu nhận được, g là số duy nhất và lớn nhất mà top g bài báo nhận được ít nhất là tham chiếu. Cũng có nghĩa </i>
là top bài báo có ít hơn tham chiếu. Hệ quả: .
Bảng 2.2 dưới đây là một ví dụ về h-index và g-index của chính tác giả Leo Egghe. Bảng gồm thống kê top 20 bài báo có nhiều tham chiếu nhất và đã được sắp xếp giảm dần theo số lượng tham chiếu. Trong đó, là số lượng tham chiếu; là thứ hạng; là tổng số lượng chiếu của top bài báo. Dễ dàng thấy được rằng h-index = 13 và g-index = 19 (ở đây 381>361), ở vị trị thì .
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">Bảng 2.2: Top 20 bài báo của Leo Egghe giảm dần theo số tham chiếu [4]
47 42 37 36 21 18 17 16 16 16 15 13 13 13 13 12 12 12 12 11
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
47 89 126 162 183 201 218 234 250 266 281 294 307 320 333 345 357 369 381 392
1 4 9 16 25 36 49 64 81 100 121 144 169 196 225 256 289 324 261 400
<i><b>2.4.3. Chỉ số R-index </b></i>
Chỉ số A-index do Buih Jin, 2006 [12] đề xuất cũng có mục đích giống với index, chỉ số này được định nghĩa đơn giản như là trung bình số tham chiếu mà các bài báo nhận được theo điểm Hirsch (h-index), công thức như sau:
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">Buih Jin và cộng sự, 2007 [7] đưa ra chỉ số R-index như sau:
<i><b>2.4.4. Chỉ số -index </b></i>
Cũng thể hiện được ưu điểm giống g-index so với h-index, Peter Vinkler, 2009 [23] đã đưa ra chỉ số -index xem như là một chỉ số đánh giá các nhà khoa học. -index cũng có điểm giống với R-index là xác định số lượng tham chiếu đến tập gồm
<i>những bài báo có số lượng tham chiếu nhiều nhất của một tác giả, gọi là tập tốt nhất. Nếu như số lượng thành phần tập tốt nhất của R-index được giới hạn chính bằng giá </i>
trị h-index thì số lượng thành phần của tập này của -index là √ , trong đó là tổng số bài báo. ISI Web of Science (Essential Science Indicators) đưa ra một số ngưỡng
<i>đối với những bài báo trong tập tốt nhất như và . </i>
<i>Coi số lượng bài báo của tập tốt nhất là </i> √ , các bài báo được sắp xếp giảm dần theo số lượng tham chiếu đến chúng, gọi là tổng số lượng tham chiếu đến
<i>tập tốt nhất, </i> -index được Peter Vinkler định nghĩa theo công thức sau:
<i><b>2.4.5. Hệ thống hàm Lotkaian </b></i>
Luật Lotka (đưa ra năm 1926) được lấy theo tên của nhà tốn học, nhà hóa học vật lý và nhà thống kê học người người Mỹ Alfred James Lotka (1880-1949), là một dạng ứng dụng đặc biệt của luật Zipf. Luật Lotka đưa ra rằng số lượng tác giả với (với ) số lượng công bố (bài báo) tỉ lệ với , trong đó ( phụ thuộc vào lĩnh vực như Vật lý, Hóa học, IT, …), Hay nói cách khác, nếu có hằng số thì:
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">
Trong đó kí hiệu là số lượng tác giả của bài báo. Một cách tổng quan hơn,
<i> có thể kí hiệu cho số lượng nguồn (tác giả, tạp chí, từ loại…) với sản phẩm </i>
(bài báo khoa học, bài báo tạp chí, sự xuất hiện từ…).
Áp dụng của luật Zipf trong lĩnh vực ngôn ngữ (từ loại và sự xuất hiện từ) trong
<i>trường hợp tổng quát: nếu sắp xếp các nguồn giảm theo số lượng sản phẩm giảm dần thì thứ hạng của nguồn tỉ lệ với </i> với . Hay nếu có hằng số , thì
<i>thể hiện số lượng sản phẩm của nguồn thứ tính bởi cơng thức sau: </i>
Mặc dù các thông tin có thể khác nhau nhưng về logic tốn học thì hai hàm là giống nhau, đều thể hiện luật giảm (hàm nghịch biến).
Hệ thống hàm Lotkaian được Leo Egghe và Ronald Rousseau đưa ra năm 2006
<i>[19] sử dụng luật Lotka như trình bày trên đây. Theo đó, nguồn ở đây xác định là bài báo khoa học của tác giả nào đó và sản phẩm là số lượng tham chiếu mà nó nhận </i>
được.
Với , số lượng bài báo là thì chỉ số h-index được tính theo công thức sau: Với , g-index, R-index và -index được tính tốn theo cơng thức sau:
(<sup> </sup> <sup>)</sup>
<small> </small>
(<sup> </sup> <sup>)</sup>
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24"><i><b>2.4.6. Một số quan hệ toán học của họ chỉ số h-index </b></i>
Vào năm 2011, Leo Egghe [6] đưa ra một số quan hệ toán học của một số chỉ số thuộc họ chỉ số h-index và chứng minh được các quan hệ này. Giả sử có hai tác giả với các chỉ số lần lượt tương ứng; kí hiệu là tổng số bài báo của hai tác giả, với ; các chỉ số có một số quan hệ sau:
Quan hệ giữa h-index và R-index
Quan hệ
Quan hệ giữa h-index và g-index
Quan hệ
<b>2.5. Ý tưởng của khóa luận </b>
Khóa luận đề xuất mơ hình dựa trên mơ hình của Nitin Agarwal và cộng sự [25]
<i>bằng cách tính tốn độ ảnh hưởng của blogger bằng độ đo h-index của blogger theo </i>
các bài viết của blogger đó. Trong [25], độ ảnh hưởng của một bài blog có giá trị thuộc đoạn . Để áp dụng độ đo h-index, khóa luận sẽ sử dụng phương pháp đóng thùng để chuyển miền giá trị thực sang miền giá trị nguyên [1…N].
<i>Ngoài việc áp dụng chỉ số h-index, khóa luận cịn thực hiện một số thực nghiệm </i>
tính tốn độ ảnh hưởng của các blogger dựa trên các chỉ số thuộc họ h-index đã trình bày ở trên.
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25"><b>Chương 3: MƠ HÌNH GIẢI QUYẾT BÀI TỐN 3.1. Mơ tả bài tốn </b>
<i><b>3.1.1. Định nghĩa blogger có ảnh hưởng </b></i>
Mỗi bài viết trên blog thường có những thơng tin đi kèm với nó như tên blogger, thời gian bài viết đó được gửi, số lượng comment nhận được. Không những thế, với
<i>những nguồn tổng hợp thì bao gồm cả thông tin khác của bài viết như: outlinks – những liên kết tham chiếu đến những bài viết, website khác từ một bài viết; inlinks – </i>
những bài viết, website khác tham chiếu đến bài viết đang xét.
Đánh giá một blogger có ảnh hưởng tốt hay khơng thì cần phải đánh giá xem những bài viết của blogger đó có ảnh hưởng như thế nào tới những blogger khác trong cộng đồng. Phải nhận thấy một điều rằng khơng phải blogger nào tích cực hoạt động viết nhiều bài, nhận được nhiều comment thì được xem là có ảnh hưởng, bởi vì có thể đó chỉ là những bài khơng có tính thuyết phục, khơng thu hút, những comment thì có thể có nhiều spam… Nhóm tác giả [25] quan niệm rằng blogger có ảnh hưởng thì phải có một hoặc nhiều bài viết có ảnh hưởng. Thừa kế quan niệm này, khóa luận áp dụng
<i>thêm đặc điểm của chỉ số h-index [13] đưa ra định nghĩa về blogger có ảnh hưởng như </i>
sau:
<b>Định nghĩa: Một blogger được xem như có ảnh hưởng nếu như là số nguyên </b>
dương lớn nhất mà blogger này có đúng bài viết có độ ảnh hưởng ít nhất là .
Giả sử có điểm ảnh hưởng của bài viết là , một blogger có thể có nhiều bài viết, một vài trong số đó có điểm ảnh hưởng tốt hơn những bài viết còn lại. Như vậy với mỗi blogger sẽ có một tập điểm của những bài viết, từ tập đó sẽ có thể tìm được điểm ảnh hưởng của blogger đó. Cụ thể hơn, nếu một blogger có bài viết có điểm ảnh hưởng tương ứng với mỗi bài, cơng việc cần thiết là cần tìm số thỏa mãn định nghĩa trên từ tập điểm bài viết này.
<i><b>3.1.2. Đặc trưng của bài viết </b></i>
Theo E. Keller và J. Berry, 2003 [2], một người được xem như là có ảnh hưởng nếu blogger ấy được cộng đồng thừa nhận, có thể tạo ra những hoạt động theo sau hoạt động của họ, có những ý kiến mới mẻ và có khả năng thuyết phục, hùng biện. Dựa vào lý luận này, nhóm tác giả [25] đã đưa ra bốn đặc trưng của một bài viết điển hình như sau:
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">Bảng 3.1: Đặc trưng của một bài viết
Sự thừa nhận: Trong thế giới blog, một bài viết có ảnh hưởng khi nó được nhiều bài viết khác thừa nhận bằng cách tham chiếu đến . Càng có nhiều bài viết tham chiếu đến thì càng chứng tỏ có ảnh hưởng nhiều hơn. Và sự thừa
<i>nhận của cộng đồng đối với một bài viết thể hiện qua inlinks tới . </i>
Nảy sinh hoạt động: Bài viết blog có thể làm nảy sinh một cách gián tiếp những hoạt động theo sau nó, đó chính là những comment mà nó nhận được. Khi một bài viết nhận được nhiều comment thì chứng tỏ nó đã là khởi đầu cho một cuộc thảo luận mà những blogger khác quan tâm đến. Việc loại bỏ những spam của những comment này có thể được giải quyết, theo P. Kolari và cộng sự, 2006 [11], Y.-R. Lin và cộng sự, 2007 [21].
Sự mới mẻ: Những ý kiến mới mẻ thì có ảnh hưởng tốt [2]. Trong thế giới blog,
<i>sự mới mẻ thể hiện ở những outlinks. </i>
Sự thuyết phục: Sự ảnh hưởng tốt cần có tính thuyết phục [2]. Đây là đặc trưng khó xác định được bằng những thống kê, nhóm tác giả [25] chọn độ dài của bài viết như là một cách đánh giá, tuy nhiên có thể thấy đó chưa phải là cách tốt nhất, bởi sự thuyết phục của một bài viết còn phụ thuộc rất nhiều vào phong cách viết, cách vận dụng từ ngữ… thuộc về lĩnh vực ngôn ngữ.
</div>