Tải bản đầy đủ (.pdf) (69 trang)

Nghiên cứu search engine trong mạng xã hội Facebook (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.17 MB, 69 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN TÙNG DƯƠNG

NGHIÊN CỨU SEARCH ENGINE TRONG
MẠNG XÃ HỘI FACEBOOK

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI – 2017


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN TÙNG DƯƠNG

NGHIÊN CỨU SEARCH ENGINE TRONG MẠNG XÃ HỘI
FACEBOOK

Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS.TRẦN QUANG ANH

HÀ NỘI – NĂM 2017



LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Nội dung của
luận văn có tham khảo và sử dụng các tài liệu, thông tin đƣợc đăng tải trên các tạp
chí và các trang web theo danh mục tài liệu tham khảo. Tất cả các tài liệu tham khảo
đều có xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỉ luật theo
quy định cho lời cam đoan của mình.
Học viên

Nguyễn Tùng Dƣơng


ii

LỜI CẢM ƠN
Lời đầu tiên em xin gửi lời cảm ơn chân thành tới tất cả các thầy cô
đang giảng dạy tại Học Viện Công nghệ Bƣu Chính Viễn thông đã tận tình
truyền đạt những kiến thức quý báu giúp em hoàn thành khóa học này.
Em xin chân thành cảm ơn khoa Quốc Tế và Đào Tạo Sau Đại Học,
Học Viện Công Nghệ Bƣu Chính Viễn Thông đã tạo điều kiện tốt cho em
thực hiện luận văn tốt nghiệp này.
Em xin gửi lời biết ơn sâu sắc đến thầy PGS.TS. Trần Quang Anh,
ngƣời đã tận tình hƣớng dẫn, chỉ bảo em trong suốt thời gian thực hiện luận
văn.
Tôi xin bày tỏ lòng biết ơn chân thành đối với gia đình đã luôn động
viên, ủng hộ, cổ vũ và tạo mọi điều kiện giúp tôi.
Tôi cảm ơn tất cả những ngƣời bạn của tôi, những ngƣời luôn chia sẻ,
cổ vũ và giúp đỡ tôi.

Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng
cho phép, nhƣng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong
sự cảm thông và tận tình chỉ bảo, góp ý của thầy cô và các bạn.
Hà Nội, ngày

/

/2017

Học viên

Nguyễn Tùng Dƣơng


iii

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
MỞ ĐẦU .....................................................................................................................1
1. Đặt vấn đề .............................................................................................................1
2. Mục tiêu của luận văn ..........................................................................................1
CHƢƠNG 1 – TỔNG QUAN VỀ MẠNG XÃ HỘI ..................................................3
1.1

Khái niệm mạng xã hội ..................................................................................3

1.1.1 Khái niệm ...................................................................................................3
1.1.2 Khái niệm về dịch vụ mạng xã hội trực tuyến ............................................3
1.2


Lịch sử hình thành và phát triển của mạng xã hội .........................................4

1.3

Kiến trúc mạng xã hội với các modules chức năng .......................................5

1.3.1 Kiến trúc các trang mạng xã hội nhỏ...........................................................6
1.3.2. Kiến trúc các trang mạng xã hội lớn ..........................................................6
1.4

Các tính năng cơ bản của mạng xã hội ..........................................................7

1.5

Phân loại mạng xã hội ...................................................................................8

1.6

Mạng xã hội Facebook ................................................................................11

1.6.1 Lịch sử hình thành và phát triển của Facebook .........................................11
1.6.2 Tình hình sử dụng Facebook tại Việt Nam ...............................................13
1.7

Kết luận chƣơng ..........................................................................................14

Chƣơng 2– CÁC KỸ THUẬT SEARCH ENGINE .................................................15
2.1 Tổng quan về Search Engine ...........................................................................15
2.1.1 Khái niệm Search Engine ..........................................................................15

2.1.2 Cấu trúc cơ bản của Search Engine. ..........................................................16
2.1.3 Bộ thu thập thông tin – Crawler (Spider) ..................................................18
2.1.4 Bộ lập chỉ mục – Index..............................................................................22
2.1.5 Bộ tìm kiếm thông tin - Search Engine (Searching) .................................23
2.1.6 Phân loại các hệ thống Search Engine ......................................................24
2.2 Các phƣơng pháp Search Engine cơ bản .........................................................25
2.2.1 Các phƣơng pháp thu thập thông tin .........................................................25
2.2.2 Các phƣơng pháp xếp hạng (Ranking) dữ liệu.........................................27
2.3 Search Engine và Search API trong mạng xã hội Facebook ...........................35


iv

2.3.1 Search Engine trong mạng xã hội Facebook .............................................35
2.3.2 Search API trong Facebook .......................................................................47
2.4 Kết luận chƣơng 2 ............................................................................................50
Chƣơng 3– ĐỀ XUẤT SEARCH ENGINE CHO MẠNG XÃ HỘI FACEBOOK .51
3.1 Mô tả đề xuất ...................................................................................................51
3.2 Xây dựng bộ thi thập thông tin ........................................................................51
3.2.1 Thu thập thông tin. ....................................................................................51
3.2.2 Lƣu thông tin vào Cơ sở dữ liệu................................................................53
3.3 Chỉ mục dữ liệu................................................................................................54
3.4 Bộ tìm kiếm dữ liệu .........................................................................................54
3.5 Kết quả thử nghiệm..........................................................................................58
KẾT LUẬN ...............................................................................................................59
1. Kết quả đạt đƣợc của luận văn ...........................................................................59
2. Hƣớng phát triển của luận văn ...........................................................................60
DANH MỤC TÀI LIỆU THAM KHẢO ..................................................................61



v

DANH SÁCH HÌNH VẼ
Hình 1.1. Mô tả các mô đun chức năng chính của mạng xã hội .................................5
Hình 1.2. Kiến trúc mạng xã hội nhỏ ..........................................................................6
Hình 1.3. Kiến trúc của những trang mạng xã hội lớn ................................................7
Hình 1.4. Thống kê số lƣợt ngƣời sử dụng mạng xã hội tính đến tháng 1 năm 2017 .....11
Hình 1.5. Facebook vào ngày 12 tháng 2 năm 2004 .................................................11
Hình 2.1. Thị phần sử dụngcông cụ tìm kiếm 6 tháng đầu năm 2016 ......................15
Hình 2.3. Sơ đồ của một Crawler tuần tự cơ bản ......................................................18
Hình 2.4. Cấu trúc cây của các thẻ tƣơng ứng trong một trang HTML ....................21
Hình 2.5. Lƣu đồ xử l‎ý cho hệ thống lập chỉ mục ....................................................22
Hình 2.6. Các giá trị PageRanK cho một đồ thị đơn giản .........................................29
Hình 2.7. PageRanK với d = 0.8 ...............................................................................30
Hình 2.8. Thuật toán HITS ........................................................................................34
Hình 2.9. Facebook Graph ........................................................................................37
Hình 2.10. Mô tả Facebook Graph ............................................................................38
Hình 2.11. Kiến trúc của Unicorn .............................................................................40
Hình 2.12. Mô tả danh sách bài đăng của một ngƣời sử dụng Facebook .................41
Hình 2.13. Sơ đồ "Bạn của bạn" của Jon ..................................................................45
Hình 2.14. Mô hình hoạt động của API ....................................................................48
Hình 3.1. Cách thức thu thập Access Token .............................................................52


1

MỞ ĐẦU
1. Đặt vấn đề
Trong khoảng 10 năm trở lại đây, sự ra đời của mạng xã hội trực tuyến là
một trong những sự kiện đáng chú ý nhất. Có rất nhiều mạng xã hội trực tuyến phổ

biến hiện nay nhƣ: Twitter, LinkedIn, Instagram, Zing… và đặc biệt là Facebook.
Với sự phát triển nhanh chóng về số ngƣời sử dụng trên toàn thế giới, mạng xã hội
trực tuyến nói chung và Facebook nói riêng nhƣ một mô hình thu nhỏ của thế giới
thực. Do đó, mạng xã hội trở thành nơi cất giữ thông tin và các mối quan hệ giữa
các cá nhân, doanh nghiệp, … Những thông tin này tạo thành “đám mây tri thức”.
Việc tìm hiểu và khai thác hiệu quả những thông tin này sẽ tạo tiền đề cho nhiều
ứng dụng khác nhƣ: hệ thống tƣ vấn, hệ thống tìm kiếm thông tin, tiếp thị trực
tuyến, điều tra tội phạm, dự đoán sự phát triển của mạng xã hội,… Vì vậy, việc khai
thác những thông tin trên mạng xã hội để áp dụng vào thực tiễn ngày càng trở nên
quan trọng.
Ra đời đầu tiên vào năm 1993, đến nay, Search Engine đã trở thành một phần
không thể thiếu với ngƣời sử dụng Internet. Search Engine không ngừng đƣợc cải
thiện về số lƣợng và chất lƣợng các kết quả tìm kiếm. Sự phát triển của Search
Engine đƣợc gắn liền với sự phát triển của công nghệ thông tin toàn cầu.
Hiện nay, Google là công cụ tìm kiếm dữ liệu phổ biến nhất đối với ngƣời
dùng Internet. Tuy nhiên, khi tìm kiếm trên Google, ngƣời sử dụng nhận đƣợc rất ít
kết quả trích xuất từ Facebook. Mạng xã hội này giống nhƣ một "ốc đảo" mà các
dịch vụ tra cứu không thể khai thác.
Từ những lý do trên, tôi lựa chọn đề tài “Nghiên cứu search engine trong
mạng xã hội Facebook” cho luận văn Thạc sĩ của mình

2. Mục tiêu của luận văn
Nghiên cứu hệ thống Search Engine, cấu trúc mạng xã hội Facebook và xây
dựng đƣợc hệ thống Search Engine cho mạng xã hội Facebook.
- Đối tƣợng và phạm vi nghiên cứu
Luận văn tập trung vào nghiên cứu cấu trúc của một hệ thống Search Engine
cơ bản, áp dụng cho Mạng xã hội Facebook
- Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu lý thuyết (bao gồm phƣơng pháp đọc tài liệu; phân
tích, tổng hợp và thống kê)

Phƣơng pháp chuyên gia.
Phƣơng pháp nghiên cứu thực nghiệm (xây dựng chƣơng trình, thu thập dữ
liệu, thí nghiệm đánh giá).


2

3. Các đóng góp của luận văn

- Nghiên cứu tổng quan về Mạng xã hội và các phƣơng pháp Crawl dữ liệu
từ Facebook.
- Nghiên cứu tổng quan về Search Engine và các phƣơng pháp Search
Engine phổ biến hiện nay.
- Đề xuất xây dựng công cụ Search Engine cho Mạng xã hội Facebook.
4. Bố cục của luận văn
Luận văn bao gồm 3 chƣơng:
- Chƣơng 1: Tổng quan về mạng xã hội
- Chƣơng 2: Các kỹ thuật Search Engine
- Chƣơng 3: Đề xuất Search Engine cho Mạng xã hội FaceBook.
- Kết luận – Hƣớng phát triển


3

CHƢƠNG 1 – TỔNG QUAN VỀ MẠNG XÃ HỘI
1.1

Khái niệm mạng xã hội

1.1.1 Khái niệm

“Mạng xã hội (MXH) là dịch vụ nối kết các thành viên cùng sở thích trên
Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và
thời gian. Những ngƣời tham gia vào dịch vụ mạng xã hội còn đƣợc gọi là cƣ dân
mạng.” [10]
Mạng xã hội là mạng đƣợc tạo ra để tự thân nó lan rộng trong cộng đồng thông qua
các tƣơng tác của các thành viên trong chính cộng động đó. Mọi thành viên trong
MXH cùng kết nối và mỗi ngƣời là một mắt xích để tạo nên một mạng lƣới rộng lớn
truyền tải nội dung thông tin trong đó.
Về mặt toán học, mạng xã hội có thể xem nhƣ hệ thống có cấu trúc gồm các
đỉnh (node) gắn với nhau thành một mạng bời các liên kết (hoặc các cung). Để
nghiên cứu các tính chất của mạng xã hội, ta thƣờng xem mạng xã hội nhƣ là một
dạng của mạng phức hợp, đó là một tập các hệ thống đƣợc tạo bởi các yếu tố đồng
nhất hoặc không đồng nhất kết nối với nhau thông qua sự tƣơng tác khác nhau giữa
các yếu tố này và đƣợc trải ra trên diện rộng. Mạng phức hợp có hai thuộc tính quan
trọng, đó là hiệu ứng thế giới nhỏ (small-world effect) và đặc trưng co dãn tự do
(scale-free íeature). Để xem xét một mạng phức họp nào đó ngƣời ta thƣờng dùng
ba độ đo: độ dài đƣờng dẫn trung bình (Average Path Length), độ phân cụm
(Clustering Coeffícient), độ phân bố bậc (Degree Distribution) [7].

1.1.2 Khái niệm về dịch vụ mạng xã hội trực tuyến
Dịch vụ mạng xã hội là một nền tảng cho phép ngƣời dùng có thê tạo lập các
cộng đồng trực tuyến và chia sẻ các nội dung do ngƣời dùng tạo ra (UCC :UserCreat Content) trên mạng Internet. Ngƣời dùng ở đây có thể là ngƣời sử dụng
Internet hoặc có thể thuộc về một tổ chức cụ thể (ví dụ, công ty, trƣờng đại học, tổ
chức nghề nghiệp v.v...). Các cộng đồng có thể là một mạng các bạn bè ngoại tuyển
(có tình bạn ngoài trực tuyến), ngƣời quen trực tuyến, hoặc một hay nhiều nhóm có
cùng sở thích, mối quan tâm (học cùng trƣờng, có cùng sở thích, mối quan tâm, mục
đích, nghề nghiệp, sắc tộc, giới tính, nhóm tuổi, v.v...). Các nội dung do người


4


dùng tạo ra có thể là hình ảnh, video, đánh dấu các trang Web (book marking), hồ
sơ ngƣời dùng, thông tin cập nhật hoạt động của ngƣời dùng, văn bản (blog,
microblog, và ý kiến bình luận), chia sẻ các nội dung do ngƣời dùng tạo ra bao
gồm: đăng thông tin, xem và bình luận về các nội dung do ngƣời dùng tạo ra, và
cũng có thể bao gồm bầu chọn, lƣu, và phân phối quảng bá các nội dung đó.

1.2

Lịch sử hình thành và phát triển của mạng xã hội
Trong quá khứ, mạng xã hội luôn đồng hành cùng với sự phát triển của

Internet. Từ những email đầu tiên đƣợc gởi đi vởi các nhà nghiên cứu Thụy Sĩ vào
năm 1971 đến những mạng xã hội hiện đại nhƣ Google+ hay Pinterest. Internet và
các nội dung chia sẻ luôn gắn liền với tính chất cộng đồng.
Mục tiêu chính của Internet là tạo phƣơng tiện để mọi ngƣời có thể kết nối,
giao tiếp và cộng tác với nhau. Hiện nay, những công cụ xã hội trực tuyến đƣợc
nhắc tới nhiều nhất là Facebook, Twitter hay Google+. Tuy nhiên, từ lúc xuất hiện
đến nay, mạng xã hội đã trải qua nhiều thay đổi nhanh chóng cả về nguyên lý làm
việc lẫn giao diện đồ họa.
Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của trang
Classmate với mục đích kết nối bạn học, tiếp theo là sự xuất hiện của SixDegrees
vào năm 1997 với mục đích giao lƣu kết bạn theo sở thích.
Năm 2002, Friendster trở thành một trào lƣu mới tại Hoa Kỳ với hàng triệu
thành viên ghi danh. Tuy nhiên sự phát triển quá nhanh này cũng là con dao hai
lƣỡi: server của Friendster thƣờng bị quá tải mỗi ngày, gây bất bình cho rất nhiều
thành

viên.


Năm 2004, MySpace ra đời với các tính năng nhƣ phim ảnh và nhanh chóng thu hút
hàng chục ngàn thành viên mới mỗi ngày, các thành viên cũ của Friendster cũng lũ
lƣợt chuyển qua MySpace và trong vòng một năm, MySpace trở thành mạng xã hội
đầu tiên có nhiều lƣợt xem hơn cả Google và đƣợc tập đoàn News Corporation mua
lại với giá 580 triệu USD.
Năm 2006, sự ra đời của Facebook đánh dấu bƣớc ngoặt mới cho hệ thống
mạng xã hội trực tuyến với nền tảng lập trình “Facebook Platform” cho phép thành


5

viên tạo ra những công cụ (apps) mới cho cá nhân mình cũng nhƣ các thành viên
khác dùng.
Tại Việt Nam, các trang mạng xã hội ra đời khoảng năm 2006 và 2007 nhƣ
Yobanbe, Vietspace, Zoomban.Zing.me đƣợc ra đời vào năm 2009 và chỉ sau thời
gian ngắn ra mắt Zing.me đã chính thức trở thành mạng xã hội Việt Nam đƣợc sử
dụng nhiều nhất. Theo thống kê của Google Ad Planner, trong năm 2011 đến 2013,
Zing.me đã có nhiều ngƣời sử dụng hơn Facebook. Nhƣng hiện nay, Facebook vẫn
là mạng xã hội đƣợc sử dụng nhiều nhất tại Việt Nam.

1.3

Kiến trúc mạng xã hội với các modules chức năng

Hình 1.1. Mô tả các mô đun chức năng chính của mạng xã hội

Các mô đun đặt trong các hộp chữ nhật là các mô đun đƣợc thiết kế chủ yếu
đọc dữ liệu từ cơ sở dữ liệu. Còn các mô đun đặt trong hình ô van thể hiện chức
năng tƣơng tác giữa những ngƣời dùng, do đó nó yêu cầu cần phải có các thao tác
đọc/viết dữ liệu lên cơ sở dữ liệu. Các mô đun trong hình thoi là các mô đun phụ trợ

làm nhiệm vụ tăng cƣờng hiệu suất cho các mô đun chính. Phần kiểm tra các hoạt
động, đặc biệt đƣợc sử dụng cho việc hồi đáp các cập nhật lại về mối liên hệ thực


6

giữa các thành viên. Các mô đun

màu xanh và vàng là các thành phần của kiến

trúc, còn các mô đun màu xám là các thành phần tiện ích thiết yếu của hệ thống
hoặc hỗ trợ cho các ứng dụng mở rộng.

1.3.1 Kiến trúc các trang mạng xã hội nhỏ

Hình 1.2. Kiến trúc mạng xã hội nhỏ

Mạng xã hội nhỏ bao gồm 1 máy chủ web và một máy chủ Cơ sở dữ liệu.
Máy chủ web chứa mã nguồn và các nội dung lƣu trữ (HTML,Ảnh, video…). Máy
chủ cơ sở dữ liệu dùng để lƣu trữ cơ sở dữ liệu của mạng xã hội. Tùy vào các yêu
cầu sử dụng mà số lƣợng máy chủ web và máy chủ cơ sở dữ liệu có thể tăng lên để
phục vụ nhu cầu của ngƣời sử dụng.

1.3.2. Kiến trúc các trang mạng xã hội lớn
Hình 1.4 cho thấy kiến trúc của các trang web lớn, chẳng hạn nhƣ
YouTube, MySpace, Facebook, Flickr, ... Nó chính là kiến trúc dành cho các
trang mạng xã hội nhỏ nhƣng đƣợc bổ sung thêm các thành phần cân bằng
tải, máy chủ ứng dụng, máy chủ dùng cho hệ thống memcache để đáp ứng
đƣợc các yêu cầu về hiệu suất, khả năng mở rộng và sự sẵn sàng khi phục
vụ số lƣợng ngƣời dùng lớn.



7

Hình 1.3. Kiến trúc của những trang mạng xã hội lớn

1.4

Các tính năng cơ bản của mạng xã hội
Hiện nay các mạng xã hội đang ngày một đổi mới và bổ sung thêm các tính

năng. Tuy nhiên, nhìn chung các mạng xã hội đều có một số tính năng cơ bản nhƣ sau:
- Hồ sơ cá nhân
- Kết bạn trực tuyến
- Tạo và tham gia các nhóm trực tuyến
- Chia sẻ với bạn bè trực tuyến
- Chia sẻ nội dung do ngƣời dùng tạo ra
- Bình luận về một nội dung nào đó
- Tìm kiếm thông tin


8

- Liên lạc trực tuyến
- Quảng cáo trực tuyến

1.5

Phân loại mạng xã hội


Dựa trên việc phân tích đặc điểm và tính năng của các trang mạng xã hội hiện nay,
chúng ta có thể phân chia mạng xã hội theo đối tuợng trung tâm thành ba dạng cơ bản
nhất bao gồm:
- Lấy cá nhân làm trung tâm.
- Lấy mối quan hệ giữa các cá nhân làm trung tâm, với mô hình này, có thể chia
thành các loại nhỏ
+ Mạng cộng đồng
+ Mạng tìm kiếm cơ hội
+ Mạng những thành viên có cùng sở thích, đam mê
- Lấy nội dung làm trung tâm
Top 5 mạng xã hội phổ biến nhất hiện nay:
- FACEBOOK:Facebook là một dịch vụ mạng xã hội ra mắt vào tháng 2 năm 2004,
do Facebook.Inc điều hành. Tính đến tháng 1 năm 2017, Facebook đã có hơn 1.5 tỷ
ngƣời dùng, hơn một nửa trong số này sử dụng Facebook trên thiết bị di động.
Ngƣời sử dụng phải đăng kí trƣớc khi sử dụng website, sau đó họ có thể tạo một hồ sơ
cá nhân, kết bạn, trao đổi tin nhắn và gồm cả các thông báo tự động khi họ cập nhật hồ
sơ của mình.
Ngoài ra, ngƣời dùng có thể tham gia những nhóm có cùng đặc điểm chung nhƣ: cùng
trƣờng học, nơi làm việc, hoặc các đặc điểm khác. Ngƣời dùng còn có thể phân loại
bạn bè vào danh sách nhƣ: “đồng nghiệp” (People From Work) hoặc “bạn thân” (Close
Friends).


9

- YOUTUBE:Có thể nói khả năng đáp ứng nhu cầu chia sẻ thông tin liên quan đến các
vấn đề giải trí, kinh tế, xã hội, thời sự, … toàn cầu thông qua video chính là thế mạnh
của mạng chia sẻ video trực tuyến Youtube.
Bên cạnh đó, nhờ việc kết hợp với Gmail do cùng đặt dƣới sự phát triển củaGoogle
giúp một phần lớn ngƣời sử dụng đã mặc định có tài khoản trên Youtube. Mạng xã hội

này hỗ trợ rất tốt cho nhu cầu quảng bá hình ảnh, tuyên truyền những nội dung giáo
dục và phát triển con ngƣời cũng nhƣ giúp các vấn đề xã hội đƣợc nhận định, đánh giá
một cách khách quan thông qua tính năng hỗ trợ bình luận phía dƣới. Cùng với sự phát
triển của internet tốc độ cao và Gmail, số ngƣời truy cập và sử dụng Facebook ngày
đông nên Youtube cũng đƣợc chia sẻ và sử dụng ngày càng nhiều.
- INSTAGRAM: Đây có lẽ là mạng xã hội trẻ tuổi nhất trong số các mạng xã hội phổ
biến. Instagram ra đời năm 2010 bởi Kevin Systrom và Mike Krieger. Nó làmạng xã
hội chỉ chuyên về hình ảnh, video và khởi đầu nhƣ một ứng dụng chủ yếu trên
smartphone.
Với việc là một mạng xã hội chỉ chuyên về hình ảnh đã tạo cho instagram một dấu ấn
vô cùng đặc biệt. Hơn thế, instagram còn hỗ trợ chỉnh sửa ảnh và bắt kịp thời đại bùng
nổ smartphone.Giờ đây, những bức ảnh vuông với nhiều màu sắc, trạng thái khác nhau
đã không còn gì xa lạ trong cộng đồng mạng trên thế giới.

- TWITTER: Twitter là một mạng xã hội trực tuyến và dịch vụ tiểu blog cho phép
ngƣời dùng gửi và đọc các tin nhắn văn bản lên đến 140 kí tự, đƣợc gọi là “tweet”.
Đƣợc thành lập vào tháng 3 năm 2006 bởi Jack Dorsey và ra mắt vào tháng 7 cùng
năm, Twitter nhanh chóng trở nên phổ biến trên toàn thế giới, với hơn 500 triệu ngƣời
sử dụng tính đến năm 2012, hơn 340 triệu tweet hàng ngày và xử lí hơn 1,6 tỉ yêu cầu
tìm kiếm mỗi ngày.
Từ khi ra mắt, Twitter đã trở thành một trong top 10 website có lƣợng truy cập nhiều
nhất trên Internet và đƣợc mô tả nhƣ là “tin nhắn (SMS) của Internet”. Những ngƣời


10

dùng chƣa đăng kí có thể đọc các tweet, nhƣng ngƣời dùng đã đăng kí mới có thể đăng
tweet thông qua giao diện webite, SMS hoặc một loạt các ứng dụng cho thiết bị di
động.
- REDDIT : là một trang web giải trí, dịch vụ giao tiếp xã hội, tin tức xã hội (social

news) và tin tức trực tuyến (online newspaper), nơi mà cộng đồng các thành viên đã
đăng ký có thể gửi lên nhiều loại nội dung là các bài đăng hoặc các đƣờng dẫn trực
tiếp. Nội dung trang web đƣợc chia thành hàng loạt các thể loại và 50 trong số đó là
các "chuyên mục" mặc định đƣợc hiển thị trên trang nhất để ngƣời dùng mới đến và
những ngƣời duyệt qua trang mà không đăng nhập vào tài khoản có thể thấy ngay.
Reddit đƣợc sáng lập bởi Steve Huffman và Alexis Ohanian. Nhà xuất bản Condé
Nast tiếp quản trang vào tháng 11 năm 2006. Vào tháng 11 năm 2011, Reddit đã trở
thành công ty con trực tiếp dƣới quyền công ty mẹ của Condé Nast, Advance
Publications (Mỹ). Tại thời điểm tháng 8 năm 2012, Reddit hoạt động nhƣ một tổ chức
độc lập, mặc dù Advance Publications vẫn là cổ đông lớn nhất của nó. Reddit đặt trụ sở
chính tại San Francisco, California.
Khi các mục (liên kết hay bài đăng chữ) đƣợc nộp lên một chuyên mục, các thành viên
(redditors) có thể bầu chọn thuận hay chống lại chúng (upvote/downvote). Mỗi chuyên
mục có một trang nhất riêng hiển thị các bài đăng mới nào đƣợc nhiều ngƣời thích. Các
redditor còn có thể đăng bình luận về bài đăng, và có thể nói chuyện thảo luận với nhau
trong một cây-trò-chuyện các bài bình luận; Các lời bình luận cũng có thể đƣợc upvote
hay downvote. Trang nhất của chính trang reddit thì hiển thị một tập hợp các bài đăng
đƣợc yêu thích nhất trong tất cả các chuyên mục mà ngƣời dùng đó đăng ký theo dõi.


11

Hình 1.4. Thống kê số lƣợt ngƣời sử dụng mạng xã hội tính đến tháng 1 năm 2017

1.6

Mạng xã hội Facebook

1.6.1 Lịch sử hình thành và phát triển của Facebook
Facebook mở đầu là một phiên bản Hot or Not của Đại học Harvard với tên gọi

Facemash. Mark Zuckerberg, khi đang học năm thứ hai tại Harvard, đã dựng nên
Facemash vào ngày 28 tháng 10 năm 2003.

Hình 1.5. Facebook vào ngày 12 tháng 2 năm 2004

Theo tờ Harvard Crimson, Facemash "đã dùng những bức ảnh lấy từ cuốn lƣu
bút trực tuyến của một số trƣờng đại học và sau đó đặt hai ảnh kế bên nhau và yêu cầu
ngƣời dùng chọn ai là ngƣời là "nổi bật" nhất". Trang này nhanh chóng đƣợc chuyển


12

đến vài máy chủ danh sách của nhóm sinh viên nội trý nhƣng bị những ngƣời quản lý
Harvard tắt vài ngày sau đó. Zuckerberg bị ban quản lý phạt vì vi phạm an ninh, xâm
phạm bản quyền và xâm phạm quyền tự do cá nhân và phải đối mặt với việc đuổi học,
nhƣng sau đó đã đƣợc hủy bỏ các cáo buộc. Vào ngày 4 tháng 2 năm 2004 của học kỳ
tiếp theo Zuckerberg thành lập "The Facebook" có địa chỉ là theFacebook.com.
Việc đăng ký thành viên ban đầu giới hạn trong những sinh viên của Đại học
Harvard, và trong vòng một tháng đầu tiên, hơn một nửa số sinh viên đại học tại
Harvard đã đăng ký dịch vụ này. Eduardo Saverin (lĩnh vực kinh doanh), Dustin
Moskovitz (lập trình viên), Andrew McCollum (nghệ sĩ đồ họa), và Chris
Hughes nhanh chóng tham gia cùng với Zuckerberg để giúp quảng bá website. Vào
tháng 3 năm 2004, Facebook mở rộng sang Stanford, Columbia, và Yale. Việc mở rộng
tiếp tục cho tất cả các trƣờng thuộc Ivy League và khu vực Boston, rồi nhanh chóng
đến hầu hết đại học ở Canada và Hoa Kỳ. Vào tháng 6 năm 2004, Facebook chuyển cơ
sở điều hành đến Palo Alto, California. Công ty đã bỏ chữ The ra khỏi tên sau khi mua
đƣợc tên miền Facebook.com vào năm 2005 với giá 200.000 USD.
Facebook ra mắt phiên bản trung học vào tháng 9 năm 2005, vào thời gian đó,
các mạng của trƣờng trung học bắt buộc phải đƣợc mời mới đƣợc gia nhập. Facebook
sau đó mở rộng quyền đăng ký thành viên cho nhân viên của một vài công ty, trong đó

có Apple Inc. và Microsoft Corp. Tiếp đó vào ngày 26 tháng 9 năm 2006, Facebook
mở cửa cho mọi ngƣời trên 13 tuổi với một địa chỉ email hợp lệ.
Lƣợng ngƣời truy cập Facebook tăng ổn định từ 2009. Trong ngày 13 tháng 3 năm
2010 số ngƣời truy cập Facebook đã vƣợt qua lƣợng ngƣời truy cập vào Google.
Năm 2010, Microsoft và Facebook đã ký kết một hợp đồng quảng cáo lớn sau
thời gian thƣơng thuyết rất dài. Trong khoảng thời gian đó, Steve Ballmer (CEO của
Microsoft lúc đó không ít lần muốn ngỏ ý mua lại Facebook với giá khủng 15 tỷ USD
nhƣng Mark Zuckerberg đã từ chối).


13

Vào ngày 09 tháng 04 năm 2012, Facebook mua lại Instagram với giá 1 tỉ USD,
bao gồm cả tiền mặt lẫn cổ phiếu. Vào ngày 5 tháng 10 năm 2012 Facebook đạt 1 tỷ
ngƣời dùng. Vào ngày 14 tháng 02 năm 2014, Facebook mua lại Whatsapp với giá 16
tỉ USD, đƣợc thanh toán bằng 12 tỷ USD cổ phiếu Facebook, 4 tỷ USD tiền mặt và
thêm 3 tỷ USD cổ phiếu hạn chế chuyển nhƣợng dành cho các sáng lập viên WhatsApp
cũng nhƣ nhân viên trong vòng 4 năm tới.

1.6.2 Tình hình sử dụng Facebook tại Việt Nam
Tháng 6 năm 2015, Facebook đã đƣa ra một số thống kê về thói quen và hành vi
sử dụng Facebook của ngƣời Việt. Những con số nhƣ 20 triệu ngƣời dùng hàng ngày,
2,5 giờ trung bình mỗi ngày đƣợc dành ra để sử dụng Facebook... cho thấy mạng xã
hội này vẫn chƣa có bất kì đối thủ nào xứng tầm tại Việt Nam.
Thống kê cho thấy tại Việt Nam mỗi tháng có tới 30 triệu ngƣời dùng Facebook,
trong đó có 27 triệu ngƣời có sử dụng các thiết bị di động để truy cập mạng xã hội này.
Nếu tính trên phạm vi hàng ngày, số ngƣời truy cập Facebook nói chung và số ngƣời
truy cập Facebook qua di động nói riêng lần lƣợt là 20 triệu và 17 triệu ngƣời.
2,5 giờ là thời gian trung bình một ngƣời dùng Facebook Việt Nam dành ra mỗi
ngày để lang thang trên mạng xã hội, gấp đôi số thời gian đƣợc dành ra mỗi ngày để

xem TV. Facebook cho biết những con số này cao hơn 13% so với mức độ sử dụng
Facebook trung bình của thế giới.
Tập ngƣời dùng Facebook tại Việt Nam có độ tuổi khá trẻ. Facebook cho biết
hai hoạt động phổ biến nhất trên Facebook của ngƣời dùng Việt là trò chuyện với bạn
bè và truy cập Facebook của các thƣơng hiệu.
Facebook đang là nơi nhiều ngƣời dùng Việt chọn làm địa điểm mua sắm
online. Theo đó, có tới 2/5 ngƣời dùng Facebook tại Việt Nam từng tìm thấy các sản
phẩm / thƣơng hiệu mới qua Facebook. Thời trang và làm đẹp, ăn uống và ƣu đãi du
lịch là ba loại hình sản phẩm / thƣơng hiệu đƣợc khám phá nhiều nhất.


14

Một "fun fact" hay mà Facebook cũng tiết lộ về hành vi sử dụng của ngƣời dùng
Việt là việc các bà mẹ thƣờng có xu hƣớng chia sẻ nhiều hơn các khoảnh khắc đời
thƣờng và các mốc thời gian quan trọng trong cuộc đời hơn nhóm ngƣời dùng còn lại.

1.7

Kết luận chƣơng
Hiện nay mạng xã hội đã rất phổ biến, với những tính năng nhƣ chat, email,

phim ảnh, chia sẻ file, blog và xã luận. Trên thế giới có hàng trăm mạng xã hội khác
nhau nhƣ: Facebook, Twitter, Youtube, MySpace, Zalo… khi đăng ký là thành viên
của các trang web, chúng ta sẽ có khu vực riêng - nơi có thể đăng các suy nghĩ, ảnh,
các đoạn video hoặc các đoạn ghi âm ngắn. Thông qua các trang mạng xã hội, ngƣời ta
có thể giải quyết đƣợc rất nhiều nhu cầu trong cuộc sống nhƣ tán gẫu, nghe nhạc, xem
video, tìm kiếm, học hỏi kinh nghiệm, lập các hội nhóm cùng sở thích và cả mua sắm
mọi thứ mình cần. Mạng xã hội đang dần trở thành nhu cầu tất yếu của rất nhiều ngƣời.
Ra đời từ cuối tháng 11 năm 2003, Facebook hiện đang là mạng xã hội lớn nhất

thế giới. Và ở Việt Nam, Facebook cũng đang là mạng xã hội có nhiều thành viên nhất.
Với sự phát triển nhanh chóng về số ngƣời sử dụng trên toàn thế giới, mạng xã hội trực
tuyến nói chung và Facebook nói riêng nhƣ một mô hình thu nhỏ của thế giới thực. Do
đó, mạng xã hội trở thành nơi lƣu trữ thông tin và các mối quan hệ giữa các cá nhân,
doanh nghiệp… Việc tìm hiểu và khai thác hiệu quả những thông tin này sẽ tạo tiền đề
cho nhiều ứng dụng khác nhƣ: hệ thống tƣ vấn, hệ thống tìm kiếm thông tin, tiếp thị
trực tuyến, điều tra tội phạm, dự đoán sự phát triển của mạng xã hội,… Vì vậy, việc
khai thác những thông tin trên mạng xã hội để áp dụng vào thực tiễn ngày càng trở nên
quan trọng.


15

Chƣơng 2– CÁC KỸ THUẬT SEARCH ENGINE
2.1 Tổng quan về Search Engine
Ra đời đầu tiên vào năm 1993, đến nay, Search Engine đã trở thành một phần
không thể thiếu của cuộc sống, và không ngừng đƣợc cải thiện về số lƣợng và chất
lƣợng các kết quả tìm kiếm. Sự phát triển của Search Engine đƣợc gắn liền với sự phát
triển của công nghệ thông tin toàn cầu.
2.1.1 Khái niệm Search Engine
Search Engine là cụm từ dùng đề nói đến các chƣơng trình – hoặc chức năng
tìm kiếm. Khi nhập một từ khóa vào chƣơng trình, thì chƣơng trình sẽ thực hiện tìm
kiếm dữ liệu và trả về kết quả phù hợp với từ khóa đã nhập vào.
Hiện nay, rất nhiều ngƣời dùng đang nhầm lẫn giữa Search Engine và Web
Search Engine. Web Search Engines là các website có chức năng tìm kiếm dữ liệu trên
Internet. Hiện nay, Các Web Web Search Engines nổi bật hiện nay gồm có Google,
Yahoo, Bing, Baido, Coccoc… Tuy nhiên, Google là trang web nổi bật nhất và chiếm
hơn 68% thị phần (Tính đến giữa năm 2016)

Hình 2.1. Thị phần sử dụngcông cụ tìm kiếm 6 tháng đầu năm 2016


Các hệ thống Search Engines hiện nay phải đáp ứng đƣợc 2 yêu cầu sau
- Thông tin mà các Search Engines trả về cần rõ ràng, có cấu trúc hợp lý, đúng
với mong muốn của ngƣời sử dụng.


16

- Thời gian tìm kiếm nhanh nhất có thể.
Do đó, các hệ thống Search Engines ngày càng phát triển, hoàn thiện hơn để đáp ứng
đƣợc nhu cầu của ngƣời sử dụng. Để đánh giá các Search Engines, ngƣời dùng thƣờng
dựa trên các tiêu chí sau:
-

Hiệu quả trong việc tìm kiếm và phân loại theo nhóm thông tin trả về.

-

Cập nhật đƣợc những thay đổi theo thời gian.

-

Giao diện thân thiện, phù hợp với ngƣời dùng.

-

Kết quả tìm kiếm có ý nghĩa và tiện dụng

2.1.2 Cấu trúc cơ bản của Search Engine.
Hệ thống Search Engine.

- Bộ thu thập thông tin – Crawler (Spider).
- Bộ lập chỉ mục – Indexer.
- Bộ tìm kiếm thông tin – Search Engine.
- Crawler hay còn gọi là Robot (Bot) là 1 chƣơng trình tự động duyệt qua các website
trên mạng Internet để thu thập dữ liệu và nó nhận về tất cả các tài liệu có liên kết với
dữ liệu này. Quá trình này đƣợc gọi là Crawl dữ liệu. Để lấy đƣợc dữ liệu, Robot sẽ
truy cập vào 1 website và tìm kiếm những liên kết có trong website này. Sau đó, Robot
sẽ theo đƣờng link nó đã thu thập đƣợc để đến các website khác rồi lặp lại quá trình
truy cập vào các liên kết mà nó tìm thấy. Nếu coi mạng Internet là mạng nhện, thì
Robot sẽ là con nhện, do đó Robot thƣờng đƣợc gọi là Spider.
- Bộ lập chỉ mục – Indexer là hệ thống thực hiện việc phân tích, xử lý dữ liệu. Dữ liệu
sau khi đƣợc Crawl sẽ đƣợc lựa chọn những thông tin cần thiết (Thƣờng là các từ cụm từ quan trọng) và đƣợc cấu trúc thành cơ sở dữ liệu riêng phục vụ cho việc tìm
kiếm. Hệ thống chỉ mục là danh sách các từ khóa và các liên kết đến các website có
chứa từ khóa đó.
- Bộ tìm kiếm thông tin - Search Engine. Là cụm từ dùng chỉ toàn bộ hệ thống (Đây
thực chất là Web Search Engine ), là công cụ giao tiếp với ngƣời dùng đề nhận yêu cầu


17

tìm kiếm và trả về thông tin tìm kiếm cho ngƣời dùng. Thông tin tìm kiếm có thể ở
nhiều dạng khác nhau (url, text, ảnh, video…).
Chức năng chính của Search Engine là tìm kiếm thông tin theo các từ khóa do ngƣời sử
dụng nhập vào. Khi nhập một từ khóa vào 1 hệ thống Web Search Engine, Search
Engine sẽ có nhiệm vụ tìm kiếm từ khóa đó ở tất cả các website. Website nào chứa
nhiều từ khóa cần tìm sẽ đƣợc ƣu tiên trong danh mục kết quả trả về của Search
Engine. Hiện nay, đa số các công cụ tìm kiếm đều có chức năng tìm kiếm cơ bản và
tìm kiếm nâng cao, tìm từ đơn, từ ghép, cụm từ, giới hạn phạm vi tìm kiếm theo địa
điểm, thời gian... để đƣa về kết quả phù hợp nhất cho ngƣời sử dụng. Ngoài ra, các
Search Engine còn đƣợc trang bị các phƣơng thức tìm kiếm đa ngôn ngữ, tự động sửa

lỗi chính tả và đƣa ra các từ gợi ý khi ngƣời sử dụng nhập từ khóa.

Hình 2.2. Cấu trúc cơ bản của Search Engine


18

2.1.3 Bộ thu thập thông tin – Crawler (Spider)
Một chƣơng trình crawler bao gồm một danh sách các URL chƣa đƣợc thăm gọi
là frontier. Danh sách này đƣợc khởi tạo bởi các URL hạt nhân đã đƣợc cung cấp bởi
ngƣời dùng hoặc các chƣơng trình khác. Mỗi vòng lặp crawling bao gồm: lấy ra URL
cần đƣợc index tiếp theo từ frontier, nạp trang web tƣơng ứng với URL đó bằng giao
thức HTTP, duyệt trang web vừa tải về để lấy ra các từ URL và các thông tin mà ứng
dụng cần, và cuối cùng là thêm các trang URL chƣa đƣợc thăm vào frontier. Trƣớc khi
các URL đƣợc thêm vào frontier chúng sẽ đƣợc gán cho một độ đo thể hiện đánh giá
hiệu quả khi thăm trang web tƣơng ứng với URL đó. Quá trình crawling có thể kết thúc
khi một số lƣợng nhất định các trang web đã đƣợc tải. Nếu chƣơng trình crawler đã sẵn
sàng để duyệt một trang web khác và trạng thái của frontier là rỗng, một tín hiệu trạng
thái kết thúc (dead-end) sẽ đƣợc gửi cho crawler.

Hình 2.3. Sơ đồ của một Crawler tuần tự cơ bản


×