TRƯỜNG ĐẠI HỌC
SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ
KHOA CƠNG NGHỆ THƠNG TIN
MINH
MƠN: HỆ PHÂN BỐ
BÁO CÁO CUỐI KÌ
ĐỀ TÀI: PHÂN TÍCH SỐ LƯỢNG CÁC
HASHTAG TRÊN TWITTER
NHĨM 12
GVHD: TS. NGUYỄN THIÊN BẢO
DANH SÁCH THÀNH VIÊN NHĨM 12
• 19133068
• 19133023
NGUYỄN QUỐC VIỆT
• 19133046
• 19133032
LÊ THỊ THANH PHƯƠNG
LÊ PHƯƠNG NAM
NGUYỄN THỊ MỸ LINH
BỐ CỤC TRÌNH BÀY
• TÌM HIỂU VỀ
SPARK_STREAMING
• XÂY DỰNG ỨNG DỤNG
TÌM HIỂU VỀ SPARK_STREAMING
APACHE SPARK
Apache Spark là một cơng cụ phân tích hợp nhất mã nguồn mở để xử lý
dữ liệu quy mô lớn. Spark cung cấp một giao diện cho các cụm lập trình với
tính song song dữ liệu ngầm định và khả năng chịu lỗi.
Apache Spark gồm có 5 thành phần chính : Spark Core, Spark
Streaming, Spark SQL, MLlib và GraphX
CƠNG NGHỆ STREAMING
Streaming là cơng nghệ truyền dữ liệu liên tục.
Nếu như trước đây, khi xem 1 video, ta cần download tồn bộ video đó về
thì streaming chia video thành nhiều phần nên ta chỉ cần loading trước 1
lượng dữ liệu nhỏ. Hiện nay, streaming đang dần trở thành 1 phần quan trọng
trong sự phát triển của Internet
SPARK-STREAMING
Spark Streaming dựa trên Spark Core, là một phần bổ sung cho Spark để xử lý
lượng dữ liệu lớn tức thì và đảm bảo chống chịu lỗi.
Tính năng của Spark-Streaming
Scaling: dễ dàng scale lên hàng nghìn node.
Speed: có khả năng giảm độ trễn xuống mức vài trăm milliseconds
Fault Tolerance: chia nhỏ các task cho nhiều node, nếu có 1 node bị lỗi, các
node khác sẽ thay thế công việc của node đó.
Integration: bất cứ hàm nào của spark đều có thể dung để xử lý
Business Analysis: có thể dùng các thư viện Mlib, SQL, GraphX để phân tích dữ
liệu
HỆ THỐNG SPARK-STREAMING
FLASK VÀ APECCHARTS
Flask
Flask là một Web Framework rất nhẹ
của Python, dễ dàng giúp người mới bắt
đầu học Python có thể tạo ra website nhỏ.
Flask cũng dễ mở rộng để xây dựng các
ứng dụng web phức tạp.
Flask có nền tảng là Werkzeug và
Jinja2 và nó đã trở thành một trong những
Web Framework phổ biến nhất của Python
FLASK VÀ APECCHARTS
APECCHARTS
ApexCharts.js là một thư viện JavaScript
mã nguồn mở để hiển thị các biểu đồ đáp ứng
cho giao diện người dùng. Bạn sẽ thấy nó thân
thiện khi sử dụng, đặc biệt là với tài liệu tồn
diện của nó.
Thư viện này cũng hoạt động tốt với nhiều
biểu đồ. Kết hợp các loại biểu đồ khác nhau
trong một lưới duy nhất là một trong những
điểm mạnh của nó.
XÂY DỰNG ỨNG DỤNG
ĐỀ TÀI: PHÂN TÍCH SỐ LƯỢNG CÁC THẺ BẮT ĐẦU
BẰNG # TRÊN TWITTER
SƠ ĐỒ HOẠT ĐỘNG
TỔ CHỨC ỨNG DỤNG
1. Twitter_app.py
TRIỂN KHAI ỨNG DỤNG
1. Twitter_app.py
2. Spark_app.py
TRIỂN KHAI ỨNG DỤNG
1. Twitter_app.py
2. Spark_app.py
3. App.py
TRIỂN KHAI ỨNG DỤNG
1. Twitter_app.py
2. Spark_app.py
3. App.py
4. Index.html
DEMO