Tải bản đầy đủ (.pdf) (18 trang)

Tiểu Luận Dữ Liệu Lớn Trong Kinh Tế Và Kinh Doanh.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.62 MB, 18 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

B K <b>Ộ Ế HOẠCH VÀ ĐẦU TƯ</b>

HÀ N<b>ỘI </b>- 2023

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

M C L C <b>ỤỤ</b>

DANH M C B NG BI U ... <b>ỤẢỂCâu 2: Phân tích đặc trưng 5V của dữ liệu lớn. Nếu giả sử em là chủ sở hữu một nguồn dữ liệu c a 1 t ủỷ ngườ ử ụ</b>i s d ng m ng xã h i thì em s có gi i pháp kinh doanh h p pháp nào t <b>ạộẽảợừ</b>

kho d u này. ... 1<b>ữ liệ</b>

2.1. Phân tích đặc trưng 5V của d u l n. ... 1ữ liệ ớ2.2. N u gi s em là ch s h u m t ngu n d u c a 1 t ế ả ử ủ ở ữ ộ ồ ữ liệ ủ ỷ ngườ ử ụi s d ng m ng xã h i thì ạ ộem s có gi i pháp kinh doanh h p pháp t kho d u. ... 5ẽ ả ợ ừ ữ liệ

<b>Câu 3: Trình bày sơ lược 4 kỹ thuật phân tích dữ liệu lớn. So sánh sự khác biệt giữa phân </b>

c m và phân l p d u? Hãy l y m t ví d minh h a trong th c t mà em bi t v k thu<b>ụớữ liệấộụọự ếế ề ỹật </b>

phân c m và phân l<b>ụớp.</b> ... 63.1. Trình bày sơ lược 4 k thu t phân tích d u l n. ... 6ỹ ậ ữ liệ ớ3.2. So sánh s khác bi t gi a phân c m và phân l p d u. L y m t ví d minh h a trong ự ệ ữ ụ ớ ữ liệ ấ ộ ụ ọthự ếc t mà em bi t v k thu t phân c m và phân lớp. ... 14ế ề ỹ ậ ụ

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

DANH M C B NG BI U <b>ỤẢỂ</b>

<b>Bảng 3.2. S khác bi t gi a phân c m và phân l p d ựệữụớữ liệu. ... 14</b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<small>1 </small>

<b>Câu 2: Phân tích đặc trưng 5V của d ữ liệu l n. N u gi s em là ch s hớếả ửủ ở ữu m t nguộồn </b>

d<b>ữ liệ</b>u c a 1 t<b>ủỷ ngườ ử ụ</b>i s d ng m ng xã h i thì em s có gi i pháp kinh doanh h<b>ạộẽảợp </b>

pháp nào t kho d <b>ừữ liệu này.</b>

2.1. <b>Phân tích đặc trưng 5V củ</b>a d<b>ữ liệu lớ</b>n.

Năm 2014, công ty nghiên cứu và tư vấn công nghệ thông tin hàng đầu thế giới là Gartner đã cơng bố mơ hình “5V” năm tính chấ- t quan trọng của dữ liệu l n. ớ

Trong mỗi giây như thế ại có đế l n khoảng 600 triệu vụ va chạm giữa các hạt vật chất diễn ra, nhưng sau khi chọ ọ ạ ừn l c l i t kho ng 99,999% các lu ng dả ồ ữ liệu đó, chỉ có tầm 100 v va chụ ạm là được các nhà khoa học quan tâm. Điề này có nghĩa là cơ quan chủu qu n cả ủa hệ thống LHC phải tìm những bi n pháp mệ ới để qu n lý và x ả ử lí h t mế ớ ữ liệ d u kh ng l này. ổ ồ

Việc tăng trưởng này khi n cho dữ liệu tr nên quá lế ở ớn để có thể lưu trữ và phân tích theo công ngh CSDL truy n th ng. V i công nghệ ề ố ớ ệ điện toán đám mây (Cloud Computing), t i các trung tâm d ạ ữ liệu (Data Center) chúng ta đã có thể lưu trữ và sử d ng ụnh ng t p dữ ậ ữ liệu này v i sớ ự giúp đỡ ủ c a các hệ thống phân tán, nơi mà dữ liệu chỉ được lưu trữ một phần tại các địa điểm khác nhau và được quản trị bởi các phần mềm chuyên d ng. ụ

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<small>2 </small>

• Tốc đ (Velocity) Vận tốc. ộ –

Ngoài đặc trưng đầu tiên là khối lượng rất lớn thì khi nói đến “Big Data” là phải nói đế ốn t c độ dữ liệu mới được tạo ra và t c độ xửố lý d liệu hiện nay. Hãy tưởng tượng đó ữlà các thơng điệp của mạng xã hội lan truyền theo đơn vị giây hay đó là tốc độ mà các giao dịch thẻ tín d ng gian lụ ận được kiểm tra. Một ví dụ ụ thể c cho khối lượng d ữ liệu đã tạo ra, vào năm 2016 lượng truy c p toàn c u ch ậ ầ ỉ là 6.2 exabytes/tháng, tuy nhiên đến năm 2020 thì con s ố này đã lên đến 40.000 exabytes/tháng. Điều đó có thể ải thích đượ gi c, d ữliệu hi n nay phát triệ ển nhanh đến mức nào.

Công ngh dệ ữ liệu l n cho phép chúng ta có th phân tích dớ ể ữ liệu ngay khi chúng đang được t o ra mà không cạ ần lưu trữ chúng trong các CSDL. X lý d ử ữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ ệu được xử lý ngay tức thời ngay sau khi chúng liphát sinh (tính đến b ng mili giây). ằ

+ Đa dạng về định dạng: Dữ liệ ớu l n có th t n tể ồ ại dưới nhiều định d ng khác nhau ạnhư văn bản, hình ảnh, âm thanh, video, tệp log, tệp đồ thị, tệp dạng bảng, và nhiều định d ng d u khác. ạ ữ liệ

+ Đa dạng về kích thước: Dữ liệ ớn thường có kích thướu l c r t l n, t hàng terabyte ấ ớ ừđến petabyte hoặc thậm chí exabyte. Điều này có nghĩa là dữ liệu lớn bao g m mồ ột lượng l n thông tin và chi tiớ ết về các s ki n, giao dự ệ ịch, hành vi người dùng, và nhi u thông tin ềkhác.

+ Đa dạng về tốc độ: Dữ liệu lớn thường được t o ra và c p nh t liên t c t nhi u ạ ậ ậ ụ ừ ềngu n khác nhau. Ví d , dồ ụ ữ liệu t các m ng xã hừ ạ ội đượ ạc t o ra trong th i gian th c, d ờ ự ữ

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

• Độ tin c y (Veracity) – ậ Độ chính xác.

M t trong nh ng tính ch t ph c t p nh t cộ ữ ấ ứ ạ ấ ủa “Big Data” là độ tin c y/chính xác cậ ủa dữ liệu vì khối lượng lớn thường đi kèm với vi c thi u chính xác và chệ ế ất lượng c a d ủ ữliệu.

Tính xác th c là mự ột đặc tính của “Big Data” liên quan đến tính nhất quán, độ chính xác, chất lượng hay độ tin c y c a dậ ủ ữ liệu. Tính xác th c c a dự ủ ữ liệu đề ập đế c n s sai ựl ch, nhi u, bệ ễ ất thường trong dữ liệu. Nó cũng đề ập đế c n dữ liệu không đầy đủ ho c s ặ ựhi n di n c a l i, giá tr ngo i lệ ệ ủ ỗ ị ạ ệ. Để chuyển đổi lo i dạ ữ liệu này thành m t ngu n thông ộ ồtin nhất quán, th ng nhố ấ ẽ m t thách tht s ộ ức lớn cho các tổ chức và doanh nghi p. ệ

Trong khi tr ng tâm chính c a các doanh nghi p là s d ng toàn b ọ ủ ệ ử ụ ộ tiềm năng của d ữliệu để thu th p thơng tin chi ti t, h có ậ ế ọ xu hướng b l các vỏ ỡ ấn đề do qu n tr d ả ị ữ liệu kém g p ph i. Khi chúng ta nói v ặ ả ề độ chính xác của d u l n, nó khơng ch là v ữ liệ ớ ỉ ề chất lượng của d ữ liệu mà còn ph ụ thuộc vào mức độ đáng tin cậy c a ngu n d u và các quy trình ủ ồ ữ liệd u cữ liệ ủa bạn.

Chẳng h n, ta l y m t ví d biạ ấ ộ ụ để ết tác động của tính tin c y c a d ậ ủ ữ liệu b ng cách có ằthơng tin của hàng triệu người có nhu cầu tiêu dùng một lo i hàng hóa cạ ủa doanh nghiệp. Tuy nhiên, dữ liệu này không thể chuyển đổi thành dữ liệu bán hàng do thông tin khách hàng khơng chính xác. Chất lượng dữ liệu kém ho c dặ ữ liệu khơng chính xác có th dể ẫn đến việc nhắm m c tiêu sai khách hàng và thông tin liên lụ ạc, điều này cuối cùng gây ra thiệt h i vạ ề doanh thu cho doanh nghi p. ệ

Bài tốn phân tích và lo i b dạ ỏ ữ liệu thi u chính xác và nhiế ễu đang là tính chất quan trọng c a Big Data. T t nhiên d ủ ấ ữ liệu khơng được phép sai hồn toàn, nhưng chúng ta sẵn sàng hy sinh một chút trong s ự chính xác để đổi l i hiạ ểu bi t v ế ề xu hướng chúng. D ữ liệu l n biớ ến đổi các con s thành m t cái gì ố ộ đó mang tính xác suất nhiều hơn là tính chính xác.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<small>4 </small>

• Giá trị (Value).

Chữ V cuối cùng trong 5V của “Big Data” và cũng là chữ V quan trọng nhất chính là giá trị. Nó đề ập đế c n giá tr ị mà “Big Data” có thể cung c p và nó liên quan trấ ực tiếp đến nh ng gì tữ ổ chức có th làm v i dể ớ ữ liệu được thu thập đó. Việc ti p cế ận được dữ liệ ớn u ls ẽ chẳng có ý nghĩa gì nếu chúng ta khơng chuyển được chúng thành những thứ có giá trị vì giá tr c a d ị ủ ữ liệu lớn tăng lên đáng kể tùy thu c vào nh ng hi u bi t sâu s c có th thu ộ ữ ể ế ắ ểđược từ chúng.

Ví d , n u chúng ta có m t b d ụ ế ộ ộ ữ liệu c a hàng t hoủ ỷ ạt động khám ch a b nh c a các ữ ệ ủb nh nhân t i m t b nh vi n l n trong thệ ạ ộ ệ ệ ớ ời gian 5 năm gần đây mà được lưu trữ m t cách ộcơ học trên hệ thống máy chủ thì cũng sẽ khơng mang lại giá trị gì cho bệnh viện cũng như các bệnh nhân. Tuy nhiên, nếu bộ dữ liệu đó được đem ra phân tích nhằm tìm được các xu hướng khám chữa bệnh, các loại thuốc nào điều trị hiệu quả hơn, loại bệnh nào người bệnh hay mắc phải, bác sỹ nào khám chữa bệnh tốt hơn, thời gian đ ều trị bệnh tối iưu là bao nhiêu ngày,… thì điều này sẽ mang lại giá trị rất lớn cho cả bệnh viện và cộng đồng vì sẽ giúp dự báo về sức khỏe được chính xác hơn, sẽ ảm được chi phí điề gi u trị và các chi phí liên quan đến y t . ế

M t ví dộ ụ khác để thể ệ hi n giá tr c a dị ủ ữ liệ ớu l n là quá trình chuyển đổ ố ủi s c a mỗi tổ chức mà doanh nghi p. Trong nhệ ững năm gần đây, khi nhu cầu về chuyển đổ ối s ngày một tăng lên, dữ liệu lớn đã nổi lên như một ngu n nhiênli u chính ti p s c cho cu c hành ồ ệ ế ứ ộtrình này. Kh ả năng phân tích một lượng l n d u c u trúc (Structured Data) và d ớ ữ liệ ấ ữ liệu phi c u trúc (Unstructured Dấ ata) để có được nh ng thông tin chi tiữ ết, thường là theo thời gian thực, là cơ sở ề n n t ng cả ủa hầu h t các n lế ỗ ực chuyển đổi số, vì thơng tin chi ti t thu ếđược thơng qua phân tích dữ liệu lớn được sử dụng để thúc đẩy q trình số hóa và tự động hóa quy trình làm việc. Khi các t chức có thể tận d ng dữ liệu l n cho mục đích ổ ụ ớbáo cáo và c i tiả ến quy trình thì “giá trị đích thực sẽ đến từ khả năng kết h p dợ ữ u l n liệ ớvới các nỗ lực chuyển đổi số để cho phép số hóa và t ng hóa tồn b hoự độ ộ ạ ột đng nhằm thúc đẩy hiệu quả và các mơ hình kinh doanh mới”. Nếu chuyển đổi số cho mỗi tổ chức

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<small>5 </small>

và doanh nghiệp là con đường thì dữ liệu l n là m t trong nhớ ộ ững phương tiện giúp đi nhanh trên con đường đó.

2.2. N u gi s em là ch s h u m t ngu n d u c a 1 t <b>ếả ửủ ở ữộồữ liệủỷ người sử ụ</b> d ng m ng xã <b>ạ</b>

h<b>ội thì em sẽ</b> có gi i pháp kinh doanh h p pháp t kho d <b>ảợừữ liệu.</b>

- Dựa vào đặc trưng về kích thước (Volume): em sẽ áp dụng kỹ thuật phân tích đám đơng để xác định được hành vi, nhu cầu của người tiêu dùng để đưa ra những chiến lược tiếp th , marketing, quảng cáo phù h p. ị ợ

- Dựa vào đặc trưng về tốc độ (Velocity): em sẽ s d ng các cơng c phân tích d ử ụ ụ ữ liệu để phân tích, d ự báo xu hướng người tiêu dùng thông qua các bài đăng, bình luận, lượt xem, hoạt động của người dùng trên mạng xã hội để tìm hiểu và phát tri n nh ng sể ữ ản phẩm, dịch v phù hụ ợp.

- Dựa vào đặc trưng về đa dạng (Variety): em có thể tìm được các nhóm khách hàng tiềm năng thông qua các nguồn dữ ệu khác nhau (hình li ảnh, video, văn bản th hiể ện thơng tin người dùng…) để tìm ra những đặc điểm chung của từng phân khúc khách hàng tiềm năng như sở thích, độ tuổi, phong cách… và đưa ra những d ch v , sị ụ ản phẩm cũng như các chiến lược qu ng cáo, marketing phù h p v i t ng t p khách hàng. ả ợ ớ ừ ệ- Dựa vào đặc trưng về độ tin c y (Veracity): em có th ậ ể đánh giá tính chính xác về các

d ữ liệu như thông tin người dùng (tài khoản, bài đăng, bình luận…) để xác minh xem thơng tin của người dùng là th t hay gi , có l ch s gian l n, lậ ả ị ử ậ ừa đảo hay dính vào những dư luận tiêu cực khơng, để tìm ra nh ng bi n pháp gi i quy t ho c lo i b ra ữ ệ ả ế ặ ạ ỏkhỏi nguồn dữ liệu c n tìm kiầ ếm.

- Dựa vào đặc trưng về giá trị (Value): em s s d ng nh ng d ẽ ử ụ ữ ữ liệu thu được từ người dùng trên m ng xã hạ ội như những vấn đề, xu hướng, tính năng… mà họ quan tâm hoặc đang xu hướng để tìm cách để phát tri n nh ng s n ph m, d ch vể ữ ả ẩ ị ụ đem lại giá trị và lợi ích cho người dùng.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<small>6 </small>

<b>Câu 3: Trình bày sơ lược 4 kỹ thuật phân tích dữ liệu lớn. So sánh sự khác biệt giữa </b>

phân c<b>ụm và phân lớ</b>p d<b>ữ u? Hãy l y mliệấột ví dụ</b> minh h a trong th<b>ọực tế</b> mà em bi<b>ết </b>

v k thu t phân c m và phân l<b>ề ỹậụớp.</b>

3.1. <b>Trình bày sơ lượ</b>c 4 k thu t phân tích d <b>ỹậữ liệu lớ</b>n. • Phân lớp d ữ liệu:

Phân l p (Classification) là k ớ ỹ thuật ph biổ ến và được quan tâm nhi u nh t trong phân ề ấtích dữ liệu, đặc bi t là các t p dệ ậ ữ liệu l n. B n ch t c a vi c phân l p là quá trình gán ớ ả ấ ủ ệ ớnhãn cho một đối tượng dữ liệu m i vào m t l p (trong t p nhãn lớ ộ ớ ậ ớp đã cho trước) nh ờm t mơ hình phân l p. Trong thộ ớ ực tế chúng ta cũng thường xuyên s d ng k ử ụ ỹ thuật phân l p dớ ữ liệu như khi nhìn thấy hình nh c a mả ủ ột người m i g p lớ ặ ần đầu tiên thì chúng ta có th dể ự đốn xem giới tính c a h là Nam hay N vủ ọ ữ ới độ chính xác rất cao. Để có th ểdự đốn được giới tính thì trước đó (từ ồ h i cịn nhỏ) chúng ta đã được d y qua hình nh ạ ảm u c a m t t p hẫ ủ ộ ậ ợp người và được ch rõ ai là gi i tính Nam , ai là gi i tính ỉ ớ “ ” ớ “Nữ”. Hay v i bài toán bài toán phân loớ ại thư rác (Email Spam), để có khả năng nhận dạng được thư nào là thư rác thì hệ thống phải phân tích các dữ liệu về thư điện tử trước đó…

Phân lớp d ữ liệu chính là q trình phân tích d u có sữ liệ ẵn để trích rút ra mơ hình mơ t dả ữ liệu ho c dặ ự đoán xu hướng dữ liệu. Dự đoán xu hướng dữ liệu cụ thể là dự đoán nhãn l p cho dớ ữ u mliệ ới, v i bài toán dớ ự đoán giới tính thì nhãn lớp là “Nam” và “Nữ”, với bài tốn nhận dạng thư rác thì nhãn lớp tương ứng là “Spam” và “Non Spam”.

Theo tài li u tham kh o (Nguy n Hà Nam, 2013) thì bài tốn phân l p dệ ả ễ ớ ữ liệu được phát biểu như sau: Cho m t b d u hu n luy n T (Trainning Dataset), m i ph n t d ộ ộ ữ liệ ấ ệ ỗ ầ ử ữliệu g m n thuồ ộc tính và được gán một nhãn lớp c trong tập nhãn lớp C. Yêu cầu đặt ra là v i m t ph n t dớ ộ ầ ử ữ liệu mới chưa biết nhãn l p, ta ph i th c hi n gán nhãn l p cho phớ ả ự ệ ớ ần t d u này d a trên b d u hu n luyử ữ liệ ự ộ ữ liệ ấ ện ban đầu.

- Quá trình phân lớp d ữ liệu:

+ Bước 1: Giai đoạn học (huấn luy n). ệ

Giai đoạn học là giai đoạn xây d ng mơ hình mơ t d ự ả ữ liệu d a trên b d ự ộ ữ liệu đã biết trước nhãn l p hay dữ liệu huấn luyện. Dữ liệu huấn luyện là m t tập các phần tử dữ liệu ớ ộcó gán nhãn, trong đó có một thuộc tính là thuộc tính lớp cho biết phần tử dữ liệu này được gán nhãn cho lớp nào.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<small>7 </small>

Quá trình hu n luyấ ện được th c hi n b ng m t thu t toán phân l p, thu t toán thự ệ ằ ộ ậ ớ ậ ực hi n h c d ệ ọ ữ liệu hu n luyấ ện để ừ đó trích rút thơng tin và xác định một mơ hình mơ t d t ả ữliệu. Mơ hình ở đây chính là các quy tắc, lu t hay cơng th c tốn h c mô t l p. Thuậ ứ ọ ả ớ ật tốn phân l p chính là c t lõi c a quá trình h c, thu t tốn phân l p t t thì hi u qu gán ớ ố ủ ọ ậ ớ ố ệ ảnhãn đạt độ chính xác cao.

+ Bước 2: Giai đoạn phân l p. ớ

Giai đoạn phân lớp là giai đoạn sử dụng mơ hình xây dựng được ở giai đoạn huấn luyện để phân lớp dữ liệu mới nếu hiệu quả phân lớp chấp nhận được. Để đánh giá mơ hình phân l p là ch p nhớ ấ ận được hay không, ta s d ng m t b dử ụ ộ ộ ữ liệu kiểm tra đã biết trước nhãn l p c a các phần tử dữ liệu. Bộ dữ liệu kiớ ủ ểm tra này độ ập v i b dữ liệu c l ớ ộhu n luyấ ện trước đó. Ta thực hi n phân l p các m u dệ ớ ẫ ữ liệu trong b dộ ữ liệu ki m tra, t ể ừđó xác định xem có bao nhiêu phần tử dữ liệu được phân lớp đúng và bao nhiêu phân tửdữ liệu b phân l p sai. N u k t qu kiị ớ ế ế ả ểm tra đạt độ chính xác cao (t l ph n t dỉ ệ ầ ử ữ liệu được phân lớp đúng cao) thì mơ hình có thể đư c sử dụng để thực hiện phân l p cho dữ ợ ớliệu mới chưa biết trước nhãn lớp.

- Một số mơ hình phân l p d ớ ữ liệu:

+ Cây quyết định (Decision Tree): là mơ hình phân l p dớ ạng cây dùng để ể bi u diễn các tri thức đơn giản cho việc phân lo i các m u vào m t s các l p. Trong m t cây quyạ ẫ ộ ố ớ ộ ết định, các nút biểu diễn các thuộc tính c a mẫu dữ liệu, các cạnh biểu diễn các giá tr có ủ ịthể có c a m t thu c tính và các lá chủ ộ ộ ỉ định các nhãn l p. M t ph n t dớ ộ ầ ử ữ ệu được dự liđốn lớp bằng cách đưa các thuộc tính của nó vào kiểm tra trên cây quyết định, một quá trình kiểm tra như vậy sẽ dẫn từ gốc tới một lá theo các giá trị của thuộc tính của phần tử d ữ liệu đó và lá nhận được cho biết nó được gán nhãn l p nào. ớ

+ Rừng ng u nhiên (Random Forest):ẫ là m t thành viên trong h thu t toán Cây quyộ ọ ậ ết định, bao gồm t p h p các cây quyậ ợ ết định mà mỗi cây được ch n theo m t thu t toán dọ ộ ậ ựa vào ng u nhiên. Khi phân l p, m i cây s cho m t d ẫ ớ ỗ ẽ ộ ự đoán và dự đoán cuối cùng c a thuủ ật toán R ng ng u nhiên là dừ ẫ ự đoán c ếhi m phần đa số ừ t các dự đoán của các cây đơn. Có thể hiểu đơn giản theo cách khác là R ng ng u nhiên coi m i cây quyừ ẫ ỗ ết định như mộ ửt c tri b phiỏ ếu độ ập (như mộc l t cu c b u cộ ầ ử thực s ), sau khi ki m phi u, câu tr l i nh n ự ể ế ả ờ ậ

</div>

×