Tải bản đầy đủ (.pdf) (46 trang)

Chuyên đề thực tập tốt nghiệp: Phân tích đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên sàn thương mại điện tử Etsy bằng phương pháp khai thác dữ liệu văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.41 MB, 46 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

TRUONG DAI HỌC KINH TE QUOC DÂN KHOA THONG KE

CHUYEN DE THUC TAP TOT NGHIEP

DE TAI: PHAN TICH DANH GIA VA BINH LUAN CUA KHACH HANG DA

MUA SAN PHAM AO PHONG NAM TREN SAN THUONG MAI DIEN TU’

ETSY BANG PHUONG PHAP KHAI THAC DU LIEU VAN BAN

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

TRUONG DAI HỌC KINH TE QUOC DÂN KHOA THONG KE

CHUYEN DE THUC TAP TOT NGHIEP

DE TAI: PHAN TICH DANH GIAVA BINH LUAN CUA KHACH HANG DA

MUA SAN PHAM AO PHONG NAM TREN SAN THUONG MAI DIEN TU’

ETSY BANG PHUONG PHAP KHAI THAC DU LIEU VAN BAN

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

LỜI CAM ĐOAN

<small>Em là Lê Quang Anh, mã sinh viên 11190181, khóa 61, trường Đại học Kinh</small>

tế Quốc dân, được hướng dẫn bởi TS. Nguyễn Thị Xuân Mai. Em xin cam đoan rằng đề tài " Phân tích đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên sàn thương mại điện tử Etsy bằng phương pháp khai thác dữ liệu văn bản"

là kết qua của nghiên cứu độc lập dưới sự hướng dẫn của T.S Nguyễn Thị Xuân Mai

và không sao chép từ bất kỳ nguồn nào khác. Tất cả các số liệu và kết quả được trình

bày trong báo cáo đều là trung thực.

<small>Hà Nội, ngày ... tháng 04 năm 2023</small>

<small>Người cam đoan</small>

<small>Lê Quang Anh</small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

LOI CAM ON

Em xin bày tỏ long biết ơn đến Trường Đại học Kinh té Quốc dân và tập thể giảng viên tại Khoa Thống kê đã tạo điều kiện, hỗ trợ, giúp đỡ em trong suốt quá trình học tập và nghiên cứu. Đặc biệt, em muốn gửi loi cảm ơn sâu sắc tới TS. Nguyễn

<small>Thị Xuân Mai, người đã tận tình hướng dẫn và có những đóng góp q báu giúp em</small>

hồn thành chun đề thực tập này.

Em cũng xin cảm ơn gia đình, bạn bè và các thầy cô trong trường và khoa đã luôn ủng hộ, động viên và chia sẻ khó khăn, đồng thời cảm ơn các thầy cơ đã ln tận tình chỉ dạy và hỗ trợ em trong suốt quá trình học tập và nghiên cứu.

<small>Em xin trân thành cảm on!</small>

<small>Hà Nội, ngày ... tháng 04 năm 2023</small>

<small>Sinh viên thực hiện</small>

<small>Lê Quang Anh</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<small>MỤC LỤC</small>

PHAN MỞ ĐẦU...--.-:-- 55222 tt th HH He |

1. Lý do chọn đề tài...- 2-52-5222 221211211271 211211211 2111111 xe. |

<small>2. Mục tiêu nghiên cứu ... .-- --- c1 31 121191111111 11 8111811111 11 Hee 2</small> 3. Đối tượng và phạm vi nghiên cứu ...---¿- 2¿+2++x++zxzzxerxeees 2 <small>4. Phuong pháp nghiên CỨU ...- ..- G22 32332313 E*EEeEEEeeererrssrrsrrrrree 3</small> 4.1. Phương pháp tơng quan nghiên cứu ...---2--¿©sz©s++:s++z+2 3

<small>4.2. Phuong pháp thu thập dữ liệu ...-- ---- 5 25 S25 *++csstrseererresereres 3</small>

<small>4.3. Phương pháp khai thác dữ liệu ...-- --- 55 S25 * + svrssxseresrreses 31.1.2. Phân loại sàn thương mại điện tử...-- -- 555 S5 Sssssseseersserssres 4</small>

<small>1.1.3. M6 hình kinh doanh ... .- --- -- 5c 2+ St SH ri, 5</small> 1.1.4. Ưu điểm và thách thức của sàn thương mại điện tử ... 5

1.2. Đánh giá của khách hàng về các sản phẩm trên sàn thương mại điện

<small>"1 ... 7</small>

1.2.1. Cac yếu tố được đánh giá của khách hàng...--- 7

1.2.2. Một số cách thức đánh giá của khách hàng trên sàn thương mại điện

<small>"0 ... d5... 8</small>

<small>1.3. Phuong pháp khai thác dữ liệu văn bản ... 5525 <S<css<cxssss+ 91.3.1. Khai niệm dữ liệu văn bản...-- ---- 5 5 S2 *+ssEerirrrrerrrrsrrrsree 9</small>

1.3.2. Khai thác dữ liệu văn bản bằng phương pháp Latent Dirichlet

<small>L0 v10): NI... 10</small>

1.4. Ứng dụng của LDA trong khai thác dữ liệu văn bản... 18

CHƯƠNG 2: VẬN DỤNG PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU VĂN BẢN

NGHIÊN CỨU ĐÁNH GIA CUA KHÁCH HANG ĐÃ MUA SAN PHAM AO PHONG NAM TREN SÀN THUONG MẠI ĐIỆN TU ETSY... 20

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

2.2. Thu thập dữ liệu và tiền xử lý dữ liệu...-- +2 22vzeecrrrrrre 21 <small>2.2.1. Thu thập dữ liệu...----¿-2¿©22+2E++EEC2EECEEEEEEEEEEEEEErkrrrkerrreee 21</small> 2.2.2. Tiền xử lý dữ liệu...--- 5c 5<+2kcEkeEEE 2E errrkerre 22

2.3. Đặc điểm của mẫu nghiên cứu...---2- 2© +£+E++£x+£xerxezxerrxerxerree 23

2.3.1. Thống kê mô tả...--- 2-5252 S SE 211211211215 1111 11111. xe. 23 2.3.2. Tần suất từ trong đánh giá...---:- 25s SE cEerkerkerkerkerkrree 25 <small>2.3.3. Dam may tir ngữ...- nh HH HH HH HH gà 26</small> 2.4. Kết quả nghiên cứu...----¿- 2 2 +E£SE£EEeEEEEESEEEE12E12171 712121. cre. 28 2.5. Một số giải pháp đề xuất...---2225c 5c22S 22x 222tr 35

KẾT LUẬN...--- 22-52 5< SE E2112E127121121121121121211 2111111111111 11x xerre. 36 DANH MỤC TÀI LIEU THAM KHẢO...---cccc++z222222222522ccerrrrrr 37

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

DANH MỤC HÌNH VE

Hình 1-1: Khối lượng tính tốn khi khơng sử dung LDA...--- 12

Hình 1-2: Khối lượng tính tốn sau khi sử dung LDA...---5-=5+ 12 <small>Hình 1-3: Quá trình simh ... --- - - - Q2 1 222111122 1n vn ng kg nen 14</small> Hình 1-4: Kết quả của mơ hình LDA...- 2-2 5 SS£££+E££E££Ee£xerxerszxez 17 Hình 2-1: Ví dụ về đánh giá sản phẩm áo phơng nam ...--- 5+21 <small>Hình 2-2: Mã HTML của đánh giá... ccceccceeeseeesscseeeseesseeesseseesseenseenes 22</small> Hình 2-3: Biểu đồ Histogram biểu diễn mật độ phân bố của giá bán... 24

Hình 2-4: Đồ thị Histogram biểu diễn mật độ từ được sử dụng trong đánh giá <small>¬—... 25</small>

<small>Hình 2-5: Đám mây từ ngữ đánh giá chung của khách hàng ...- 26</small>

<small>Hình 2-6: Đám mây từ ngữ đánh giá 4-5 sao của khách hàng...- 27</small>

<small>Hình 2-7: Dam mây từ ngữ đánh giá 1-2 sao của khách hàng...- 27</small>

Hình 2-8: Chọn k tốt nhất đánh giá chung mơ hình LDA ... 30

<small>Hình 2-9: Chọn k tốt nhất đánh giá từ 4-5 sao mơ hình LDA ... 31</small>

<small>Hình 2-10: Chọn k tốt nhất đánh giá từ 1-2 sao mơ hình LDA ... 31</small>

<small>Hình 2-11: Bảng phân phối hệ số B hỗ trợ lựa chọn tên chủ đề (chung) ... 32</small>

Hình 2-12: Bảng phân phối hệ số hỗ trợ lựa chọn tên chủ đề (4-5 sao) ... 33

Hình 2-13: Bảng phân phối hệ số hỗ trợ lựa chọn tên chủ đề (1-2 sao) ... 33

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

DANH MỤC BẢNG

Bảng 2-1: Thông tin cơ bản về đánh giá của tất cả các sản phẩm áo phông nam

<small>—... 24</small>

Bảng 2-2: Tần số và tần suất số sao của khách hàng đã đánh giá cho mỗi sản

phẩm áo phông naim...-- 2-2 52+ 2+EE£EE£EE2EE2E1EE171121121171712 111121 xe. 25

Bang 2-3: Tổng quan phân tích đánh giá của khách hàng...--- 28

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

PHAN MỞ DAU

1. Ly do chon dé tai

Trong những năm trở lại đây, do sự phát triển lớn mạnh của cơng nghệ thơng tin, bên cạnh đó là những bước chuyên biến về nhu cầu mua săm của người dân Việt Nam do ảnh hưởng của đại dịch Covid 19, mọi người đã dần quen thuộc với việc mua

sắm online thông qua các san thương mại điện tử như Shopee, Lazada, Tiki. Nhưng

đối với các nước phát triển khác trên thế giới như Mỹ hay các nước Châu Âu, việc

mua sắm online qua các sàn thương mại điện tử có mặt từ khá sớm, có thé ké đến các

<small>sản thương mại điện tử lớn như Amazon, Ebay, Alibaba...</small>

Việc mua sắm online trên các sàn thương mại điện tử mang lại rất nhiều những lợi ích về mặt thời gian, địa điểm và khách hàng có thêm nhiều những lựa chọn

về cùng một loại sản phẩm. Nhưng do có q nhiều sự lựa chọn, nên trong q trình

quyết định mua hàng, khách hàng phải đối mặt với nhiều yếu tố khác nhau, trong đó, đánh giá của người tiêu dùng khác về sản phẩm đóng một vai trị rất quan trọng. Việc đánh giá sản phẩm được xem là một nguồn tham khảo khách quan và đáng tin cậy, mang lại giá trị quan trọng cho quyết định mua hàng của khách hàng. Hơn nữa, tác động của những đánh giá này lên hành vi và quyết định của khách hàng rất rõ ràng và có tính chất định hướng.

Đánh giá sản phẩm cũng giúp cho doanh nghiệp có thé năm được được chat lượng sản phẩm của mình và điều chỉnh một cách hợp lý. Nói cách khác, đánh giá

của người tiêu dùng đã sử dụng sản phẩm, dịch vụ, không chỉ hỗ trợ cho khách hàng

ra quyết định mua hàng một cách dé dàng hơn, mà cịn giúp cho doanh nghiệp, người bán hàng có thé hiểu được những yếu điểm của sản phẩm và đưa ra các điều chỉnh phù hợp đề nâng cao chất lượng sản phẩm và dịch vụ.

Việc tập trung phát triển chất lượng và dịch vụ sản phẩm cũng vô cùng quan trọng vì ngồi việc sẽ góp phần giúp tăng lượng khách hàng mới, cịn có thể có thêm những khách hàng trung thành, họ sẽ mua sản phẩm nhiều lần, cũng như giới thiệu nó tới với bạn bè, gia đình, từ đó có thể mở rộng các tệp khách hàng khác nhau.

<small>Do đó, việc phân tích các đánh giá và bình luận của khách hàng là vơ cùng</small> cần thiết trong quá trình kinh doanh của doanh nghiệp và người bán hàng. Để có thê

làm được điều đó, có rất nhiều phương pháp, cơng cụ khác nhau được ra đời, nhưng

phô biến nhất là phương pháp khai thác dữ liệu văn bản. Có một số nghiên cứu đã sử

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

dụng phương pháp khai thác dữ liệu văn bản dé phân tích các đánh giá, bình luận của <small>khách hàng đã mua sản phẩm áo phông nam trên các san thương mại điện tử. Có thé</small>

kế đến nghiên cứu của Donghyeon Lee và cộng sự (2017) đã phân tích cảm xúc của khách hàng đối với các sản phẩm áo phông nam trên Amazon.com. Kết quả cho thay rằng khách hàng quan tâm đến chất lượng vải, độ bền và thiết kế của áo phông. Nghiên

cứu này cung cấp thơng tin hữu ích cho các nhà sản xuất và nhà bán lẻ về những yếu tố quan trọng trong việc thiết kế sản pham áo phông cho nam giới. Tiếp đó, Hui-Chun Hsu và cộng sự (2016) đã sử dụng phương pháp khai thác dit liệu văn bản dé xác định những từ và cụm từ có ảnh hưởng đến doanh số bán hàng của sản phẩm áo phông nam trên Amazon.com. Kết quả cho thấy rằng những từ như "chất lượng tốt", "giá cả

hợp lý" và "thiết kế đẹp" có ảnh hưởng tích cực đến doanh số bán hàng. Cuối cùng,

Chih-Hsuan Huang (2016) đã phân tích ý kiến của khách hàng về các tính năng của sản phẩm áo phông trên các sàn thương mại điện tử. Kết quả cho thấy răng khách hàng quan tâm đến chất lượng vải, độ bên, thoải mái khi mặc và mức độ phù hợp với giá tiền. Mặc dù vậy, các nghiên cứu này không chỉ rõ ra được rằng những khách hàng đánh giá 4-5 sao và 1-2 sao sẽ thường nhắc tới những chủ đề gì.

<small>Bên cạnh đó, các sàn thương mại điện tử lớn như Amazon, Ebay hay Alibaba</small>

cũng đã được rất nhiều những bài nghiên cứu trước đó phân tích. Vì vậy, bài nghiên cứu chọn một sàn thương mại điện tử có ti đời trẻ nhưng không kém phần tiềm

năng, va Etsy là một sự lựa chon hấp dẫn.

Do vậy, đề tài: “Phân tích đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên sàn thương mại điện tử Etsy bằng phương pháp khai thác dữ liệu văn bản” sẽ sử dụng phương pháp LDA đề phân tích những đánh giá của khách hàng đã mua sản phẩm áo phông nam trên san thương mại điện tử Etsy <small>thông qua các đánh giá 4-5 sao và 1-2 sao.</small>

<small>2. Mục tiêu nghiên cứu</small>

Mục tiêu nghiên cứu của đề tài là phân tích những đánh giá và bình luận của khách hàng nhằm tìm ra được những chủ đề mà khách hàng nhắc tới nhiều liên quan đến sản phẩm áo phông nam trên sàn thương mại điện tử Etsy. Từ đó đề xuất các giải pháp cải thiện đối với sản phẩm áo phông nam trên sàn thương mại điện tử Etsy dựa trên kết quả phân tích và khai thác dữ liệu văn bản.

<small>3. Đơi tượng và phạm vỉ nghiên cứu</small>

- Đối tượng nghiên cứu: Đánh giá và bình luận của khách hang về sản pham

<small>áo phông nam trên sàn thương mại điện tử Etsy.</small>

<small>2</small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<small>- Pham vi nghiên cứu:</small>

<small>e _ Pham vi không gian: Sàn thương mại điện tử Etsy.e _ Pham vi thời gian: Tháng 3 năm 2023.</small>

<small>° Phạm vi nội dung: Việc nghiên cứu thực hiện với kỹ thuật khai thác dữ</small>

liệu văn bản, dựa trên những đánh giá và bình của khách hàng về sản phẩm áo phơng nam thu được trên san.

<small>4. Phương pháp nghiên cứu</small>

4.1. Phương pháp tổng quan nghiên cứu

Tham khảo các bài nghiên cứu học thuật, bài báo và tổng quan của các bài nghiên cứu trong và ngoài nước, cơ sở lý thuyết cho các phương pháp áp dụng trong

<small>4.2. Phương pháp thu thập dữ liệu</small>

Dữ liệu cho chuyên dé này được thu thập từ trang web của Etsy, cụ thé là

ngách sản phâm áo phông dành cho nam giới “Men’s T-shirt”:

<small>Chi những khách hang đã từng mua sản phẩm trên sàn thương mại điện tử</small> Etsy mới có thể đăng đánh giá lên trang sản phẩm. Do đó, các đánh giá có tính xác <small>thực và khách quan.</small>

<small>4.3. Phương pháp khai thác dữ liệu</small>

Nghiên cứu sử dụng phương pháp phân bổ Dirichlet tiềm ân (LDA - Latent

<small>Dirichlet Allocation) là một kỹ thuật khai thác văn bản va là một trong những lớp mơ</small>

hình được sử dụng nhiều nhất trong bài toán phân loại chủ dé tiềm ấn. Bên cạnh đó,

LDA cịn được sử dụng dé khám phá các chủ dé hay được nhắc tới của khách hàng

dựa trên những đánh giá, bình luận. LDA cung cấp một cách tiếp cận khách quan hơn dé phân tích các bài đánh giá bằng chữ vì các đặc điểm toán học của phương pháp

5. Kết cấu của dé tai

Ngoài lời mở đầu và kết luận, chuyên đề gồm 2 chương:

- CHUONG 1: Co sở ly thuyết và phương pháp khai thác đữ liệu van bản.

<small>- CHUONG 2: Vận dung phương pháp khai thác dữ liệu văn ban nghiên cứu</small>

đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên

<small>sản thương mại điện tử Etsy.</small>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

CHƯƠNG 1: CƠ SỞ LÝ THUYÉT VÀ PHƯƠNG PHÁP KHAI

THAC DU LIEU VAN BAN

1.1. Tổng quan về san thương mại điện tử

<small>I1.I.1. Dinh nghĩa</small>

Theo công ty cung cấp dịch vụ sàn thương mại điện tử Shopify, sàn thương

mại điện tử (electronic commerce platform hoặc e-commerce platform) là một nền

tảng trực tuyến cho phép các doanh nghiệp, nhà bán lẻ và người bán hàng cá nhân có thể quảng cáo, bán và giao dịch sản phẩm và dịch vụ với khách hàng trên internet. San thương mại điện tử cung cấp một nền tang dé các doanh nghiệp và người bán hàng có thé tạo và quản lý cửa hàng trực tuyến của mình, đăng tai thông tin về sản phẩm, quản lý đơn hàng và thanh tốn trực tuyến. Bên cạnh đó, sản thương mại điện tử cũng cung cấp cho khách hàng một nơi đề tìm kiếm và mua các sản phẩm và dịch

vu trực tuyến.

<small>1.1.2. Phan loại sàn thương mại điện tử</small>

Theo công ty cung cấp dịch vụ sàn thương mại điện tử Shopify, sàn thương mại điện tử được phân thành bốn loại: B2C (từ doanh nghiệp đến khách hàng), B2B

(từ doanh nghiệp đến doanh nghiệp), C2B (từ khách hàng đến doanh nghiệp) và C2C (từ khách hàng đến khách hàng).

- B2C: Day là một trong những hình thức thương mại điện tử phơ biến nhất, trong đó doanh nghiệp bán hàng cho người tiêu dùng trực tuyến. Trong quá trình mua sắm trực tuyến, người tiêu dùng có thé dé dang so sánh giá cả và

đọc nhận xét của những người dùng khác trước khi quyết định mua hàng. Đối

với doanh nghiệp, việc bán hàng trực tuyến giúp họ có thé hiểu rõ hơn về khách hàng của mình và tăng tính cá nhân hóa trong việc cung cấp sản phẩm

<small>và dịch vụ.</small>

- B2B: Thương mại điện tử B2B xảy ra khi một công ty ban sản pham cho một công ty khác trên mạng. Những giao dịch này bao gồm mua sắm bán bn, trong đó cơng ty mua hàng có kế hoạch bán lại với lợi nhuận, cũng như mua sam cho mục đích kinh doanh, chăng hạn như vật tư văn phòng và thiết bị.

- C2B: Khi người tiêu dùng cung cấp sản phẩm hoặc dich vu của ho cho các <small>cơng ty mua hàng, thì đó được gọi là thương mại điện tử C2B. Ví dụ như một</small>

người viết blog có nhiều lượt theo dõi, bán quảng cáo trên blog của họ cho

các công ty quảng cáo. Người viết blog này sử dụng sức ảnh hưởng của mình

<small>4</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

để quảng bá sản phẩm hoặc dịch vụ của các công ty và nhận được tiền hoa <small>hồng trong q trình đó.</small>

<small>- C2C: là loại thương mại điện tử mà các giao dịch được thực hiện giữa các cá</small>

nhân. Đây là một dang thương mại điện tử ngày càng phô biến với sự gia tăng

của các nền tảng trực tuyến như Facebook, Instagram và các trang web

<small>thương mại điện tử như Tiki, Shopee. Trong các giao dich C2C, các cá nhân</small>

có thé mua bán các sản phẩm cũ hoặc mới, từ quần áo đến đồ gia dụng, hoặc thậm chí cả các dịch vụ như dịch vụ thiết kế web hoặc dịch vụ đóng gói.

<small>1.1.3. Mơ hình kinh doanh</small>

Mơ hình kinh doanh của sản thương mại điện tử là một nên tảng trực tuyến giúp kết nối các nhà cung cấp sản phẩm với khách hàng. Các nhà cung cấp có thê đăng tải thơng tin về sản phẩm của mình lên sàn thương mại điện tử và khách hàng <small>có thê tìm kiêm và mua sản phâm trực tuyên thông qua nên tảng này.</small>

San thương mại điện tử thường thu hẹp khoảng cách giữa nhà cung cấp va khách hàng băng cách cung cấp các dịch vụ và tiện ích như thanh tốn trực tuyến,

giao hàng tận nhà, đổi trả hang hóa và hỗ trợ khách hàng.

<small>Một trong những hình thức kinh doanh của sàn thương mại điện tử là thu phí</small>

dịch vu tt các nhà cung cấp. Ngoài ra, sản thương mại điện tử cịn có thé kiếm tiền

<small>từ việc bán quảng cáo hoặc hợp tác với các đôi tác dé tăng doanh sơ bán hàng.</small>

Tóm lại, mơ hình kinh doanh của sàn thương mại điện tử đã thay đôi cách thức mua bán trực tuyến và tạo ra những cơ hội kinh doanh mới cho các doanh nghiệp. 1.14. Uu điểm và thách thức của sàn thương mai điện tử

San thương mại điện tử đã thay đôi cách thức mua bán truyền thống và đang ngày càng trở nên phố biến, cho phép các doanh nghiệp và cá nhân bán hàng và mua sắm thông qua internet. Tuy nhiên, bên cạnh những ưu điểm nổi trội, việc trở nên phổ biến cũng đem lại những thách thức.

Theo san thương mại điện tử Amazon, sàn thương mại điện tử có 10 ưu điểm

- Tiết kiệm chi phí: Các doanh nghiệp có thê tiết kiệm chi phí đáng ké bằng cách hoạt động trên nền tảng thương mại điện tử. Chăng hạn, không cần phải thuê mặt bằng để mở cửa hàng và trang trí cửa hàng, khơng cần phải chỉ tiền

quảng cáo truyền thống như trên các phương tiện truyền thơng như truyền

<small>hình, radio, báo chí, tạp chi.</small>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Dé dàng tiếp cận với khách hàng: Các doanh nghiệp có thé tiếp cận với khách hàng trên tồn cầu thơng qua Internet. Bất ké vị trí địa lý của khách hang là

gi, họ đều có thé truy cập vào trang trên sàn thương mại điện tử của doanh

Tăng doanh số bán hang: San thương mại điện tử giúp doanh nghiệp tăng

doanh số bán hàng bằng cách giới thiệu sản phẩm và địch vụ của họ đến một lượng khách hàng tiềm năng rộng lớn hơn. Ngoài ra, sàn thương mại điện tử cũng cung cấp nhiều cơ hội cho các doanh nghiệp để tăng doanh số bán hàng băng cách giảm giá, khuyến mãi và ưu đãi khác.

<small>Tăng khả năng tương tác với khách hàng: Khách hàng có thé dé dàng tương</small>

tác với doanh nghiệp thông qua các kênh như email, chat trực tuyến và các

mạng xã hội. Điều này giúp tăng cơ hội cho doanh nghiệp dé xây dựng mối quan hệ tốt hơn với khách hàng.

Giảm thiểu sai sót trong quá trình bán hàng: Sàn thương mại điện tử giúp giảm thiểu sai sót trong q trình bán hàng bằng cách tự động hóa quy trình

<small>đặt hàng, thanh tốn và giao hàng.</small>

<small>Dễ dàng quản lý kho hàng: Sàn thương mại điện tử giúp doanh nghiệp quản</small>

lý kho hàng đễ dàng hơn bằng cách đặt mua hàng tồn kho từ các nhà sản xuất và nhà phân phối trực tuyến.

Tăng tính cạnh tranh: Các doanh nghiệp có thé tăng tính cạnh tranh bằng cách

tăng cường chất lượng sản phẩm, cải thiện chất lượng sản phẩm và cung cấp

dich vụ tốt hơn cho khách hàng. San thương mại điện tử cũng cho phép các <small>doanh nghiệp đo lường và theo dõi các hoạt động kinh doanh của mình mộtcách hiệu quả hơn.</small>

<small>Mở rộng thị trường: Sàn thương mại điện tử giúp các doanh nghiệp mở rộng</small>

thị trường bằng cách tiếp cận với khách hàng ở các vùng đất mới và các quốc gia khác. Điều này giúp các doanh nghiệp tăng trưởng và mở rộng phạm vi

<small>hoạt động của mình.</small>

Tiện lợi và linh hoạt: Sàn thương mại điện tử cung cấp cho khách hàng sự tiện lợi và linh hoạt khi mua sắm, họ có thé mua sắm bat cứ lúc nào và bất cứ nơi đâu thông qua các thiết bị di động và máy tính cá nhân.

Giảm thiểu thời gian và chi phí giao hàng: Sàn thương mại điện tử giúp giảm thiểu thời gian và chi phí giao hàng bằng cách tối ưu hóa quy trình giao hàng. Các doanh nghiệp có thê sử dụng các dịch vụ vận chuyền hàng hóa trực tuyến dé vận chuyên hàng hóa đến khách hang của mình một cách nhanh chóng và <small>hiệu quả hơn.</small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Bên cạnh những ưu điểm, theo Suresh Kumar và cộng sự (2015), sản thương mại điện tử cũng đặt ra nhiều thách thức cho các doanh nghiệp và khách hàng. Các

doanh nghiệp phải đối mặt với sự cạnh tranh khốc liệt từ hàng ngàn cửa hàng trực

tuyến khác. Họ cần phải đầu tư thời gian, công sức và tiền bạc để phát triển chiến lược marketing, đảm bảo chất lượng sản phẩm và đáp ứng nhu cầu của khách hàng.

Đối với khách hàng, một số thách thức bao gồm việc đánh giá chất lượng sản phẩm dựa trên thông tin trên mạng, đảm bảo tinh bảo mật và an toàn cho các giao

dịch trực tuyến, cũng như phải đối mặt với các hạn chế về trải nghiệm mua săm trực

tuyến, chăng hạn như khơng được xem sản phẩm trực tiếp hoặc khơng có cơ hội

<small>thương lượng giá cả.</small>

Trong tong thé, san thương mại điện tử là một phần quan trong trong nền kinh tế kỹ thuật số hiện đại. Nó đã thay đổi cách thức mua bán truyền thống và tạo ra

nhiều cơ hội cho các doanh nghiệp và khách hàng. Tuy nhiên, nó cũng đặt ra nhiều thách thức và yêu cầu các doanh nghiệp và khách hàng phải thích nghi với môi trường

kinh doanh trực tuyến ngày càng cạnh tranh và phức tap.

1.2. Đánh giá của khách hàng về các sản phẩm trên sàn thương mại điện tử 1.2.1. Các yếu to được đánh giá của khách hàng

Đánh giá của khách hàng khi mua sản phẩm trên sàn thương mại điện tử có

thể bao gồm nhiều yếu tố khác nhau, bao gồm chất lượng sản phẩm, giá cả, dịch vụ

khách hàng và trải nghiệm mua sắm trực tuyến. 1.2.1.1. Chất lượng sản phẩm

Đánh giá chất lượng sản phâm là một trong những yếu tố quan trọng nhất khi mua hàng trên san thương mại điện tử. Khách hàng có thể đánh giá sản pham dựa trên

mô tả của sản phẩm, ảnh minh họa, kích cỡ, chất liệu và đánh giá của người dùng

khác. Họ có thê đánh giá sản phẩm là tốt, trung bình hoặc kém chất lượng và chia sẻ kinh nghiệm của mình với cộng đồng người dùng.

<small>1.2.1.2. Giá cả</small>

Giá cả là một yếu tố quan trọng khác được đánh giá bởi khách hàng. Họ có thé so sánh giá cả của sản phẩm với các sản phâm tương tự khác trên sàn thương mại

điện tử hoặc ở cửa hàng truyền thống. Họ có thể đánh giá sản phẩm là dat, giá cả hợp

<small>ly hoặc rẻ và chia sẻ với người dùng khác.1.2.1.3. Dịch vụ khách hàng</small>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Dich vụ khách hang là một yếu tố quan trọng khi mua hàng trực tuyến. Khách hàng có thê đánh giá dịch vụ khách hàng dựa trên thời gian giao hàng, phản hồi của <small>nha bán hàng, dich vụ hậu mãi, chính sách đổi trả, đóng gói sản phẩm và vận chuyền.</small>

Họ có thé đánh giá dịch vụ khách hàng là tốt, trung bình hoặc kém va chia sẻ kinh

<small>nghiệm của mình với những người khác.1.2.1.4. Trải nghiệm mua săm trực tuyên</small>

Trải nghiệm mua sắm trực tuyến là một yếu tố quan trọng khác khi đánh giá sản phẩm trên sàn thương mại điện tử. Khách hàng có thê đánh giá trải nghiệm mua săm trực tuyến dựa trên giao diện của trang web, tính năng tìm kiếm, thao tác đặt <small>hàng, thanh toán và đăng nhập tài khoản.</small>

<small>1.2.1.5. Đánh gia khác</small>

Khách hàng khi mua sản phẩm trên sàn thương mại điện tử có thể xem xét những đánh giá, bình luận của người dùng khác để có thêm thông tin đánh giá sản pham. Những nhận xét này có thé giúp họ có quyết định mua sản phẩm chính xác

Tóm lại, đánh giá của khách hàng về sản phẩm trên sàn thương mại điện tử là một nguồn thơng tin quan trọng giúp người dùng có thêm thơng tin dé có thé đánh giá sản phẩm trước khi quyết định mua hàng. Bên cạnh đó, nó cũng giúp các nhà sản xuất, nhà bán lẻ và sàn thương mại điện tử hiéu được nhu cầu của khách hàng, từ đó cải thiện sản phẩm, dịch vụ và trải nghiệm mua sắm dé đáp ứng yêu cầu của khách hàng tốt hơn.

12.2. Một số cách thức đánh giá của khách hàng trên sàn thương mại điện tử

Dé có thé hiện thực hoá các yếu tố được đánh giá về chất lượng sản phẩm và <small>dịch vụ, khách hàng thường sử dụng các cách thức đánh giá khác nhau trên sàn thươngmại điện tử.</small>

1.2.2.1. Đánh giá bằng số sao

Đây là phương thức đánh giá phô biến nhất trên các san thương mại điện tử, trong đó khách hàng đánh giá sản phâm bằng số sao từ 1 đến 5 hoặc 10 tùy vào nền tảng. Số sao càng cao thì sản phẩm được đánh giá càng tốt.

1.2.2.2. Đánh giá bằng bình luận

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Khách hàng có thể để lại bình luận về sản phẩm mà họ đã mua, bao gồm <small>những ấn tượng, nhận xét, hoặc lời khuyên cho những người khác muốn mua sảnphẩm đó.</small>

1.2.2.3. Đánh giá bằng hình ảnh

Một số sàn thương mại điện tử cho phép khách hàng tải lên hình ảnh về sản

phẩm đã mua và gắn kèm bình luận hoặc đánh giá của minh.

1.2.2.4. Đánh giá chỉ tiết

Ngoài việc đánh giá tổng quan, khách hàng cịn có thê đánh giá chỉ tiết về từng tính năng hoặc khía cạnh của sản phẩm.

Bên cạnh đó, việc kết hợp các cách thức đánh giá sản phẩm là hồn tồn khả <small>thi và có lợi, tùy thuộc vào mục đích và người sử dụng sẽ có sự lựa chọn phù hợp.</small> Việc kết hợp nhiều cách thức đánh giá cịn giúp cho khách hàng có được cái nhìn tồn

diện hơn về sản phâm và có thé giúp họ đưa ra quyết định mua hàng tốt hơn.

Tóm lại, đánh giá của khách hàng về các sản phẩm trên sàn thương mại điện tử đang trở thành một nguồn dit liệu quan trọng dé các doanh nghiệp đánh giá chất lượng sản phẩm và dịch vụ của mình. Có thê thấy, đa phần các đánh giá sẽ được thể hiện dưới hình thức là một văn bản và dé có thé khai thác được thơng tin từ các đánh giá này, vì vậy, phương pháp khai thác dữ liệu văn bản là cần thiết. Trong phan tiếp theo, bài nghiên cứu sẽ đi vào chỉ tiết về các phương pháp khai thác đữ liệu văn bản dé trích xuất thơng tin từ các đánh giá và bình luận của khách hàng trên sàn thương

<small>mại điện tử.</small>

<small>1.3. Phương pháp khai thác dữ liệu văn bản1.3.1. Khái niệm dữ liệu văn ban</small>

<small>Theo Manning và cộng sự (2008), dữ liệu văn ban là các tài liệu hoặc đoạn</small>

văn bản được viết hoặc ghi lại trong các tài liệu khác nhau, bao gồm sách, báo, tài liệu kỹ thuật, email, tin nhắn văn bản, văn bản web và nhiều loại khác. Do đó, phương pháp thu thập dữ liệu văn bản có thé bao gồm thu thập trực tiếp từ các nguồn như

sách, báo, tài liệu kỹ thuật và trang web, hoặc từ các nguồn gián tiếp như email, tin nhắn văn bản và mạng xã hội. Các phương pháp thu thập dữ liệu văn bản khác bao

gồm trích xuất từ các nguồn dit liệu tổng hợp như Wikipedia hoặc các kho dữ liệu của chính phủ, và thu thập đữ liệu định kỳ từ các nguồn như báo cáo tài chính hoặc

<small>báo cáo hàng quý.</small>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Theo Alpaydin (2010), ưu điểm của dit liệu văn bản bao gồm tính phố biến và dễ dàng truy cập, do dữ liệu văn bản được sử dụng rộng rãi trong nhiều lĩnh vực

và có thé thu thập từ nhiều nguồn khác nhau. Bên cạnh đó, dữ liệu văn bản cũng cho

phép phân tích nội dung và tìm kiếm thơng tin nhanh chóng, đặc biệt là trong mơi

trường số hóa. Tuy nhiên, đữ liệu văn bản cũng có nhược điểm, đó là tính chủ quan

của ngôn ngữ và việc xử lý dữ liệu văn bản có thê rất phức tạp.

13.2. Khai thác dữ liệu văn bản bằng phương pháp Phân bố Dirichlet tiềm an

<small>Có những phương pháp khai thác dữ liệu văn bản khác nhau như phương</small>

pháp tần suất-nghịch đảo tần suất văn bản (Term Frequency-Inverse Document Frequency - TF-IDF), phân tích ngữ nghĩa tiềm an (Latent Semantic Analysis - LSA)

và phân tích ngữ nghĩa tiềm ẩn dựa trên xác suất (Probabilistic Latent Semantic Analysis - pLSA). Những phương pháp này đều được sử dụng rộng rãi trong lĩnh vực

khai thác dữ liệu văn bản và cung cấp các thơng tin hữu ích về tần suất xuất hiện của

<small>từ trong văn bản, câu trúc của văn bản và quan hệ giữa các từ.</small>

Phương pháp TF-IDF đo lường tan số xuất hiện của từ trong một văn bản va đánh giá mức độ quan trọng của từ đó bằng cách tính tốn trọng số của từ trong tài liệu đó. Đây là phương pháp đơn giản và nhanh nhất trong các phương pháp khai thác dữ liệu văn bản, nhưng không xử lý được sự tương đồng ngữ nghĩa giữa các từ.

Phương pháp LSA phân tích ma trận khơng âm dé giảm chiều dữ liệu và tìm ra các khn mẫu 4n (latent patterns) trong dit liệu văn ban. LSA giúp giảm chiều dữ liệu và tìm ra các khn mẫu ẩn trong dữ liệu văn bản, nhưng không hiệu quả khi xử

<small>lý các văn bản dài và không xử lý được sự phức tạp trong các dit liệu văn ban.</small>

Phương pháp pLSA phân tích ma trận khơng âm dựa trên mơ hình xác suất

dé tìm ra các khn mẫu ân trong dit liệu văn bản. pLSA cải thiện việc xử lý sự phức

<small>tạp trong các dữ liệu văn bản so với LSA, nhưng cũng không xử lý được sự tương</small> đồng ngữ nghĩa giữa các từ.

Những phương pháp đã nêu ở trên tuy được ứng dụng rộng rãi nhưng đều có nhược điểm riêng. Phương pháp TF-IDF chỉ tập trung vào tần số xuất hiện của các từ

mà không xem xét về mối quan hệ giữa chúng trong văn bản. Phương pháp LSA và pLSA lại có hạn chế khi xử lý những văn bản dài và phức tạp, cũng như không thể xác định được số lượng chủ đề một cách tự động. Trong bối cảnh đó, phương pháp Phân bồ Dirichlet tiềm ấn (Latent Dirichlet Allocation - LDA) ra đời dé khắc phục những nhược điểm này và đưa ra kết quả tốt hơn trong khai thác đữ liệu văn bản.

<small>10</small>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

1.3.2.1 Khái niệm và ưu nhược điểm của phương pháp Latent Dirichlet Allocation Như đã dé cập ở trên, LDA là phương pháp ra đời dé khắc phục những nhược

điểm của những phương pháp trước đó do có tính linh hoạt cao nhất và phơ biến nhất

trong khai thác dữ liệu văn bản vì nó cho phép phát hiện các chủ đề khác nhau trong các tập văn bản và tính tốn xác suất cho từng từ được sử dụng trong một chủ đề cụ <small>thê.</small>

Đầu tiên, LDA là một phương pháp khai thác văn bản dựa trên mơ hình xác suất thống kê dé tìm ra các chủ đề tiềm ấn trong một tập hợp văn bản. Day là một trong những phương pháp phô biến nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên và <small>phân tích dữ liệu văn bản.</small>

<small>Model LDA là lớp mơ hình sinh (generative model) cho phép xác định một</small>

tợp hợp các chủ đề tưởng tượng (imaginary topics) mà mỗi chủ đề sẽ được biểu diễn bởi tập hợp các từ. Mục tiêu của LDA là kết nối toàn bộ các văn bản sang các chủ đề tương ứng sao cho các từ trong mỗi một văn bản sẽ thể hiện những chủ đề tưởng

tượng ay.

Về ưu điểm, phương pháp LDA giúp giảm thiểu khối lượng tinh toán bằng cách tìm ra các chủ đề ấn trong tập dữ liệu văn bản một cách tự động, giúp người

dùng dé dàng phân tích, tóm tắt và hiểu được nội dung của dữ liệu. Các ứng dụng của LDA rất đa dạng, từ phân tích dữ liệu văn bản, tóm tắt đữ liệu, phân loại văn bản, tìm kiếm thơng tin đến phân tích dữ liệu xã hội.

Trong hình minh hoạ dưới, một ví dụ được đưa ra rằng giả sử có 2000 từ ngữ và có 1000 tài liệu. Dé tìm ra các chủ dé theo cách cũ bằng cách nghiên cứu tan số

xuất hiện thơng thường để tìm ra các văn bản có liên quan đến nhau vì dùng chung các tập hợp từ tương tự, do đó có thê tìm ra các chủ đề tương ứng. Tuy nhiên để làm

như vậy thì phải cần nghiên cứu đến 2.000.000 cặp (=2000x1000) văn bản và từ ngữ <small>tương ứng. Điêu này tạo ra lượng cơng việc cân tính tốn rât lớn.</small>

<small>11</small>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Hình 1-1: Khối lượng tính tốn khi không sử dụng LDA

Nhưng với LDA, bằng cách tạo các chủ đề tiềm ẩn, khối lượng tính tốn đã

được giải quyết. Với các đoạn văn bản trên, ba chủ đề tiềm ấn đã được tạo như hình

dưới là Animals, Sports và Tech dé giảm số lượng cặp văn bản và cặp từ can xem xét. Số lượng kết hợp mà chúng ta phải xem xét bây giờ chỉ là 9000 cặp (2000x3 +

10003) ít hơn nhiều so với kết qua ban đầu.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Những chủ đề nay có tính ấn tức chúng là trừu tượng và khơng thé định nghĩa chính xác. Mục đích chính của việc sử dụng các chủ đề tiềm ân làm trung gian là

giảm số lượng các kết nối giữa từ ngữ với các văn bản và do đó giảm chỉ phí tính tốn. Sau khi kết nối các từ với chủ đề mà chúng thuộc về, chúng sẽ tiếp tục được kết nối đến các văn bản thông qua các chủ đề tương ứng. Dựa trên các loại chủ đề mà

mỗi văn bản chứa dé xác định phân bố xác suất của văn bản theo các từ ngữ chứa

<small>trong nó.</small>

Tuy nhiên, phương pháp LDA cũng tồn tại một số nhược điểm. Đầu tiên,

phương pháp này dễ bị ảnh hưởng bởi độ dài của văn bản bởi dựa trên sự xuất hiện của các từ dé phân tích và xác định các chủ đề trong văn bản. Tuy nhiên, độ dài của

văn bản có thê ảnh hưởng đến kết quả phân tích của LDA. Nếu văn bản q ngắn, có thể khơng đủ thơng tin để xác định được các chủ đề và nếu văn bản quá dài, có thể dẫn đến một lượng lớn các từ không liên quan được đưa vào phân tích, gây ảnh hưởng tiêu cực đến độ chính xác của phương pháp.

Bên cạnh đó, LDA là một phương pháp khơng giám sát, điều này có nghĩa là

số lượng chủ đề cần xác định trước khi phân tích dữ liệu. Tuy nhiên, việc xác định số

lượng chủ đề là một vấn đề khó khăn và phải dựa trên kiến thức chuyên môn hoặc thử và sai. Nếu số lượng chủ đề được xác định khơng chính xác, kết quả phân tích của LDA có thê khơng chính xác.

Đề phân tích dữ liệu, LDA sử dụng một bộ từ điển chứa các từ trong tập dữ liệu. Độ chính xác của phương pháp LDA phụ thuộc vào độ chính xác của bộ từ điển

được sử dụng. Nếu bộ từ điển không đủ lớn hoặc khơng chính xác, kết quả phân tích

của LDA có thé bị ảnh hưởng tiêu cực.

Cuối cùng, Phương pháp này có thé làm việc với các tập dữ liệu lớn, tuy nhiên, điều này đòi hỏi thời gian tính tốn lớn và tài ngun tính tốn. Do đó có thé

làm giảm tính ứng dụng của phương pháp trong một số trường hợp. 1.3.2.2. Lý thuyết về mơ hình Latent Dirichlet Allocation

Mơ hình LDA sẽ bắt đầu với một số định nghĩa và ký hiệu có liên quan:

Từ ngữ (word hoặc term): Là một thành phần cơ bản trong mơ hình LDA, một từ được xác định bằng chỉ mục (index) có giá tri từ 1,2,...,V. Từ ngữ thứ i được mã hóa one-hot đưới dang véc tơ w: € RY (phan tử thứ i bằng 1, phần tử còn lại bằng 0) mỗi từ trong từ điển được mã hố thành một vector có độ dai bằng với sé lượng từ trong từ điển. Các phần tử trong vector này đều bằng 0, trừ duy nhất phần tử ứng

với từ đó, được gan giá trị bằng 1).

<small>13</small>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<small>Văn ban (document): w = (Wi,w›,.... ,WN) đại diện cho một văn bản có N từ</small>

ngữ tương ứng (các từ ngữ này được biểu diễn dưới dang vector).

<small>Tập văn ban (corpus): D = W1,W2,...,;wm là tập của M văn ban</small>

Chủ dé tiềm ẩn (latent topic): Day là những chủ đề an được xác định bởi phân bố của các từ trong văn bản và làm trung gian cho việc trình bay các văn bản

dựa trên chủ đề. Số lượng chủ đề được xác định trước ký hiệu là K . Các chủ đề tiềm an được xác định trong mơ hình sẽ được xem là chủ dé cần tìm (nhắc đến trong đối

<small>tượng nghiên cứu)</small>

<small>Mơ hình LDA thuộc loại mơ hình sinh xác st. Y tưởng cơ bản của mơ hình</small>

<small>này là mỗi tài liệu được thể hiện bằng một hỗn hợp ngẫu nhiên của các chủ đề tiềm</small>

<small>ân, môi chủ đê được xác định bởi sự phân bơ của các nhóm từ.</small>

<small>Q trình sinh:</small>

Nguồn: Phamdinhkhanh (2019)

<small>Hình 1-3: Q trình sinh</small>

<small>Trong đó:</small>

e _ơ đại diện cho tham số phân phối tiên nghiệm Dirichlet cho chủ dé trong

văn bản. Tham số này giúp điều chỉnh mức độ ảnh hưởng của chủ đề đến từng văn bản trong quá trình huấn luyện mơ hình.

e _ B đại diện cho tham số phân phối tiên nghiệm Dirichlet cho chủ đề đối <small>với mỗi từ ngữ. Tham số này giúp điều chỉnh mức độ ảnh hưởng của từ</small>

ngữ đến các chủ đề trong q trình huấn luyện mơ hình.

e 0; là phân phối của chủ đề đối với văn bản thứ i. Tham số này thé hiện <small>xác suat của từng chu đê trong văn ban 1.</small>

<small>14</small>

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

e @x là phân phối của từ ngữ đối với chủ đề thứ k. Tham số này thê hiện

xác suất của từng từ trong chủ đề k.

e — z¡ là chủ đề của từ thứ j trong văn bản i. Là một số nguyên có giá tri trong khoảng [1,K]. Biến số này xác định chủ đề của từng từ trong mỗi

<small>văn bản.</small>

e _ wi là chỉ mục của từ thứ ¡ thuộc văn bản thứ j. Giá trị là một số nguyên trong khoảng [1,V]. Biến số này đại điện cho chỉ số của từ trong bộ từ

Đồ thị trên minh họa về q trình sinh trong LDA, trong đó các quy trình lặp

đi lặp lại được biéu diễn bang các hình chữ nhật. Kết quả là, LDA có hai q trình

lặp đi lặp lại liên tục: việc chọn chủ đề và chọn từ. Các tham số cho quá trình khởi tạo là œ và B. Từ đó tính tốn được phân phối hỗn hợp của chủ dé 0 và phân phối của

các từ theo chủ đề ọ.

Trong mơ hình LDA ngoại trừ các từ ngữ wi; là quan sát được thì các biến cịn lại đều là các yếu tố ân tạo ra từ mơ hình từ các phân phối tiên nghiệm. Quan trọng nhất là phân phối Dirichlet dùng dé mơ hình hóa các chủ dé-tir (topic-word). Người phân tích mong muốn kết quả là phân phối của một chủ đề có hình dáng nhọn,

đi mỏng để xác suất tập trung lớn vào một điểm phục vụ việc suy luận ý nghĩ của chủ đề đó. Số lượng chủ dé kí hiệu là K và g1,. . . ,ox là các véc tơ V chiều lưu giá trị

của phân phối Dirichlet của chủ đề theo các từ.

Chúng ta cũng có thé coi rằng 0 và @ tương tự như các giá trị được tạo ra bang phân tích suy biến trong LSA. Các dong và cột của 0 tương ứng với văn bản va

chủ đề. Các dòng và cột của @ tương ứng với các chủ dé và các từ ngữ. Dé suy luận và đảo ngược các chủ đề từ tập văn bản, chúng ta sẽ tạo một quy trình sinh tưởng

tượng trong đó các văn bản được tạo ra theo một cơ chế có thể suy luận từ quy trình này. Quy trình đó như sau: “Phân phối xác suất của văn bản được tạo ra dưới dạng

trộn lẫn ngẫu nhiên các chủ đề, trong đó mỗi chủ đề được xác lập bởi phân phối trên

toàn bộ các từ". Cụ thé với bộ văn bản D gồm M văn bản, LDA giả định một quy

<small>trình sinh như sau:</small>

<small>1. Mỗi một văn bản lựa chọn độ dài tương ứng là N bằng phân phối Poisson</small>

<small>với tham sô là Š.</small>

2. Với tham số 0; chính là phân phối chủ dé của văn bản thứ i, lựa chon ơ sao cho @ bằng phân phối Dirichlet với tham số là œ phù hợp.

<small>15</small>

</div>

×