Tải bản đầy đủ (.pdf) (5 trang)

Xây dựng hệ tóm tắt ý kiến về sản phẩm từ nhiều người dùng cho văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (206.62 KB, 5 trang )

Xây dựng hệ tóm tắt ý kiến về sản phẩm từ
nhiều người dùng cho văn bản tiếng Việt

Trần Thị Hải Yến

Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: TS Nguyễn Lê Minh
Năm bảo vệ: 2011

Abstract: Chương 1: “Giới thiệu bài toán tóm tắt văn bản” tóm tắt một số các ứng
dụng của tóm tắt văn bản, phát biểu bài toán tóm tắt ý kiến về sản phẩm từ nhiều
người dùng. Chương 2: “Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử
dụng trong quá trình tóm tắt. Chương 3: “Sử dụng kỹ thuật tóm tắt đa văn bản cho bài
toán tóm tắt” sẽ đi sâu vào phương pháp tóm tắt cụ thể để giải quyết bài toán chính
của luận văn. Chương 4: “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm
của luận văn và các kết quả đạt được trong quá trình thử nghiệm. Đồng thời cũng đưa
ra các phân tích và đánh giá về kết quả đạt được.

Keywords: Xử lý văn bản; Tiếng Việt; Hệ tóm tắt ý kiến; Công nghệ thông tin

Content
Với việc phát triển nhanh chóng của thương mại điện tử, ngày càng có nhiều các sản
phẩm được rao bán trên mạng và cũng ngày càng nhiều người mua sản phẩm trực tuyến. Để
tăng cường sự hài lòng của khách hàng và kinh nghiệm mua sắm, một thực tế phổ biến cho
các nhà kinh doanh trực tuyến là cho phép khách hàng của họ có thể đánh giá hoặc phát biểu
ý kiến về các sản phẩm mà họ đã mua. Với việc ngày càng nhiều người dùng sử dụng mua
bán trực tuyến thì số lượng người đánh giá về sản phẩm ngày càng tăng lên. Kết quả là, số
lượng ý kiến mà một sản phẩm nhận được tăng lên nhanh chóng. Hơn nữa, rất nhiều ý kiến
đánh giá là dài nhưng chỉ có một vài câu có nội dung về đánh giá sản phẩm. Điều này thực sự
khó khăn cho một khách hàng tiềm năng có thể đọc chúng để thực hiện một quyết định đúng


đắn về việc có nên mua sản phẩm hay không. Nếu anh/cô ấy chỉ đọc một vài ý kiến thì có thể
nhận được một cái nhìn không đúng đắn về sản phẩm. Số lượng lớn các ý kiến cũng gây ra
khó khăn cho các nhà sản xuất để theo dõi ý kiến khách hàng đối với các sản phẩm của họ.
Đối với một nhà sản xuất, đó là những khó khăn truyền thống vì rất nhiều các trang web kinh
doanh có thể bán cùng một sản phẩm và các nhà sản xuất có thể (hầu như) sản xuất rất nhiều
loại sản phẩm.
Bằng cách dựa vào những lợi thế của công nghệ thông tin, các công ty sản xuất có thể
thu thập thông tin khách hàng trong một quy mô lớn để cung cấp chiến lược cũng như hỗ trợ
kỹ thuật cho sản phẩm của họ phục vụ cho việc thiết kế, phát triển sản phẩm và tiếp thị bán
hàng. Khảo sát thống kê là một phương pháp tiếp cận chung được áp dụng rộng rãi để thu
thập thông tin của khách hàng và hành vi của khách hàng. Tuy nhiên, các nghiên cứu trước

2
đây sử dụng thông tin của khách hàng chủ yếu tập trung vào tính toán và phân tích dữ liệu cho
mục đích giới thiệu sản phẩm, cá nhân hoá, và phân tích các nhân tố làm tăng cường lòng
trung thành của khách hàng. Tuy nhiên, dữ liệu văn bản chiếm một phần đáng kể của thông
tin khách hàng đã phần nào bị bỏ qua. Trong khi đó, tính toán và phân tích dữ liệu được cấu
trúc và tổ chức tốt với các ứng dụng cơ sở dữ liệu, điều này làm cho họ xử lý tương đối dễ
dàng. Một vài kỹ thuật được thành lập để phân tích và quản lý những dữ liệu này. Ví dụ: phân
tích xử lý trực tuyến (OLAP) và khai thác dữ liệu. Ngược lại, dữ liệu văn bản viết bằng ngôn
ngữ tự nhiên lại thường được lưu trữ dưới dạng văn bản không có cấu trúc hoặc bán cấu trúc.
Xử lý dữ liệu văn bản yêu cầu không thể thiếu kiến thức từ các lĩnh vực khác nhau như: cơ sở
dữ liệu, truy vấn thông tin, học máy và xử lý ngôn ngữ tự nhiên. Vì vậy, tồn tại một mức độ
khó khăn hơn trong xử lý thông tin văn bản. Tương tự như các dữ liệu số, dữ liệu văn bản
cung cấp thông tin phong phú trong việc thúc đẩy sự thu thập thông tin về kinh doanh cũng
như thông tin về sự cạnh tranh, đặc biệt là với sự phát triển bùng nổ của trang web dựa trên
các ứng dụng kinh doanh
Hiện nay, nhu cầu về kỹ thuật tiên tiến đã tăng lên rất nhiều để giảm thời gian cần thiết
để có được các thông tin và tri thức hữu ích từ tập hợp dữ liệu lớn văn bản như email, bản ghi
nhớ, các trang web và thậm chí cả tin nhắn. Khách hàng là những người được mời hoặc tự

phát tham gia đánh giá bằng văn bản để chia sẻ kinh nghiệm của họ, ý kiến và khuyến nghị
đối với các sản phẩm khác nhau. Một số người tiêu dùng hành động một cách chuyên nghiệp
bằng những phương pháp khác nhau để so sánh các sản phẩm tương tự từ sự khác nhau về
thương hiệu và đưa ra ý kiến ủng hộ hoặc phản đối. Những đánh giá sản phẩm là rất cần thiết
đối với việc thiết kế và sản xuất sản phẩm của nhà sản xuất, nhà sản xuất có thể hiểu rõ hơn
những điều khách hàng quan tâm và cải tiến sản phẩm cho phù hợp. Tuy nhiên, việc xử lý
thông tin quan trọng như vậy không phải là một nhiệm vụ nhỏ. Số lượng đánh giá một cách
trực tiếp của khách hàng có thể phát triển rất nhanh chóng và nó là tốn thời gian để thực sự
đọc qua tất cả chúng bằng “tay”. Làm thế nào để đối phó với các số lượng lớn khách hàng
đánh giá và lựa chọn thông tin hữu ích từ họ đã trở thành một nhiệm vụ quan trọng nhưng đầy
thách thức.
Với thực tế ở trên, luận văn tiến hành nghiên cứu, giải quyết và đề xuất phương pháp
tập hợp mối quan tâm của khách hàng từ việc đánh giá sản phẩm trực tuyến bằng cách sử
dụng tóm tắt văn bản tự động. Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố
trên thế giới về bài toán tóm tắt văn bản tự động. Luận văn cũng tiến hành thử nghiệm tóm tắt
trên một tập các đánh giá về một sản phẩm cụ thể.
Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương:
- Chương 1: “Giới thiệu bài toán tóm tắt văn bản” tóm tắt một số các ứng dụng của tóm tắt
văn bản, phát biểu bài toán tóm tắt ý kiến về sản phẩm từ nhiều người dùng.
- Chương 2: “Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử dụng trong quá
trình tóm tắt.
- Chương 3: “Sử dụng kỹ thuật tóm tắt đa văn bản cho bài toán tóm tắt” sẽ đi sâu vào phương
pháp tóm tắt cụ thể để giải quyết bài toán chính của luận văn.

3
- Chương 4: “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của luận văn và các
kết quả đạt được trong quá trình thử nghiệm. Đồng thời cũng đưa ra các phân tích và đánh giá
về kết quả đạt được.

References

Tiếng Việt
1. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang,
Nguyễn Cẩm Tú (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt
Nam.
Tiếng Anh
2. Agrawal, R. & Srikant, R. 1994. Fast algorithm for mining association rules.
VLDB’94, 1994.
3. Ahonen-Myka, H. (1999). Finding all frequent maximal sequences in text. In
Proceedings of the 16th international conference on machine learningICML-99
workshop on machine learning in text data analysis (pp. 11–17). Ljubljana: J. Stefan
Institute.
4. Barzilay, R., & Elhadad, M. (1997). Using lexical chains for text summarization. In
Proceedings of the ACL’97/ECAL’97 workshop on intelligent scalable text
summarization (pp. 10–17). Madrid, Spain.
5. Bennekom, F. C. V. (2002). Customer surveying: A guidebook for service managers.
Customer Service Press.
6. Boguraev, B., and Kennedy, C. 1997. Salience-Based Content Characterization of
Text Documents. In Proc. Of the ACL'97/EACL'97 Workshop on Intelligent Scalable
Text Summarization.
7. Bourigault, D. 1995. Lexter: A terminology extraction software for knowledge
acquisition from texts. KAW’95.
8. Bruce, R., and Wiebe, J. 2000. Recognizing Subjectivity: A Case Study of Manual
Tagging. Natural Language Engineering.
9. Buttle, F. (2003). Customer relationship management. Butterworth- Heinemann.
10. Carbonell, J., & Goldstein, J. (1998). The use of MMR, diversity-based reranking for
reordering documents and producing summaries. In Proceedings of the 21st annual
international ACM SIGIR conference on research and development in information
retrieval (pp. 335–336). Melbourne, Australia.
11. Cardie, C., Wiebe, J., Wilson, T. and Litman, D. 2003. Combining Low-Level and
Summary Representations of Opinions for Multi-Perspective Question Answering.

2003 AAAI Spring Symposium on New Directions in Question Answering.
12. Choi, F. Y. Y. (2000). Advances in domain independent linear text segmentation. In
Proceedings of the 1st North American chapter of the association for computational
linguistics (pp. 26–33). Seattle, WA.
13. Dave, K., Lawrence, S., & Pennock, D. M. (2003). Mining the peanut gallery:
Opinion extraction and semantic classification of product reviews. In Proceedings of

4
the 12th international conference on World Wide Web (pp. 519–528). Budapest,
Hungary.
14. Edmundson, H. P. (1969). New methods in automatic extracting Journal of the ACM,
16(2), 264–285.
15. Fayyad, U. M., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to
knowledge discovery: An overview. In U. M. Fayyad, G.
16. Fowler, F. J. (1995). Improving survey questions: Design and evaluation. Sage
Publications, Inc
17. Gamon, M., Aue, A., Corston-Oliver, S., & Ringger, E. (2005). Pulse: “Mining
customer opinions from free text. In Proceedings of advances inintelligent data
analysis VI, 6th international symposium on intelligent data analysis IDA 2005”, (pp
121–132). Madrid, Spain.
18. Ganapathy, S., Ranganathan, C., & Sankaranarayanan, B. (2004). Visualization
strategies and tools for enhancing customer relationship management.
Communications of the ACM, 47(11), 92–99.
19. Gong, Y., & Liu, X. (2001). Generic text summarization using relevance measure and
latent semantic analysis. In Proceedings of the 24th annual international ACM SIGIR
conference on research and development in information retrieval (pp. 19–25). New
Orleans, LA.
20. Gustafsson, A., & Gustafsson, N. (1994). Exceeding customer expectations. In
Proceedings of the sixth symposium on quality function deployment (pp 52–57).
21. Han, J., & Kamber, M. (2001). Data mining: Concepts and techniques. San

Francisco, USA: Morgan Kaufman.
22. Hearst, M. A. (1997). TextTiling: Segmenting text into multi-paragraph subtopic
passages. Computational Linguistics, 23(1), 33–64.
23. Hearst, M.A. (1999). Untangling text data mining. In Proceedings of ACL’99, the
37th annual meeting of the association for computational linguistics, invited paper.
University of Maryland.
24. Hovy, E., & Lin, C. Y. (1997). Automated text summarization in SUMMARIST. In
Proceedings of the ACL’97/EACL’97 workshop on intelligent scalable text
summarization (pp. 18–24). Madrid, Spain.

25. Hu, M., & Liu, B. (2004a). “Mining and summarizing customer reviews. In
Proceedings of the 10th ACM SIGKDD international conference on knowledge
discovery and data mining”, (pp 168–177). Seattle, WA.
26. Hu, M., & Liu, B. (2004b). “Mining opinion features in customer reviews. In
Proceedings of the nineteenth national conference on artificial intelligence, sixteenth
conference on innovative applications of artificial intelligence AAAI 2004”, (pp 755–
760). San Jose.
27. Kumar, V., & Reinartz, W. (2005). Customer relationship management: A databased
approach. Wiley.

5
28. Kupiec, J., Pedersen, J., & Chen, F. (1995). “A trainable document summarizer. In
Proceedings of the 18th annual international ACM SIGIR conference on research and
development in information retrieval”, (pp 68–73). Seattle, WA.
29. Lee, S., Lee, S.,&Park, Y. (2007). Aprediction model for success of services in e-
Commerce using decision tree: E-customer’s attitude towards online service. Expert
Systems with Applications, 33(3), 572–581.
30. Lent, B., Agrawal, R., & Srikant, R. (1997). Discovering trends in text databases. In
Proceedings of the third international conference on knowledge discovery and data
mining (pp 227–230).

31. Mani, I. (2001). Summarization evaluation: An overview NAACL 2001.
32. Mani, I., & Bloedorn, E. (1999). Summarizing similarities and differences among
related documents. Information Retrieval, 1(1–2), 35–67.
33. Mann, W., & Thompson, S. (1988). Rhetorical structure theory: Toward a functional
theory of text organization. Text, 8(3), 243–281.
34. Marcu, D. (1999). Discourse trees are good indicators of importance in text. In I.
Mani & M. Maybury (Eds.), Advances in automatic text summarization (pp. 123–136).
Cambridge, MA: The MIT Press.
35. Piatetsky-Shapiro, P. Smyth, & R. Uthurusamy (Eds.), Advances in knowledge
discovery and data mining (pp 1–34). Menlo Park, CA, USA: American Association
for Artificial Intelligence.

×