Xây dựng các kho dữ liệu trong lĩnh vực truyền
thông xã hội bằng cách sử dụng các công cụ khai
phá văn bản của SPSS
Giới thiệu
Tiền thân của các mạng xã hội được chúng ta biết hiện nay đã nổi lên vào cuối những năm 1960,
khi các bảng tin là một trong những nền tảng chia sẻ-thông điệp tương tác đầu tiên. Chỉ đến gần
đây—vào những năm 1990, khi Craigslist (N.D.: một mạng truyền thông trực tuyến dành cho
quảng cáo) và AOL xuất hiện—cuộc cách mạng xã hội này mới phát triển nhanh chóng. Các
mạng xã hội đã cất cánh vào những năm 2000, với Friendster, LinkedIn, MySpace, Flickr,
Vimeo, YouTube, rồi Facebook vào năm 2004 và Twitter vào năm 2006 và gần đây nhất là
Google+ và Pinterest.
Các xu hướng kỹ thuật số, đi kèm với việc chọn dùng rộng rãi môi trường truyền thông xã hội,
có tác động trực tiếp đến các doanh nghiệp khi chúng phát triển một chiến lược số dễ thay đổi
cho một môi trường có nhiều thành phần di động. Trào lưu mạng xã hội thực sự đang kéo dài
mối quan hệ giữa các doanh nghiệp và khách hàng. Trước khi có thương mại điện tử và các môi
trường truyền thông xã hội, những người tiêu dùng đã tiến hành một số nghiên cứu về các sản
phẩm và đã mua hàng có chọn lọc và mối quan hệ đó kết thúc ngay sau khi mua hàng, chỉ đến
khi khách hàng mua sản phẩm tiếp theo thì mối quan hệ mới tiếp tục duy trì. Trong cách mua
hàng truyền thống này, xu hướng truyền miệng của các khách hàng vẫn còn bị hạn chế. Giờ đây,
khách hàng dễ dàng bày tỏ quan điểm về một sản phẩm nào đó thông qua các mạng xã hội, qua
đó cũng giúp cho doanh nghiệp có thêm lượng khách hàng mới.
Các doanh nghiệp biết rằng những người tiêu dùng ngày nay đang tích cực thu thập thông tin
trước khi mua hàng, ở đây họ xem xét ý kiến tán thành hay không tán thành khác và dễ dàng
thực hiện các so sánh về giá cả chỉ bằng một vài thao tác trên thiết bị di động. Các doanh nghiệp
cũng biết rằng những người tiêu dùng của mình nhạy cảm hơn và ảnh hưởng từ những người
khác trong mạng xã hội của họ, dẫn đến sự phát triển của một kiểu chương trình tạo ảnh hưởng
trung thành của khách hàng mới nhằm vào việc khuyến khích và khen thưởng các cá nhân,
những người có ảnh hưởng rất mạnh đến thương hiệu doanh nghiệp. Các khách hàng đang trở
thành người đại diện mới cho các thương hiệu, bằng cách góp phần điều chỉnh bản sắc thương
hiệu, giúp làm nên sự sống còn cho thương hiệu.
Vậy thì các thương hiệu quản lý lượng thông tin tương tác kỹ thuật số này như thế nào? Công
nghệ đã chạy đua để bắt kịp với sự gia tăng của người tiêu dùng xã hội. Chính các mạng xã hội
đã cung cấp các công cụ thống kê và luồng dữ liệu đặc trưng của trang web, chẳng hạn như
Facebook Insights, YouTube Insights và các bộ quản lý môi trường truyền thông xã hội như
HootSuite và các cổng thông tin đo lường ảnh hưởng như Klout cung cấp các tùy chọn của bên
thứ ba về số liệu thống kê theo dõi sự gắn bó với thương hiệu. Một loạt các công cụ thương mại
để lắng nghe xã hội như Radian6, SM2, Viralheat và Sysomos, cung cấp báo cáo, phân tích văn
bản, sự gắn bó với thương hiệu, phân tích tâm lý người tiêu dùng, thông tin khách đến thăm trang
web và luồng công việc hứa hẹn với thương hiệu. Những công cụ này đang được cải thiện theo
phạm vi và tính hữu ích, nhưng nhiều công cụ trong số đó vẫn còn ở trong giai đoạn đầu của quá
trình tiến hóa. Ví dụ, việc phân tích tâm lý tiêu dùng, vẫn còn lâu mới chính xác và dữ liệu xã hội
được cung cấp thông qua các dịch vụ như firehose của Twitter và được cung cấp bởi các công ty
đối tác như Gnip và DataSift, vẫn còn rất đắt và bị hạn chế về bản chất của dữ liệu có sẵn. Do đó,
có một lý do mạnh mẽ để tăng cường thêm cho các công cụ thương mại bằng việc khai phá văn
bản ngay tại chỗ và xây dựng một kho dữ liệu từ môi trường truyền thông xã hội sở hữu độc
quyền. Các kho dữ liệu từ môi trường truyền thông xã hội lưu trữ thông tin ở mức người tiêu
dùng, bắt nguồn từ các tương tác của môi trường truyền thông xã hội và tất cả thông tin số có
liên quan đến địa điểm, thiết bị, hành vi di động, thanh toán di động, nền tảng và tốc độ liên quan
đến dữ liệu bình luận.
Về đầu trang
Khai phá văn bản và các phương pháp ngữ nghĩa
Các mạng truyền thông xã hội đã và đang tạo ra vô số dữ liệu từ người dùng, làm thế nào để các
doanh nghiệp có thể chuyển dữ liệu bình luận thô trong các mạng xã hội như Twitter, Facebook,
các blog và các diễn đàn thành những hiểu biết kinh doanh? Câu trả lời nằm ở việc áp dụng công
nghệ ngữ nghĩa và khai phá văn bản cho các nguồn dữ liệu không có cấu trúc này.
Khai phá văn bản đề cập đến các kỹ thuật được sử dụng trong việc trích ra thông tin từ các
nguồn văn bản viết khác nhau. Tại sao điều này lại quan trọng đến như vậy? Người ta đã ước
tính rằng 80% thông tin liên quan đến kinh doanh nằm trong dữ liệu văn bản không có cấu trúc
và nửa cấu trúc. Nói cách khác, nếu thiếu ứng dụng cho việc phân tích văn bản để tìm ra nội
dung phong phú của dữ liệu được biểu diễn trong 80% đó, thì đã lãng phí tất cả dữ liệu hành vi
người tiêu dùng và thông tin kinh doanh nhúng trong đó. Thuật ngữ khai phá văn bản, thường
được coi là phân tích văn bản, có nhiều mục đích thực tế, chẳng hạn như các ứng dụng lọc thư
rác, trích ra thông tin từ các đề xuất và các khuyến nghị trên các trang web thương mại điện tử,
lắng nghe xã hội và khai phá dư luận từ các blog và các trang web phê bình, nâng cao dịch vụ
khách hàng và hỗ trợ thư điện tử (email), xử lý tự động các tài liệu kinh doanh, khám phá điện tử
(e-discovery) trong lĩnh vực pháp lý, đo lường sở thích của người tiêu dùng, phân tích tổn thất,
phát hiện gian lận, tội phạm mạng và các ứng dụng an ninh quốc gia.
Khai phá văn bản tương tự như khai phá dữ liệu ở chỗ nó được nhằm vào việc xác định các mẫu
dữ liệu đáng chú ý. Mặc dù việc khai phá văn bản thủ công (cần nhiều người làm) đã nổi lên
trong những năm 1980. Lĩnh vực khai phá văn bản đã trở nên quan trọng trong những năm gần
đây để tinh chỉnh các thuật toán kết quả của công cụ tìm kiếm và chọn lọc thông qua các nguồn
dữ liệu để khám phá các thông tin chưa biết. Tất cả các kỹ thuật như máy học, thống kê, ngôn
ngữ học máy tính và khai phá dữ liệu đều được sử dụng trong quá trình này. Mục tiêu của việc
khám phá tri thức từ văn bản, ví dụ, là để phát hiện ra các mối quan hệ ngữ nghĩa nằm bên dưới
văn bản cũng như nội dung và bối cảnh ngụ ý với NLP (Natural Language Processing - Xử lý
ngôn ngữ tự nhiên). Các quá trình này đều nhằm vào việc sử dụng NLP để sao chép lại, rồi điều
chỉnh quy mô cho hợp với cùng kiểu phân biệt ngôn ngữ, nhận dạng mẫu và hiểu kết quả, diễn ra
khi con người đọc và xử lý văn bản.
Các phương pháp khác nhau tồn tại trong lĩnh vực khai phá văn bản. Dưới đây giới thiệu một
danh sách các bước tuần tự và phổ biến liên quan đến việc khai phá văn bản.
Bước đầu tiên trong bất kỳ nỗ lực khai phá văn bản nào là xác định các nguồn dựa trên-văn bản
cần được phân tích và thu thập tư liệu này thông qua việc lấy ra thông tin hoặc chọn kho văn bản
chuyên đề (corpus) gồm một tập hợp các tệp văn bản và nội dung đang quan tâm. Sau đó triển
khai NLP mở rộng, gọi ra "thành phần gắn thẻ tiếng nói" và sắp xếp thứ tự văn bản để phân tích
cú pháp (đó là, biểu tượng hóa (tokenizing) văn bản) và áp dụng nhận dạng thực thể có tên
(Named Entity Recognition) (đó là, nhận biết việc nêu ra các nhãn hàng, các tên người, các địa
điểm, các chữ viết tắt phổ biến và v.v). Một bước Lọc các từ phổ biến (Filter Stopwords) hay
dùng liên quan đến việc loại bỏ các từ phổ biến để tinh lọc nội dung của chủ đề mong muốn. Các
thực thể đã xác định mẫu (Pattern Identified Entities) nhận biết các địa chỉ email và các số điện
thoại và Tài liệu cùng tham khảo (Coreference) xác định các cụm danh từ và các đối tượng liên
quan trong văn bản, tiếp theo là Trích ra mối quan hệ, sự vật và sự kiện (Relationship, Fact and
Event Extraction). Các N-Gram thường được sinh ra để tạo các điều kiện dưới dạng một loạt từ
liên tiếp. Cuối cùng, một cách tiếp cận được các công cụ lắng nghe và phân loại môi trường
truyền thông xã hội hiện nay sử dụng rộng rãi là phân tích tâm lý tiêu dùng, để trích ra thông tin
về thái độ theo đối tượng hoặc chủ đề nào đó. Thông thường, các chức năng lập bản đồ và vẽ đồ
thị khác cung cấp hiển thị trực quan để kiểm tra chính xác hơn nữa.
Về đầu trang
Các công cụ khai phá văn bản
Có một số tùy chọn nguồn mở và thương mại cho phần mềm và các ứng dụng khai phá văn bản.
IBM cung cấp một loạt các giải pháp khai phá văn bản rộng lớn và mạnh mẽ. Một sản phẩm
mạnh, sử dụng các khả năng Big Data của IBM® InfoSphere® BigInsights™, cung cấp một mô
đun phân tích văn bản bổ sung, thực hiện trích ra phân tích văn bản từ cụm BigInsights
InfoSphere. Các sản phẩm IBM SPSS® trải rộng theo quy mô và phạm vi. Một công cụ, hoạt
động tốt để tìm kiếm một tài liệu và gán nó cho một chủ đề hay chuyên đề là IBM SPSS Modeler
(Trình mô hình hóa SPSS của IBM), cung cấp một giao diện đồ họa để thực hiện phân loại và
phân tích tài liệu văn bản tổng quát. Một sản phẩm khác là IBM SPSS Text Analytics for
Surveys (Phân tích văn bản SPSS của IBM dành cho khảo sát điều tra) sử dụng NLP để phân tích
các câu hỏi khảo sát mở trong một tài liệu. IBM SPSS Modeler Premium chạy trên cùng một
công cụ như SPSS Text Analytics dành cho khảo sát, nhưng có khả năng mở rộng quy mô cao để
xử lý toàn bộ kho dữ liệu gồm nhiều loại tài liệu (PDF, các trang web, các blog, email, các nguồn
cấp dữ liệu Twitter và nhiều hơn nữa) trong một nhánh công việc, để tạo điều kiện thuận lợi cho
việc tích hợp giữa dữ liệu có cấu trúc và không có cấu trúc. Một nút mã nguồn tùy chỉnh liên
quan dành cho Facebook mở rộng các khả năng của SPSS Modeler Premium để đọc dữ liệu trực
tiếp từ một trang Facebook và tích hợp nó với một nguồn cấp dữ liệu Twitter trong SPSS
Modeler để có được phối cảnh nhiều kênh truyền thông xã hội.
Trong số các công cụ khai phá văn bản nguồn mở, RapidMiner và R dường như là hai công cụ
phổ biến nhất. R có một cơ sở người dùng rộng hơn; một ngôn ngữ lập trình yêu cầu có mã
nguồn trong đó, nó có một lựa chọn lớn về các thuật toán. Tuy nhiên, khả năng điều chỉnh quy
mô là một vấn đề với R nên nó không phải là lý tưởng cho các tập dữ liệu lớn (big data) nếu
không có các cách giải quyết. RapidMiner có một cơ sở người dùng nhỏ hơn, nhưng nó không
đòi hỏi mã nguồn và có một giao diện người dùng (UI) mạnh mẽ. Nó cũng có khả năng điều
chỉnh quy mô cao và có thể xử lý các cụm và lập trình trong cơ sở dữ liệu. IBM cung cấp một
mô đun Jaql R có tích hợp dự án R trong các truy vấn, còn về phần mình dự án R lại cho phép
các tác vụ MapReduce chạy tính toán R song song.
Về đầu trang
Các kho dữ liệu của môi trường truyền thông xã hội và Big Data
Các tùy chọn NoSQL và SQL
Vài lời ngắn gọn về các tùy chọn NoSQL và SQL (Structured Query Language – Ngôn ngữ truy
vấn có cấu trúc) và quá trình lựa chồng công nghệ. Khi các nguồn dữ liệu trở nên khó xử lý, như
vẫn thường thấy khi làm việc với dữ liệu của môi trường truyền thông xã hội, thì cần đến một sự
kết hợp của các tùy chọn NoSQL thương mại (như IBM BigInsights InfoSphere), để tích hợp có
hiệu quả với Hadoop và các công cụ nguồn mở có khả năng mở rộng khác. Các cơ sở dữ liệu đồ
thị và các kho lưu trữ tài liệu và các cặp khóa-giá trị đã có sẵn và sự lựa chọn tối ưu dựa trên
trường hợp sử dụng tại công ty. Các công ty đã quan tâm đến việc khai phá và phân tích văn bản
thường chọn Hadoop và tích hợp với các công cụ nguồn mở khác như Apache Mahout, một công
cụ máy học cung cấp việc phân loại, phân cụm và lọc cộng tác. Các bộ dữ liệu và các luồng dữ
liệu của Storm quản lý phân tích thời gian thực để kiểm soát độ trễ cao của Hadoop.
Khi bắt đầu áp dụng khai phá văn bản, có những thách thức đặc biệt riêng của dữ liệu của môi
trường truyền thông xã hội. Dữ liệu, do các trang web mạng xã hội, các blog và các diễn đàn tạo
ra, rơi vào thể loại của những thứ thường được gọi là big data. Dữ liệu thường không có cấu trúc
và nửa cấu trúc, tạo ra rất nhiều petabyte dữ liệu hàng ngày xung quanh các nhãn hàng lớn và các
cơ sở dữ liệu quan hệ truyền thống không thể mở rộng quy mô có hiệu quả để hỗ trợ phân tích
thời gian thực dựa trên dữ liệu đó. Vì thế rất cần các giải pháp cơ sở dữ liệu NoSQL và big data.
Dữ liệu của môi trường truyền thông xã hội, nếu không được thu thập và lưu trữ thích hợp theo
định kỳ đều đặn, về cơ bản dễ mất đi. Hầu hết các công cụ nguồn mở lắng nghe mạng xã hội chỉ
lưu lịch sử bình luận của môi trường truyền thông xã hội trong một vài ngày. Chỉ có Twitter mới
đây đã thông báo rằng toàn bộ lịch sử của dữ liệu sẽ có sẵn, nhưng nó sẽ được giới hạn với các
bình luận do chủ tài khoản đăng lên. Dữ liệu này có sẵn từ một số các nhà cung cấp dữ liệu xã
hội lớn hơn đã nói ở trên, chẳng hạn như Gnip và DataSift và thông qua rất nhiều giao diện lập
trình ứng dụng (các API) và các giao diện lập trình ứng dụng dựa trên cuộc gọi thông qua các
công cụ khác. Tuy nhiên, ở nơi dữ liệu có sẵn (đối với Twitter), nó vẫn rất đắt với tất cả mọi
người, trừ những doanh nghiệp lớn nhất.
Mỗi trang web của môi trường truyền thông xã hội xử lý vấn đề này một cách khác nhau. Mỗi
trang có thể sử dụng các yêu cầu tìm kiếm và có các đáp ứng theo định dạng JavaScript Object
Notation (JSON), có dữ liệu chưa được phân tích cú pháp để đưa ngay vào một cơ sở dữ liệu
MySQL hoặc cơ sở dữ liệu NoSQL, tùy thuộc vào khối lượng và tính chất của dữ liệu.
Về đầu trang
Các trường hợp sử dụng nghiệp vụ đối với khai phá văn bản
Các doanh nghiệp có các mục tiêu khác nhau khi áp dụng khai phá văn bản:
Một công ty là Sears, trong Ví dụ 1, có thể quan tâm đến việc theo dõi tâm lý tiêu dùng
của khách hàng thông qua các bình luận trên môi trường truyền thông xã hội và các tương
tác trực tiếp của người hâm mộ trên trang Facebook sau sự ra mắt của dòng sản phẩm
mới. Bằng cách này, có thể hiểu tâm lý tiêu dùng cơ bản qua các hình ảnh, các sản phẩm,
các nhóm trò chuyện xảy ra xung quanh việc ra mắt sản phẩm. Thông tin phản hồi thời
gian thực này cho phép cập nhật thông báo nhanh chóng và loại bỏ nội dung không được
ưa chuộng và những người hâm mộ Facebook trở thành một nhóm tiêu điểm thời gian
thực, cung cấp thông tin phản hồi ngay lập tức về các tính năng của sản phẩm.
Một công ty giải trí JACT đang kinh doanh về xây dựng các mối quan hệ giữa doanh
nghiệp và những game thủ. Nó có một lớp phủ trong trò chơi cho phép các game thủ chơi
các trò chơi thường xuyên của mình trong khi vẫn hiển thị một loạt nội dung có mục tiêu
và đã lên lịch tới những người chơi. Các game thủ kiếm được tiền ảo của JACT và họ có
thể đổi lại các BUX JACT này để lấy các phần thưởng, bao gồm các món hàng ảo và có
thể tải về được. Nhưng người chơi tương tác với JACT trên trang Facebook hay Twitter
và đề cập đến BUX JACT thường xuyên trên các diễn đàn trò chơi. Có thể thu được dữ
liệu bình luận thô này từ các nguồn khác nhau và có thể lưu các ý kiến và các sở thích ở
mức cá nhân. Ví dụ, nếu một người chơi rất phấn khích về một trò chơi video cụ thể hoặc
các tin ngắn tweet nói về phần thưởng của người chơi, thì mục đích trong trò chơi dựa
trên trò chơi và kiểu phần thưởng cụ thể có nhiều khả năng hướng tới làm tăng lòng trung
thành với thương hiệu hơn so với những lời chào hàng ngẫu nhiên.
Các siêu thị có thể sử dụng dữ liệu của môi trường truyền thông xã hội để xác định những
người mua hàng có giá trị hơn, các ấn tượng về dịch vụ khách hàng, môi trường của cửa
hàng, sở thích về sản phẩm, sở thích đóng gói và giá cả. Việc hợp nhất kiểu thông tin này
với dữ liệu vị trí hoặc do Twitter hoặc do các thiết bị di động cung cấp, các siêu thị có thể
tùy chỉnh phù hợp với trải nghiệm mua hàng theo quan điểm địa phương hóa. Điều này
có ảnh hưởng đến hàng tồn kho, giá cả, quảng cáo, tặng phiếu mua hàng trực tuyến và
trực tiếp qua bưu điện cho cá nhân và nhiều hơn nữa.
Ví dụ 1: Dữ liệu của môi trường truyền thông xã hội và khai phá văn bản trong SPSS Modeler
Premium
Ví dụ đầu tiên này cho thấy một trường hợp sử dụng SPSS Modeler Premium. Trong kịch bản
này, công ty cho ra mắt một dòng sản phẩm mới và đang quan tâm theo dõi phản ứng của người
tiêu dùng trong dữ liệu của môi trường truyền thông xã hội. Nút Facebook của SPSS Modeler
Premium được sử dụng để theo dõi dòng sản phẩm Kardashian mới này trên trang Facebook
Sears, được thể hiện trong Hình 1.
Hình 1. Nhà bán lẻ ra mắt một dòng sản phẩm mới trên Facebook
Bước đầu tiên trong việc theo dõi và phân tích dữ liệu bình luận đòi hỏi người sử dụng ghi rõ tên
người dùng và số các trang tải về và chủ đề cần xem xét trong nút Facebook SPSS Modeler
Premium, như trong Hình 2.
Hình 2. Sử dụng SPSS Modeler để trích ra các bình luận trên tường của Facebook để nhận
ra sự phân tích thông tin bình luận phản hồi sau khi ra mắt một dòng sản phẩm mới
Sau đó trích ra dữ liệu bình luận từ trang Facebook Sears và tạo sẵn dữ liệu này để sử dụng trong
SPSS Modeler, như trong Hình 3.
Hình 3. Có thể xem dữ liệu bình luận thô trực tiếp thông qua nút Facebook của SPSS
Modeler
(Xem ảnh lớn hơn của Hình 3.)
Bước tiếp theo đòi hỏi thêm các bộ lọc và tiến hành trích ra khái niệm, dẫn đến một sự hiển thị
trực quan nhằm mô tả các thể loại nội dung xung quanh nhãn hàng đó. Giao diện người dùng đồ
họa thân thiện với người dùng hướng dẫn người dùng qua quá trình này và không cần sử dụng
các API nào để trích ra dữ liệu xã hội từ Twitter hay Facebook. Kết quả là một bản đồ khái niệm
dễ hiểu và độ dày của đường nối biểu diễn độ nhạy cho các cụm khái niệm, như trong Hình 4.
Hình 4. Bản đồ khái niệm cung cấp hiển thị trực quan các thể loại sức mạnh của khái niệm
với nhãn hàng.
(Xem ảnh lớn hơn của Hình 4.)
Ví dụ 2: Ví dụ về sở thích sản phẩm của siêu thị khi sử dụng việc trích xuất và các từ phổ biến
trong SPSS Statistics Base
Quá trình lắp ráp quầy dữ liệu của môi trường truyền thông xã hội tiếp theo mô tả một quá trình
khai phá văn bản thủ công đơn giản. Trong ví dụ này, chúng ta đang quan tâm đến việc sử dụng
khai phá văn bản thông qua SPSS Statistics Base (Cơ sở thống kê của SPSS) để lấy ra và lưu trữ
sở thích sản phẩm của từng cá nhân từ dữ liệu của môi trường truyền thông xã hội. Ví dụ này bao
gồm một hướng dẫn từng bước để trích ra dữ liệu nhãn hàng của siêu thị từ Twitter và Facebook.
Kiến trúc của quá trình được thể hiện trong Hình 5.
Hình 5. Kiến trúc quầy dữ liệu của môi trường truyền thông xã hội BrandMeter
(Xem ảnh lớn hơn của Hình 5.)
Bước đầu tiên là xác định các nhãn hàng quan tâm. Một routine (thủ tục) được thiết lập để thu
thập những bình luận liên quan đến nhãn hàng thông qua việc xử lý của API. Điều này được thực
hiện bằng các yêu cầu tìm kiếm như những yêu cầu được mô tả trong Hình 6 và các kết quả được
trả về dưới dạng JSON. Một thư viện JSON phân tích cú pháp dữ liệu và chia mỗi bản ghi thành
nhiều trường có chứa các thông tin như ID (mã định danh) người dùng, dữ liệu và bình luận
thông báo dạng văn bản chưa qua xử lý. Sau đó lưu trữ dữ liệu này trong một cơ sở dữ liệu và tạo
sẵn nó cho việc khai phá văn bản.
Hình 6. API ví dụ mẫu để truy cập dữ liệu bình luận thô của Twitter và Facebook
(Xem ảnh lớn hơn của Hình 6.)
Mục tiêu của bài tập khai phá văn bản đơn giản hóa này là xác định các sở thích sản phẩm của
người tiêu dùng và các mẫu tiêu dùng cụ thể. Sau đó lưu trữ thông tin này trong một quầy dữ liệu
môi trường truyền thông xã hội. Đối với ví dụ cụ thể này, giả sử bạn muốn xác định tất cả các
khách hàng là những người tiêu dùng ngô. Hình 7 cho thấy việc sử dụng chức năng Character
Index (Chỉ mục ký tự) để xác định tất cả các cá thể của từ ngô trong dữ liệu bình luận thô.
Hình 7. Trích ra văn bản bằng chức năng SPSS Base Character Index
(Xem ảnh lớn hơn của Hình 7.)
Các kết quả nào cần phải tiếp tục lọc và cần áp dụng các từ phổ biến nào qua nhiều vòng lặp
khác nhau để cải thiện độ chính xác phân loại. Bằng cách áp dụng các từ phổ biến như popcorn
(bỏng ngô), candy corn (kẹo ngô), corndog (bánh ngô kẹp xúc xích nướng) và corn syrup (si rô
từ bột ngô) và chỉ lấy ra cá thể là tổ hợp có bốn ký tự, ta có thể xác định các kết quả những người
tiêu dùng sản phẩm ngô chính xác hơn nhiều. Sau đó các tên người dùng có thể được gắn cờ
bằng 'corn_consumer_flag'=1 trong cơ sở dữ liệu và được chọn với các chào hàng và các công thức
nấu ăn riêng về ngô trong các chiến dịch tiếp thị trong tương lai. (Xem Hình 8.)
Hình 8. Quá trình phân loại bình luận thô khi sử dụng các từ phổ biến
(Xem ảnh lớn hơn của Hình 8.)
Khi bạn đã đi qua một danh sách đầy đủ, thì bạn có thể thực hiện gộp chung theo ID người dùng
và điền dữ liệu vào các bảng để nắm bắt các việc mua sản phẩm, các bình luận xung quanh việc
đóng gói và các biến khác lưu trữ các hành vi tiêu dùng ở mức cá nhân. Trong ví dụ này, dữ liệu
thô của môi trường truyền thông xã hội được lưu trữ trong một cơ sở dữ liệu NoSQL và các cờ
(flag) sở thích sản phẩm có nguồn gốc được lưu trữ trong một khu dữ liệu MySQL, trong đó ID
người dùng là khóa so khớp chính (xem Hình 9).
Hình 9. Gộp chung dữ liệu bình luận ở mức ID người dùng với chức năng SPSS Base
Aggregate (Gộp chung cơ sở SPSS)