các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (463.59 KB, 18 trang )

Các vấn đề xử lý tiếng Việt để nâng cao hiệu
năng của công cụ tìm kiếm

Nguyễn Thị Minh Tâm

Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội
Luận văn Thạc sĩ. Ngôn ngữ học; Mã số: 60 22 01
Nghd: TS Nguyễn Ái Việt
Năm bảo vệ: 2014

Keywords: Ngôn ngữ học; Tiếng Việt

Contents:
PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Ngôn ngữ học ứng dụng là một nhánh của ngành ngôn ngữ học, tập trung vào việc xác
định, điều tra và cung cấp các giải pháp cho các vấn đề có liên quan đến ngôn ngữ trong thực
tiễn cuộc sống. Ngôn ngữ học ứng dụng bao gồm tất cả các ứng dụng của lý thuyết ngôn ngữ học
và là sự tích hợp chuyên môn liên quan đến nhiều ngành học, như ngôn ngữ học, nhân học, tâm
lý họcvà giáo dục học, ngôn ngữ học xã hội và mới đây nhất là ngành công nghệ thông tin.
Ứng dụng ngôn ngữ học trong ngành công nghệ thông tin mang tính thực tiễn rất cao và
không ngừng thay đổi. Việc chuyển mình theo sự thay đổi đó đòi hỏi ngôn ngữ đóng vai trò như
nguồn dữ liệu khổng lồ cần được xử lý và việc quan tâm đến từng ngóc ngách của nó sẽ giúp cho
việc xử lý ngôn ngữ tự nhiên bằng máy được chính xác và hiệu quả hơn. Những nghiên cứu ngôn
ngữ trong lĩnh vực công nghệ thông tin đánh dấu những ngành khoa học liên ngành mới như
ngôn ngữ học khối liệu mang tính ứng dụng nhiều hơn so với những suy nghĩ hàn lâm về ngôn
ngữ.
Ngày nay với sự bùng nổ thông tin, nhất là sự phát triển mạnh mẽ của Internet và World
Wide Web, việc tìm kiếm thông tin đang trở nên dễ dàng đối với người dùng internet. Nhờ đó có
sự xuất hiện của hàng loạt các máy tìm kiếm (search engine) như Google, Bing!, Yahoo, Ask,
MSM… người ta có thể tìm kiếm mọi thông tin bằng chính bản ngữ của mình vì các công cụ

quốc tế này đáp ứng nhu cầu tìm kiếm với hơn 200 ngôn ngữ khác nhau. Sử dụng các máy tìm
kiếm đã trở thành một kỹ năng không thể thiếu trong công việc và sinh hoạt thường ngày của con
người hiện đại.
Với sự phát triển không ngừng của công nghệ thông tin, các máy tìm kiếm ngày càng cải
thiện được hiệu năng tìm kiếm và nhanh chóng chiếm được niềm tin của người dùng Internet
trên toàn thế giới.
Bản chất của các máy tìm kiếm hiện đại là sử dụng các bộ thu thập (crawler) thu thập
thông tin từ tất cả các trang web trên thế giới vào một kho dữ liệu khổng lồ. Khi người dùng sử
dụng một trình duyệt như Firefox, Internet Explorer, Chrome, Opera, Cờ-rôm (Việt Nam)… đưa
ra một đoạn văn bản trên trang tìm kiếm, máy tìm kiếm sẽ phân tích đoạn văn bản này và tìm
kiếm trong kho dữ liệu khổng lồ nói trên các thông tin cần thiết và sắp xếp chúng theo một thứ tự
ưu tiên nhất định (thí dụ như sắp xếp page của Google với link đầu là mười kết quả tốt- phổ biến
nhất). Các máy tìm kiếm thường được đánh giá theo hai tiêu chuẩn:
a. Chất lượng tìm kiếm: Máy tìm kiếm thông thường có thể đưa ra kết quả hàng trăm
nghìn bản ghi, thậm chí nhiều khi tới hàng trăm triệu bản ghi. Do vậy, các kết quả này cần được
sắp xếp theo thứ tự ưu tiên nhất định để người dùng có thể truy cập đến các thông tin cần tìm
nhanh nhất. Để việc sắp xếp này có chất lượng cao, máy tìm kiếm cần phân tích để “hiểu” được
nội dung cần tìm. Trong việc phân tích như vậy việc xử lý ngôn ngữ của đoạn văn cần tìm đóng
vai trò hết sức quan trọng. Chính vì vậy, các máy tìm kiếm bản địa tại Trung Quốc, Hàn Quốc,
Nhật, Nga,… chiếm được ưu thế so với các máy tìm kiếm quốc tế như Google, Yahoo, Bing…
thông qua việc xử lý ngôn ngữ bản địa.
b. Thời gian đáp ứng: Việc tìm kiếm phân tích kho dữ liệu khổng lồ để đưa ra khối lượng
kết quả khổng lồ, vừa phục vụ hàng chục triệu người dùng trên toàn thế giới, phải diễn ra trong
thời gian ngắn nhất (từ 3-5 giây). Bên cạnh một mạng lưới máy tính lớn và các phương pháp tính
toán nhanh ngày càng hoàn thiện, xử lý ngôn ngữ có vai trò vô cùng quan trọng trong việc tối ưu
hoá thời gian tìm kiếm bằng cách lọc bỏ các thông tin thừa.
Như vậy, ngôn ngữ học có một vai trò quan trọng trong việc cải tiến các máy tìm kiếm.
Chính vì thế, ngôn ngữ học và công nghệ thông tin ngày càng xích lại gần nhau để tạo ra nhiều ứng
dụng thực tế có ích cho đời sống. Hơn nữa quá trình đó cũng đặt ra những vấn đề nghiên cứu cơ bản
mới mang tính liên ngành và cho mỗi ngành.

Do đặc điểm khác biệt về ngôn ngữ, văn hóa mang tính vùng miền mà đôi khi các công
cụ tìm kiếm mang tính quốc tế này chưa thực sự hiểu mục đích tìm kiếm thông tin của người
dùng và kết quả trả về chưa chính xác như mong muốn. Điển hình như Trung Quốc và nhiều
nước có hệ chữ viết (chữ tượng hình và chữ chắp dính) khác biệt với hệ chữ latinh thì việc tìm
kiếm trên các công cụ quốc tế khó khăn hơn và ít kết quả có thể đáp ứng được nhu cầu tìm kiếm
của người tìm kiếm. Hệ quả là công cụ tìm kiếm riêng của Trung Quốc và các nước không sử
dụng chữ cái Latinh làm chữ viết vượt trên cả những “gã khổng lồ” về công cụ tìm kiếm như
Baidu thắng thế so với Google tại thị trường Trung Quốc.
Tình hình ở Việt Nam lại khác, tiếng Việt là ngôn ngữ có chữ viết theo hệ chữ cái latinh
nên đối với việc tìm kiếm thông tin trên các công cụ tìm kiếm quốc tế khá dễ dàng. Cũng phải
thừa nhận rằng, công cụ tìm kiếm ở Việt Nam chưa thể bằng công nghệ các công cụ tìm kiếm
của các công ty có hơn chục năm hoạt động trên thị trường tìm kiếm trên thế giới. Nhưng những
kĩ sư công nghệ thông tin vẫn có tham vọng xây dựng một công cụ tìm kiếm dành riêng cho
người Việt, gần gũi với người Việt và hiểu người Việt. Tức là một công cụ thể hiện văn hóa,
nhận thức của người Việt. Trên công cụ tìm kiếm này, các kĩ sư phải giải quyết được vấn đề xử
lý tiếng Việt để kết quả tìm kiếm được tốt hơn. Đây cũng là lý do chúng tôi chọn đề tài “Các vấn
đề xử lý tiếng Việt để nâng cao hiệu năng của công cụ tìm kiếm”.
Vấn đề xử lý tiếng Việt ứng dụng trong tìm kiếm là một nội dung rộng. Trong luận văn
này, chúng tôi chỉ tập trung tìm hiểu hai vấn đề: Việc đánh chỉ mục cho văn bản tiếng Việt và tìm
bản chất từ loại của các stop words trong tiếng Việt.
Đánh chỉ mục (indexing) là việc sắp xếp dữ liệu vào một hệ thống để tìm kiếm cho nhanh
nhất. Việc tìm kiếm sẽ dựa vào các chỉ mục, do đó việc lập chỉ mục sẽ quyết định tốc độ tìm
kiếm. Trong quá trình lập chỉ mục, các quy tắc của ngôn ngữ sẽ giúp cải thiện được chất lượng
và tốc độ tìm kiếm.
Các stop words là các từ mà các công cụ tìm kiếm thường lược bỏ để tăng tốc độ cũng
như chất lượng tìm kiếm. Trong thực tiễn, các chuyên gia công nghệ thông tin thường dựa trên
kinh nghiệm của mình để đưa ra danh sách các stop words cho mỗi ngôn ngữ. Qua việc khảo sát
các danh sách stop words thông dụng tiếng Anh, Trung, Việt mà chúng tôi sưu tầm được, chúng
tôi có thể kết luận, bản chất từ loại của stop words khá phong phú. Do các danh sách này chủ yếu
dựa trên kinh nghiệm, chúng không bao gồm toàn bộ các stop words trong mỗi ngôn ngữ. Việc

tìm ra quy luật của các stop words sẽ có ý nghĩa quan trọng trong việc mở rộng các danh sách
này để nâng cao hiệu năng và chất lượng của các máy tìm kiếm. Việc nghiên cứu bản chất từ loại
của các stop words sẽ là bước đầu cho công việc này.
Chúng tôi chưa tìm thấy một nghiên cứu nào trước đây về bản chất ngôn ngữ của các stop
words tiếng Việt. Trên thế giới chúng tôi cũng chưa tìm thấy một công trình nào bàn về vấn đề
này một cách có hệ thống. Vấn đề này xuất phát từ một yêu cầu thực tế, nhưng có một ý nghĩa
nhất định trong việc trả lời câu hỏi có tính lý luận về xử lý dữ liệu. Đối với nghiên cứu khoa học,
luận văn chúng tôi đóng góp phần lý luận ban đầu cho việc triển khai nghiên cứu stop words, qua
đó giúp các nhà công nghệ có thể dựa vào những bản chất nội tại của chúng để đưa ra một danh
sách hoàn chỉnh có tính ứng dụng và tương đối phù hợp với công cụ tìm kiếm Việt Nam. Đối với
ứng dụng thực tiễn, như đã trình bày ở trên, stop words là một phần rất nhỏ trong quá trình xử lý
ngôn ngữ tự nhiên nói chung và xây dụng cộng cụ tìm kiếm nói riêng. Tuy nhiên vấn đề này vẫn
chưa được quan tâm đúng mức, chúng ta không nên bỏ sót bất cứ một nhập nhằng hay một vấn
đề nào để biến công cụ của mình thành mạnh nhất và cạnh tranh với các đối thủ còn lại. Stop
words giống như một ốc vít của bộ máy kết nối các bộ phận với nhau để bộ máy có thể hoạt
động trơn tru và hiệu quả.
2. Lịch sử nghiên cứu
Những nghiên cứu xử lý ngôn ngữ tự nhiên và ứng dụng ngôn ngữ trong công nghệ thông
tin ngày càng phát triển, kéo theo đó là sự xuất hiện nhiều sản phẩm có tính thực tiễn trong đời
sống hàng ngày như xây dựng từ điển, phần mềm dịch thuật, công cụ xử lý tiếng nói, công cụ tìm
kiếm…v.v. Chúng ta có thể gõ bất kỳ một cụm từ liên quan đến “xử lý ngôn ngữ tự nhiên”
(Natural language processing) trên máy tìm kiếm là thấy được rất nhiều kết quả trả về liên quan
và được trình bày hết sức tổng quan.
Trong luận văn này, chúng tôi tìm hiểu tính ứng dụng của nó trong công cụ tìm kiếm nên
phần lớn quan tâm tới những tài liệu liên quan đến mảng ứng dụng tìm kiếm. Đây cũng là một
trong những mảng ứng dụng khá sôi động, và được các nhà nghiên cứu quan tâm nhưng phần lớn
tập trung vào những vấn đề nhất định phù hợp với đề tài nghiên cứu của mình, ví dụ như các nhà
công nghệ quan tâm đến việc xây dựng công cụ tìm kiếm như thế nào thì sẽ quan tâm về ứng
dụng xử lý ngôn ngữ tự nhiên theo hướng đó. Tiêu biểu là một số bài báo đáng chú ý như sau:
The Infocious Web Công cụ tìm kiếm: Improving Web Searching Through Linguistic

Analysis (Công cụ tìm kiếm web Infocious: Cải thiện tìm kiếm web thông qua phân tích ngôn
ngữ) của các tác giả Alexandros Ntoulas, Gerald Chao, Junghoo Cho, của UCLA Computer
Science: Tập trung nghiên cứu trên máy tìm kiếm InfociousWeb giải quyết các vấn đề từ khóa,
các vấn đề nhập nhằng ngôn ngữ. Công cụ tìm kiếm này tập trung vào tiêu điểm nội dung thông
tin thay vì kết quả trả về dựa trên từ khóa. Ưu điểm của SE
1
này là hiểu biết tốt hơn về nội dung
trang web, phù hợp với truy vấn của người sử dụng với các tài liệu đã được lập chỉ mục do đó
có thể cải thiện kết quả tìm kiếm. Ưu điểm thứ hai là CÔNG CỤ TÌM KIẾM sắp xếp kết quả một
cách trực quan hơn. Các tác giả đưa ra công nghệ xử lý ngôn ngữ, kiến trúc và hiệu suất có được
khi đi theo hướng này.
Hay như bài báo “Specialized Search in Linguistics and Languages” (Tìm kiếm chuyên
ngành trong ngôn ngữ học và ngôn ngữ) của tác giả Zhiping Zheng và Gregor Erbach của
Computational Linguistics Department, Đại học Saarland, hướng về công cụ tìm kiếm chuyên
ngành và đánh giá kết quả tìm kiếm đạt hiệu quả cao nhất vì dữ liệu thường được xử lý bán thủ
công đôi khi có sự giúp đỡ của các công nghệ chuyên ngành nên kết quả tìm kiếm hoàn toàn
không phải bàn cãi. Từ đó các tác giả cố gắng dựa vào những thành tựu đi trước để có thể tự
động hóa xử lý dữ liệu theo hướng chuyên ngành này.
Đôi khi các tác giả cũng chỉ tập trung vào tìm kiếm web theo tên miền, ví dụ Getess của
các tác giả trường đại học Rostock với bài báo “ Getess: constructing a linguistic search index
for an Internet Công cụ tìm kiếm” (Getess: xây dựng một chỉ mục tìm kiếm ngôn ngữ cho một

1
Viết tắt SE = Search engine
Internet Công cụ tìm kiếm). Đối với các công cụ tìm kiếm nói chung, các tác giả thường quan
tâm đến cơ sở dữ liệu phần chỉ mục, nơi ảnh hưởng trực tiếp đến kết quả cũng như hiệu quả tìm
kiếm tiêu biểu như bài báo “Indexing and querying linguistic metadata and document content”
(Lập chỉ mục và truy vấn siêu dữ liệu ngôn ngữ và nội dung tài liệu) của các tác giả Niraj
Aswani và Valentin Tablan, Kalina Bontcheva, Hamish Cunningham của Department of
Computer Science, Đại học Sheffield. Trong công trình này, các tác giả đưa ra hệ thống ANNIC

để xử lý ngôn ngữ tự nhiên bằng việc chú thích ngôn ngữ và các tính năng để cho phép người
dùng xây dựng truy vấn đa năng giữ từ khóa và thông tin ngôn ngữ để các kết quả bao gồm các
văn bản phù hợp trong ngữ liệu hiện thị trong bối cảnh được chú thích.
Ngoài những công trình trên còn có rất nhiều những công trình nghiên cứu khác tập trung
giải quyết những vấn đề trong bộ máy tìm kiếm: từ khóa, ngữ nghĩa, website, chủ đề… Phần này
sẽ được chúng tôi trình bày kỹ hơn ở chương hai.
Đối với vấn đề chúng tôi nghiên cứu, stop words trong bộ máy tìm kiếm, hiện nay, trên
ngữ liệu tiếng Anh mà chúng tôi thu thập được, đã có rất nhiều công trình nghiên cứu đề cập đến
vai trò và cách giải quyết nó tiêu biểu như:
Công trình “Influence of Stop-Words Removal on Sequence Patterns Identification
within Comparable Corpora”( Ảnh hưởng của bỏ Stopwwords trên mẫu xác định thứ tự
trong so sánh Corpora) của các tác giả Daša Munková, Michal Munk, Martin Vozár : quan
niệm stop words là những dữ liệu ồn như khẩu hiệu, cụm từ, từ, ký hiệu cần phải lọc ra khỏi dữ
liệu quan trọng. Mục đích của việc này là xác định được mức độ nào đó trước khi lọc bỏ dữ liệu,
loại bỏ sự ảnh hưởng của nó bằng cách trích xuất và chỉ có ngôn ngữ tác động đáng kể cả về số
lượng và chất lượng trích xuất.
Bài nghiên cứu “An Empirical Evaluation of Stop Word Removal in Statistical Machine
Translation” (Một số đánh giá về loại bỏ stop words trong dịch máy phân tích) của AChong Tze
Yuang, Rafael E. Banchs và Chng Eng Siong đánh giá khả năng cải thiện hiệu suất của hệ thống
dịch máy bằng việc loại bỏ những từ thường xuyên và những vấn đề dự đoán từ từ vựng ngôn
ngữ. Những từ này được loại bỏ sẽ làm giảm sự nhầm lẫn trong văn bản.
Và “Effective Listings of Function Stop words for Twitter” (Danh sách hiệu quả của các
stop words chức năng cho Twitter) của Murphy Choy đánh giá những stop words là những từ tái
hiện rất thường xuyên nhưng cơ bản là vô nghĩa khi tham gia câu, không đóng góp vào bối cảnh
và nội dung của văn bản. Vì tần số cao của chúng nên gây trở ngại trong việc khai thác văn bản.
Để giải quyết vấn đề này, các phương pháp sử dụng đều là dùng phần mềm hoặc sử dụng danh
sách stop words cho sẵn để loại bỏ những từ đó. Các tác giả đề xuất kiểm tra việc sử dụng nhưng
loại có tần suất xuất hiện nhiều, lập danh sách cho nguồn dữ liệu Twitter. Họ xây dựng một kỹ
thuật mới sử dụng giá trị tổ hợp như là một biện pháp thay thế để đưa là danh sách stop words
hiệu quả.

Các công trình nghiên cứu về stop words thường là những bài báo được trích dẫn trong
các luận văn hoặc báo cáo của các tác giả tùy thuộc vào yêu cầu của ứng dụng. Những quan điểm
và cách xử lý về loại từ này đều được thống nhất.
Ở Việt Nam, những công trình nghiên cứu về xử lý ngôn ngữ tự nhiên thì rất nhiều nhưng
lại chưa có một công trình cụ thể nào về stop words.
Về xử lý ngôn ngữ tự nhiên, chúng ta có thể kể đến một số tác giả nghiên cứu chuyên sâu
về ngữ pháp ngôn ngữ trong việc tách từ, phân chia từ loại và xử lý nhập nhằng như TS Nguyễn
Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương: Nghiên cứu xây dựng từ điển tiếng Việt
cho máy tính, Sử dụng bộ gán nhãn từ loại xác suất Qtag cho văn bản tiếng Việt (2003). Ngoài
ra có những tác giả, có những nghiên cứu khái quát về xử lý tiếng Việt và đặc điểm tiếng Việt
trong ứng dụng công nghệ thông tin để người đọc có thể tìm hiểu được sự giống và khác nhau
giữa quan niệm trọng yếu “từ”, khó khăn trong việc xử lý so với các thứ tiếng khác tiêu biểu là
các tác giả Đinh Điền, Hồ Bảo Quốc: Vấn đề ranh giới từ trong ngữ liệu song ngữ Anh-Việt.
Xây dựng bộ máy tìm kiếm là một trong những ứng dụng có nhiều người quan tâm nhất
bởi sản phẩm thực tiễn của nó có vai trò quan trọng đối với con người trong thời đại bùng nổ
thông tin. Vấn đề xây dựng bộ máy tìm kiếm tiếng Việt không mới so với ngành công nghệ
thông tin hiện nay. Có rất nhiều nghiên cứu về bộ máy tìm kiếm và có những chuyên luận viết về
ngôn ngữ trên công cụ tìm kiếm tiếng Việt như: Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm
kiếm thông tin trên văn bản tiếng Việt (Đồng Thị Bích Thủy, Hồ Bảo Quốc- Khoa Công Nghệ
Thông Tin - Đại học khoa học tự nhiên TP. Hồ Chí Minh); Xây dựng một công cụ hỗ trỡ tra cứu
và tổng hợp thông tin trong thư viện số (Báo cáo khoa học TS Đỗ Phúc và Ths. Nguyễn Minh
Hiệp, TP Hồ Chí Minh, 2003); Nghiên cứu ứng dụng mã nguồn mở Lucene để xây dựng phần
mềm tìm kiếm thông tin trên văn bản (Huỳnh Đức Việt, Võ Duy Thanh, Võ Trung Hùng, Tạp chí
khoa học và công nghệ Đại học Đà Nẵng- số 4 (39) 201); Dương Đình Thiện (2012) Xây dựng
bộ tìm kiếm (công cụ tìm kiếm), Luận văn thạc sĩ, Đại học Đà Nẵng; Vũ Đức Thìn, Hoàng Văn
Dũng (2008), Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm, Luận văn
Thạc sỹ
Cho đến nay, chúng ta có rất nhiều bài viết về công cụ tìm kiếm tiếng Việt phải kể đến các
website, forum bàn luận khá sâu về vấn đề này: caohocviet.net, viet.jnlp.org,
nlp.hcmut.edu.vn…Tuy nhiên, các bài viết chủ yếu nhìn nhận từ cách nhìn của các nhà công nghệ

thông tin về kĩ thuật xây dựng công cụ tìm kiếm. Các bài viết đi sâu vào nghiên cứu việc giải quyết
các bài toán xử lý ngôn ngữ tự nhiên, tuy nhiên chưa thật sự có một công trình nào ở Việt Nam bàn
về vấn đề nghiên cứu stop words.
Dù chỉ là một phần rất nhỏ trong cả một hệ thống xây dựng công cụ tìm kiếm nhưng stop
words vẫn cần một nghiên cứu đầy đủ để định hướng cho các kĩ sư công nghệ đưa ra được danh
sách hợp lý và độ chính xác cao.
Vì vậy chúng tôi mong rằng luận văn sẽ góp phần cải thiện kết quả tìm kiếm của các
công cụ tìm kiếm qua việc nghiên cứu vấn đề còn mới mẻ này.
3. Đối tượng nghiên cứu
Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến
trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn
tốt nhất cho nội dung của văn bản (tiến trình lập chỉ mục - indexing). Để có thể phân tích và rút
trích được các chỉ mục (index term / term) tốt, người ta thường ứng dụng các kết quả của lĩnh
vực xử lý ngôn ngữ tự nhiên vào tiến trình này. Chỉ mục có thể là từ (word) hay là một cấu trúc
phức tạp hơn như cụm danh từ (noun phrase), khái niệm (concept) Vấn đề xác định chỉ mục
cho văn bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu do việc xác định giới hạn của
một từ (word segmentation) trong tiếng Việt không đơn giản là chỉ dựa vào các khoảng trắng
giữa chúng. Hơn nữa, ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh luận giữa các nhà ngôn
ngữ học nên cũng còn nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt.
Trong luận văn này chúng tôi trình bày về các vấn đề xử lý ngôn ngữ tự nhiên trong hệ
thống tìm kiếm thông tin nói chung đặc biệt là việc xử lý tiếng Việt trên công cụ tìm kiếm.
Xử lý ngôn ngữ tự nhiên đối với tiếng Việt, chúng ta có rất nhiều vấn đề cần phải quan tâm
như bài toán tách từ, xây dựng từ điển, xây dựng chỉ mục cho máy tìm kiếm. Tuy nhiên, chúng tôi
quan tâm đến việc xử lý stop words một trong những quá trình xử lý nhập nhằng nhỏ nhưng đóng
vai trò quan trọng trong việc kiểm soát hiệu năng công cụ tìm kiếm. Stop words giống như một
mắt xích không thể thiếu để tăng tốc cũng như cải thiện kết quả tìm kiếm. Hai điều này quan trọng
để đánh giá công cụ tìm kiếm này có hiệu quả hay không.
Trong quá trình tiếp cận vấn đề, chúng tôi cũng trình bày một số đặc trưng của tiếng Việt
dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Mục đích cuối cùng là đảm bảo kết quả tìm kiếm
là chính xác nhất, hiệu quả nhất, đáp ứng được nhu cầu tìm kiếm của người Việt.

4. Phương pháp nghiên cứu
Với luận văn này, ngoài việc sử dụng các thủ pháp nghiên cứu chung trong khoa học như
diễn dịch, quy nạp, so sánh, thống kê…, chúng tôi còn sử dụng các phương pháp nghiên cứu sau:
Phương pháp phân tích từ và từ loại: Dựa vào quan niệm từ loại và đặc điểm từ loại trong
việc xử lý ngôn ngữ trên công cụ tìm kiếm so sánh với quan niệm từ và từ loại thông thường của
ngôn ngữ học lý thuyết. Với phương pháp này chúng tôi xử lý dữ liệu cho sẵn bao gồm các tổ
hợp từ có tần suất xuất hiện tương đối lớn trong các văn bản mà máy thu thập được bằng cách
phân loại từ, cụm từ và phân tích từ theo từ loại.
Phương pháp phân tích khối liệu: Trong quá trình nghiên cứu, chúng tôi sử dụng công cụ
tách lọc những khối liệu cần thiết để đưa vào luận văn nhằm phân tích khối liệu và đưa ra bản
chất của vấn đề.
Phương pháp mô tả, so sánh và đối chiếu: Số lượng tư liệu thu thập được từ stop words
tiếng Anh, tiếng Trung và tiếng Việt đã được tập hợp từ các bài nghiên cứu cũng như danh sách
tạm thời sẵn có để đưa vào phân tích đối chiếu. So sánh stop words giữa tiếng Việt và hai tiếng
Anh, Trung sẽ cho thấy được những nét đặc thù khác biệt trong việc xử lý tiếng Việt. Qua đối
chiếu, chúng tôi muốn đi sâu vào bản chất stop words tiếng Việt để sau này khi xác lập danh
sách của nó có thể bớt hoặc thêm những từ có ảnh hưởng đến chỉ mục và dữ liệu máy.
5. Phạm vi nghiên cứu
Chúng tôi tập trung khảo sát cách xử lý ngôn ngữ tự nhiên trên các công cụ tìm kiếm
tiếng Việt phổ biến hiện nay như: xalo, itim, google, yahoo, bing… Đặc biệt chúng tôi lưu tâm
đến các kết quả trả về trên công cụ google search- một trong những công cụ tìm kiếm tiếng Việt
mạnh nhất hiện nay. Những công cụ tìm kiếm này có công cụ chỉ dành riêng cho việc tìm kiếm
bằng tiếng Việt và các công cụ quốc tế như yahoo, bing, google có ứng dụng cho rất nhiều ngôn
ngữ khác.
Những dữ liệu phục vụ nghiên cứu được thu thập trên cơ sở dữ liệu đã có từ trước trên
các trang web chuyên về tìm kiếm. Chúng tôi cũng sử dụng máy để tách lọc qua khối liệu từ các
bài báo trên mạng để đưa ra danh sách từ có tần suất xuất hiện cao để phân tích.
6. Bố cục luận văn
Luận văn gồm 3 phần: Mở đầu, Nội dung và Kết luận
Phần chính là phần Nội dung được chia thành 3 chương

Chương 1: Tổng quan cơ sở lý luận của đề tài
Đối với chương một, chúng tôi đưa ra những vấn đề lý thuyết còn nhập nhằng trên công
cụ tìm kiếm thông tin như từ, từ loại. Chúng tôi cũng lựa chọn quan niệm thích hợp với đối
tượng nghiên cứu của mình.
Chương 2: Tổng quan về công cụ tìm kiếm và đánh chỉ mục văn bản
Trong chương này, chúng tôi tập trung mô tả máy tìm kiếm và vấn đề xử lý ngôn ngữ tự
nhiên trong máy như xây dựng từ điển, lập chỉ mục…
Chương 3: Stop words tiếng Việt
Dựa vào yêu cầu thực tiễn trong quá trình xử lý ngôn ngữ, chúng tôi lựa chọn stop words
làm đối tượng nghiên cứu và kết quả nghiên cứu hoàn toàn mới góp phần vào việc xây dựng máy
tìm kiếm cho người Việt được tốt hơn.
Phần cuối: Kết luận

TÀI LIỆU THAM KHẢO
1. Nguyễn Tuấn Anh (2007), Các kỹ năng cơ bản tìm kiếm trên internet, Đại học Thủy Lợi,
Hà Nội.
2. Nguyễn Thị Việt Ánh (2007), Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung
sai, Khóa luận tốt nghiệp, ĐHDL Hải Phòng.
3. Diệp Quang Ban (1987), Câu đơn tiếng Việt, NXB Giáo dục.
4. Diệp Quang Ban (2003), Giao tiếp văn bản, mạch lạc, liên kết, đoạn văn, NXB Khoa học
xã hội.
5. Diệp Quang Ban (2005), Ngữ pháp tiếng Việt, NXB Giáo dục.
6. Lê Biên (2002), Từ loại tiếng Việt, NXB ĐHQG Hà Nội.
7. Nguyễn Tài Cẩn (1999), Ngữ pháp tiếng Việt, NXB Đại học Quốc gia Hà Nội, Hà Nội.
8. Nguyễn Tài Cẩn (1975), Từ loại danh từ trong tiếng Việt hiện đại, NXB Khoa học xã hội,
Hà Nội.
9. Đỗ Hữu Châu (1998), Cơ sở ngữ nghĩa học từ vựng, NXB Giáo dục.
10. Đỗ Hữu Châu, Bùi Minh Toán (1993), Đại cương ngôn ngữ học, NXB Giáo dục.
11. Đỗ Hữu Châu (1997), Các bình diện của từ và từ tiếng Việt, NXB ĐHQG Hà Nội.
12. Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ (2006), Gán nhãn từ loại cho tiếng

Việt dựa trên văn phong và tính toán xác suất, Tạp chí Phát triển KH và KT, tập 9, số 2-
2006.
13. Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến (1997), Cơ sở ngôn ngữ học và
tiếng Việt. Nxb Giáo dục, H.
14. Nguyễn Hồng Cổn (2003), Vấn đề phân định từ loại trong Tiếng Việt, Tạp chí ngôn ngữ
số 2.
15. Nguyễn Việt Cường (2006), Biểu diễn văn bản trên lý thuyết tập mờ- Áp dụng trong bài
toán phân lớp văn bản, Khóa luận tốt nghiệp trường ĐH Công nghệ, ĐHQG Hà Nội.
16. Dương Đình Dũng (?), Ứng dụng phân loại văn bản xây dựng bộ lọc Web, Luận văn Thạc
sỹ, trường ĐH Công nghệ thông tin, ĐHQG Tp Hồ Chí Minh.
17. Nguyễn Cao Đàm (2008), Ngữ pháp tiếng Việt (Câu đơn 2 thành phần), NXB Đại học
Quốc gia Hà Nội.
18. Hữu Đạt (2000), Phong cách học và các phong cách chức năng tiếng Việt, NXB Văn
hóa thông tin.
19. Trần Cao Đệ, Phạm Nguyên Khang (2012), Phân loại văn bản với máy học Vector hỗ trợ và
cây quyết định, Tạp chí Khoa học 2012, tr52- 63, ĐH Cần Thơ.
20. Đinh Điền, Hồ Bảo Quốc (?), Vấn đề ranh giới từ trong ngữ liệu song ngữ Anh-Việt,
Khoa CNTT, Đại học Khoa học Tự Nhiên- Đại học Quốc gia Tp Hồ Chí Minh.
21. Đinh Điền (2002a), Ứng dụng ngữ liệu song ngữ Anh-Việt điện từ trong ngành ngôn ngữ
học so sánh, Tạp chí ngôn ngữ, số 3-2002, tr 49-58.
22. Đinh Điền (2005), Xây dựng và khai thác kho ngữ liệu song ngữ Anh- Việt điện tử, Luận
văn tiến sĩ Ngôn ngữ học so sánh, trường Đại học Khoa học Xã hội và Nhân văn Tp Hồ
Chí Minh.
23. Đinh Văn Đức (1986), Ngữ pháp tiếng Việt, NXB Giáo dục.
24. Đinh Văn Đức (2010), Ngữ pháp tiếng Việt- Từ loại, NXB Đại học Quốc gia Hà Nội.
25. Nguyễn Thiện Giáp (3.2009), Các phương pháp nghiên cứu ngôn ngữ, NXB Giáo dục.
26. Nguyễn Thiện Giáp (5.2005), Từ vựng học tiếng Việt, NXB Giáo dục
27. Nguyễn Thiện Giáp (2008), Những lĩnh vực ứng dụng của Việt ngữ học, NXB Đại học
Quốc gia Hà Nội.
28. Nguyễn Thiện Giáp (1996), Từ và Nhận diện từ tiếng Việt, NXB GD, Hà Nội.

29. Bùi Nguyên Khởi (2009), Nghiên cứu một số phương pháp phân lớp cải tiến, ứng dụng
vào hệ truy tìm văn bản, Luận văn Thạc sĩ, Tp Hồ Chí Minh.
30. Nguyễn Trung Kiên (2006), Phân đoạn từ tiếng Việt sử dụng mô hình crfs, Khóa luận tốt
nghiệp, Đại học Công nghệ- Đại học Quốc Gia Hà Nội.
31. Nguyễn Thị Thanh Hà, Nguyễn Trung Hiếu (2005), Xây dựng hệ thống tìm kiếm thông
tin tiếng Việt dựa trên các chỉ mục là các từ ghép, Luận văn thạc sỹ, Đại học công nghệ-
Đại học quốc gia Hà Nội.
32. Hoàng Văn Hành (chủ biên) – Hà Quang Năng – Nguyễn Văn Khang (1998), Từ tiếng
Việt: hình thái – cấu trúc – từ láy – từ ghép – chuyển loại, NXB KHXH, Hà Nội.
33. Cao Xuân Hạo (1999), Tiếng Việt- mấy vấn đề ngữ âm, ngữ pháp, ngữ nghĩa, NXB Giáo
dục.
34. Cao Xuân Hạo (1991), Tiếng Việt sơ thảo chức năng, NXB Khoa học xã hội.
35. Nguyễn Thị Thu Hằng (2007), Phương pháp phân cụm tài liệu web và áp dụng vào máy
tìm kiếm, Luận văn thạc sĩ, Hà Nội.
36. Nguyễn Văn Hiệp (2008), Cơ sở ngữ nghĩa phân tích cú pháp, NXB Giáo dục.
37. Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú (?), Gán nhãn từ loại tiếng Việt dựa
trên các phương pháp học máy thống kê, Đại học công nghệ- Đại học Quốc gia Hà Nội.
38. Đinh Trung Hiếu, Vũ Bội Hằng, Nguyễn Cẩm Tú (2004), Giải pháp tìm kiếm theo lĩnh
vực trong máy tìm kiếm, Báo cáo nghiên cứu khoa học Khoa Công nghệ, ĐHQG Hà Nội.
39. Nguyễn Thanh Hùng (2006), Hướng tiếp cận mới trong việc tách từ để phân loại văn
bản tiếng Việt sử dụng giải thuật di truyền và thống kê trên Internet, Pdf online.
40. Tsàn Quế Hương, Võ Hồ Bảo Khanh (2005), Xây dựng bộ ngữ liệu đánh giá bằng tiếng
Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin, Khóa luận tốt nghiệp,
Đại học Khoa học Tự nhiên Hà Nội- Đại học Quốc gia Hà Nội.
41. Nguyễn Thị Minh Huyền, Vũ Xuân Lương (?), Nghiên cứu xây dựng từ điển tiếng Việt
cho máy tính, Trường Đại học Khoa học Tự nhiên Hà Nội và Trung tâm từ điển học
Vietlex, pdf online.
42. Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), Sử dụng bộ gán
nhãn từ loại xác suất Qtag cho văn bản tiếng Việt, Kỷ yếu hội thảo ICT.rda‟03
Proceedings of ICT.rda‟03, Hà Nội.

43. Đào Thanh Lan (2002), Phân tích câu đơn tiếng Việt theo cấu trúc Đề- Thuyết, NXB Đại
học Quốc gia Hà Nội.
44. Nguyễn Thị Thùy Linh (2006), Phân lớp tài liệu web độc lập ngôn ngữ, Khóa luận tốt
nghiệp, Đại học Công nghệ- Đại học quốc gia Hà Nội.
45. Nguyễn Lê Minh, Cao Hoàng Trụ, Nguyễn Phương Thảo (2010), Xây dựng bộ xác định
nhóm cụm từ tiếng Việt, Báo cáo kỹ thuật SP8.4.
46. Lê Thúy Ngọc, Đỗ Mỹ Nhung (2006), Tìm hiểu về Công cụ tìm kiếm và xây dựng ứng
dụng minh họa cho Công cụ tìm kiếm tiếng Việt, Đại học công nghệ- Đại học quốc gia Hà
Nội.
47. Vũ Thanh Nguyên, Thi Minh Thuyễn (?), Một số cải tiến của bài toán phân lớp văn bản
sử dụng thuật toán SVM và áp dụng trong phân tích cảm xúc tiếng Việt, trường ĐH Công
nghệ thông tin, ĐHQG Tp Hồ Chí Minh.
48. Nguyễn Thị Hồng Nhung (?), Nguyễn Thị Tuyết Mai, Hệ thống tìm kiếm thông tin xuyên
ngôn ngữ Việt- Anh- Hoa, Luận văn Thạc sỹ.
49. Trần Thị Oanh (2008), Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho
tiếng Việt, Luân văn thạc sĩ.
50. Hoàng Phê (1968), Mấy vấn đề về giữ gìn sự trong sáng của tiếng Việt, Nghiên cứu ngôn
ngữ học, tập 1, NXB Khoa học xã hội.
51. Hoàng Phê chủ biên (2006), Từ điển tiếng Việt 2006, NXB Đà Nẵng.
52. Hoàng Trọng Phiến (2003), Cách dùng hư từ tiếng Việt hiện đại, NXB Nghệ An.
53. Đỗ Phúc- Nguyễn Minh Hiệp (2003), Xây dựng một số công cụ hỗ trợ tra cứu và tổng
hợp thông tin trong thư viện số , Sở khoa học công nghệ và môi trường.
54. Từ Minh Phương, Trinh Hữu Kiên (?), Công cụ hỗ trợ tạo ngữ nghĩa trang web sử dụng
kỹ thuật tách thông tin từ văn bản, pdf online.
55. Lê Hoàng Quỳnh (2009), So sánh một số phương pháp học máy cho bài toán gán nhãn
từ loại tiếng Việt, Khóa luận tốt nghiệp, Đại học Công nghệ- Đại học quốc gia Hà Nội.
56. Đoàn Sơn (2002), Phương pháp biểu diễn văn bản sử dụng tập mờ và ứng dụng trong
khai phá dữ liệu văn bản, Luận văn thạc sĩ Khoa Công nghệ, ĐHQG Hà Nội.
57. Trịnh Quốc Sơn (2006), Nghiên cứu phân loại văn bản tiếng Việt, Khóa luận môn
DataMining, Đại học Công nghệ- Đại học Quốc gia Hà Nội.

58. Phạm Thị Tâm (2009), Sử dụng phương pháp xếp hạng trong bài toán phân cụm tiếng
Việt, Khóa luận tốt nghiệp, Đại học công nghệ- Đại học Quốc gia Hà Nội.
59. Nguyễn Kim Thản (1997), Nghiên cứu ngữ pháp tiếng Việt, Nhà xuất bản khoa học xã
hội.
60. Nguyễn Quốc Thể, Lê Thanh Hương (2010), Phân tích cú pháp tiếng Việt sử dụng phạm
vi ngữ cảnh từ vựng hóa kết hợp xác suất, Tạp chí khoa học và công nghệ, Đại học Đà
Năng- số 4(39) 2010, 307.
61. Vũ Đức Thi, Hoàng Văn Dũng (?), Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm
kết quả tìm kiếm, Đề án, pdf online
62. Lê Quang Thiêm (2008), Ngữ nghĩa học, NXB Giáo dục.
63. Dương Đình Thiện (2012) Xây dựng bộ tìm kiếm (công cụ tìm kiếm), Luận văn thạc sĩ,
Đại học Đà Nẵng.
64. Vũ Đức Thìn, Hoàng Văn Dũng (2008), Áp dụng kỹ thuật phân cụm dữ liệu trong phân
cụm kết quả tìm kiếm, Luận văn Thạc sỹ.
65. Ks Nguyễn Ngọc Tuấn, Hồng Phúc (2006), 100 thủ thuật cao cấp với công cụ tìm kiếm
google, NXB Giao thông vận tải.
66. Vương Hoài Thu (2009), Phân tích cú pháp tiếng Việt theo tiếp cận thống kê, Khóa luận
tốt nghiệp, trường ĐH Công nghệ, ĐHQG Hà Nội.
67. Đoàn Thiện Thuật (2007), Ngữ âm tiếng Việt, NXB Đại học Quốc gia Hà Nội.
68. Đồng Thị Bích Thủy- Hồ Bảo Quốc (?), Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ
thống tìm kiếm thông tin trên văn bản tiếng Việt, Khoa Công nghệ thông tin- Đại học
khoa học tự nhiên TP Hồ Chí Minh.
69. Nguyễn Văn Tu (1968), Từ vựng học tiếng Việt hiện đại, NXB Giáo dục.
70. Trần Thu Trang (2012), Nghiên cứu gán nhãn từ loại cho văn bản tiếng Việt bằng
phương pháp học máy không có hướng dẫn, Luận văn Thạc sỹ, trường Đại học Khoa học
tự nhiên, ĐHQG Hà Nội.
71. Ủy ban Khoa học xã hội Việt Nam (1983), Ngữ pháp tiếng Việt, NXB Khoa học xã hội,
Hà Nội.
72. Huỳnh Đức Việt- Võ Duy Thanh- Võ Trung Hùng (2012) , Nghiên cứu ứng dụng mã
nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản , Tạp chí Khoa

học và công nghệ, Đại học Đà Nẵng, số 4.
73. Viện ngôn ngữ học (2000), Loại từ trong các ngôn ngữ ở Việt Nam, NXB KHXH, Hà
Nội.
74. Cambridge University (2009) , Boolean retrieval, pdf online.
75. Silva, C and Ribeiro, B ( 2003), The Importance of Stop Word Removal on Recall Values
in Text Categorization, Proceedings of the International Joint Conference on Neural
Networks, 3, 1661-1666.
76. Murphy Choy (?), Effective Listings of Function Stop words for Twitter, Pdf online.
77. Marwick, A. D (2001), Knowledge Management Technology, IBM Systems Journal.
78. Department of Computer Science, SITE (2009), Managing the Google Web 1T 5-gram
Data Set, pdf online.
79. Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), Vietnamese WordSegmentation,
Proceedings of NLPRS’01 (The 6th Natural Language Processing Pacific Rim
Symposium), Tokyo, Japan, 11/2001, pg 749-756.
80. Dien Dinh (2005), Building an Annotated English-Vietnamese parallel Corpus, MKS: A
Journal of Southeast Asian Linguistics and Languages, Vol. 35, pp.21-36.
81. Mark Davies, Dee Gardner (2010), Word Frequency list of American English, pdf online.
82. Michael J. Cafarella- Oren Etzioni (2005), A search engine for Natural Language
Applications, WWW '05 Proceedings of the 14th international conference on World Wide
Web, Pages 442-452 .
83. Ho Bao Quoc (2007), Vietnamese Text Retrieval: Test Collection and First
Experimentations, The First International Workshop on Evaluating Information Access
(EVIA), May 15, 2007, Tokyo, Japan
84. F Kessler (2010), Influence of Language Morphological Complexity on Information
Retrieval, Đại học Neuchatel.
85. Ibrahim Abu El-Khair (2006), Effects of stop words elimination for Arabic information
retrieval: a comparative study, International Journal of Computing & Information
Sciences, 4(3):119-133.
86. John Lyons (1997), Introduction to theoretical linguistics, NXB Giáo dục.
87. Konchady, Manu (2007), Text Mining Application programming, Charles River Media

Publishing.
88. Daša Munková, Michal Munk, Martin Vozár (2013), Influence of Stop-Words Removal
on Sequence Patterns Identification within Comparable Corpora, ICT Innovations,
Advances in Intelligent Systems and Computing Volume 231, 2014, pp 67-76.
89. Alexandros Ntoulas, Gerald Chao, Junghoo Cho (?), The Infocious web Search engine:
Improving web searching through linguistic Analysis, Infocious Inc. & Infocious Inc
UCLA Computer Science.
90. Sinka, M. P., and Come D. W (2003), Evolving Better Stoplists for Document Clustering
and Web Intelligence, Proceedings of the 3rd Hybrid Intelligent Systems Conference,
Australia, IOS Press.
91. Cornelis Joost van Rijsbergen, 1979, Information Retrieval, Butterworth-Heinemann.
92. Ferdinand de Saussure (1973), Giáo trình ngôn ngữ học đại cương, NXB khoa học xã
hội.
93. Andreas Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, in
Proceedings of ICSLP, 901-904.
94. McEnery T., Wilson A. (1996), Corpus Linguistics, Edinburgh University Press.
95. Philip Resnik, Aaron Elkiss (2005), The Linguist‟s Search Engine: An Overview,
UMIACS
96. Vo Trung Hung (?), Natural language processing, THE UNIVERSITY OF DANANG,
97. Tonio Wandmacher and Jean-Yves Antoine, 2007, Methods to integrate a language
model with semantic information for a word prediction component, in Proceedings of the
2007 Joint Conference on Empirical Methods in Natural Language Processing and
Computational Natural Language Learning, 506-513.
98. Jung, W (2004), An Investigation of the Impact of Data Quality on Decision
Performance, Proceedings of the 2004 International Symposium on Information and
Communication Technology (ISICT „04), 166–171.
99. Zhiping Zheng, Gregor Erbach (?), Specialized search in linguistics and languages,
Computational Linguistics Department Saarland University.
100. Feng Zou, Fu Lee Wang, Xiaotie Deng and Song Han (2006) , Automatic identification of
Chinese stop words, Research on Comp. Science, 18:151-162

Tài liệu website:
101. An Introduction to Chinese Grammar,
102. Các công cụ trong nghề Seo và Sem (tối ưu web cho bộ máy tìm kiếm và tiếp thị trên
công cụ tìm kiếm), pdf online
103. Công cụ tìm kiếm thông tin Internet, Nguyễn Hoàng Nam, www. vietSEO.net
104. Cách tìm kiếm thông tin trên Internet, www.buaxua.vn wiki
105. Nhãn từ loại trong từ điển VCL, :8080/demo/vcl/PoSTag.htm
106. Stop words, www.en.wikipedia.org
107. Stop words chinese,

108. Thuật ngữ SEO,
109. Default English stopwords list,
110. Thuật toán tách từ,
111. Wiktionary:Frequency lists,

112. Tìm hiểu về hệ thống máy tìm kiếm Search Engine, 2009
113. Ultimate mashup – Các dịch vụ Web và Web ngữ nghĩa (semantic Web)
114.
115.
116. />%AF_t%E1%BB%B1_nhi%C3%AAn – Xử lý ngôn ngữ tự nhiên.
117.
118. />ng%C3%B4n-ng%E1%BB%AF-t%E1%BB%B1-nhi%C3%AAn
119.
120.

các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về