Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên Tìm hiểu công cụ gán nhãn từ loại (Stanford POS Tagger)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (290.15 KB, 12 trang )

Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
Đề tài: Tìm hiểu công cụ gán nhãn từ loại (Stanford POS Tagger)
Giảng viên hướng dẫn: T.S Nguyễn Thị Thanh Huyền
Học viên: Phạm Xuân Thu
Nguyễn Đức Hoàng Tùng
Lớp: K7MCS
1. Mục tiêu công cụ
Công cụ gán nhãn từ loại (POS Tagger) là một phần của phần mềm đọc
văn bản trong một số ngôn ngữ và gán các phần của ngôn ngữ cho mỗi từ (và
danh tính khác), chẳng hạn như danh từ, động từ, tính từ, vv, mặc dù các ứng
dụng tính toán thông thường sử dụng nhãn từ loại mịn hơn như 'danh từ số
nhiều'. Phần mềm này là một thực thi Java của các công cụ gán nhãn từ loại bản
ghi tuyến tính được mô tả trong bài báo:
- Kristina Toutanova and Christopher D. Manning. 2000. Enriching the
Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger (làm
phong phú các nguồn kiến thức sử dụng trong một công cụ gán nhãn từ loại
Entropy tối đa). In Proceedings of the Joint SIGDAT Conference on Empirical
Methods in Natural Language Processing and Very Large Corpora (Trong kỷ
yếu của hội nghị Joint SIGDAT về các phương pháp thực nghiệm trong xử lý
ngôn ngữ tự nhiên và các văn bản rất lớn) (EMNLP/VLC-2000), pp. 63-70.
- Kristina Toutanova, Dan Klein, Christopher Manning, and Yoram
Singer. 2003. Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency
Network (Gán nhãn từ loại giàu đặc trưng với mạng phụ thuộc Cyclic).
In Proceedings of HLT-NAACL 2003, pp. 252-259. (trong kỷ yếu của HLT-
NAACL: Hội thảo công nghệ ngôn ngữ người về vấn đề Bắc Mỹ của Hiệp hội
Ngôn ngữ học tính toán)
2. Phương pháp giải quyết bài toán
2.1. Giới thiệu về bài toán gán nhãn từ loại
Gãn nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với
mọi hệ xử lý ngôn ngữ tự nhiên. Công việc gán nhãn từ loại cho một văn bản là
xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ

thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ trong đó:
Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ đối với tiếng Anh:
“Book that flight.”, và tập thẻ Penn Treebank)
Output: Một nhãn tốt nhất cho từng từ trong câu (Ví dụ: Book/VB that/DT
flight/NN ./.)
Quá trình gán nhãn từ loại có thể chia làm 3 bước như sau:
1
Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn
này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ
vựng. Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là
dựa vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ
gây tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không
phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ
ghép rất cao.
Khởi tạo gán nhãn: Tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó
có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ
liệu đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ
liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn.
Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để
đoán nhận lớp từ loại tương ứng của từ đang xét.
Quyết định kết quả gán nhãn: Đó là giai đoạn loại bỏ nhập nhằng, tức là
lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi
tạo nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta
phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi
bật là phương pháp Brill và các phương pháp xác suất. Ngoài ra còn có các hệ
thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất
và ràng buộc ngữ pháp, gán nhãn nhiều tầng,
Việc gán nhãn từ loại đã được quan tâm từ rất sớm, cùng với nó là sự xuất
hiện của rất nhiều phương pháp giải quyết. Tới nay, các phương pháp mới vẫn

đang tiếp tục được nghiên cứu nhằm hoàn thiện hơn nữa các kết quả đã đạt
được.
Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá
tốt, đạt kết quả rất khả quan. Bên cạnh việc hoàn thiện hơn nữa các bộ gán nhãn
đã có, ngày càng nhiều bộ gán nhãn mới ra đời, đem lại kết quả gần như tối ưu.
Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình (như
tiếng Trung Quốc, Nhật, Hàn Quốc ), các ngôn ngữ của Ân Độ, Thái Lan, A
Rập, Nga cũng như đối với tiếng Việt thì bài toán gán nhãn từ loại vẫn còn là
một thách thức lớn. Các phương pháp và công cụ đã được xây dựng gần như
hoàn thiện cho Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên
thường đưa lại kết quả thấp. Như vậy, yêu cầu đặt ra với từng ngôn ngữ là phải
kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh hoặc là đề
xuất ra các hướng tiếp cận mới sao cho phù hợp với các đặc điểm riêng biệt của
ngôn ngữ mình.
2.2. Các hướng tiếp cận bài toán POS tagging
Hầu hết các thuật toán gán nhãn từ loại rơi vào một trong hai lớp: gán
nhãn dựa trên luật (rule-based) hoặc bộ gán nhãn xác suất (stochastic taggers).
Các bộ gán nhãn dựa trên luật thường liên quan tới một cơ sở dữ liệu lớn
các luật được viết bằng tay. Ví dụ một từ nhập nhằng đang xét có xu hướng là
2
Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
một danh từ hơn là một động từ nếu nó đi sau một từ chỉ định. Phần tiếp sau sẽ
mô tả một bộ gán nhãn dựa trên luật mẫu, ENGTWOL, dựa trên kiến trúc cú
pháp ràng buộc của Karlson năm 1995.
Bộ gán nhãn xác suất thường giải quyết nhập nhằng bằng cách sử dụng một
corpus huấn luyện để tính toán xác suất của một từ cho sẵn sẽ được gán một thẻ
nào đó trong ngữ cảnh cho trước. Phần sau sẽ mô tả một bộ gán nhãn HMM
(HMM Tagger), hay còn được gọi là Maximum Likelihood Tagger, hoặc một bộ
gán nhãn Markov Model, cũng dựa trên mô hình Markov ẩn.
Ngoài ra còn có các hướng tiếp cận khác gồm bộ gán nhãn dựa trên biến

đổi transformation- based tagger hoặc bộ gán nhãn Brill (Brill tagger). Bộ gán
nhãn Brill sẽ sử dụng các đặc tính của cả 2 kiến trúc gán nhãn trên. Giống như
bộ gán nhãn dựa trên luật, nó dựa vào luật để xác định khi một từ nhập nhằng thì
nó có khả năng là một thẻ nào nhất. Giống như bộ gán nhãn xác suất, nó có một
thành phần học máy để tạo ra các luật một cách tự động từ một corpus huấn
luyện đã được gán nhãn trước.
Gán nhãn chức năng cú pháp dựa trên luật
Các thuật toán khởi thủy gán nhãn tự động từ loại thường gồm hai giai
đoạn. Giai đoạn một nó sử dụng một từ điển để gán cho mỗi từ một danh sách
các từ loại có thể có. Giai đoạn 2 nó sử dụng một danh sách gồm tập các luật
không có nhập nhằng thường được soạn bằng tay để gán cho mỗi từ chỉ một từ
loại phù hợp nhất. Mộ bộ gán nhãn điển hình áp dụng cho tiếng Anh là bộ gán
nhãn ENGTWOL
Gán nhãn từ loại xác suất
Phần này trình bày một bộ gán nhãn xác suất điển hình sử dụng mô hình
Markov ẩn. Thuật toán này lựa chọn chuỗi nhãn tốt nhất cho toàn bộ câu. Và
thông thường người ta hay sử dụng thuật toán Viterbi để tìm chuỗi thẻ tốt nhất
đó. Giả sử với câu đầu vào là W ta cần tìm một chuỗi thẻ T=t
1
, ,t
n
thỏa mãn công
thức 1.1:
µ
( | )
T
T argmax P T W
τ
∈
=

(1.1)
Sử dụng luật Bayes, P(T|W) được viết theo công thức 1.2
( ) ( | )
( | )
( )
P T P W T
P T W
P W
=
(1.2)
Ta đang quan tâm tới chuỗi thẻ phù hợp nhất làm cực đại công thức sau:
( , )
( , )
j
f h t
j
p h t
µ α
= ∏
∏

Trong đó:
3
Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
h
∈
H: là tập từ có thể và ngữa cảnh tử loại, hoặc còn gọi là “lịch sử”
t
∈
T: là tập các thẻ có thể có

p
: xác suất mô hình của lịch sử h cùng với thẻ t

∏
: là hằng số chuẩn hóa
{
1
, , ,
k
µ α α
}: là các tham số mang giá trị dương của mô hình
{
1
, ,
k
f f
}: là các đặc trưng thỏa
( , ) {0,1}
j
f h t
∈
Mỗi tham số
j
α
tương ứng với một đặc trưng
j
f

Do đó mẫu số trong tất cả các trường hợp là giống nhau nên bài toán trở
thành chuỗi thẻ thỏa mãn công thức 1.3

µ
( ) ( | )
T
T argmax P T P W T
τ
∈
=
(1.3)
Áp dụng luật chuỗi xác suất có công thức 1.4
1 1 1 1 1 1 1 1
1
( ) ( | ) ( | ) ( | )
n
i i i i i i i
i
P T P W T P w w t w t t P t wt w t
− − − −
=
=
∏
(1.4)
Vẫn không có phương pháp hiệu quả để tính toán xác xuất của chuỗi này
một cách chính xác, nó yêu cầu quá nhiều dữ liệu. Tuy nhiên, xác suất có thể
được xấp xỉ bởi một xác suất đơn giản hơn bằng cách áp dụng các giả thiết độc
lập điều kiện. Mặc dù các giả thiết này là không thực tế nhưng trong thực hành
thì việc đánh giá đó là vẫn hợp lý. Ớ đây, ta sử dụng giả thiết N-gram để mô
hình hóa xác suất chuỗi từ. Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-
gram. Đầu tiên, ta làm đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc
vào thẻ của nó (xem công thức 1.5):
1 1 1 1

(w | w w ) (w | )
i i i i i i
P t t t P t
− −
=
(1.5)
Tiếp đến, ta giả thiết rằng các thẻ phía trước có thể được xấp xỉ bởi 2 thẻ gần nó
nhất (xem công thức 1.6)
1 1 1 1 2 1
( | w w ) ( | )
i i i i i i
P t t t P t t t
− − − −
=
(1.6)
Vì vậy cuối cùng ta lựa chọn chuỗi thẻ làm cực đại công thức 1.7:
1 2 1 2 1
3 1
( ) ( | ) ( | )[ (w | )]
n n
i i i i i
i i
P t P t t P t t t P t
− −
= =
∏ ∏
(1.7)
Các thành phần thừa số trong công thức 1.7 có thể được tính toán từ corpus huấn
luyện của mô hình. Chú ý rằng để có thổ tránh xác suất bằng 0 ta cần sử dụng
4

Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
các kỹ thuật làm trơn.
3. Thử nghiệm đã thực hiện trên công cụ
Công cụ full stanford POS tagger 3.2.0 tại trang web:
/>Nhóm đã tiến hành 02 thử nghiệm như sau:
Thử nghiệm 1: Sử dụng bộ dữ liệu sample-input.txt có sẵn trong
công cụ stanford-postagger-full-2013-06-20. Là đoạn văn tiếng
Anh kể về một vụ tai nạn máy bay chở khách sau khi cất cánh tại Bishkek, Thủ
đô của Kyrgzystan:
A passenger plane has crashed shortly after take-
off from Kyrgyzstan's capital, Bishkek, killing a
large number of those on board. The head of
Kyrgyzstan's civil aviation authority said that out
of about 90 passengers and crew, only about 20 people
have survived. The Itek Air Boeing 737 took off bound
for Mashhad, in north-eastern Iran, but turned round
some 10 minutes later.
Kết quả chạy chương trình:
A_DT passenger_NN plane_NN has_VBZ crashed_VBN
shortly_RB after_IN take-off_NN from_IN
Kyrgyzstan_NNP 's_POS capital_NN ,_, Bishkek_NNP ,_,
killing_VBG a_DT large_JJ number_NN of_IN those_DT
on_IN board_NN ._. The_DT head_NN of_IN
Kyrgyzstan_NNP 's_POS civil_JJ aviation_NN
5
Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
authority_NN said_VBD that_IN out_IN of_IN about_IN
90_CD passengers_NNS and_CC crew_NN ,_, only_RB
about_IN 20_CD people_NNS have_VBP survived_VBN ._.
The_DT Itek_NNP Air_NNP Boeing_NNP 737_CD took_VBD

off_RP bound_VBN for_IN Mashhad_NNP ,_, in_IN north-
eastern_JJ Iran_NNP ,_, but_CC turned_VBD round_NN
some_DT 10_CD minutes_NNS later_RB ._.
Thử nghiệm 2: Bộ dữ liệu sử dụng là một đoạn văn tiếng Anh kể về tiểu
sử của nhà vật lý học người Đức:
Albert Einstein (/ˈælbərt ˈaɪnstaɪn/; German: [ˈalbɐt
ˈaɪnʃtaɪn]; 14 March 1879 – 18 April 1955) was a
German-born theoretical physicist who developed the
general theory of relativity, one of the two pillars
of modern physics (alongside quantum mechanics).While
best known for his mass–energy equivalence formula E
= mc
2
(which has been dubbed "the world's most famous
equation"), he received the 1921 Nobel Prize in
Physics "for his services to theoretical physics, and
especially for his discovery of the law of the
photoelectric effect". The latter was pivotal in
establishing quantum theory.
Kết quả chạy chương trình:
Albert_NNP Einstein_NNP -LRB-_-LRB- \/_:
ˈælbərt_JJ ˈaɪnstaɪn_NN \/_: ;_: German_NNP :_: -LSB-
_-LRB- ˈalbɐt_JJ ˈaɪnʃtaɪn_NN -RSB-_-RRB- ;_: 14_CD
March_NNP 1879_NNS _: 18_CD April_NNP 1955_CD -RRB-
_-RRB- was_VBD a_DT German-born_JJ theoretical_JJ
physicist_NN who_WP developed_VBD the_DT general_JJ
6
Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
theory_NN of_IN relativity_NN ,_, one_CD of_IN the_DT
two_CD pillars_NNS of_IN modern_JJ physics_NNS -LRB-

_-LRB- alongside_IN quantum_NN mechanics_NNS -RRB-_-
RRB- ._. While_IN best_RB known_VBN for_IN his_PRP$
mass_NN _: energy_NN equivalence_JJ formula_NN E_NN
=_JJ mc2_NN -LRB-_-LRB- which_WDT has_VBZ been_VBN
dubbed_VBN ``_`` the_DT world_NN 's_POS most_RBS
famous_JJ equation_NN ''_'' -RRB-_-RRB- ,_, he_PRP
received_VBD the_DT 1921_CD Nobel_NNP Prize_NNP in_IN
Physics_NN ``_`` for_IN his_PRP$ services_NNS to_TO
theoretical_JJ physics_NNS ,_, and_CC especially_RB
for_IN his_PRP$ discovery_NN of_IN the_DT law_NN
of_IN the_DT photoelectric_JJ effect_NN ''_'' ._.
The_DT latter_NN was_VBD pivotal_JJ in_IN
establishing_VBG quantum_NN theory_NN ._.
* Nhận xét:
- Với thử nhiệm 1 sử dụng bộ dữ liệu mẫu của chương trình thì kết quả
gán nhãn từ loại chính xác ở những số đếm tuy nhiên ở thử nghiệm thứ 2 có sự
nhầm lẫn như năm sinh 1879 thì chương trình gán nhãn là NNS (danh từ số
nhiều) trong khi đó năm mất 1955 thì chương trình lại gán nhãn là CD (số đếm).
- Ở thử nghiệm 2 các từ phiêm âm tiếng Anh và tiếng Đức chương trình
gán nhãn là tính từ và danh từ: ˈælbərt_JJ; ˈaɪnstaɪn_NN;
ˈalbɐt_JJ; ˈaɪnʃtaɪn_NN.
- Ở thử nghiệm 2 cho thấy các công thức toán học E = mc2 thì chương
trình cũng gán nhãn bị sai.
4. Tập thẻ Penn Treebank
Tập thẻ quy định các nhãn từ loại sử dụng trong các chương trình gán
nhãn từ loại
Tập thẻ Penn Treebank
Tag Description Examples
$ dollar $ -$ $ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
`` opening quotation

mark
` ``
'' closing quotation
mark
' ''
( opening parenthesis ( [ {
) closing parenthesis ) ] }
, comma ,
dash
7
Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
. sentence terminator . ! ?
: colon or ellipsis : ;
CC conjunction,
coordinating
& 'n and both but either et for less minus
neither nor or plus so therefore times v. versus
vs. whether yet
CD numeral, cardinal mid-1890 nine-thirty forty-two one-tenth ten
million 0.5 one forty-seven 1987 twenty '79
zero two 78-degrees eighty-four IX '60s .025
fifteen 271,124 dozen quintillion DM2,000
DT determiner all an another any both del each either every
half la many much nary neither no some such
that the them these this those
EX existential there there
FW foreign word gemeinschaft hund ich jeux habeas
Haementeria Herr K'ang-si vous lutihaw alai je
jour objets salutaris fille quibusdam pas trop
Monte terram fiche oui corporis

IN preposition or
conjunction,
subordinating
astride among uppon whether out inside pro
despite on by throughout below within for
towards near behind atop around if like until
below next into if beside
JJ adjective or numeral,
ordinal
third ill-mannered pre-war regrettable oiled
calamitous first separable ectoplasmic battery-
powered participatory fourth still-to-be-named
multilingual multi-disciplinary
JJR adjective,
comparative
bleaker braver breezier briefer brighter brisker
broader bumper busier calmer cheaper choosier
cleaner clearer closer colder commoner costlier
cozier creamier crunchier cuter
JJS adjective, superlative calmest cheapest choicest classiest cleanest
clearest closest commonest corniest costliest
crassest creepiest crudest cutest darkest
deadliest dearest deepest densest dinkiest
LS list item marker A A. B B. C C. D E F First G H I J K One SP-
44001 SP-44002 SP-44005 SP-44007 Second
Third Three Two \* a b c d first five four one
six three two
MD modal auxiliary can cannot could couldn't dare may might must
need ought shall should shouldn't will would
NN noun, common,

singular or mass
common-carrier cabbage knuckle-duster Casino
afghan shed thermostat investment slide
8
Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
humour falloff slick wind hyena override
subhumanity machinist
NNP noun, proper, singular Motown Venneboerger Czestochwa Ranzer
Conchita Trumplane Christos Oceanside
Escobar Kreisler Sawyer Cougar Yvette Ervin
ODI Darryl CTCA Shannon A.K.C. Meltex
Liverpool
NNPS noun, proper, plural Americans Americas Amharas Amityvilles
Amusements Anarcho-Syndicalists Andalusians
Andes Andruses Angels Animals Anthony
Antilles Antiques Apache Apaches
Apocrypha
NNS noun, common, plural undergraduates scotches bric-a-brac products
bodyguards facets coasts divestitures
storehouses designs clubs fragrances averages
subjectivists apprehensions muses factory-
jobs
PDT pre-determiner all both half many quite such sure this
POS genitive marker ' 's
PRP pronoun, personal hers herself him himself hisself it itself me
myself one oneself ours ourselves ownself self
she thee theirs them themselves they thou thy us
PRP$ pronoun, possessive her his mine my our ours their thy your
RB adverb occasionally unabatingly maddeningly
adventurously professedly stirringly

prominently technologically magisterially
predominately swiftly fiscally pitilessly
RBR adverb, comparative further gloomier grander graver greater
grimmer harder harsher healthier heavier higher
however larger later leaner lengthier less-
perfectly lesser lonelier longer louder lower
more
RBS adverb, superlative best biggest bluntest earliest farthest first
furthest hardest heartiest highest largest least
less most nearest second tightest worst
RP particle aboard about across along apart around aside at
away back before behind by crop down ever
fast for forth from go high i.e. in into just later
low more off on open out over per pie raising
start teeth that through under unto up up-pp
upon whole with you
9
Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
SYM symbol % & ' '' ''. ) ). * + ,. < = > @ A[fj] U.S
U.S.S.R \* \*\* \*\*\*
TO "to" as preposition or
infinitive marker
to
UH interjection Goodbye Goody Gosh Wow Jeepers Jee-sus
Hubba Hey Kee-reist Oops amen huh howdy uh
dammit whammo shucks heck anyways
whodunnit honey golly man baby diddle hush
sonuvabitch
VB verb, base form ask assemble assess assign assume atone
attention avoid bake balkanize bank begin

behold believe bend benefit bevel beware bless
boil bomb boost brace break bring broil brush
build
VBD verb, past tense dipped pleaded swiped regummed soaked tidied
convened halted registered cushioned exacted
snubbed strode aimed adopted belied figgered
speculated wore appreciated contemplated
VBG verb, present
participle or gerund
telegraphing stirring focusing angering judging
stalling lactating hankerin' alleging veering
capping approaching traveling besieging
encrypting interrupting erasing wincing
VBN verb, past participle multihulled dilapidated aerosolized chaired
languished panelized used experimented
flourished imitated reunifed factored condensed
sheared unsettled primed dubbed desired
VBP verb, present tense,
not 3rd person
singular
predominate wrap resort sue twist spill cure
lengthen brush terminate appear tend stray
glisten obtain comprise detest tease attract
emphasize mold postpone sever return wag
VBZ verb, present tense,
3rd person singular
bases reconstructs marks mixes displeases seals
carps weaves snatches slumps stretches
authorizes smolders pictures emerges stockpiles
seduces fizzes uses bolsters slaps speaks

pleads
WDT WH-determiner that what whatever which whichever
WP WH-pronoun that what whatever whatsoever which who
whom whosoever
WP$ WH-pronoun,
possessive
whose
WRB Wh-adverb how however whence whenever where whereby
10
Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên
whereever wherein whereof why
11

Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên Tìm hiểu công cụ gán nhãn từ loại (Stanford POS Tagger)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về