Tải bản đầy đủ (.pdf) (30 trang)

Nghiên cứu mô hình xác suất cho phân tích dữ liệu dạng chuỗi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.08 MB, 30 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

NGUYEN CHÍ THÀNH

NGHIÊN CỨU MƠ HÌNH XÁC ST

<small>CHUYEN NGANH: HE THONG THONG TIN</small>

<small>MA SO: 60.48.01.04</small>

LUẬN VĂN THẠC SĨ KY THUAT

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. TỪ MINH PHƯƠNG HÀ NỘI - 2015

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>Luận văn được hoàn thành tại:</small>

<small>Người hướng dẫn khoa học:</small>

<small>PGS.TS. Từ Minh Phương</small>

<small>Phản biện 1: ...--- - - ĂcĂ E11 111111 23111 1 kg xen</small>

<small>Phản biện 2: ...---- c2 E3 1222301011111 1293311111110 1 kg xa</small>

<small>Luận văn sẽ được bảo vệ trước Hội đông châm luận văn tại Học viện Cơng</small>

<small>nghệ Bưu chính Viễn thơng</small>

<small>Vào lúc: ... giờ à năm 2015</small>

<small>Có thê tìm hiệu luận van tại:</small>

<small>- Thư viện Học viện Cơng nghệ Bưu chính Viễn thông</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

MỞ ĐẦU

Việc xử lý dữ liệu dạng chuỗi (tuần tự) trong mơ hình cấu trúc ngẫu nhiên cùng

với sự áp dụng rộng rãi của chúng ngày càng được chú ý nhiều hơn, trong nhiều lĩnh

<small>vực như: ngơn ngữ, tin học, máy tính và mạng xã hội... Ví dụ: Trong xử lý ngơn ngữ</small>

tự nhiên (NLP) là việc suy luận (từng phần hoặc đầy đủ) cấu trúc ngữ pháp của câu, cấu trúc phân cấp của một dữ kiện và một dãy những đại lượng được nêu tên (như: tên

<small>riêng, nơi ở) trong một câu...</small>

Từ các ví dụ thực tế cho thấy có các đặc tính chung đối với các tập dữ liệu z mà

chúng ta có thé quan sát và thu nhận được, việc mơ hình hóa va suy luận về các mơ

hình cấu trúc x từ dit liệu ngày càng được quan tâm. Trong mơ hình xác suất, sự suy đốn về x liên quan tới xác suất có điều kiện P(xlz). Có 2 cách tiếp cận cơ bản đối với van dé này. Đầu tiên là giả định rằng những mau x cơ bản tạo ra những dữ liệu z có thé quan sát được đưa ra bởi xác suất P(z|x). Dé suy luận về x ta sử dụng định ly Bayes như sau: P(x|z) = P(x)*P(z|x)/P(z) như vậy chúng ta phải giải quyết: mơ hình của

chính ban thân mau P(x) là gì? Mơ hình dữ liệu tạo ra trong xác suất P@lx) là gì?.

Cách tiếp cận thứ 2 trực tiếp hơn là chúng ta mơ hình hố phân phối xác suất có điều kiện P(xlz) một cách trực tiếp mà không để ý đến xác suất P(x). Điều này rất quan trọng khi xác suất ngẫu nhiên P(zlx) là phức tạp, trong khi đó xác suất P(xlz) có thê đơn giản hơn. Nó cũng loại bỏ những nguy cơ tiềm ấn trong giả định này. Cách tiếp

<small>cận này thường được gọi là những mơ hình phân biệt.</small>

Như vậy, việc áp dụng các mơ hình xác suất trong việc giải quyết các bài toán dữ

liệu dạng chuỗi được đặt ra là sử dụng ra sao, thiết lập các tham số, đánh giá tính tối

ưu như thế nào đối với mỗi mơ hình trong các bài toán cụ thể. Luận văn sẽ tập trung vào tìm hiểu về dữ liệu dạng chuỗi; bài tốn phân tích dữ liệu dạng chuỗi và các mơ hình xác suất áp dụng trong bài tốn phân tích dữ liệu dạng chuỗi. Các mơ hình được đề cập bao gồm: mơ hình đồ thị, mơ hình Markov ẩn (Hidden Markov Model — HMM), mơ hình Maximum Entropy và mơ hình Trường ngẫu nhiêu điều kiện

<small>(Conditional Random Field — CRF).</small>

<small>Luan van nay duoc trinh bay trong ba chuong:</small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Chương I: Tổng quan

Trong chương này trình bày tổng quan về dữ liệu dạng chuỗi: các khái niệm và đặc trưng của dữ liệu dạng chuỗi; Các vấn đề chung về bài tốn học có giám sát, dữ liệu dạng chuỗi (dữ liệu tuần tự) và các vấn đề chung cần nghiên cứu trong bài tốn học có giám sát với dữ liệu dạng chuỗi... Ứng dụng của bài tốn phân tích dữ liệu dạng

Chương II: Một số mơ hình xác suất cho phân tích dữ liệu dạng chuỗi

Trong chương này cũng đề cập đến một số mơ hình xác suất cho phân tích dữ

liệu dạng chuỗi. Các mơ hình được giới thiệu gồm: mơ hình Maximum Entropy, mơ

hình đồ thị, mơ hình Markov ân, mơ hình các trường ngẫu nhiên điều kiện (CRF).

<small>Chương 3. Thử nghiệm đánh giá</small>

Trong chương nay sẽ sử dụng một số mơ hình được dé cập trong chương 3 dé giải quyết các bài toán cụ thé trong xử lý nhận dạng thực thé có tên (Named-entity

recognition - NER), cu thé bài tốn được thử nghiệm là khai thác thông tin về thuốc

trong hồ sơ bệnh án.

Chương I. TONG QUAN

Trong chương nay trình bày tổng quan về dữ liệu dang chuỗi: các khái niệm và đặc trưng của đữ liệu dạng chuỗi; Các vấn đề chung về bài tốn học có giám sát, dit

liệu dạng chuối (đữ liệu tuần tự) va các van dé chung can nghiên cứu trong bài tốn

học có giám sát với dữ liệu dạng chuối... Ung dụng của bài toán phân tích dữ liệu

dang chuối.

1.1 Dữ liệu dạng chuỗi

Dữ liệu dạng chuỗi là một tập các phần tử được sắp thứ tự s := ai, a9,.. an. Trong đó mỗi phan tử a; có thé là kiểu số hoặc có thé nhận giá trị rời rac. Độ dài n của chuỗi là khơng có định, chuỗi được sắp theo thứ tự thời gian hoặc vi trí và có thể sắp đều

<small>hoặc không [11].</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<small>Việc xử lý dữ liệu dạng chuỗi trong mơ hình câu trúc ngau nhiên cùng với sự ápdụng rộng rãi của chúng ngay càng được chú ý nhiêu hon, trong nhiêu lĩnh vực như:</small>

<small>ngôn ngữ, tin học, máy tính và mạng xã hội...</small>

Trong phan tiếp theo sẽ đề cập đến các van đề chung về bài tốn học có giám sát, dữ liệu tuần tự (đữ liệu chuỗi) và các van đề chung cần nghiên cứu trong bài tốn học có giám sát với dữ liệu tuần tự: các hàm suy hao, lựa chọn đặc trưng, hiệu năng

tính tốn... Một số bài tốn phân loại dữ liệu dạng chuỗi và sự khác nhau khi phân loại

dữ liệu này so với phân loại dữ liệu thơng thường. Các mơ hình xác suất có thé sử

<small>dụng cho bài tốn học có giám sát được trình bày trong chương 2.</small>

1.2 Bài tốn học có giám sát với dữ liệu dạng chuỗi

Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm phân loại có thé dự đốn một cách chính xác các lớp đối tượng mới từ dit liệu huấn luyện là các đối tượng cũ. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-to), và đầu ra mong muốn. Đầu ra của một hàm có thể là một giá tri liên tục

hay có thé là dự đoán một nhãn phân loại cho một đối tượng đầu vào. Nhiệm vụ của

chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bắt kì là đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và dau ra tương ứng). Dé đạt được điều này, chương trình học phải tổng quát hóa từ các dữ liệu san có dé dự đốn được những tình huống chưa gặp phải theo một cách

<small>hợp lí.</small>

Có hai sự khác biệt chính giữa việc dự đoán chuỗi thời gian và nhận biết được giám sát theo tuần tự. Đầu tiên trong việc nhận biết được giám sát theo tuần tự, toàn bộ

chuỗi <x¡,xa...,Xy> sẵn có trước khi chúng ta đưa ra bắt kỳ dự đoán nào về các giá tri

y, trong khi dự đốn chuỗi thời gian, chúng ta chỉ có một tiếp đầu ngữ của chuỗi tính đến thời điểm hiện tại t+1. Thứ hai, trong khi phân tích chuỗi thời gian, chúng ta có các giá trị y được quan sát thực tính đến thời điểm t, trong khi trong việc nhận biết được quan sát theo tuần tự thì chúng ta khơng có trước bất kỳ giá trị y nào và chúng ta

<small>phải dự đoán chúng.</small>

Tác vụ phụ thuộc chặt thứ hai là phân loại chuỗi. Trong tác vụ này, bài toán là

<small>đê dự đoán một nhãn đơn y mà phù hợp với một chuỗi đầu vào nguyên vẹn</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<XI,xa,....,Xr>. Ví dụ, cho trước một chuỗi các hình ảnh của các ký tự viết tay, tác vụ này có thể để xác định việc nhận dạng người viết các ký tự đó (nhận dạng viết tay). Trong các loại bài toán này, mỗi vi dụ huấn luyện bao gồm một cặp (x;,y;) với x; là một

chuỗi <X¡I, Xi2,... „ Xir¡ > Và mỗi y; là một nhãn lớp ( như là chứng minh nhân dân

<small>của một người). Một bài tốn tương tự phát sinh trong q trình nhận dạng toàn bộ các</small>

từ dựa trên việc kiểm tra chữ viết tay. x; có thé là một chuỗi các chữ cái viết tay và y;

có thê là một từ như “hundred”.

Tương tự, một số phương pháp trong bài toán nhận biết được giám sát theo tuần tự đưa ra các dự đoán bằng cách quét chuỗi từ trái sang phải, và các phương pháp như

thế cũng có thể được áp dụng cho các bài toán chuỗi thời gian. Tuy nhiên, các phương

pháp dé phân tích một chuỗi nguyên vẹn các giá tri x, trước khi dự đoán các nhãn y, về mặt điển hình có thể cho hiệu năng tốt hơn các bài toán nhận biết được giám sát theo

<small>tuân tự.</small>

1.3 Các vấn đề nghiên cứu trong bài toán nhận biết được giám sát theo tuần tự

<small>Có ba vân dé cơ bản trong bài toán nhận biét được giám sát theo tuân tự là: cáchàm suy hao, lựa chọn đặc trưng va ảnh hưởng trong tính tốn.</small>

<small>1.3.1 Các hàm suy hao</small>

Trong bài toán nhận biết được giám sát theo phân lớp, phép đo mức độ thành công thông thường tỉ lệ với các điểm dữ liệu kiểm thử mới được phân loại một cách

chính xác. Điều này được biết như suy hao 0/1, nghĩa là suy hao 1 được nhận cho mỗi

điểm kiểm thử không được phân loại và suy hao 0 cho mỗi điểm kiểm thử được phân loại chính xác. Gần đây, các nhà nghiên cứu đã nghiên cứu các hàm suy hao không

đều. Những hàm này thường được biểu diễn bởi một ma trận giá trị C(1,J), ma trận này

cung cấp giá trị của nhãn gán ¡ cho một ví dụ mà nhãn đúng của nó phải là j. Trong các trường hop đó, mục đích là dé tìm ra hàm phân loại với giá trị kỳ vọng cực tiểu.

Một chiến lược dé phát triển một hàm phân loại như thé là sử dụng ham ước lược mật độ có điều kiện P(y|x) và sau đó phân loại một điểm dit liệu mới x theo công thức:

<small>y = argmin; 3; P|x)CŒ,j) (1.3.1)</small>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Công thức này chọn lớp mà giá trị kỳ vọng của nó là cực tiểu.

<small>1.3.2 Lựa chọn đặc trưng</small>

Bat kỳ phương pháp nào đối với bài toán nhận biết được giám sát theo tuần tự phải áp dụng một dạng chia dé trị nào đó dé tách tồn bộ bài tốn dự đoán y; dựa trên x, thành các bài toán nhỏ dự đoán các nhãn đầu ra riêng rẻ y¡, dựa trên một sé tap hop con các thông tin từ x; (va có lẽ các giá trị được dự đốn y;„ khác). Một trong số các bài tốn chính của bài toán nhận biết được giám sát theo tuần tự là để nhận dạng tập hợp con thông tin liên quan dé đưa ra các dự đốn chính xác.

<small>Trong bài tốn nhận biệt được giám sát chn hóa, điêu này được biệt như bai</small>

toán lựa chọn đặc trưng, và có 4 chiến lược cơ bản dé giải quyết bài tốn này.

<small>1.3.3 Hiệu quả tính tốn</small>

Mot thách thức thứ ba trong bài toán nhận biết được giám sát theo tuần tự là dé nghiên cứu các phương pháp nhận biết và phân loại mà hiệu quả về mặt tính tốn.

Chúng ta sẽ thấy rằng một số thuật toán nhận biết đã được đề xuất cho các bài toán nhận biết được giám sát theo tuần tự rất đất đỏ về mặt tính tốn.

1.4. Ứng dụng của bài tốn phân tích dữ liệu dạng chuỗi

<small>Phân loại, gán nhãn dữ liệu dạng chuỗi được ứng dụng rộng rãi trong các bài</small>

toán về nhận dạng, phân mảnh. Mơ hình Markov ân đã thành cơng trong một thời gian dài với bài tốn gán nhãn cho dữ liệu dạng chuỗi. Gần đây, một số mơ hình có điều

<small>kiện như Maximum Entropy Markov Model (MEMM) và Conditional Random Field</small>

(CRF) được sử dung nhiều bởi khả năng cho phép các tính năng chồng chéo. Trong đó CRF là phương pháp được chú ý nhiều nhất.

<small>Gan nhãn cho dữ liệu dạng chuỗi được sử dụng nhiêu trong các bài tốn gan</small>

nhãn từ loại, nhận dạng hình ảnh, âm thanh hay các bài toán về dự đoán gen.

<small>Phân loại, tách từ (phân cụm từ) là một bài toán thuộc các bài tốn phân tíchhình thái (morphological analysis) trong xử lý ngôn ngữ tự nhiên. Day là một bước xử</small>

lý quan trong trong hệ thống Xử lý ngôn ngữ tự nhiên. Bài toán tách từ được nghiên

cứu và được sử dụng trong nhiều ứng dụng thực tế như các hệ thống trích chọn thơng

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

tin, dịch máy, và tóm tắt văn bản. Bài tốn tách từ có thê hiểu là việc gộp một dãy liên tiếp các từ trong câu dé gán nhãn cú pháp.

1.5. Kết luận chương

Trong thời gian qua, sự quan tâm đối với lĩnh vực Trí tuệ nhân tạo nói chung và bài tốn phân tích dữ liệu là rất đáng kê. Nhiều cơng trình nghiên cứu trong và ngồi nước đã và đang sử dụng phân tích cho dữ liệu dạng chuỗi và có những ứng dụng nhất định. Trong những năm gan đây, việc phân tích cho dữ liệu dạng chuỗi với dit liệu có cấu trúc thu hút được nhiều sự chú ý trong các vẫn đề về xử lý ngơn ngữ tự nhiên. Mục

đích của bài tốn học có cấu trúc là dự đoán được các cấu trúc phức tạp như chuỗi, cây

hay đồ thị. Tuy thuộc vào kích thước của dữ liệu mà ta có thé thay bài tốn học có cầu trúc là thú vị hơn so với các dữ liệu khơng có cấu trúc. Việc học với đữ liệu khơng có cau trúc có thé khá nhàm chán, do các thành phan trong dữ liệu là khơng có liên quan

đến nhau. Trong đó có nhiều phương pháp phân tích dữ liệu dạng chuỗi được sử dụng dựa trên các mơ hình xác suất. Trong chương tiếp theo, ta sẽ đi vào nghiên cứu một số

mơ hình xác suất cho bài tốn phân tích dữ liệu dạng chuỗi như mơ hình MEM, Mơ hình đồ thi, HMM, CRE và ứng dụng của các mơ hình này trong bài tốn phân tích dữ

<small>liệu dạng chuỗi.</small>

Chương II. MOT SO MƠ HÌNH XÁC SUAT CHO PHAN

TÍCH DU LIEU DANG CHUOI

Trong chương này cũng dé cập đến một số mơ hình xác suất cho phân tích dữ

liệu dạng chuối. Các mơ hình được giới thiệu gm: mơ hình Maximum Entropy, mơ hình đồ thị, mơ hình Markov ẩn, mơ hình các truong ngẫu nhiên điều kiện (CRF).

<small>2.1 Mơ hình Maximum Entropy</small>

<small>Mơ hình cực đại hóa Entropy (Maximum Entropy Model — MEM) là một mơ</small>

hình dựa trên lý thuyết xác suất, được đề xuất lần đầu bởi Jaynes E.T. từ năm 1957

[30,31]. Trong đó, MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngơn ngữ tự nhiên, đó là: Độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng. Phần này

sẽ giới thiệu về bản chất lý thuyết, mơ hình xác suất và một số mặt còn hạn chế của

<small>MEM.</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<small>2.1.1 Khát niém MEM</small>

<small>Tu tưởng chính của phương pháp cực đại hóa Entropy là “ngoài vệc thỏa mãn</small>

một số ràng buộc nào đó thi mơ hình càng đồng đều càng tốt” [30]. Dé rõ hơn về van dé này, thử xem xét trong trường hợp một bài toán gán nhãn từ loại gồm có 8 nhãn từ loại. Giả sử chúng ta có một ràng buộc duy nhất: 80% các từ có ký tự đầu của các hình

vị viết hoa là danh từ riêng (Np). Trực quan cho thấy, nếu có một từ mà tất cả ký tự

đầu của các hình vị tạo nên nó là viết hoa thì chúng ta có thể nói có 80% khả năng từ này thuộc lớp danh từ riêng, và 20% khả năng được chia đều cho 7 lớp cịn lại.

<small>2.1.2 Ngun lý cực dai hóa Entropy</small>

Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các phân phối xác

<small>suât từ một tập các dữ liệu huân luyện.</small>

Entropy là độ đo về tính đồng đều hay tính khơng chắc chan của một phân phối xác suất. Độ đo Entropy điều kiện của một phân phối mơ hình trên “một chuỗi trạng thái với điều kiện biết một chuỗi dit liệu quan sát” p(y|x) có dang sau

H(p) = —YxyB (x) * px) * log(y|x) (2.1.1)

2.1.3 Mơ hình xác suất

Theo [31.34] mơ hình xác suất được định nghĩa theo khơng gian H x T, trong đó H là tập từ có thể và ngữ cảnh từ loại, hoặc còn gọi là “lịch sử”, và T là tập các

nhãn có thể có. Xác suất mơ hình của lịch sử h cùng với nhãn t được định nghĩa theo

<small>cơng thức 2.1.3:</small>

p(h, t) = Ty TÚ: 9’ (2.1.3)

Trong đó, II là hằng số chuẩn hóa, {, a, ... œ„} là các tham số mang giá tri

<small>dương của mơ hình va {ƒ¡,..., f,} chính là các đặc trưng, thỏa mãn f;(h,t) € {0, 1}</small>

Chú ý rằng mỗi tham số a, tương ứng với một đặc trưng fj.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

2.1.4 Uu điểm của mơ hình Maximum Entropy

MME giải quyết tốt ba yêu cầu chủ yếu: độ chính xác, đặc trưng thiếu tri thức

<small>và khả năng tái sử dụng.</small>

Do Maximum Entropy có các đặc trưng về độ chính xác, thích hợp cho các đối tượng xử thô và khả năng tái sử dụng mà mơ hình này được áp dụng nhiều trong các bài tốn về xử lý ngơn ngữ tự nhiên.

<small>Kỹ thuật này được áp dụng thành công vao các bài tốn như: phân tích hình thai</small>

học, gan nhãn từ loại (POS-tagger), khử nhập nhằng giới ngữ (PP-attachment), nhận diện ranh giới câu, nhận diện ranh giới mệnh đề (clause identification), phân tích cú

<small>pháp và phân loại văn bản.</small>

2.1.5 Hạn chế của mơ hình Maximum Entropy

Mặc dùng mơ hình MEM có những ưu điểm về độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng, nhưng trong một số trường hợp đặc biệt, MEM cũng như các mơ hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn

dé “label bias” [1]. Vấn dé “label bias” là vấn đề do các trạng thái có phân phối chuyền với entropy thấp (ít đường đi ra) có xu hướng ít chú ý hơn đến quan sát hiện

tại, mơ hình MEM gặp phải vấn đề này tức là không xác định được nhánh rẽ đúng, điều này sẽ có ảnh hưởng đến kết quả mà nó đạt được.

2.1.6 Kết luận

MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngôn ngữ tự nhiên, đó là: Độ

chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng. Tuy nhiên, mơ hình này vẫn cịn gặp phải một số vấn đề cịn hạn chế cần phải khắc phục.

2.2 Mơ hình đồ thị

<small>2.2.1 Định nghĩa</small>

Mơ hình xác suất đồ thị là một mơ hình xác suất sử dụng đồ thị để biểu diễn phụ thuộc có điều kiện giữa các biến ngẫu nhiên một cách trực quan. Mơ hình đồ thị được dùng phô biến trong nhiều ngành như xác suất (đặc biệt là xác suất bayesian) và

<small>học máy [2].</small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

2.2.2 Các ứng dụng của các mơ hình đồ thị

<small>Mơ hình đơ thị được ứng dụng nhiêu trong việc xử lý ngôn ngữ tự nhiên và là cơsở đê nghiên cứu vê các mơ hình ở phân sau: mơ hình Markov ân và mơ hình trường</small>

ngẫu nhiên có điều kiện CRE.

<small>Bài toán phân loại</small>

Bài toán phân loại hay phân lớp là bài toán dự đoán một lớp đơn với biến y được cho bởi một vector của các đặc trưng x= (x,,x¿....,x„). Dé đơn giản, ta giả thiết các đặc trưng nay độc lập xác suất với nhau khi biết nhãn phân loại. Hàm phân loại kết quả được gọi là hàm phân loại Naive Bayes. Hàm này dựa trên mơ hình xác suất chung có

<small>dạng :</small>

p(y,#) = p(y) [Tš-i p(xly) (2.2.5)

Mơ hình tuần tự

Hàm phân loại trình bầy ở trên chỉ cho phép dự đốn nhãn phân loại cho từng

<small>biến riêng lẻ. Với dữ liệu dạng chuỗi, nhãn phân loại của các biến trong một chuỗi</small>

<small>thường phụ thuộc vào nhau.</small>

2.2.3 Kết luận

Bằng mơ hình đồ thị ta có thể biểu diễn một phân phối xác suất đồng thời (probability distribution) dựa theo cau trúc của đồ thị. Việc sử dụng này có nhiều ưu điểm, có thé ké ra như sau: Mơ hình ngẫu nhiên có thé được biểu diễn một cách trực quan bằng hình ảnh, giúp dé tư duy và sử dụng. Việc nghiên cứu tính chất của mơ hình

có thé thực hiện qua làm việc trên đồ thị, qua đó nhiều tính tốn, suy luận có thé thực

hiện hiệu quả hơn nhờ vào các cơng cụ tốn học của lý thuyết đồ thị.

2.3 Mơ hình Markov 4n (HMM)

Mơ hình Markov an (Hidden Markov Model - HMM) là mơ hình thống kê trong đó hệ thống được mơ hình hóa được cho là một q trình Markov với các tham sé khơng biết trước và nhiệm vụ là xác định các tham số ân từ các tham số quan sát được,

dựa trên sự thừa nhận này [4]. Các tham số của mơ hình được rút ra sau đó có thể sử

dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu. Trong

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<small>các bài toán gan nhãn, phân loại cho dữ liệu dạng chuỗi, mơ hình Markov ân được ápdụng và có nhiêu thành công lớn trong các vân đê như gán nhãn từ loại và phân cụm</small>

<small>danh từ.</small>

<small>2.3.1 Giới thiệu</small>

Mơ hình Markov ấn là một công cụ thống kê mạnh mẽ cho các bài tốn mơ hình các chuỗi có khả năng sinh ra mà có thé được mơ tả bằng một tiến trình phát sinh ngầm và một chuỗi có khả năng quan sát được. Mơ hình Markov ân được áp dụng trong nhiều vấn đề thú vị trong xử lý tín hiệu, và trong q trình xử lý từ loại thơng

thường, nhưng nó cũng được áp dụng thành cơng với các bài tốn có mức NLP thấp

<small>như gán nhãn từ loại, phân cụm danh từ và trích rút thơng tin từ văn bản.</small>

2.3.2 Định nghĩa mơ hình Markov ẩn

Mơ hình Markov ân có những đặc điểm sau:

- Từ 1 trạng thái có thể phat sinh hơn l1 sự kiện (hay cịn được gọi là 1 quan

- Chuỗi quan sát là hàm xác suất của trạng thái.

- Chúng ta có thể tính toán xác suất của các chuỗi trạng thái khác nhau từ một

<small>chuỗi quan sát.</small>

Như vậy HMM vẫn phát sinh ra các quan sát. Số lượng trạng thái thông thường khác số lượng quan sát. Khi ở trạng thái S;, có xác suất p(o); dé phát sinh sự kiện 1, xác suất p(o); dé phát sinh sự kiện 2...

Các thành phan của mơ hình Markov an:

- N là số lượng trạng thái của mơ hình. /7,2,...,Mj là các trạng thái. Ký hiệu trạng thái ở thời điểm 1 là q,.

- M là số lượng quan sát phân biệt. Ta ký hiệu tập quan sát là:

<small>V = {U\,0;,..., Đụ }.</small>

- A = (a¿} -là ma trận phân phối xác suất chuyền trạng thái, trong đó aj là xác

suất chuyên từ trang thái i ở thời điểm t sang trạng thái j ở thời điểm £+7:

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<small>aij = P[qt= j Iqui =i] 1<ij<N</small>

- B = {bj(k)} -ma tran phân phối xác suất các ký hiệu quan sát, trong đó bj(k) là xác suất nhận được ký hiệu quan sát vk ở trạng thái j:

<small>bj(k) = Plor= vilq = 7] 1<k<Mj=1,2,...N</small>

<small>- # = {ai} -ma trận phân phối trạng thái ban dau trong đó m là xác suất của mơ</small>

hình ở trạng thái i tại thời điểm ban đầu =1:

<small>m= P[qi=i])1<i<N</small>

Nhu vậy dé đặc ta đầy đủ một HMM cần phải có số trạng thái N của mơ hình, tập V gồm M ký hiệu quan sát, ma trận xác suất chuyên trạng thái A, ma trận xác suất

các ký hiệu quan sat được B và ma trận xác suất trạng thái ban đầu z. 2.3.3 Uớc lượng trong mơ hình Markov an

Ta sử dung thuật toán tiến dé ước lượng trong HMM. Toán tử tiến a; (i) là xác suất của chuỗi quan sát từng phần X = (X¡, X2,..., X:) và trạng thái quan sát Si tại thời

điểm với điều kiện cho HMM A.

<small>a, (i) = P(X1X2... Xt, qt = silA)</small>

Thuật toán tiễn:

<small>Bước 1: Khởi tạo</small>

a, (i) = Tub¡(X:) 1<i<N

2.3.4 Giải mã trong mơ hình Markov ẩn -Thuật tốn Viterbi

<small>Thuật tốn tiên, trong phân trước, tính tốn xác st mà một HMM tạo ra chuỗiquan sát bằng tổng các xác suất của tất cả đường dẫn có thể, cho nên nó khơng cung</small>

cấp đường dẫn tốt nhất (hoặc dãy trạng thái). Ở nhiều ứng dụng, người ta mong tìm

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

được đường dẫn như vậy. Tìm đường dẫn tốt nhất (dãy trạng thái) là nền móng cho

quá trình tìm kiếm trong nhận dạng tiếng nói liên tục. Khi dãy trạng thái được an

(không được quan sát) trong nền tang HMM, hau hết sử dụng rộng rãi nhất tiêu chuẩn là dé tim dãy trạng thái có xác suất cao nhất được lấy trong khi tạo ra day quan sát. Nói cách khác, chúng ta đang tìm kiếm day trạng thái S = (s\, s2, ..., sy) mà cực đại

P(S,X|®). Vấn đề này rất giống với van dé tối ưu đường dẫn trong lập trình động. Hệ <small>quả là, một kỹ thuật chính thức dựa trên lập trình động, gọi là thuật tốn Viterbi, có thể</small> được dùng để tìm dãy trạng thái tốt nhất cho HMM. Thực tế, phương pháp tương tự được dùng dé đánh giá HMM mang lại cho giải pháp xấp xi gần với trường hợp đạt

<small>được việc sử dụng thuật tốn tiên mơ tả ở trên.</small>

Thuật tốn Viterbi có thé được xem như thuật tốn lập trình động áp dụng cho HMM hay là thuật tốn tiến sửa đổi. Thay vì tổng kết xác suất từ các con đường khác đến trạng thái đích, thuật tốn Viterbi lấy và nhớ đường dẫn tốt nhất. Đề định nghĩa

xác suất đường dẫn tốt nhất:

VC) = P(X?,Sĩ ',S, = i|®) (2.3.1)

Vi(i) là xác suất có kha năng nhất của dãy trạng thái ở thời điểm 1, ma đã tao ra quan sát Xƒ (cho đến thời điểm ;) và kết thúc ở trạng thái i.

2.3.5 Uớc lượng các tham biến HMM - Thuật toán Baum-Welch

Rất quan trọng đối với ước lượng các tham biến mô hình ® = (A, B, z) để mơ ta

chính xác các dãy quan sát. Đây là vấn đề khó nhất, vì chưa biết phương pháp phân tích tối ưu xác suất tổ hợp của dữ liệu huấn luyện trong công thức dang đóng. Thay vào đó,

van đề có thé giải quyết bằng thuật tốn lặp Baum-Welch, cịn được biết là thuật toán tién-lùi (forward-backward). Vấn đề học HMM là trường hợp điền hình của học khơng giám

sát, nơi đữ liệu là khơng đầy đủ vì dãy trạng thái ân.

2.3.6 Học có giám sát trong mơ hình Markov an

Cho trước một tập gồm các mẫu từ một tiến trình, ta muốn ước lượng các tham số của mơ hình ® = (A, B, z) mà mơ tả tiến trình tốt nhất. Có hai hướng tiếp cận tiêu chuẩn đề làm việc này, phụ thuộc vào dạng của các mẫu, mà ta sẽ gọi ở đây là huấn

<small>luyện có giám sát và khơng có giám sát. Nêu các mau hn luyện chứa cả dau vào va</small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<small>dau ra của tiên trình, ta có đê sử dụng hn luyện có giám sát băng cach xem các đâuvào là các quan sát và các đâu ra là các trạng thái, nhưng nêu các đâu vào được cung</small>

<small>cap trong quá trình huan luyện dữ liệu thì ta phải sử dụng huân luyện khơng giám sát</small>

dé dự đốn một mơ hình mà có thé tao ra các quan sát đó.

2.3.7 Kết luận

Mơ hình Markov ân là một cơng cụ thơng kê truyền thống dé mơ hình các chuỗi có khả năng sinh mà có thể được mơ tả bởi các chuỗi quan sát tạo ra một tiến trình ngầm bên dưới. Một mơ hình Markov ân học một mơ hình có khả năng sinh qua các

cặp đầu vào, mỗi cặp gồm một chuỗi của các quan sát và chuỗi của các nhãn. Mơ hình

Markov ấn đã có được nhiều thành cơng trước đây, các mơ hình Markov ân khó mơ

<small>hình các đa đặc trưng khơng độc lập. Đúng ra thì, cho trước một chuỗi quan sát, ta có</small>

thể tìm được tuyến trạng thái có khả năng nhất cho chuỗi quan sát bằng thuật tốn

2.4 Mơ hình các trường ngẫu nhiên điều kiện (CRF)

CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp [5, 6]. CRF là mơ hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. Tuy vậy, khác với các mơ hình xác suất khác, CRF là mơ hình đồ thị vơ hướng. Điều này cho phép

CRE có thê định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện

biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong các mơ hình đồ thị có hướng khác. Bản chat “phân phối điều kiện” và “phân phối toàn cục” của CRF cho phép mơ hình này khắc phục được những nhược điểm của các mơ hình trước đó trong việc gán nhãn

<small>và phân đoạn các dữ liệu dạng chuỗi mà tiêu biêu là vân dé ‘label bias’.</small>

Phần này sẽ dua ra định nghĩa CRF, lựa chọn các “ham tiềm năng” cho các mơ hình CRF, thuật tốn Viterbi cải tiến dé tìm chuỗi trạng thái tốt nhất mô tả một chuỗi dữ liệu quan sát cho trước và một số phương pháp dé ước lượng các tham số cho mơ

<small>hình CRF.</small>

</div>

×