2012-10-14 36 views
6

Tôi phải thực hiện đánh dấu ngang (khái niệm NLP) và tôi đang gặp một chút rắc rối khi hiểu cây sẽ trông như thế nào. Tôi đã đọc Klein and Manning paper, nhưng họ không giải thích những gì cây có đánh dấu ngang theo thứ tự 2 hoặc thứ tự 3 sẽ trông như thế nào. Ai đó có thể làm sáng tỏ một số thuật toán và cái cây được SUPPOSED trông như thế nào? Tôi khá mới với NLP.Đánh dấu ngang

Trả lời

10

Vì vậy, giả sử bạn có một loạt các quy tắc phẳng như:

NP 
    NNP 
    NNP 
    NNP 
    NNP 

hoặc

VP 
    V 
    Det 
    NP 

Khi bạn binarize những bạn muốn giữ lại bối cảnh (tức là đây không phải là chỉ là một Det nhưng đặc biệt là một Det sau một động từ như là một phần của một VP). Để làm như vậy thông thường bạn sử dụng chú thích như thế này:

NP 
    NNP 
    NP->NNP 
     NNP 
     NP->NNP->NNP 
      NNP 
      NP->NNP->NNP->NNP 
       NNP 

hoặc

VP 
    V 
    VP->V 
     Det 
     VP->V->Det 
      NP 

Bạn cần để binarize cây, nhưng các chú thích này không phải lúc nào rất có ý nghĩa. Chúng có thể có ý nghĩa đối với ví dụ Verb Phrase, nhưng tất cả những gì bạn thực sự quan tâm đối với cụm từ khác là cụm từ danh từ có thể là một chuỗi danh từ thích hợp khá dài (ví dụ: "Peter B. Lewis Building" hoặc "Hope Memorial Bridge Project Ngày kỷ niệm"). Vì vậy, với Markovization ngang, bạn sẽ thu gọn một số chú thích một chút, bỏ đi một số bối cảnh. Thứ tự Đánh dấu là số lượng ngữ cảnh bạn sẽ giữ lại. Vì vậy, với các chú thích bình thường, bạn về cơ bản là thứ tự vô hạn: chọn để giữ lại tất cả ngữ cảnh và thu gọn không có gì.

đặt hàng 0 có nghĩa là bạn đang đi để thả tất cả các bối cảnh và bạn sẽ có được một cái cây mà không có chú thích ưa thích, như thế này:

NP 
    NNP 
    NNP 
     NNP 
     NNP 
      NNP 
      NNP 
       NNP 

thứ tự 1 có nghĩa là bạn sẽ giữ lại chỉ có một nhiệm kỳ của bối cảnh và bạn sẽ có được một cây như thế này:

NP 
    NNP 
    NP->...NNP **one term: NP->** 
     NNP 
     NP->...NNP **one term: NP->** 
      NNP 
      NP->...NNP **one term: NP->** 
       NNP 

thứ 2 có nghĩa là bạn sẽ giữ lại hai nhiệm kỳ của bối cảnh và bạn sẽ có được một cây như thế này:

NP 
    NNP 
    NP->NNP **two terms: NP->NNP** 
     NNP 
     NP->NNP->...NNP **two terms: NP->NNP->** 
      NNP 
      NP->NNP->...NNP **two terms: NP->NNP->** 
       NNP 
+1

H = 0 của bạn không chính xác. – user3639557

+0

Vui lòng cung cấp câu trả lời khác. – FoolishSeth

0

Tôi tin rằng ý tưởng là tính đến các nút cha cho nút markovization và anh chị em dọc cho ngang khi ước tính xác suất quy tắc và thứ tự cho biết số lượng bao gồm chúng. Có một bức ảnh đẹp cho chú thích của phụ huynh here.

Ngoài ra, một trích dẫn từ http://www.timothytliu.com/files/NLPAssignment5.pdf:

Tiếp cận lexicalization, nhiều thông tin được thêm vào phụ huynh nút của mỗi cây. Điều này phân biệt chính xác giữa các tệp đính kèm khác nhau và có hay không rẽ nhánh trái hoặc nhánh. Đánh dấu ngang được thực hiện bằng cách theo dõi anh chị em khi cây được binarized. Đánh dấu dọc được thực hiện bằng cách theo dõi các bậc cha mẹ của nút trong cây. Những điều này tạo phụ thuộc mới , vì bây giờ các quy tắc là sự kết hợp của cả chiều sâu lẫn chiều rộng .

Các vấn đề liên quan