2011-11-20 28 views
6

Cụm từ thông dụng của trình phân tích cú pháp của NLTK có thể khớp với thẻ POS, nhưng chúng cũng có thể khớp với các từ cụ thể không?
Vì vậy, giả sử tôi muốn cắt bất kỳ cấu trúc nào với một danh từ theo sau là động từ "trái" (gọi mẫu này là L). Ví dụ, câu "the \ DT dog \ NN left \ VB" nên được chunked là
(S (DT) (L (NN dog) (VB left))), nhưng câu "the \ DT dog \ NN ngủ \ VB "sẽ không được chunked cả.Các từ phù hợp với trình phân tích cú pháp của NLTK

Tôi chưa thể tìm thấy bất kỳ tài liệu nào về cú pháp chunking regex và tất cả các ví dụ tôi đã thấy chỉ khớp với thẻ POS.

Trả lời

1

Tôi đã có một vấn đề tương tự và sau khi nhận ra rằng mô hình regex sẽ chỉ kiểm tra thẻ, tôi đã thay đổi thẻ trên mảnh Tôi đã quan tâm.

Ví dụ, tôi đã cố gắng để phù hợp với tên sản phẩm và phiên bản và sử dụng một quy tắc chunk như \ NNP + \ CD làm việc cho "Internet Explorer 8.0" nhưng không thành công trên "Internet Explorer 8.0 SP2", nơi nó được gắn thẻ SP2 là một NNP.

Có lẽ tôi có thể đã đào tạo một người gắn thẻ POS nhưng quyết định thay vì chỉ thay đổi thẻ thành SP và sau đó một quy tắc đoạn như \ NNP + \ CD \ SP * sẽ khớp với một trong hai ví dụ.

+0

bạn có thể cung cấp một ví dụ dọc theo dòng: chunkGram = r "" "Chunk: {? * * + }" "" – ProfVersaggi

Các vấn đề liên quan