11

Có cách nào để tìm tất cả các câu phụ của câu vẫn có ý nghĩa và chứa ít nhất một chủ đề, động từ và một biến vị ngữ/đối tượng không?Tìm các câu phụ có ý nghĩa từ một câu

Ví dụ: nếu chúng tôi có câu như "Tôi sẽ tổ chức hội thảo về NLP tại SXSW ở Austin vào tháng tới". Chúng tôi có thể trích xuất các câu phụ có ý nghĩa sau đây từ câu này: "Tôi sẽ tổ chức hội thảo", "Tôi sẽ tổ chức hội thảo về NLP", "Tôi sẽ tổ chức hội thảo về NLP tại SXSW", " Tôi sẽ tổ chức một hội thảo tại SXSW "," Tôi sẽ tổ chức một hội thảo ở Austin "," Tôi sẽ tổ chức một hội thảo về NLP vào tháng tới ", v.v.

Xin lưu ý rằng không có suy luận câu ở đây (ví dụ: "Sẽ có một hội thảo NLP tại SXSW vào tháng tới". Mặc dù điều này là đúng, chúng tôi không cần điều này như là một phần của vấn đề này.). Tất cả các câu được tạo ra đều là một phần của câu đã cho.

Làm cách nào chúng tôi có thể tiếp cận giải quyết vấn đề này? Tôi đã nghĩ đến việc tạo dữ liệu đào tạo có chú thích có một tập hợp các câu con hợp pháp cho mỗi câu trong tập dữ liệu huấn luyện. Và sau đó viết một số thuật toán học được giám sát (s) để tạo ra một mô hình.

Tôi khá mới với NLP và Học máy, vì vậy sẽ rất tuyệt nếu các bạn có thể đề xuất một số cách để giải quyết vấn đề này.

+0

Trong ví dụ của bạn, làm bạn cũng muốn subsentences tầm thường như "Tôi sẽ" và "Tôi"? Làm thế nào về "Tôi sẽ đến Austin vào tháng tới"? –

+0

@Adrian McCarthy: "Tôi sẽ đến Austin vào tháng tới" sẽ rơi vào "các câu được suy luận" như được mô tả trong câu hỏi.Đây không phải là mong muốn ở đây, vì chúng ngụ ý một điều trị ngữ nghĩa của câu đầu vào theo đó, như tôi đã hiểu, ý tưởng chỉ là bao gồm/loại trừ các kết hợp khác nhau của các cụm từ giới từ đủ điều kiện từ văn bản gốc. – mjv

+1

@Adrian McCarthy: bạn đã nêu lên một điểm tốt đẹp. Câu phụ "Tôi sẽ đến Austin" rơi phần nào trên một đường biên giới giữa câu suy luận và một câu phụ "nghiêm ngặt". Nhưng vì yêu cầu là chỉ liệt kê các câu phụ được tìm thấy nghiêm ngặt trong câu, chúng tôi sẽ bỏ qua câu này. –

Trả lời

6

Có giấy có tiêu đề "Using Discourse Commitments to Recognize Textual Entailment" bởi Hickl và cộng sự thảo luận về việc trích xuất các cam kết diễn ngôn (phụ câu). Bài báo bao gồm một mô tả về thuật toán của họ mà ở một mức độ nào đó hoạt động trên các quy tắc. Họ sử dụng nó cho RTE, và có thể có một số mức khấu trừ tối thiểu trong đầu ra. Văn bản đơn giản hóa có thể là một khu vực liên quan để xem xét.

+0

Cảm ơn bạn đã liên kết tới bài báo. Nó có vẻ thú vị và liên quan đến câu hỏi tôi hỏi. –

2

Một cách tiếp cận sẽ là với trình phân tích cú pháp, chẳng hạn như PCFG. Việc cố gắng đào tạo một mô hình để phát hiện 'những phần phụ thuộc' có khả năng bị dữ liệu thưa thớt. Ngoài ra, tôi nghi ngờ rằng bạn có thể viết ra một định nghĩa thực sự rõ ràng và rõ ràng về một khoản trợ cấp, và nếu bạn không thể xác định nó, bạn không thể nhận được chú thích để chú thích cho nó.

10

Bạn có thể sử dụng trình phân tích cú pháp phụ thuộc được cung cấp bởi Stanford CoreNLP. Kết quả thu gọn của câu của bạn sẽ trông giống như dưới đây.

nsubj(going-3, I-1) 
xsubj(do-5, I-1) 
aux(going-3, am-2) 
root(ROOT-0, going-3) 
aux(do-5, to-4) 
xcomp(going-3, do-5) 
det(seminar-7, a-6) 
dobj(do-5, seminar-7) 
prep_on(seminar-7, NLP-9) 
prep_at(do-5, -11) 
prep_in(do-5, Austin-13) 
amod(month-15, next-14) 
tmod(do-5, month-15) 

5 kết quả cuối cùng của câu là tùy chọn. Bạn có thể xóa một hoặc nhiều phần không cần thiết cho câu của mình.
Hầu hết các phần tùy chọn này thuộc về prepositional và modifier, ví dụ: prep_in, prep_do, advmod, tmod, vv. Xem Stanford Dependency Manual.

Ví dụ, nếu bạn loại bỏ tất cả các modifier từ đầu ra, bạn sẽ nhận được

Tôi sẽ làm một hội thảo về NLP tại SXSW ở Austin.

+0

Nhưng nó không cho tôi danh sách * tất cả * câu có thể. Tôi có nghĩa là nó có thể được ẩn trong đầu ra phụ thuộc này, nhưng tôi cần một cách có hệ thống để trích xuất những câu đó. –

+3

Tất nhiên là không. Nhưng bạn có thể trích xuất tất cả các câu có thể. Bắt đầu với danh sách ** tất cả các phần tùy chọn **. Sau đó thử tất cả các kết hợp để loại bỏ những phần tùy chọn. – Khairul

+0

Có đảm bảo rằng nó sẽ luôn * tạo các câu hợp pháp và ngữ nghĩa không? –

Các vấn đề liên quan