Tôi trích xuất các câu nhân quả từ các báo cáo tai nạn trên mặt nước. Tôi đang sử dụng NLTK như một công cụ ở đây. Tôi tự tạo ngữ pháp regExp bằng cách lấy 20 cấu trúc câu nguyên nhân [xem ví dụ bên dưới]. Ngữ pháp xây dựng là loạiTrích xuất câu nguyên nhân Sử dụng python NLTK
grammar = r'''Cause: {<DT|IN|JJ>?<NN.*|PRP|EX><VBD><NN.*|PRP|VBD>?<.*>+<VBD|VBN>?<.*>+}'''
Bây giờ ngữ pháp có 100% thu hồi trên tập kiểm tra (tôi đã xây dựng bộ dữ liệu đồ chơi của riêng tôi với 50 nguyên nhân và 50 câu nhân quả không) nhưng độ chính xác thấp. Tôi muốn hỏi về:
- Cách huấn luyện NLTK tự động xây dựng ngữ pháp regexp cho giải nén các loại câu cụ thể.
Có bất kỳ ai từng cố gắng trích xuất các câu nguyên nhân. Ví dụ câu nhân quả là:
Có điều kiện vệ sinh nghèo trong làng, do đó, cô đã vấn đề sức khỏe.
Nước không tinh khiết trong làng của cô ấy, Vì lý do này, cô ấy bị từ ký sinh trùng.
Cô ấy có vấn đề về sức khỏe do vệ sinh kém trong làng. Tôi chỉ muốn trích xuất các loại câu trên từ một văn bản lớn .