Tôi đã tự hỏi liệu có thể trích xuất danh từ, động từ riêng biệt trong gói R openNLP không? Tôi sử dụng hàm tagPOS gắn thẻ câu nhưng phải làm gì trong trường hợp tôi muốn trích xuất động từ, danh từ riêng biệt.Trích xuất các danh từ và động từ văn bản
6
A
Trả lời
9
Sử dụng một ví dụ: (điều này được trích xuất từ được đánh dấu như là/VBX, trong đó x là bất cứ ký tự đơn)
library("openNLP")
acq <- "Gulf Applied Technologies Inc said it sold its subsidiaries engaged in pipeline and terminal operations for 12.2 mln dlrs. The company said the sale is subject to certain post closing adjustments, which it did not explain. Reuter."
acqTag <- tagPOS(acq)
sapply(strsplit(acqTag,"[[:punct:]]*/VB.?"),function(x) sub("(^.*\\s)(\\w+$)", "\\2", x))
[,1]
[1,] "said"
[2,] "sold"
[3,] "engaged"
[4,] "said"
[5,] "is"
[6,] "did"
[7,] " not/RB explain./NN Reuter./."
Ok, biểu hiện thường xuyên của tôi cần một số cải tiến để thoát khỏi dòng cuối cùng Trong kết quả.
EDIT
Một thay thế có thể là bỏ qua hàng chứa một nhân vật space
sapply(strsplit(acqTag,"[[:punct:]]*/VB.?"),function(x) {res = sub("(^.*\\s)(\\w+$)", "\\2", x); res[!grepl("\\s",res)]})
Các vấn đề liên quan
- 1. Trích xuất văn bản từ pdf và các tệp từ
- 2. Trích từ danh từ văn bản (Java)
- 3. Trích xuất văn bản từ PDF
- 4. Trích xuất JSON từ văn bản
- 5. Trích xuất văn bản từ HTML Java
- 6. Cách trích xuất URL từ văn bản
- 7. Trích xuất URL từ các tệp văn bản/HTML lớn
- 8. Trích xuất văn bản từ các URL bằng TIKA
- 9. trích xuất văn bản từ tex, xóa các thẻ latex
- 10. Trích xuất đường dẫn từ canvas html văn bản
- 11. Trích xuất các cụm từ khóa từ văn bản (1-4 từ ngram)
- 12. Trích xuất văn bản nội dung từ Email PHP
- 13. Trích xuất văn bản từ một contentEditable div
- 14. Phương pháp trích xuất vị trí từ văn bản?
- 15. cột Trích xuất từ file văn bản sử dụng PowerShell
- 16. sed/awk: Trích xuất mẫu từ luồng văn bản
- 17. C# Trích xuất văn bản từ PDF bằng PdfSharp
- 18. trích xuất văn bản từ pdf trong Javascript
- 19. Trích xuất văn bản Itextsharp
- 20. Trích từ sử dụng nltk từ văn bản tiếng Đức
- 21. Cách tốt nhất để trích xuất văn bản từ tệp văn bản 1.3GB bằng PHP?
- 22. trích xuất các từ từ một tệp
- 23. Trích xuất chuỗi từ giữa các trích dẫn
- 24. Trích xuất các cụm từ có liên quan theo ngữ cảnh (cụm từ danh từ) từ văn bản trong dự án .NET
- 25. Làm thế nào để trích xuất từ khóa từ một khối văn bản trong Haskell
- 26. Trích xuất thông tin từ Văn bản thuần tuý và Viết sang XML Sử dụng DOM
- 27. Trích xuất bảng từ DOCX
- 28. Chiến lược Python để trích xuất văn bản từ các trang html không đúng định dạng
- 29. Làm cách nào để trích xuất URL và văn bản liên kết từ HTML trong Perl?
- 30. Java - PDFBox - Trích xuất văn bản
Cảm ơn! gd047 :) nó hoạt động ... Tôi đã gần như trên bờ vực của việc sử dụng sapply cho chiết xuất nhưng không thể có được một cách làm thế nào để làm điều đó. Cảm ơn. –