2009-03-03 22 views
11

Tôi quan tâm đến việc tìm hiểu thêm về Natural Language Processing (NLP) và tôi có tò mò không nếu có bất kỳ chiến lược nào để nhận ra danh từ thích hợp trong văn bản không dựa trên nhận dạng từ điển? Ngoài ra, bất cứ ai cũng có thể giải thích hoặc liên kết đến các tài nguyên giải thích các phương pháp dựa trên từ điển hiện tại? Ai là chuyên gia có thẩm quyền về NLP hoặc các nguồn lực dứt khoát về chủ đề này là gì?Các chiến lược để nhận biết danh từ thích hợp trong NLP

Trả lời

11

Nhiệm vụ xác định phần thích hợp của lời nói cho một từ trong một văn bản được gọi là Part of Speech Tagging. Ví dụ: Brill tagger sử dụng hỗn hợp từ điển (từ vựng) từ điển và các quy tắc theo ngữ cảnh. Tôi tin rằng một số từ điển ban đầu quan trọng cho nhiệm vụ này là những từ dừng. Một khi bạn có (phần lớn là chính xác) các phần của lời nói cho lời nói của bạn, bạn có thể bắt đầu xây dựng các cấu trúc lớn hơn. This industry-oriented book phân biệt giữa việc nhận dạng cụm từ danh từ (NPs) và nhận ra các thực thể có tên. Về sách giáo khoa: Allen's Natural Language Understanding là một cuốn sách tốt, nhưng có một chút ngày. Foundations of Statistical Natural Language Processing là phần giới thiệu tuyệt vời về NLP thống kê. Speech and Language Processing hơi nghiêm ngặt hơn và có thể có thẩm quyền hơn. The Association for Computational Linguistics là một cộng đồng khoa học hàng đầu về ngôn ngữ học tính toán.

+0

Cảm ơn các tài nguyên. – VirtuosiMedia

6

Bên cạnh những phương pháp tiếp cận dựa trên từ điển, hai người khác đến với tâm trí tôi:

  • cách tiếp cận mẫu dựa trên (trong một hình thức đơn giản: bất cứ điều gì được viết hoa là một danh từ riêng)
  • cách tiếp cận Học máy (đánh dấu danh từ riêng trong một corpus đào tạo và đào tạo một phân loại)

các lĩnh vực chủ yếu được gọi là tên thực thể khai thác và thường được coi là một trường con của thập thông tin n khai thác. Một điểm khởi đầu tốt cho các lĩnh vực khác nhau của NLP thường là chương theo trong Oxford Handbook of Computational Linguistics:

Oxford Handbook of Computational Linguistics http://ukcatalogue.oup.com/images/en_US/covers/medium/9780198238829_140.jpg

+0

Ah, cảm ơn cụm từ "trích xuất thực thể có tên". Đôi khi tìm ra các thuật ngữ chính xác là phần khó nhất khi bạn mới bắt đầu tìm hiểu về điều gì đó. – VirtuosiMedia

2

Nó phụ thuộc vào những gì bạn có nghĩa là bởi dựa trên từ điển. Ví dụ:

Ví dụ: một chiến lược sẽ lấy những thứ mà không phải là trong từ điển và cố gắng tiếp tục giả định rằng chúng là danh từ thích hợp. Nếu điều này dẫn đến một phân tích hợp lý, hãy xem xét giả định tạm thời được xác nhận và tiếp tục đi, nếu không kết luận rằng chúng không.

ý tưởng khác:

  • Ở vị trí đối tượng, bất kỳ chủ đề đơn giản mà không có một determiner là một ứng cử viên tốt.
  • Ditto trong cụm giới từ
  • Ở vị trí bất kỳ, cơ sở của một determiner sở hữu (ví dụ Bob trong "Chị gái của Bob") là một ứng cử viên tốt

- MarkusQ

+0

Ý tưởng thú vị về những thứ không có trong từ điển. – VirtuosiMedia

4

Hãy thử tìm kiếm "nhận dạng đối tượng được đặt tên" - đó là thuật ngữ được sử dụng trong tài liệu NLP cho loại điều này.

0

một số bộ công cụ được đề xuất: 1. Opennlp: có thành phần Ghi nhận thực thể được đặt tên cho tác vụ của bạn 2.LingPipe: cũng là một thành phần NER cho nó 3. Gói NLP Stanford: gói tuyệt vời cho việc sử dụng học tập, có thể không thân thiện với thương mại. 4. nltk: gói Python NLP

0

nếu bạn có câu như "cổng hóa đơn" Và nếu bạn áp dụng một phần của trình gắn thẻ lời nói với nó. Nó sẽ cho câu trả lời như

"người/WP là/VBZ hóa đơn/NN cửa/NNS? /."

U có thể thử trực tuyến này trên http://cst.dk/online/pos_tagger/uk/

Vì vậy, bạn đang nhận được những gì là tất cả các danh từ trong câu này. Bây giờ bạn có thể dễ dàng trích xuất danh từ này bằng một số thuật toán. Tôi đề nghị sử dụng python nếu bạn đang sử dụng xử lý ngôn ngữ tự nhiên. Nó có NLTK (Bộ công cụ ngôn ngữ tự nhiên) mà bạn có thể làm việc.

0

Nếu bạn quan tâm trong việc thực hiện xử lý ngôn ngữ tự nhiên và trăn là ngôn ngữ lập trình của bạn, thì đây có thể là một nguồn lực rất nhiều thông tin: http://www.youtube.com/watch?v=kKe4M4iSclc

0

Mặc dù này là dành cho ngôn ngữ Bengali, nhưng nó có thể vẽ một chung thủ tục xác định danh từ thích hợp. Vì vậy, tôi hy vọng điều này sẽ hữu ích cho bạn. Vui lòng kiểm tra liên kết folowing: http://www.mecs-press.org/ijmecs/ijmecs-v6-n8/v6n8-1.html

Các vấn đề liên quan