2016-01-20 20 views
5

Tôi đang thực hiện một số NLP nơi tôi tìm ra khi bệnh nhân được chẩn đoán mắc bệnh đa xơ cứng.Có cách nào để nói với NLTK rằng một từ nào đó không phải là danh từ thích hợp mà là danh từ?

Tôi muốn sử dụng nltk để cho tôi biết rằng danh từ của câu bị đa xơ cứng. Vấn đề là, các bác sĩ thường xuyên đề cập đến bệnh đa xơ cứng như MS mà nltk chọn lên như một danh từ thích hợp.

Ví dụ, câu này, "MS của anh ấy được chẩn đoán vào năm 1999." Được gắn thẻ là: [('His', 'PRP$'), ('MS', 'NNP'), ('was', 'VBD'), ('diagnosed', 'VBN'), ('in', 'IN'), ('1999', 'CD'), ('.', '.')]

MS phải là danh từ ở đây. Bất kỳ đề xuất?

+1

Nhận dạng đối tượng được đặt tên là một vấn đề khó khăn. Hãy thử [this] (http://textminingonline.com/how-to-use-stanford-named-entity-recognizer-ner-in-python-nltk-and-other-programming-languages). –

+0

Trình ghi thẻ POS mặc định đang sử dụng của bạn hiện tại. Vì vậy, trong trường hợp đó bạn cần phải đào tạo kho của riêng bạn với bao gồm các giá trị được gắn thẻ POS chính xác. Nếu không phải là một cơ chế quay trở lại, bạn nên có một lớp sửa lỗi khác sau khi sử dụng mô hình trình gắn thẻ POS của công ty mặc định. – Renien

+0

Nguồn dữ liệu là gì? Có thể chia sẻ không? Có danh sách các từ/cụm từ/từ viết tắt mà bạn muốn chúng luôn là danh từ không? Bạn đã gắn thẻ dữ liệu chưa? Miền dữ liệu là gì? Mục đích cuối cùng của việc gắn thẻ POS là gì? Trả lời những câu hỏi đó sẽ thu hẹp các giải pháp cho câu hỏi của bạn. – alvas

Trả lời

0

Tóm nó lên, bạn có các tùy chọn sau:

  1. Sửa chữa các thẻ trong post-processing - một chút xấu xí nhưng nhanh chóng và dễ dàng.
  2. Sử dụng bên ngoài Công cụ nhận dạng đối tượng tên (Stanford NER như @Bob Dylan đã đề xuất một cách chu đáo) - điều này có liên quan nhiều hơn, đặc biệt là vì Stanford NER ở dạng java và không đặc biệt nhanh.
  3. Đào tạo lại một Tagger POS trên dữ liệu tên miền cụ thể (bạn có đủ dữ liệu lớn chú thích để sử dụng nó cho rằng?)
  4. Sử dụng WSD cách tiếp cận (nhập nhằng) - cho một sự khởi đầu bạn cần phải có một từ điển tên miền tốt để sử dụng.
Các vấn đề liên quan