2014-05-16 15 views
7

Tôi đang cố gắng đặt tên nhận dạng đối tượng lần đầu tiên. Tôi đang tìm các tính năng sẽ chọn ra tên tiếng Anh. Tôi đang sử dụng các phương pháp được nêu trong coursera nlp course (tuần thứ ba) và nltk book. Nói cách khác: Tôi đang xác định các tính năng, xác định các tính năng của các từ và sau đó chạy các từ/tính năng đó thông qua một trình phân loại mà tôi đào tạo trên dữ liệu có nhãn.Các học viên NLP sử dụng các tính năng nào để chọn ra tên tiếng Anh?

Tính năng nào được sử dụng để chọn ra tên tiếng Anh?

Tôi có thể tưởng tượng rằng bạn sẽ tìm hai từ vốn liên tiếp, hoặc một từ vốn và sau đó là một từ đầu tiên và sau đó là một từ viết hoa. (ví dụ: John Smith hoặc James P. Smith).

Nhưng những tính năng nào khác được sử dụng cho NER?

Trả lời

7

Một số tính năng chung:

  • danh sách Word cho tên chung (John, Adam, vv)
  • vỏ
  • chứa biểu tượng hoặc ký tự số (tên thường không)
  • người tiền tố (Ông, Bà, v.v ...)
  • người hậu tố (Jr., Sr., v.v.)
  • chữ viết tắt đơn (tức là, (J.) Smith).
  • phân tích các từ xung quanh (bạn có thể tìm thấy một số từ có xác suất xuất hiện gần tên).
  • thực thể có tên được công nhận trước đó (thường nó rất dễ dàng để xác định NE ở một số bộ phận của corpus dựa trên bối cảnh, nhưng rất khó khăn ở những nơi khác. Nếu xác định trước đó, đây là một gợi ý tuyệt vời đối với NER)

Tùy thuộc vào ngôn ngữ bạn đang làm việc với có thể có nhiều tính năng ngôn ngữ cụ thể hơn. Thành thật mà nói, bạn có thể bật lên vô số thông tin với một truy vấn đơn giản của Google, tôi thực sự không chắc chắn tại sao bạn chưa quay lại đó. Tuy nhiên một số điểm bắt đầu:

4

Tôi đã làm một cái gì đó tương tự trở lại trong trường sử dụng máy học. Tôi cho rằng bạn sẽ sử dụng thuật toán được giám sát và bạn sẽ phân loại từng từ một cách độc lập chứ không phải từ kết hợp. Trong trường hợp đó, tôi sẽ chọn một số tính năng cho từ giống như từ bạn đã đề cập (nếu từ bắt đầu bằng chữ cái viết hoa, nếu từ đó viết tắt) nhưng tôi sẽ thêm một số tính năng khác như từ trước hoặc từ tiếp theo bắt đầu từ một chữ cái viết hoa, hoặc nếu chúng là chữ viết tắt. Bằng cách này bạn có thể thêm một số bối cảnh và khắc phục các vấn đề liên quan đến giả định độc lập cơ bản của bạn.

Nếu bạn muốn xem here. Trong phần học máy, bạn có thể tìm thấy một số thông tin và ví dụ khác (vấn đề hơi khác nhưng phương pháp nên giống nhau).

Bất kỳ tính năng nào bạn chọn điều quan trọng là bạn sử dụng một số biện pháp để đánh giá mức độ liên quan của chúng và có thể giảm mức độ phù hợp để tránh mức độ phù hợp.Một trong các biện pháp bạn có thể sử dụng để đánh giá chúng là gain ratio nhưng có nhiều biện pháp khác. Here bạn có thể tìm thấy một số thông tin cơ bản về tính năng trích xuất.

Hy vọng điều đó sẽ hữu ích!

Các vấn đề liên quan