2015-01-07 17 views
5

Tôi có một bộ sưu tập hóa đơn và Hóa đơn, do đó không có ngữ cảnh trong văn bản (nghĩa là họ không kể một câu chuyện). Tôi muốn trích xuất tên người từ các hóa đơn đó. Tôi đã thử OpenNLP nhưng chất lượng của mô hình được đào tạo không tốt bởi vì tôi không có ngữ cảnh. vì vậy câu hỏi đầu tiên là: liệu tôi có thể đào tạo mô hình chỉ chứa tên người mà không có ngữ cảnh? và nếu có thể, bạn có thể cho tôi bài viết hay về cách tôi xây dựng mô hình mới (hầu hết các bài viết mà tôi đọc không giải thích các bước mà tôi nên tạo để xây dựng mô hình mới).Trích xuất Tên người từ văn bản không có cấu trúc

Tôi có tên cơ sở dữ liệu với hơn 100.000 người (tên, họ), vì vậy nếu hệ thống NER không hoạt động trong trường hợp của tôi (vì không có ngữ cảnh), cách tốt nhất để tìm kiếm những ứng cử viên đó (ý tôi là tìm kiếm từng tên với tất cả các họ khác?)

cảm ơn.

Trả lời

2

Về "ngữ cảnh", tôi đoán bạn có nghĩa là bạn không có toàn bộ câu, nghĩa là không có mã thông báo trước/tiếp theo và trong trường hợp này bạn phải đối mặt với NER không chuẩn. Tôi không biết phần mềm hoặc dữ liệu đào tạo có sẵn cho vấn đề cụ thể này, nếu bạn thấy không có, bạn sẽ phải xây dựng kho tài liệu của riêng mình cho mục đích đào tạo và/hoặc đánh giá.

Cơ sở dữ liệu tên của bạn có thể sẽ giúp ích rất nhiều, tùy thuộc vào tỷ lệ tên hóa đơn thực sự có trong cơ sở dữ liệu. Bạn cũng có thể sẽ phải dựa vào hình thái cấp độ nhân vật của tên, như các mẫu (xem các mẫu ví dụ trong [1]). Một khi bạn có một tập huấn với các tính năng (sự hiện diện trong cơ sở dữ liệu, hình thái học, thông tin khác của hóa đơn) và giải pháp (tên thực tế của hóa đơn được chú thích), sử dụng máy học chuẩn như SVM sẽ khá đơn giản (nếu bạn không quen với điều này, chỉ hỏi thôi).

Một số gợi ý khác:

  • Bạn có thể có lẽ hầu hết cũng sử dụng các thông tin khác hóa đơn của: tên công ty, vị trí, thuế đề cập vv
  • Bạn cũng có thể tiến hành trong aa cách có chọn lọc - nếu tất cả các hóa đơn nên Bạn có thể loại trừ tất cả các văn bản khác (ví dụ: số tiền, tên thuế, vị trí, v.v.) hoặc giả định trong một mô hình chuyên dụng trong số tất cả văn bản trong hóa đơn, chỉ một tên được đoán là tên.

[1] thuật toán xếp hạng cho tên thực thể khai thác: Đẩy mạnh và Perceptron bình chọn (Michael Collins, 2002)

2

Tôi muốn bắt đầu với một số biểu thức thông thường, sau đó có thể làm tăng thêm rằng với một dựa trên từ điển cách tiếp cận (ví dụ: danh sách lớn các tên).

Bất kể bạn làm gì, nó sẽ không hoàn hảo, vì vậy hãy nhớ ghi nhớ điều đó.

Các vấn đề liên quan