2011-11-19 30 views
5

Tôi muốn thực hiện một số xử lý ngôn ngữ tự nhiên trong công thức nấu ăn, đặc biệt là các thành phần (có thể là chuẩn bị sau này). Về cơ bản, tôi đang tìm cách tạo ra các thẻ POS của riêng mình để giúp tôi xác định ý nghĩa của một dòng thành phần.Gắn thẻ tay một bộ huấn luyện với các thẻ tùy chỉnh

Ví dụ, nếu một trong các thành phần là: 3/4 cup (đóng gói nhẹ) lá phẳng lá rau mùi tây, chia

tôi muốn thẻ để diễn tả thành phần được liệt kê và quanitity, đó là thường là một số được theo sau bởi một số đơn vị đo lường. Ví dụ:

3 \ NUM-QTY/\ FRACTION4 \ NUM-QTY cup \ N-MEAS (nhẹ \ ADV đóng gói \ VD) [lá phẳng \ ADJ parsley \ N] \ THÀNH PHẦN lá \ N, chia \ VD

Thẻ tôi tìm thấy here.

Tôi không chắc chắn về một vài điều:

  1. Tôi có nên sử dụng các thẻ tùy chỉnh, hay tôi nên làm một số loại bài gắn thẻ xử lý sau khi sử dụng một tagger tồn tại trước đó?
  2. Nếu tôi sử dụng thẻ tùy chỉnh, cách tốt nhất để tạo văn bản đào tạo chỉ cần đi qua danh sách thành phần và gắn thẻ mọi thứ bằng tay?

Tôi cảm thấy quá trình xử lý ngôn ngữ này rất cụ thể để đào tạo người gắn thẻ trên một bộ áp dụng, nhưng tôi không chắc chắn cách tiến hành.

Cảm ơn!

Trả lời

3

Sử dụng thư viện pattern.search.

Thư viện mẫu python hỗ trợ nhiều thẻ [1], bao gồm thẻ số thẻ hồng ngoại (CD).

Khi bạn đã gắn thẻ hồng y, phân số là "hồng y/hồng y" hoặc giống như "hồng y hồng y/hồng y".

Và liên quan đến số lượng, bạn nên xây dựng phân loại số lượng nấu ăn. thư viện mẫu python cũng hỗ trợ lemmatization [2].

Tôi nghĩ rằng bằng cách sử dụng pattern.search [2] bạn có thể xây dựng một Hạn chế phù hợp với dữ liệu của bạn và thực hiện tìm kiếm mẫu trên văn bản bằng cách sử dụng nó.

[1] http://www.clips.ua.ac.be/pages/mbsp-tags [2] http://www.clips.ua.ac.be/pages/pattern-search

+0

Nội dung tuyệt vời - cảm ơn bạn. Tôi đã có phân loại viết, vì vậy tôi chỉ cần cắm nó vào pattern.search. – abroekhof

Các vấn đề liên quan