2010-07-01 40 views
8

Tôi đang tìm tài liệu tham khảo (hướng dẫn, sách, tài liệu học thuật) liên quan đến cấu trúc văn bản không có cấu trúc theo cách tương tự như nút thêm nhanh lịch google.Văn bản chưa được cấu trúc cho dữ liệu có cấu trúc

Tôi hiểu điều này có thể thuộc các thể loại NLP, nhưng tôi chỉ quan tâm trong quá trình đi từ một cái gì đó như "Levi quần jean kích thước 32 A0b293"

tới: Nhãn hiệu: Levi, Kích thước: 32, Thể loại: Quần bò, mã: A0b293

Tôi tưởng tượng nó sẽ là sự kết hợp giữa phân tích từ vựng và kỹ thuật học máy.

tôi chứ không phải ngôn ngữ thuyết bất khả tri, nhưng nếu đẩy muốn trăn, Matlab hoặc C++ tài liệu tham khảo

Cảm ơn

+0

Miền của bạn bị hạn chế như thế nào? Google Calendar Quick Add chỉ phân tích ngày tháng và thời gian (và không phải lúc nào cũng tốt). Hộp tìm kiếm của Google Maps chỉ đề cập đến các vị trí. Khó khăn của việc này phụ thuộc vào mức độ hẹp của miền của bạn.(Một danh mục sản phẩm?) – tcarobruce

+0

Hạn chế để đối phó với các cục máu đông như trong ví dụ – zenna

Trả lời

7

Bạn cần cung cấp thêm thông tin về nguồn gốc của văn bản (web? Sử dụng đầu vào?), tên miền (chỉ là quần áo?), định dạng và từ vựng tiềm năng ...

Giả sử trường hợp xấu nhất bạn cần bắt đầu học NLP. Một cuốn sách miễn phí rất hay là tài liệu của NLTK: http://www.nltk.org/book. Nó cũng là một giới thiệu rất tốt cho Python và SW là miễn phí (cho các tập quán khác nhau). Được cảnh báo: NLP là khó khăn. Nó không phải lúc nào cũng hiệu quả. Nó không phải là niềm vui ở lần. Nhà nước của nghệ thuật là không có nơi gần bạn tưởng tượng nó được.

Giả sử một kịch bản tốt hơn (văn bản của bạn được bán cấu trúc) - công cụ miễn phí tốt là pyparsing. Có một cuốn sách, rất nhiều ví dụ và mã kết quả là cực kỳ hấp dẫn.

Tôi hy vọng điều này sẽ giúp ...

1

Có thể xem "Trí tuệ tập thể" của Toby Segaran. Tôi dường như nhớ rằng giải quyết những điều cơ bản của điều này trong một chương.

+0

một trong những cuốn sách hay nhất cho trí thông minh tập thể ở đó. – jvc

1

Sau khi một số nghiên cứu tôi đã tìm thấy rằng vấn đề này thường được gọi là Thông tin Khai thác và đã tích lũy được một vài giấy tờ và lưu trữ chúng trong một Mendeley Collection

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

Cũng như Tai Weiss lưu ý NLTK cho python là một điểm khởi đầu tốt và this chương của cuốn sách, trông cụ thể tại trích xuất thông tin

+0

Liên kết này dường như đã chết –

0

Nếu bạn chỉ làm việc cho các trường hợp như ví dụ bạn trích dẫn, bạn nên sử dụng một số m dựa trên quy tắc an toàn có thể dự đoán 100% và bao gồm 90% các trường hợp có thể gặp phải việc sản xuất ..

Bạn có thể liệt kê tất cả các thương hiệu và danh mục có thể phát hiện được. giao nhau trong hai danh sách này ..

Hai loại khác có thể dễ dàng được phát hiện và trích xuất bằng cách sử dụng cụm từ thông dụng. (Các số 1-3 chữ số luôn là kích thước, v.v.)

Miền vấn đề của bạn dường như không đủ lớn để đảm bảo cách tiếp cận nhiệm vụ nặng nề hơn như học thống kê.

+0

Đồng ý, tôi nghi ngờ lịch Google sử dụng hệ thống dựa trên quy tắc (suy nghĩ cụm từ thông dụng) để thực hiện phân tích cú pháp. Học máy là hữu ích hơn khi rút ra thông tin từ văn bản không chắc chắn hơn. Nhưng nếu miền của bạn khá nổi tiếng và chuỗi đầu vào bị giới hạn thì bạn có thể thoát khỏi các quy tắc. – Thien

Các vấn đề liên quan