2011-06-26 33 views
8

Tôi hiện đang cố gắng tìm hiểu câu của mẫu này:Trích xuất thông tin 'hữu ích' ra khỏi câu?

The problem was more with the set-top box than the television. Restarting the set-top box solved the problem.

Tôi hoàn toàn mới để xử lý ngôn ngữ tự nhiên và bắt đầu sử dụng gói NLTK Python để có được bàn tay của tôi bẩn. Tuy nhiên, tôi tự hỏi nếu ai đó có thể cho tôi một cái nhìn tổng quan về các bước cấp cao liên quan đến việc đạt được điều này.

Điều tôi đang cố gắng làm là xác định vấn đề trong trường hợp này là set-top box và liệu hành động đã được giải quyết có vấn đề hay không, vì vậy trong trường hợp này, yes vì khởi động lại sự cố đã khắc phục. Vì vậy, nếu tất cả các câu đều có hình này, cuộc sống của tôi sẽ được dễ dàng hơn nhưng vì nó là ngôn ngữ tự nhiên, các câu cũng có thể có dạng sau:

I took a look at the car and found nothing wrong with it. However, I suspect there is something wrong with the engine

Vì vậy, trong trường hợp này, vấn đề là với số car. Tác vụ đã thực hiện không giải quyết được sự cố vì sự hiện diện của từ suspect. Và vấn đề có thể xảy ra với engine.

Tôi không tìm kiếm câu trả lời tuyệt đối vì tôi nghi ngờ điều này rất phức tạp. Những gì tôi đang tìm kiếm là nhiều hơn là một cái nhìn tổng quan cấp cao mà sẽ chỉ cho tôi đi đúng hướng. Nếu có một cách dễ dàng/thay thế để làm điều này, đó là chào đón là tốt.

+7

Có một số kinh nghiệm với NLP/NLTK, tôi nghĩ rằng vấn đề này là vững chắc trong "thời gian bay như một mũi tên, trái cây bay như một quả chuối" lỗ phân tích ngữ nghĩa. Câu hỏi hóc búa nho nhỏ này vẫn chưa có bất kỳ giải pháp chung nào mà tôi biết. – msw

+0

@msw: Oh ... :) Tốt nhất! Tôi không tìm cách thiết kế một giải pháp chung. Nó sẽ là một giải pháp rất cụ thể về miền. Điều tôi đang cố gắng hiểu là cách người ta tiếp cận những vấn đề như vậy (tức làcần có kiến ​​thức về miền nào, cơ sở dữ liệu nào cần được biên soạn, phân loại nào sẽ được đào tạo về v.v.) – Legend

+0

Cụm từ mẫu là hạt dẻ NLP cũ, thể hiện tính vô ích của việc đạt được mục tiêu của bạn. Theo ví dụ của bạn, thay thế "engine" bằng "stereo" và cho tôi biết cách bạn - với tất cả các kỹ năng NLP cá nhân của bạn - có thể làm biến dạng mẫu của bạn (một điều xấu) và sửa đổi của tôi (một điều không quan tâm). – msw

Trả lời

3

Có thể, nếu các câu được tạo đúng, tôi sẽ thử nghiệm với dependency parsing (http://nltk.googlecode.com/svn/trunk/doc/api/nltk.parse.malt.MaltParser-class.html# raw_parse). Điều đó mang lại cho bạn một biểu đồ của các thành phần của một câu và bạn có thể cho biết mối quan hệ giữa các mục từ vựng. Sau đó, bạn có thể trích xuất các cụm từ từ đầu ra của trình phân tích cú pháp phụ thuộc (http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#code-cfg2) Điều đó có thể giúp bạn trích xuất đối tượng trực tiếp của một câu, hoặc cụm từ động từ trong một câu.

Nếu bạn chỉ muốn nhận cụm từ hoặc "đoạn" từ một câu, bạn có thể thử trình phân tích cú pháp chunk (http://nltk.googlecode.com/svn/trunk/doc/api/nltk.chunk-module.html). Bạn cũng có thể thực hiện nhận dạng thực thể được đặt tên (http://streamhacker.com/2009/02/23/chunk-extraction-with-nltk/). Nó thường được sử dụng để trích xuất các trường hợp của địa điểm, tổ chức hoặc tên người nhưng nó có thể làm việc trong trường hợp của bạn.

Giả sử bạn giải quyết vấn đề trích xuất cụm từ từ/cụm từ từ một câu, bạn có thể cần phải lọc chúng ra để giảm bớt công việc của chuyên gia miền của bạn (quá nhiều cụm từ có thể áp đảo một thẩm phán). Bạn có thể tiến hành phân tích tần số trên cụm từ của mình, xóa các cụm từ thường xuyên không thường liên quan đến miền sự cố hoặc biên dịch danh sách trắng và giữ cụm từ chứa tập hợp từ được xác định trước, v.v.

4

Thực sự tốt nhất bạn có thể hy vọng là Naive Bayesian Classifier với bộ đào tạo đủ lớn (có thể nhiều hơn bạn có) và sẵn sàng chịu đựng một tỷ lệ công bằng của các xác định sai.

Tìm kiếm chén thánh của NLP bị ràng buộc để lại cho bạn một chút không hài lòng.

+0

"Điều tốt nhất bạn có thể hy vọng" trong cùng một câu như "một Bộ phân loại Naive Bayes" giúp bạn có được -1. Có ** nhiều **, ** nhiều ** mô hình học máy mạnh hơn để khai thác thông tin. Tôi nghi ngờ nó sẽ dễ dàng hơn để viết một tập hợp các regexps hơn là cố gắng để có được một bản ngã học tập yếu như Naive Bayes để xử lý một vấn đề phức tạp này. –

Các vấn đề liên quan