2008-08-22 30 views
5

Tôi đã tự hỏi làm thế nào như dịch vụ ngữ nghĩa như Open Calais tìm ra tên của các công ty, hoặc con người, khái niệm công nghệ, từ khóa, vv từ một đoạn văn bản. Có phải vì họ có một cơ sở dữ liệu lớn phù hợp với văn bản không?Các công cụ khám phá nội dung, như Zemanta và Open Calais hoạt động như thế nào?

Dịch vụ như Zemanta biết hình ảnh nào đề xuất một đoạn văn bản chẳng hạn?

Trả lời

0

Mở Calais có thể sử dụng công nghệ phân tích cú pháp ngôn ngữ và ngôn ngữ để đoán từ hoặc cụm từ là Tên, Địa điểm, Công ty, v.v. Sau đó, nó chỉ là một bước khác để thực hiện một số loại tìm kiếm cho các thực thể đó và trả về dữ liệu meta.

Zementa có thể làm điều gì đó tương tự, nhưng phù hợp với các cụm từ chống lại siêu dữ liệu gắn liền với hình ảnh để có được kết quả liên quan.

Nó chắc chắn không phải là dễ dàng.

7

Tôi không quen thuộc với các dịch vụ cụ thể được liệt kê, nhưng lĩnh vực xử lý ngôn ngữ tự nhiên đã phát triển một số kỹ thuật cho phép loại trích xuất thông tin này từ văn bản chung. Như Sean đã nói, một khi bạn có các thuật ngữ ứng cử viên, không khó để tìm kiếm các thuật ngữ đó với một số thực thể khác trong ngữ cảnh và sau đó sử dụng kết quả tìm kiếm đó để xác định mức độ tự tin của bạn. quan tâm.

OpenNLP là một dự án tuyệt vời nếu bạn muốn chơi xung quanh với xử lý ngôn ngữ tự nhiên. Các khả năng mà bạn đã đặt tên có thể được thực hiện tốt nhất với Công cụ nhận dạng thực thể có tên (NER) (thuật toán định vị danh từ thích hợp, nói chung và đôi khi cũng là ngày) và/hoặc Word Sense Disambiguation (WSD) (ví dụ: từ 'ngân hàng' có các ý nghĩa khác nhau tùy thuộc vào ngữ cảnh của nó và điều đó có thể rất quan trọng khi trích xuất thông tin từ văn bản. sự phân định có thể đóng vai trò quan trọng trong việc hiểu ngôn ngữ)

Kỹ thuật thường xây dựng lẫn nhau, và NER là một trong những nhiệm vụ phức tạp hơn, do đó, để NER thành công, bạn sẽ cần mã thông báo chính xác (mã thông báo ngôn ngữ tự nhiên) - phương pháp thống kê có xu hướng giá vé tốt nhất), chuỗi stemmers (thuật toán mà conflate từ tương tự để phổ biến rễ: vì vậy từ như trong formant và informer được đối xử bình đẳng), phát hiện câu ('Mr. Jones cao. ' chỉ là một câu, vì vậy bạn không thể chỉ kiểm tra dấu chấm câu), trình ghi thẻ một phần của lời nói (thẻ gắn thẻ POS) và WSD.

Có một cổng python (các phần của) OpenNLP được gọi là NLTK (http://nltk.sourceforge.net) nhưng tôi chưa có nhiều kinh nghiệm với nó. Phần lớn công việc của tôi là với các cổng Java và C#, hoạt động tốt.

Tất cả các thuật toán này là ngôn ngữ cụ thể, tất nhiên, và chúng có thể mất nhiều thời gian để chạy (mặc dù nó thường nhanh hơn đọc tài liệu bạn đang xử lý). Vì nhà nước-of-the-nghệ thuật phần lớn dựa trên các kỹ thuật thống kê, đó cũng là một tỷ lệ lỗi đáng kể để đưa vào tài khoản. Hơn nữa, vì tỷ lệ lỗi ảnh hưởng đến tất cả các giai đoạn, và một cái gì đó như NER đòi hỏi nhiều giai đoạn xử lý, (tokenize -> phát hiện câu -> thẻ POS -> WSD -> NER) tỷ lệ lỗi phức tạp.

9

Michal Finkelstein từ OpenCalais tại đây.

Đầu tiên, cảm ơn sự quan tâm của bạn.Tôi sẽ trả lời ở đây nhưng tôi cũng khuyến khích bạn đọc thêm về các diễn đàn OpenCalais; có rất nhiều thông tin có bao gồm - nhưng không giới hạn: http://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn Cũng cảm thấy tự do để theo chúng tôi trên Twitter (@OpenCalais) hoặc email cho chúng tôi tại [email protected]

Bây giờ để câu trả lời:

OpenCalais dựa trên một thập kỷ nghiên cứu và phát triển trong các lĩnh vực về Xử lý ngôn ngữ tự nhiên và phân tích văn bản.

Chúng tôi hỗ trợ đầy đủ "NLP Stack" (như chúng ta muốn gọi nó): Từ tokenization văn bản, phân tích hình thái và gắn thẻ POS, để phân tích cạn và xác định cụm danh nghĩa và bằng lời nói.

Ngữ nghĩa sẽ được phát khi chúng tôi tìm kiếm Thực thể (a.k.a. Khai thác thực thể, Nhận dạng đối tượng được đặt tên). Vì mục đích đó, chúng tôi có một hệ thống dựa trên quy tắc phức tạp kết hợp các quy tắc khám phá cũng như từ điển/từ điển. Sự kết hợp này cho phép chúng tôi xác định tên của các công ty/người/phim, v.v., ngay cả khi họ không tồn tại trong bất kỳ danh sách có sẵn nào.

Đối với các thực thể nổi bật nhất (như người, công ty), chúng tôi cũng thực hiện giải pháp anaphora, tham chiếu chéo và đặt tên chuẩn hóa/chuẩn hóa ở cấp bài viết, vì vậy chúng tôi sẽ biết rằng 'John Smith' và 'Mr. Smith ', ví dụ, có thể đề cập đến cùng một người. Vì vậy, câu trả lời ngắn cho câu hỏi của bạn là - không, nó không chỉ là về kết hợp với cơ sở dữ liệu lớn.

Sự kiện/Sự kiện thực sự thú vị vì chúng đưa quy tắc khám phá của chúng tôi lên một cấp sâu hơn; chúng tôi tìm thấy mối quan hệ giữa các thực thể và gắn nhãn chúng với loại thích hợp, ví dụ M & Như (quan hệ giữa hai hay nhiều công ty), Thay đổi việc làm (quan hệ giữa công ty và con người), v.v. Không cần phải nói, việc trích xuất Sự kiện/Sự kiện không thể thực hiện đối với các hệ thống chỉ dựa trên từ vựng. Đối với hầu hết các phần, hệ thống của chúng tôi được điều chỉnh để có định hướng chính xác, nhưng chúng tôi luôn cố gắng giữ sự cân bằng hợp lý giữa độ chính xác và toàn bộ.

Bằng cách này, có một số khả năng siêu dữ liệu mới thú vị sẽ ra mắt vào cuối tháng này, do đó hãy chú ý theo dõi.

Kính trọng,

Michal

Các vấn đề liên quan