Michal Finkelstein từ OpenCalais tại đây.
Đầu tiên, cảm ơn sự quan tâm của bạn.Tôi sẽ trả lời ở đây nhưng tôi cũng khuyến khích bạn đọc thêm về các diễn đàn OpenCalais; có rất nhiều thông tin có bao gồm - nhưng không giới hạn: http://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn Cũng cảm thấy tự do để theo chúng tôi trên Twitter (@OpenCalais) hoặc email cho chúng tôi tại [email protected]
Bây giờ để câu trả lời:
OpenCalais dựa trên một thập kỷ nghiên cứu và phát triển trong các lĩnh vực về Xử lý ngôn ngữ tự nhiên và phân tích văn bản.
Chúng tôi hỗ trợ đầy đủ "NLP Stack" (như chúng ta muốn gọi nó): Từ tokenization văn bản, phân tích hình thái và gắn thẻ POS, để phân tích cạn và xác định cụm danh nghĩa và bằng lời nói.
Ngữ nghĩa sẽ được phát khi chúng tôi tìm kiếm Thực thể (a.k.a. Khai thác thực thể, Nhận dạng đối tượng được đặt tên). Vì mục đích đó, chúng tôi có một hệ thống dựa trên quy tắc phức tạp kết hợp các quy tắc khám phá cũng như từ điển/từ điển. Sự kết hợp này cho phép chúng tôi xác định tên của các công ty/người/phim, v.v., ngay cả khi họ không tồn tại trong bất kỳ danh sách có sẵn nào.
Đối với các thực thể nổi bật nhất (như người, công ty), chúng tôi cũng thực hiện giải pháp anaphora, tham chiếu chéo và đặt tên chuẩn hóa/chuẩn hóa ở cấp bài viết, vì vậy chúng tôi sẽ biết rằng 'John Smith' và 'Mr. Smith ', ví dụ, có thể đề cập đến cùng một người. Vì vậy, câu trả lời ngắn cho câu hỏi của bạn là - không, nó không chỉ là về kết hợp với cơ sở dữ liệu lớn.
Sự kiện/Sự kiện thực sự thú vị vì chúng đưa quy tắc khám phá của chúng tôi lên một cấp sâu hơn; chúng tôi tìm thấy mối quan hệ giữa các thực thể và gắn nhãn chúng với loại thích hợp, ví dụ M & Như (quan hệ giữa hai hay nhiều công ty), Thay đổi việc làm (quan hệ giữa công ty và con người), v.v. Không cần phải nói, việc trích xuất Sự kiện/Sự kiện không thể thực hiện đối với các hệ thống chỉ dựa trên từ vựng. Đối với hầu hết các phần, hệ thống của chúng tôi được điều chỉnh để có định hướng chính xác, nhưng chúng tôi luôn cố gắng giữ sự cân bằng hợp lý giữa độ chính xác và toàn bộ.
Bằng cách này, có một số khả năng siêu dữ liệu mới thú vị sẽ ra mắt vào cuối tháng này, do đó hãy chú ý theo dõi.
Kính trọng,
Michal