2012-09-25 40 views
6

Tôi có một loạt tài liệu văn bản mô tả bệnh tật. Những tài liệu này trong hầu hết các trường hợp khá ngắn và thường chỉ chứa một câu duy nhất. Một ví dụ được đưa ra ở đây:Bệnh có tên là nhận dạng đối tượng

Tăng huyết áp động mạch phổi nguyên phát là một bệnh tiến triển trong đó tắc mạch phổi nhỏ nhất dẫn đến tăng sức cản mạch phổi và thất bại thất bại sau đó.

Những gì tôi cần là một công cụ tìm tất cả các điều kiện bệnh (ví dụ "tăng huyết áp phổi" trong trường hợp này) trong các câu và bản đồ chúng vào một từ vựng được kiểm soát như MeSH.

Cảm ơn trước vì câu trả lời của bạn!

+1

Điều đó nghe có vẻ rất cụ thể và không phải là vấn đề lập trình * mỗi lần *. Ít nhất là không được thể hiện ở đây. –

+1

Dường như đây là câu hỏi khai thác dữ liệu nhiều hơn? – Harpal

Trả lời

2

có nhiều công cụ để làm điều đó. một số những người nổi tiếng:

nhất trong số đó đi kèm với một số mô hình được xác định trước, tức là họ đã được đào tạo về một số tập dữ liệu chung s (tin bài, v.v.) tuy nhiên, các văn bản của bạn khá cụ thể, vì vậy trước tiên bạn có thể muốn tạo thành một kho văn bản và đào tạo lại một trong những công cụ đó, để điều chỉnh nó thành dữ liệu của bạn.

đơn giản hơn, là thử nghiệm đầu tiên, bạn có thể thử phương pháp dựa trên từ điển: thiết kế danh sách tên đối tượng và thực hiện đối sánh chính xác hoặc gần đúng. ví dụ, thao tác này được giải mã trong LingPipe's tutorial.

6

Dưới đây là hai đường ống được thiết kế đặc biệt cho phân tích tài liệu y tế:

Cả hai sử dụng UMLS, hệ thống ngôn ngữ y tế thống nhất, và do đó yêu cầu bạn phải một (miễn phí) giấy phép. Cả hai đều là Java và dễ cài đặt hơn hoặc ít hơn.

+2

Tôi không chắc rằng tôi sẽ phân loại chúng là "dễ thiết lập" nhưng chúng hoạt động khá tốt.Một phiên bản mới của MetaMap cũng được phát hành vào cuối năm ngoái. –

Các vấn đề liên quan