2016-05-13 15 views
5

Tôi có một kho tàng của một số 100 nghìn tài liệu pháp lý (chủ yếu là từ Liên minh châu Âu) - luật, bình luận, tài liệu tòa án, v.v. Tôi đang cố gắng làm cho một số ý nghĩa về mặt thuật toán.NLP của nội dung pháp lý?

Tôi đã lập mô hình cho các mối quan hệ đã biết (thời gian, thay đổi này, v.v.). Nhưng ở cấp độ một tài liệu, tôi ước tôi có các công cụ tốt hơn để cho phép hiểu nhanh. Tôi mở cho các ý tưởng, nhưng đây là câu hỏi cụ thể hơn:

Ví dụ: có phương pháp NLP nào để xác định các phần có liên quan/gây tranh cãi của tài liệu trái ngược với bản mẫu không? Các giấy tờ TTIP bị rò rỉ gần đây là hàng ngàn trang với các bảng dữ liệu, nhưng một câu ở đâu đó trong đó có thể phá hủy một ngành công nghiệp.

Tôi đã chơi xung quanh với google mới Parsey McParface và các giải pháp NLP khác trong quá khứ, nhưng trong khi chúng hoạt động ấn tượng tốt, tôi không chắc họ giỏi cách ly ý nghĩa như thế nào.

Trả lời

1

Tôi thấy bạn có một lượt sử dụng thú vị. Bạn cũng đã đề cập đến sự hiện diện của một kho văn bản (một cộng thêm thực sự tốt). Hãy để tôi liên kết một giải pháp mà tôi đã phác thảo để giải mã mấu chốt từ các tài liệu nghiên cứu.

Để hiểu rõ tài liệu, bạn cần trình kích hoạt để yêu cầu (hoặc đào tạo) máy tính tìm những "trình kích hoạt" này. Bạn có thể tiếp cận điều này bằng cách sử dụng thuật toán học được giám sát với việc triển khai đơn giản một vấn đề phân loại văn bản ở cấp cơ bản nhất. Nhưng điều này sẽ cần trước khi làm việc, giúp đỡ từ các chuyên gia miền ban đầu cho "gây nên" sành điệu từ các dữ liệu văn bản. Có các công cụ để trích xuất các câu của các câu - ví dụ, sử dụng các cụm từ danh từ trong một câu, gán các trọng số dựa trên các lần xuất hiện và biểu diễn chúng dưới dạng các vectơ. Đây là dữ liệu đào tạo của bạn. Đây có thể là một khởi đầu thực sự tốt để kết hợp NLP vào miền của bạn.

-4

Không sử dụng trình kích hoạt. Những gì bạn cần là một sự hiểu biết từ ngữ và sự thích ứng miền. Bạn muốn hiểu được là trong các tài liệu, tức là hiểu ngữ nghĩa để tìm ra ý nghĩa. Bạn có thể xây dựng một bản thể luận hợp pháp của các thuật ngữ trong skos hoặc định dạng json-ld đại diện cho nó ontologically trong một đồ thị tri thức và sử dụng nó với phân tích phụ thuộc như tensorflow/parseymcparseface. Hoặc, bạn có thể truyền tài liệu của mình bằng cách sử dụng kiến ​​trúc dựa trên kappa - một số thứ như kafka-flink-elasticsearch với các lớp NLP trung gian bổ sung sử dụng CoreNLP/Tensorflow/UIMA, lưu trữ bộ nhớ lập chỉ mục của bạn giữa flink và elasticsearch bằng redis để tăng tốc quá trình. Để hiểu tính thích hợp, bạn có thể áp dụng các trường hợp cụ thể từ việc tăng cường tìm kiếm của mình. Hơn nữa, áp dụng phân tích tình cảm để tìm ra ý định và sự thật. Trường hợp sử dụng của bạn là một trong một trích xuất thông tin, tóm tắt và dữ liệu liên kết/web ngữ nghĩa. Vì EU có một hệ thống pháp lý khác, bạn sẽ cần phải khái quát hóa đầu tiên về những gì thực sự là một văn bản pháp lý, sau đó thu hẹp nó xuống các khái niệm pháp lý cụ thể khi chúng liên quan đến một chủ đề hoặc khu vực. Bạn cũng có thể sử dụng các kỹ thuật mô hình hóa chủ đề ở đây từ LDA hoặc Word2Vec/Sense2Vec. Ngoài ra, Lemon cũng có thể giúp chuyển đổi từ vựng thành ngữ nghĩa và ngữ nghĩa thành từ vựng nghĩa là NLP-> ontology -> ontology-> NLP. Về cơ bản, hãy đưa cụm vào phân loại của bạn về nhận dạng đối tượng được đặt tên. Bạn cũng có thể sử dụng phân cụm để hỗ trợ bạn trong việc xây dựng bản thể luận hoặc xem những vectơ từ nào trong một tài liệu hoặc tập hợp các tài liệu sử dụng tính tương tự cosin. Tuy nhiên, để làm tất cả những gì tốt nhất là hãy trực quan hóa sự thưa thớt của các tài liệu của bạn. Một cái gì đó như lý luận commonsense + học sâu có thể giúp đỡ trong trường hợp của bạn là tốt.

3

Để hiểu rõ tài liệu bạn cần thực hiện một số loại phân tích ngữ nghĩa.Bạn có hai khả năng chính với exemples của họ:

Sử dụng Khung Semantics: http://www.cs.cmu.edu/~ark/SEMAFOR/

Sử dụng Semantic Role dán nhãn (SRL): http://cogcomp.org/page/demo_view/srl

Một khi bạn có thể trích xuất thông tin từ các tài liệu sau đó bạn có thể áp dụng một số hậu xử lý để xác định thông tin nào có liên quan. Việc tìm kiếm thông tin nào có liên quan là công việc liên quan và tôi không nghĩ rằng bạn có thể tìm thấy một công cụ chung để trích xuất thông tin "có liên quan".

Các vấn đề liên quan