2011-10-20 36 views
7

Tôi đang sử dụng Solr vào các tài liệu chỉ mục trong 3 langues (arabic, tiếng Pháp và tiếng Anh), tôi đã sử dụng fieldType này:Solr cho tiếng Ả Rập

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> 
    <analyzer type="index"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    <analyzer type="query"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/> 
     <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
</fieldType> 

Tất cả mọi thứ là tốt, nhưng trong ngôn ngữ arabic khi tôi đặt này yêu cầu tìm kiếm một từ như حقل Solr doen't tìm từ, nhưng khi tôi đặt từ trong đối diện لقح từ trái sang phải, Solr tìm từ và kết quả trả về.

Tôi có thể có kết quả cho các từ tiếng Ả Rập không?

+1

Tôi không biết bất kỳ cơ chế nào có thể đảo ngược thứ tự văn bản RTL trong Solr. Nói chung, mọi người thấy rằng họ muốn một số loại lemmatization trong tiếng Ả Rập để đối phó với tất cả các hình thức thổi phồng. Bạn đang sử dụng gì để xây dựng giao diện người dùng mà bạn đang nhập cụm từ tìm kiếm vào? – bmargulies

+0

Tôi đang sử dụng một trang web, cũng trong bài kiểm tra của tôi, tôi sử dụng Eclipse trực tiếp với API solrj. –

+2

Bạn có cơ hội mở rộng văn bản của mình từ các tệp PDF không? Nếu có vẻ như đã xảy ra sự cố với Tika: https://issues.apache.org/jira/browse/TIKA-469?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=12995516 –

Trả lời

5

Tôi sẽ biến phân tích thông minh của Daniel ở đây thành câu trả lời cho bản ghi. Đừng bỏ phiếu cho điều này, chỉ cần đi tìm một cái gì đó của mình để bỏ phiếu cho :-)

Có hai cách để có được một hướng không phù hợp với văn bản RTL. Bạn có thể lập chỉ mục ngược lại hoặc bạn có thể truy vấn ngược lại. Một hình thức HTML đơn giản truy vấn Solr sẽ không bao giờ làm hỏng hướng. Trong sự chăm sóc này, khaled đã trích xuất văn bản từ một tệp PDF sử dụng thư viện khiến nạn nhân của xu hướng tệp PDF chứa văn bản 'hình ảnh trực quan' thay vì 'thứ tự logic'. Vì vậy, chỉ số đầy ắp tiếng Ả Rập ngược. Để khắc phục điều này, anh ta sẽ phải đưa ra một thư viện làm việc để trích xuất văn bản từ các tệp pdf.

Buộc Apache Tika sử dụng hộp thư đến Apache mới nhất có thể hữu ích, hoặc tệp PDF của anh có thể quá kỳ quặc đến nỗi ngay cả PDFBox mới nhất cũng không thể xử lý được. Trong trường hợp đó, anh ta gặp khó khăn.

+1

Cảm ơn bạn bmargulies, tôi đã bao gồm ICU4J.jar trong dự án của tôi, Bây giờ Tika có thể trích xuất văn bản arabic mà không có bất kỳ vấn đề. –

+0

Xin vui lòng khaled Mabrouk Tôi có cùng một vấn đề, bạn có thể đưa ra giải pháp trong câu hỏi sau: http://stackoverflow.com/questions/10076959/how-to-parse-arabic-pdf-with-tika –

+0

Hi Khaled, ý của bạn là "bao gồm ICU4J" trong dự án? Tôi không có ý tưởng làm thế nào điều này có thể được thực hiện. Bất cứ ai có thể làm sáng tỏ về điều này? –

Các vấn đề liên quan