Tôi đang sử dụng Solr vào các tài liệu chỉ mục trong 3 langues (arabic, tiếng Pháp và tiếng Anh), tôi đã sử dụng fieldType này:Solr cho tiếng Ả Rập
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
Tất cả mọi thứ là tốt, nhưng trong ngôn ngữ arabic khi tôi đặt này yêu cầu tìm kiếm một từ như حقل
Solr doen't tìm từ, nhưng khi tôi đặt từ trong đối diện لقح
từ trái sang phải, Solr tìm từ và kết quả trả về.
Tôi có thể có kết quả cho các từ tiếng Ả Rập không?
Tôi không biết bất kỳ cơ chế nào có thể đảo ngược thứ tự văn bản RTL trong Solr. Nói chung, mọi người thấy rằng họ muốn một số loại lemmatization trong tiếng Ả Rập để đối phó với tất cả các hình thức thổi phồng. Bạn đang sử dụng gì để xây dựng giao diện người dùng mà bạn đang nhập cụm từ tìm kiếm vào? – bmargulies
Tôi đang sử dụng một trang web, cũng trong bài kiểm tra của tôi, tôi sử dụng Eclipse trực tiếp với API solrj. –
Bạn có cơ hội mở rộng văn bản của mình từ các tệp PDF không? Nếu có vẻ như đã xảy ra sự cố với Tika: https://issues.apache.org/jira/browse/TIKA-469?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=12995516 –