2012-06-25 27 views

Trả lời

23

Chúng khác nhau về cách chúng phân tách văn bản được phân tích thành mã thông báo.

Các StandardTokenizer thực hiện điều này dựa trên như sau (lấy từ Lucene javadoc):

  • Tách lời tại ký tự chấm câu, loại bỏ dấu chấm câu. Tuy nhiên, dấu chấm không được theo sau bởi khoảng trắng được coi là một phần của mã thông báo.
  • Tách từ bằng dấu gạch ngang, trừ khi có số trong mã thông báo , trong trường hợp đó toàn bộ mã thông báo được hiểu là một sản phẩm số và không được chia nhỏ.
  • Nhận dạng địa chỉ email và internet tên máy chủ dưới dạng một mã thông báo.

Các WhitespaceTokenizer thực hiện điều này dựa trên ký tự khoảng trắng:

Một WhitespaceTokenizer là một tokenizer rằng chia văn bản ở khoảng trắng. Trình tự liên tiếp của các thẻ ký tự không phải khoảng trắng.

Bạn nên chọn mã thông báo phù hợp nhất với đơn đăng ký của mình. Trong mọi trường hợp, bạn phải sử dụng cùng một trình phân tích/mã thông báo để lập chỉ mục và tìm kiếm!

+0

Cảm ơn csupnig! Khi bạn nói "sử dụng cùng một trình phân tích/mã thông báo" để lập chỉ mục và tìm kiếm, bạn có nghĩa là trình phân tích cần phải khớp với loại trình mã thông báo đang được sử dụng, m i phải không? – trillions

+2

Có, họ nên làm tương tự để tạo ra các mã thông báo tương tự. Chỉ có những trường hợp hiếm hoi mà bạn muốn các trình mã thông báo khác nhau trong trình phân tích cú pháp truy vấn so với các trình mã thông báo bạn đã sử dụng trong khi lập chỉ mục. – csupnig

+0

Cảm ơn csupnig :) – trillions

Các vấn đề liên quan