Tôi đang làm việc trên một dự án cơ sở tri thức bằng cách sử dụng Công cụ Tìm kiếm Toàn văn của SQL Server 2008. Dự án được bao gồm trong các bài viết và tệp nơi mỗi bài viết có nhiều tệp. Trong các bài viết đó, toàn bộ nội dung là html thuần túy.Cách bỏ qua các thẻ html trong Tìm kiếm Toàn văn Sql Server 2008
Ngay bây giờ, tôi đã tạo thành công danh mục và chỉ mục toàn văn bản trên SQL Server 2008 và cơ sở dữ liệu của tôi tương thích với phiên bản 10.
Dưới đây là những câu hỏi của tôi:
1) Có thể bỏ qua các thẻ html, rõ ràng hơn văn bản chứa trong "< ...>", trong khi tìm kiếm trong những bài viết này, vì nếu tôi muốn tìm kiếm div , bảng vv không nên có kết quả trả lại?
2) Các bài viết sẽ được cập nhật bất cứ lúc nào, vì vậy chỉ mục văn bản đầy đủ phải được cập nhật khi chèn bản ghi mới. Có đủ để chỉ đặt "TRACK CHANGES AUTOMATIC" trong khi tạo danh mục toàn văn không?
3) Chúng tôi có thể sử dụng tính năng FILESTREAM sau đây, SQL Server 2008 có hiệu suất tốt trên các tệp sử dụng chỉ mục văn bản đầy đủ không? SQL Server 2008 có những loại tài liệu cụ thể nào trong việc lập chỉ mục?
Trân
hi người bạn, tôi nghĩ rằng giải pháp tốt nhất là để thay thế html với regex '<(.|\n)*?>' với một tấm séc lắp ráp sql clr liên kết này http://justgeeks.blogspot.com/2008/08/adding-regular-expressions-regex-to-sql.html –