2012-08-26 32 views
14

Gần đây tôi có quyền truy cập vào một lượng lớn dữ liệu nhật ký máy chủ (tại công việc mới). Tôi có một số kinh nghiệm trong việc học máy từ đại học. Dữ liệu nhật ký bao gồm nhật ký máy chủ, nhật ký truy cập cơ sở dữ liệu, v.v. Tôi đã tự hỏi loại học tập nào có thể được thực hiện từ dữ liệu như vậy.Học máy trên dữ liệu nhật ký máy chủ

Một điều nhỏ mà tôi đã thử là dự đoán số lượng yêu cầu vào một giờ nhất định trong ngày dựa trên dữ liệu của tuần trước, điều này có vẻ ổn nhưng điều này không đáng kể. Vì vậy,

  • Loại học tập nào có thể được thực hiện từ dữ liệu như vậy?
    • Có thể dự đoán xác suất của IP đang thực hiện các nhấp chuột spam lên quảng cáo (có phải công ty là thành công) dựa trên một số mẫu sử dụng của những người gửi spam trước đó không?
    • Có thể dự đoán thời điểm lưu lượng truy cập có thể tăng lên.
  • Có bất kỳ công cụ/dự án hiện có nào tận dụng không?
  • Bất kỳ tài nguyên/giấy tờ thú vị nào nói về nội dung tương tự?
  • Ngoài ra, hoạt động của quá trình liên quan đến dữ liệu tại một thời điểm nhất định trên máy chủ. điều này có hữu ích cho việc học không?

Trả lời

25

Có một cái nhìn tại Wei Xu et al (2010) Experience on Mining Google's Production Console Logs và công việc họ trích dẫn. Trong ngắn hạn họ:

  1. Trích xuất mẫu ghi nhật ký (ví dụ: "Viết thành tập tin% s") mã nguồn để trích xuất số nhận dạng từ nhật ký (nội dung trong nhật ký tương ứng với% s là số nhận dạng). Họ sử dụng một số chẩn đoán nhất định để phân biệt số nhận dạng với các từ định danh không (ví dụ: thời gian).
  2. Tỷ lệ sử dụng giữa các giá trị thay vì số nguyên (ví dụ: tỷ lệ không thành công và tất cả các cam kết)
  3. Sử dụng Phân tích thành phần chính để phát hiện dị thường trong vectơ của các tính năng như vậy.

Bạn có thể không làm được 1. Nhưng có thể bạn có thể trích xuất các biến viết "trình phân tích cú pháp" của riêng bạn.

Cũng đã có DARPA challenge để phát hiện một cuộc tấn công trong dữ liệu đó, nhưng đó là gần 15 năm trước.

Có một số công cụ như splunk, nhưng ngoài giao diện đẹp, chúng không cung cấp nhiều hơn ngoài việc tìm kiếm và lọc đơn giản. CẬP NHẬT: Có một plugin phát hiện bất thường theo số prelert.

Tôi không biết nhiều hơn nữa. Xin vui lòng cho tôi biết nếu bạn tìm thấy bất cứ điều gì khác.

Vì vậy, những gì tôi sẽ làm gì:

  1. Extract tính năng/biến từ các bản ghi

    Bạn có lẽ không có quyền truy cập vào mã nguồn đã tạo ra các thông điệp như Xu đã có, nhưng tôi cho rằng một phần lớn các bản ghi có thể được bao phủ bởi một số lượng nhỏ các mẫu (ví dụ: tất cả nhật ký tường lửa sẽ có cùng mẫu). Bạn có thể viết một trình phân tích cú pháp regex trích xuất các tính năng từ các nhật ký đó (ví dụ: Kết nối bị từ chối vào một thời điểm nhất định).

  2. Thử phát hiện bất thường (PCA hoặc chỉ sai lệch mức trung bình trên riêng chúng) và dự đoán trên chúng.

+0

cảm ơn! tôi sẽ có một cái nhìn – swair

Các vấn đề liên quan