Tôi có một tệp văn bản 300 GB chứa dữ liệu di truyền có hơn 250 nghìn bản ghi. Có một số hồ sơ có dữ liệu xấu và chương trình gen 'Popoolution' của chúng tôi cho phép chúng tôi nhận xét các bản ghi "xấu" có dấu hoa thị. Vấn đề của chúng tôi là chúng tôi không thể tìm thấy một trình soạn thảo văn bản sẽ tải dữ liệu để chúng tôi có thể nhận xét các bản ghi xấu. Bất kỳ đề xuất? Chúng tôi có cả hộp Windows và Linux.Cách chỉnh sửa tệp văn bản 300 GB (dữ liệu genomics)?
UPDATE: Thông tin thêm
Chương trình Popoolution (https://code.google.com/p/popoolation/) bị treo khi nó đạt đến mức kỷ lục "xấu" cho chúng tôi biết số dòng mà sau đó chúng ta có thể nhận xét ra. Cụ thể, chúng tôi nhận được thông báo từ Perl có nội dung "F # €% & Giàn giáo". Hướng dẫn sử dụng cho thấy chúng ta chỉ có thể sử dụng một dấu sao để nhận xét ra dòng xấu. Đáng buồn thay, chúng tôi sẽ phải lặp lại quá trình này nhiều lần ...
Một ý tưởng khác ... Có cách tiếp cận cho phép chúng tôi thêm dấu hoa thị vào dòng mà không mở toàn bộ tệp văn bản cùng một lúc hay không. Điều này có thể rất hữu ích cho rằng chúng tôi sẽ phải lặp lại quá trình một số lần không xác định.
Tại sao bạn cần mở nó trong trình soạn thảo văn bản? Chắc chắn bạn sẽ không bình luận tất cả các bản ghi 250k bằng tay? Nhìn vào sử dụng awk hoặc sed. –
Tìm mẫu cho những bản ghi xấu và giải quyết vấn đề với awk hoặc sed, như @Joshua cho biết. 250k hồ sơ được kiểm tra bằng tay có nghĩa là suốt đời. – fedorqui
Chúng tôi đã cố gắng tải tệp trong Notepad ++ và mất hơn 24 giờ để tải và về cơ bản đã được sử dụng. –