Ngay bây giờ tôi đang viết một số mã Python để đối phó với các tập tin twitter lớn. Những tệp này quá lớn nên chúng không thể vừa với bộ nhớ. Để làm việc với họ, về cơ bản tôi có hai lựa chọn.Hiệu quả của từng dòng đọc tập tin trong Python
Tôi có thể chia tệp thành các tệp nhỏ hơn có thể vừa với bộ nhớ.
Tôi có thể xử lý dòng tệp lớn theo từng dòng nên tôi không bao giờ cần phải khớp toàn bộ tệp vào bộ nhớ cùng một lúc. Tôi thích thứ hai để dễ thực hiện.
Tuy nhiên, tôi tự hỏi liệu đọc nhanh hơn trong toàn bộ tệp vào bộ nhớ và sau đó điều khiển nó từ đó. Có vẻ như nó có thể chậm để liên tục đọc một dòng tập tin bằng đường truyền từ đĩa. Nhưng sau đó một lần nữa, tôi không hoàn toàn hiểu làm thế nào các quá trình này hoạt động trong Python. Có ai biết nếu dòng bởi đọc tập tin dòng sẽ làm cho mã của tôi được chậm hơn so với nếu tôi đọc toàn bộ tập tin vào bộ nhớ và chỉ thao tác nó từ đó?
Tại sao không thử đọc từng dòng và xem? Nếu nó hoạt động cho bạn, thì nó tuyệt vời, và nó không giống như thay đổi nó từ đó sẽ là khó khăn. –
nó sẽ luôn phụ thuộc vào khối lượng lớn "khổng lồ". – Shep
Câu trả lời hữu ích hy vọng: http://stackoverflow.com/a/8717312/416626 – urschrei