Có thể sử dụng read_csv để chỉ đọc các dòng cụ thể không?

Tôi có một tập tin csv trông như thế này:Có thể sử dụng read_csv để chỉ đọc các dòng cụ thể không?

TEST 
2012-05-01 00:00:00.203 ON 1 
2012-05-01 00:00:11.203 OFF 0 
2012-05-01 00:00:22.203 ON 1 
2012-05-01 00:00:33.203 OFF 0 
2012-05-01 00:00:44.203 OFF 0 
TEST 
2012-05-02 00:00:00.203 OFF 0 
2012-05-02 00:00:11.203 OFF 0 
2012-05-02 00:00:22.203 OFF 0 
2012-05-02 00:00:33.203 OFF 0 
2012-05-02 00:00:44.203 ON 1 
2012-05-02 00:00:55.203 OFF 0

và không thể thoát khỏi những "TEST" chuỗi.

Có thể kiểm tra xem một dòng có bắt đầu bằng một ngày không và chỉ đọc những dòng có thực hiện?

Nguồn

2012-05-23 user1412286

from cStringIO import StringIO 
import pandas 

s = StringIO() 
with open('file.csv') as f: 
    for line in f: 
     if not line.startswith('TEST'): 
      s.write(line) 
s.seek(0) # "rewind" to the beginning of the StringIO object 

pandas.read_csv(s) # with further parameters…

Nguồn

2012-05-23 10:23:48 eumiro

Cảm ơn! Những công việc này. – user1412286

Khi bạn nhận được row từ csv.reader, và khi bạn có thể chắc chắn rằng các yếu tố đầu tiên là một chuỗi, sau đó bạn có thể sử dụng

if not row[0].startswith('TEST'): 
    process(row)

Nguồn

2012-05-23 10:10:06 pepr

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html?highlight=read_csv#pandas.io.parsers.read_csv

skiprows: danh sách giống như hoặc số nguyên Số hàng cần bỏ qua (0 được lập chỉ mục) hoặc số hàng cần bỏ qua (int)

Vượt qua [0, 6] để bỏ qua các hàng có "TEST".

Nguồn

2012-05-23 10:17:15

Tôi sợ anh ấy biết các dòng như thế nào, không phải chỉ mục của chúng. – eumiro

Một lựa chọn khác, vì tôi chỉ chạy vào vấn đề này cũng:

import pandas as pd 
import subprocess 
grep = subprocess.check_output(['grep', '-n', '^TITLE', filename]).splitlines() 
bad_lines = [int(s[:s.index(':')]) - 1 for s in grep] 
df = pd.read_csv(filename, skiprows=bad_lines)

Đó là ít di động hơn @ của (đọc: có thể không hoạt động trên Windows) eumiro và đòi hỏi phải đọc các tập tin hai lần, nhưng có lợi thế là bạn không phải lưu trữ toàn bộ nội dung tập tin trong bộ nhớ.

Bạn có thể làm điều tương tự như grep trong Python, nhưng có lẽ nó sẽ chậm hơn.

Nguồn

2013-04-09 19:49:29 Dougal

Có thể sử dụng read_csv để chỉ đọc các dòng cụ thể không?

Trả lời

Các vấn đề liên quan