>source

나는 각각 ~ 700kB의 수천 개의 텍스트 파일로 데이터 집합을 사용하고 있습니다. 파일 이름은 데이터를 생성 한 입력 매개 변수 (열 분리 시간, 주파수, 진폭)를 포함합니다. 나는 파일 이름과 키로 파일 이름과 튜플의 값으로서의 매개 변수를 만들었습니다 (파일을 매개 변수와 함께 파일을 연결할 수 있습니다).

다수의 파일을 감안할 때 I /O로 인해 시간이 걸릴 것으로 기대하지만이 작업을 수행하는보다 효율적인 방법이 있는지 궁금합니다. 이제는 파일 이름의 사전을 통해 팬더를 반복하고 루프 내에서 내 분석을 수행합니다.

for f in dict_of_filenames.items():
df= pd.read_csv('filepath.txt',sep='\s+',header=None)
df= pd.DataFrame(df) #then some analysis task

스택이나 다른 곳에서 유사한 질문은 연결을 제안하여 숫자를 사용하여 더 큰 데이터 프레임을 만들지 만 각 파일의 데이터의 파일 이름 /매개 변수와의 대응을 유지하려고하고 내가 어떻게 다시 링크하는지 확신하지 못합니다. 더 큰 데이터 프레임이있었습니다.

어떤 제안이나 통찰력이 감사 할 것입니다.

첫 번째 생각은 모든 파일을 모든 파일을 zip 아카이브에 넣은 다음 아카이브 내부에서 반복하여 압축 된 데이터를 통해 작동하는 것을 의미합니다. 이것은 io (그것이 병목 현상 인 경우)에게 더 좋을 것입니다.

ifly62021-06-25 03:27:09
  • 이전 파일 복사 및 기존 PHP Laravel 프로젝트 실행
  • 다음 python : PYQT5에서 PYMUPDF로 PDF 파일을 읽는 방법은 무엇입니까?