홈>
pdf-reader gem을 사용하여 PDF를 구문 분석하려고합니다. 특정 PDF 페이지의 몇 가지 방법과 디스플레이 방법에 올바른 데이터가 표시됩니다 (테이블 열에 둘 이상의 행이 있지만 특정 열이 결합 된 것으로 표시됨). 반환 값을 nil로 표시하므로 우리가 할 수있는 방법이 있습니다 이 메소드가 표시하는 값을 가져옵니다. 또한 텍스트 방법을 사용하려고했지만 문제는 pdf에서 구조와 같은 테이블이 있고 하나의 테이블 열에 두 줄 이상이있을 수 있다는 것입니다. 그 이유 때문에 텍스트 방법이 순서대로 값을 표시하지 않으므로 먼저 표시됩니다 행 다음 두 번째 행&등. 따라서 특정 열에 둘 이상의 행이 있는지 판단하기가 거의 어렵지 않습니다. 그 문제를 해결하기위한 솔루션은 무엇입니까?
reader = PDF::Reader.new(io)
reader.page(1).display #display methods print nice pdf data but return nil
reader.page(1).text #display pdf text but does not show value in order (in case of table)
- 답변 # 1
관련 자료
- parsing - PHP 또는 JS를 사용하여 스캔 한 PDF 파일을 구문 분석하는 가장 좋은 방법은 무엇입니까?
- javascript - xpath를 사용하여 속성 페이지 URL 구문 분석
- Google 스프레드 시트에서 정규식을 사용하여 JSON 구문 분석
- java - 정규식을 사용하여 문자열을 구문 분석하는 방법
- Python C Api를 사용하여 부분적으로 args/kwargs 구문 분석
- python - 정규식을 사용하여 화학 공식을 어떻게 구문 분석합니까?
- json - jq를 사용하여 배열을 구문 분석하고 문자열에 매핑
- JavaScript를 사용하여 JSON 개체의 일부를 구문 분석하고 저장하는 방법
- javascript - 반응 - promise with edge를 사용할 때 오류를 구문 분석 할 수 없습니다
트렌드
- OpenCv의 폴더에서 여러 이미지 읽기 (python)
- 파이썬 셀레늄 모든 "href"속성 가져 오기
- html - 자바 스크립트 - 클릭 후 변경 버튼 텍스트 변경
- git commit - 자식 - 로컬 커밋 된 파일에 대한 변경을 취소하는 방법
- JSP에 대한 클래스를 컴파일 할 수 없습니다
- javascript - 현재 URL에서 특정 div 만 새로 고침/새로 고침
- jquery - JavaScript로 현재 세션 값을 얻으시겠습니까?
- javascript - swiperjs에서 정지, 재생 버튼 추가
- JavaScript 변수를 HTML div에 '출력'하는 방법
- python - 문자열에서 특정 문자 제거
아래 코드는 어떻습니까
display
메소드는 반환하지 않는 인쇄 만합니다..
puts
유형 또는p
시도