>

포맷이없는 HTML 파일이 있습니다. https://sitename.com/ */ending 및 해당 URL 만 형식의 URL을 추출하고 싶습니다.

이 작업을 수행하는 가장 좋은 방법은 무엇입니까?

이 질문은 중복되지 않습니다. 다른 질문은 특정 이름의 DIV의 내용을 가져 오는 것에 대한 질문입니다. 특정 형식에 맞는 URL 목록을 가져 오는 방법을 묻습니다.

  • 답변 # 1

    간단한 grep이 당신을 위해 이것을해야합니다 :

    grep -o "https://sitename.com/.+/ending" somefile.html
    
    

    (참고 : 지금 테스트 할 수있는 * nix 머신이 없습니다.)

    편집 : 내 리눅스 박스를 시작하고 이것이 작동하는 것을 발견했습니다 :

    grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html
    
    

    와이즈 비즈  탐욕스럽고 너무 많이 캡처합니다. 부정 어설 션을 사용하면 하위 디렉토리의 끝을 올바르게 찾을 수 있습니다. .+ 와 같은 중첩 된 하위 디렉토리는 찾을 수 없습니다. .

    https://sitename.com/sub/directory/ending

  • 이전 bash가 쉘 내장 대신 외부`time` 명령을 사용하게하십시오
  • 다음 bash - if, elif 및 else 쉘 스크립트 Linux 문