>

AWS Glue의 크롤러에 익숙합니다. Athena에서 데이터베이스 카탈로그를 가져 왔으며 데이터가 추가 될 때 매일 해당 테이블의 데이터 위치를 크롤링하여 파티션을 자동으로 업데이트하려고합니다.

그러나 크롤러는 Athena에서 가져온 것과 별개의 새 테이블 만 만드는 것처럼 보입니다. 기존 테이블을 업데이트하지 않는 것 같습니다. 이것을 할 수있는 방법이 있습니까? 문서에 언급이 없습니다.


  • 답변 # 1

    데이터를 데이터 카탈로그에서 별도의 테이블로 분류하는 작업을 수행하는 사용자 지정 분류기를 추가해야 할 수도 있습니다. 아마도 스키마를 고유하게 식별하는 방법을 모르는 기본 분류기를 사용하고있을 것입니다.

    분류 자란 무엇입니까 : http://docs.aws.amazon.com/glue/latest/dg/add-classifier.html

  • 답변 # 2

    이 테스트를하지않았습니다. 그러나 가져온 테이블에서 다음 필드를 업데이트하십시오.

    "CreatedBy": "arn:aws:sts::000000000000:assumed-role/YOUR_CLAWLER_ROLE/AWS-Crawler"
    "Parameters": {
            "CrawlerSchemaDeserializerVersion": "1.0",
            "compressionType": "none",
            "UPDATED_BY_CRAWLER": "you_crawler_name_for_this_table",
            "CrawlerSchemaSerializerVersion": "1.0"
        }
    
    

    크롤러와 관련이없는 속성을 건너 뛰었습니다. 아이디어는 테이블이 "크롤러에 의해 생성 된"것처럼 보이도록 업데이트하는 것입니다. 이 크롤러가 업데이트 한 후있을 수 있습니다. :)

    전체 테이블 정의를 얻으려면 get-table을 사용하지만이 출력은 업데이트 테이블과 거의 차이가 없음을 명심하십시오

    가장 가까운 시간에 시도 할 수 없기 때문에 결과를 게시하면 좋을 것입니다. : (

    도움이 되길 바랍니다.

  • 답변 # 3

    크롤러 이름으로UPDATED_BY_CRAWLER를 설정하기 만하면 크롤러가 다음 번부터이를 픽업합니다. . 맞춤 입력란이 정의되어 있으면 크롤러가 해당 입력란을 제거합니다.

  • 이전 python - 잘못된 값을 반환하는 재귀 함수가 있습니다 이것이 왜 가능하고 어떻게 해결할 수 있습니까?
  • 다음 javascript - 웹 소켓을 매끄럽게 리디렉션 할 수 있습니까?