>

파이썬에서 현재 kafka를 사용하고 있습니다. Spark Kafka가 필요한지 궁금하거나 kafka를 사용할 수 있습니까? pyKafka를 통해.

제 관심사는 프로세스에서 Spark가 오버 헤드 (pyspark)를 생성하는 것입니다. 스파크 기능을 사용하지 않으면 Kafka 스트리밍 만 필요합니다.

Pyspark와 kafka spark를 사용하는 데 불편한 점은 무엇입니까?

  • 답변 # 1

    이 의견은 언급 한 모든 사용 사례에 전적으로 달려 있지만 몇 달 전에 동일한 상황을 통과했으며 지식을 이전하려고 시도하고 어떻게 kafka-streams로 이동하기로 결정했는지 스파크 스트리밍 대신

    사용 사례에서는 스파크를 사용하여 kafka에서 실시간 스트리밍을 수행했으며하지 마십시오: 모든 종류의지도 축소, 창, 필터링, 집계를 수행하지 않습니다.

    위의 경우에, 나는 3 가지 차원을 기준으로 비교를 수행했습니다 :

    <올>

    기술력

    DevOps

    비용

    이미지 아래에 팀이 kafka-stream을 사용하도록 마이그레이션하고 스파크를 억제하도록 설득하기 위해 수행 한 비교표가 표시됩니다. 이미지는 클러스터 크기 (HeadNode-WorkerNodes)에 전적으로 의존하므로 이미지에 비용이 추가되지 않습니다.

    V.I. 참고 : 다시 말하지만, 이것은 귀하의 사례를 기반으로합니다. 비교 방법을 알려 주려고했지만 스파크 자체에는 많은 이점이 있으므로이 질문에서 설명하는 것과 관련이 없습니다.

관련 자료

  • 이전 vue.js - vue는 메소드를 통해 데이터를 정의 할 수 있습니까?
  • 다음 find - jquery - 특정 열 값을 포함하는 행 뒤에 새 행을 삽입하십시오