>source

입력은 다음과 같습니다.

| Name| Text|
|:----|:------:|
| A'| D,John    |
| B | "AB    |
| C | A"B"    |
| D | This is "78-DC-DF-001"20 23:11:01 -12323    |

아래의 code를 사용하여 위의 데이터를 CSV 파일에 씁니다.

output.coalesce(1).write
.format("csv")
.option("escape","")
.option("quote","")
.save("Output")

ESCAPE 옵션 만 사용할 때 출력은 적절하지 않은 아래와 같습니다.

| Name| Text|
|:----|:------:|
| A'| D,John    |
| B | "AB""    |
| C | A""B""""    |
| D | This is ""78-DC-DF-001""20 23:11:01 -12323""    |

및 Isape 및 Cuta를 함께 사용하면 다음과 같이 쉼표 값을 이동 중입니다.

| Name| Text|    |
|:----|:------:|------:|
| A'| D    | John |
| B | "AB    |    |
| C | A"B"    |    |
| D | This is "78-DC-DF-001"20 23:11:01 -12323    |    |

스파크 스칼라 에서이 문제를 해결하는 방법에 대한 제안. 출력과 동일한 입력이 필요합니다.

출력에 쓰기 전에 데이터를 읽고 처리하는 방법은 명확하지 않습니다. 출력 변수의 유형에 대한 단서가 없습니다. 내가 볼 수 있듯이, 당신은 구분 기호를 설정하지 않았거나 입력에 헤더가 포함 된 경우. 기본 구분 기호는 쉼표로 구분 된 마지막 출력을 설명하는 쉼표입니다.

Pubudu Sitinamaluwa2021-06-21 06:38:08

@PubudUsitinamaluwa i CSV 파일에서 데이터를 읽고 출력 데이터 프레임에 저장 하고이 데이터 프레임을 CSV 파일에 쓰는 것입니다. 큰 큰 데이터 집합이 있고 다른 열에 비슷한 종류의 값이 있기 때문에이 실험을하고 있습니다. 여기에서는 데이터 프레임을 읽고 쓰는 것과이 연습에서 문제를 해결할 때 아무 것도 처리하지 않습니다. CSV 파일을 여기에 작성하고 있으므로 Default는 쉼표이기 때문에 구분 기호가 언급되지 않았습니다.

Akshay Parmar2021-06-21 06:38:08

탭을 구분 기호로 사용하십시오.

Lamanus2021-06-21 06:38:08
  • 이전 excel : 여러 셀에 대한 로그가 변경됩니다
  • 다음 python : 여러 요소가있는 사전 목록에 대한 파이썬 합계