>

저는 위키 백과 페이지 에서 2018 년 1 월부터 3 월까지 2018 년 영화를 찾으려고했습니다. 팬더를 사용하여 HTML을 읽습니다.

내 코드는 다음과 같습니다 :

import pandas as pd
import numpy as np
link = "https://en.wikipedia.org/wiki/2018_in_film"
tables = pd.read_html(link)
jan_march = tables[5].iloc[1:]
jan_march.columns = ['Opening1','Opening2','Title','Studio','Cast','Genre','Country','Ref']
jan_march.head()

열을 읽는 데 약간의 오류가 있습니다. 누군가 이미 일부를 긁었다면 wikipedia 테이블은 문제 해결에 도움이 될 수 있습니다.

많이 감사합니다.

관련 링크 :
선택적으로 Python을 사용하여 Wikipedia 테이블 스크 레이 핑
https://roche.io/2016/05/scrape-wikipedia-with- 파이썬
파이썬 팬더 및 beautifulSoup으로 페이지 매김 된 웹 테이블 긁기

>

나는 이것을 얻는다 :

그러나 기대하고 있습니다 :


  • 답변 # 1

    테이블이 디자인 된 방식 때문에 pd.read_html() 만큼 단순하지 않습니다  시작하는 동안 원하는 형식으로 가져 오려면 약간의 조작을 수행해야합니다.

    import pandas as pd
    link = "https://en.wikipedia.org/wiki/2018_in_film"
    tables = pd.read_html(link,header=0)[5]
    # find na values and shift cells right
    i = 0
    while i < 2:
        row_shift = tables[tables['Unnamed: 7'].isnull()].index
        tables.iloc[row_shift,:] = tables.iloc[row_shift,:].shift(1,axis=1)
        i+=1
    # create new column names
    tables.columns = ['Month', 'Day', 'Title', 'Studio', 'Cast and crew', 'Genre', 'Country', 'Ref.']
    # forward fill values
    tables['Month'] = tables['Month'].ffill()
    tables['Day'] = tables['Day'].ffill()
    
    

    아웃 :

       Month   Day Title   Studio  Cast and crew   Genre   Country Ref.
    0   JANUARY 5   Insidious: The Last Key Universal Pictures / Blumhouse Productions  Adam Robitel (director); Leigh Whannell (scree...   Horror, Thriller    US  [33]
    1   JANUARY 5   The Strange Ones    Vertical Entertainment  Lauren Wolkstein (director); Christopher Radcl...   Drama   US  [34]
    2   JANUARY 5   Stratton    Momentum Pictures   Simon West (director); Duncan Falconer, Warren...   Action, Thriller    IT, UK  [35]
    3   JANUARY 10  Sweet Country   Samuel Goldwyn Films    Warwick Thornton (director); David Tranter, St...   Drama   AUS [36]
    4   JANUARY 12  The Commuter    Lionsgate / StudioCanal / The Picture Company   Jaume Collet-Serra (director); Byron Willinger...   Action, Crime, Drama, Mystery, Thriller US, UK  [37]
    5   JANUARY 12  Proud Mary  Screen Gems Babak Najafi (director); John S. Newman, Chris...   Action, Thriller    US  [38]
    6   JANUARY 12  Acts of Violence    Lionsgate Premiere  Brett Donowho (director); Nicolas Aaron Mezzan...   Action, Thriller    US  [39]
       ...
    
    

관련 자료

  • 이전 expo - 스낵에서 로컬로 기존 React Native 프로젝트를 실행하는 방법이 있습니까?
  • 다음 pointers - 파이썬에서 참조가 문제 (나무)