본문 바로가기
Data Analysis

예제 2. 위키백과 문서 정보 가져오기

by ram_ 2022. 11. 20.

01. 위키백과에 여명의 눈동자 검색한다.

02. 크롬 개발자 도구

03. 원하는 데이터의 위치를 파악한다. command shift c

04. 주소 가져온다. urllib.parse.quote()는 urllib에 내장된 포맷팅 함수.

 

 

이 과정에서 주의깊게 봐야 할 점은,

✔︎

위키백과에서 주소 복사해올 시 https://ko.wikipedia.org/wiki/%EC%97%AC%EB%AA%85%EC%9D%98_%EB%88%88%EB%8F%99%EC%9E%90

이렇게 뒷부분이 정리되지 않은 채 나열되어 있다.

=> google에 url decode 검색하면 나오는 decoding 해주는 사이트에 주소 복붙 후 정리된 주소를 사용해줘야한다. 

 

code에는 뒷부분을 {search_words}를 사용해 날려주고 아래 req에 format 함수를 사용해 search_words로 명시해준다.

```

req = Requesr(html.format(search_words= urllib.parse.quote("여명의_눈동자")))

```

이후는 이전과 같이 urlopen 해주고, beautifulSoup으로 받아준 뒤 prettify()로 정리해서 print해주면 된다.

 

05. "ul" 태그를 기준으로 데이터를 검색한다. 주인공의 정보를 가져오고 싶다 -> 31번째 인덱스에 데이터 있음을 확인한다.

 

06. "ul"[31]번째에 있는 text 중, 불필요한 문자들을 공백으로 replace 시킨 뒤 필요한 정보만을 추출한다.