본문 바로가기

분류 전체보기162

예제 3-2. 시카고 맛집 하위페이지 데이터 분석 + 지도 시각화 Step 01 requirements들을 import 해주고, 상위페이지 분석에서 완성한 csv 파일을 불러온다. Step 02 하위 페이지의 가격과 주소를 가져온다. 첫번째 박스의 코드의 경우 403Error가 떠서 애를 먹었다. 해당 블로그의 ERROR 카테고리에 정리해놨으니 참고바란다. text으로 문자열만 불러와서 re.split(".,", price_tmp) price_tmp를 ,을 기준으로 분리시켜준 뒤, [0]번째 값만 price_tmp에 다시 담아준다. re.search를 사용하여 "\$\d+\.(\d+)?" 괄호 안의 값은 뒤에 숫자가 있을 수도 있고 ~? 하고 가능성을 열어 둔 것이다. .group()로 $값만 추출해준다.[len(tmp) + 2:]는 가격의 길이 뒷부분. 즉, 이후에 .. 2022. 11. 23.
[SEF2022] Tim Althoff 데이터 과학을 통해 가치와 지식을 추출 이러한 기법의 결과를 분석하여 현실세계에 긍정적인 영향 심슨의 패러독스 2022. 11. 23.
[SEF2022] TRACK2. 데이터 사이언티스트 - 차현나 01. 영수증부터 시작하기 영수증 -> why만 빠진 모든 정보가 들어있다. 한 사람의 소비패턴이 모두 들어있기 때문에 이게 모이면 데이터가 된다. 기업마다 요일, 시간대에 해당하는 패턴이 있다. 그런 why와 기업의 액션 연결하는게 영수증이라고 생각. 02. "나"라는 데이터 분석해보기 작은 단서들의 공통점 생각하려고 노력하는 과정 생각하기. 어떠한 이유로 이런 길 생각했는지 , 선택들의 순간에 집중하기 성향적인 부분이나 흥미가 맞다면 나와의 접점을 찾아보는 것에 집중 Q > 비지니스와 데이터사이언스가 어떻게 연결되나요 '기술들을 어떻게 효율적으로 적용할까?' Q > 데이터 분석에 주의할 점 데이터 결과가 하나지가 나왔을때 재고해보는게 중요하다. 한장면만 보고 소비자가 이렇다. 트렌드가 이렇다라고 따지.. 2022. 11. 23.
NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"xpath"} Why ? selenium 4.0 업데이트 후 달라진 코드 작성법에 의한 에러이다. Solution ! ⇩ some_tag변수 (By.XPATH, xpath)로 따옴표를 제거한 뒤 실행했다. 2022. 11. 22.
SyntaxError: EOL while scanning string literal 💡 따옴표, 띄어쓰기 등 입력 실수에 따른 ERROR 해당 code 샅샅이 다시 본 뒤, 수정하면 제대로 출력이 된다. 2022. 11. 22.
AttributeError: 'WebDriver' object has no attribute 'find_element_by_xpath' Why? 강사님 selenium version과 내 version이 달라서 error이 발생했다. 이번 selenium 4.0 이상 업데이트 되면서 발생한 에러라고 한다. 해결 방법 01. import from selenium.webdriver.common.by import by 해결 방법 02. code exchange find_element_by_xpath("")를 find_element(By.XPATH, "")로 바꿔준다. XPATH가 아닌 다른 툴의 사용방법은 아래 링크를 참고한다. 참고 링크 https://hoood.tistory.com/1613 [파이썬 에러] AttributeError: 'WebDriver' object has no attribute 'find_element_by_xpath'.. 2022. 11. 22.
URLError: <urlopen error [Errno 8] nodename nor servname provided, or not known> 오류 해결되면 해결방법 업데이트 해놓겠습니다 .. 현재 구글링으로 찾은 몇몇 방법들은 시도해보았으나 적용되지 않았네요 ... install도 해보고 mac재시동도 해보고 아는 선에서 할 수 있는건 다 해본 것 같은데 ... 도저히 모르겠어서 강사님께 SOS 쳐논 상황입니다 ... 모르겠고 모르겠어요 ,.. 살려줘요 + 403 ERROR : 서버에서 의도적으로 차단하는 경우였다. 강사님의 피드백에 따라 코드를 수정했다. But.. 아래서 for문을 돌라는데 또 error가 발생하였고 .. 해당 에러의 경우 인터넷 환경 상태에 영향을 받은 것이라 max까지 실행해봤지만 되지 않았다. 아마 불안정한 카페 인터넷망을 사용하여 그런 것 같다. 일단 완성된 csv 파일을 참고해서 실습을 진행하였다. 2022. 11. 22.
예제 3-1. 시카고 맛집 메인페이지 데이터 분석 최종 목표 총 50개 페이지에서 각 가게의 정보를 가져온다. - 가게 이름 - 대표 메뉴 - 대표 메뉴의 가격 - 가게 주소 Step 01 크롤링 대상 페이지 검색- 구글에 chicago magazine the 50 best sandwichese를 검색한다. https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/ 어떤 웹브라우저를 써서 데이터에 접근하는지 명시를 해줘야 오류가 뜨지 않는다. 즉, headers는, 우선 하던대로 response = urlopen(url)으로 url을 열어보고 403 오류가 뜬다면 그때 req로 headers 값 지정해주면 된다. 위에서는 간략하게 Chrome으로 적어줬지만, 정석대.. 2022. 11. 21.
[Python] Python List Data 이론 List 자료형과 반복문에 대한 짧은 정리 01. List형은 대괄호형으로 생성한다. 02. List형을 반복문(for문)에서 사용하는 방법이 다른 언어에 비해 편하다. 03. in 명령으로 조건문(if)에 적용하는 것도 다른 명령에 비해 편하다. 04. .append : list 제일 뒤에 하나 추가 05. .pop : 제일 뒤 자료를 지움 06. .extend : 제일 뒤 다수의 자료를 추가 07. .remove : 같은 이름의 자료를 지움 08. 슬라이싱 : [n:m] n번째부터 m-1까지 09. insert : 원하는 위치에 자료를 삽입 10. list 안에 list를 가질 수 있다. 11. isinstance : 자료형이 list형인지 확인할 수 있다. 2022. 11. 20.