📝오늘 공부한 것
- 클론코딩 - '오늘의 집' 데이터크롤링, 코드리팩토링
알게 된 점❗
오늘의 집 상품 데이터크롤링을 진행하였다.
개념 공부도 하지 않고 바로 진행을 해서 많은 것들이 헷갈렸다.
동적 크롤링, 정적 크롤링 / selenium, jsoup / 크롤링, 스크랩핑 의 차이점도 알지못했다.
*동적 크롤링 / 정적 크롤링
정적 크롤링 : url을 입력했을 때 모든 정보를 볼수 있음.
동적 크롤링 : 페이지 이동이 있어야 볼 수 있음.
https://coding-kindergarten.tistory.com/27
*Selenium / Jsoup / BeautifulSoup
크롤링하는 방법이 selenium과 jsoup만 있는줄 알았더니, BeautifulSoup도 있었다. 심지어 구글링했을때 크롤링에는 대표적으로 Selenium과 BeautifulSoup 이 두가지 라이브러리를 사용한다고 나왔다. Selenium은 웹동작, BeautifulSoup은 html 정보 파싱할 때 주로 사용한다고 한다.
https://offbyone.tistory.com/116
https://rubber-tree.tistory.com/88
https://heodolf.tistory.com/104
블로그들을 읽어봤지만, 어떠한 것들이다 라는 것만 대충 이해하고 어떻게 사용하는지 각각의 차이점과 장단점 등을 이해하지 못했다. 나중에 크롤링 기능을 직접 구현하면서 공부해봐야겠다.
*크롤링 / 스크랩핑
그런데!!우리팀이 했던 것은 크롤링이 아니라 스크래핑이었던 것이다!!!
그리고 오늘의 집 홈페이지가 아닌 https://www.guud.com/index 의 데이터에서 가구사진, 제목 등 몇개의 데이터만 가져왔다. 그래서 크롤링이라고 할 수 없고 스크래핑이라고 해야한다는 것을 알게되었다.
https://blog.hectodata.co.kr/crawling_vs_scraping/
느낀 점🤔
항해99 초반에 파이썬을 배웠을 때 영화사이트에서 데이터 스크래핑하는 것을 배웠었다. 이번에 했던 방식도 그때와 비슷했다. 그런데 내가 직접 구현한 것이 아닌 팀원분이 진행하시고 화면공유를 통해 같이 보고 한것이라 제대로 이해하지 못했던 것 같다. 내가 직접 코드를 구현해보면서 다시 공부해봐야겠다.
'TIL(Today I Learned)' 카테고리의 다른 글
TIL-230727(클론코딩-오늘의집(5)) (0) | 2023.07.27 |
---|---|
TIL-230726 (0) | 2023.07.26 |
TIL-230724(클론코딩-오늘의집(3)) (0) | 2023.07.24 |
TIL-230722(클론코딩-오늘의 집(2)) (0) | 2023.07.22 |
TIL-230721(클론코딩-오늘의 집(1)) (0) | 2023.07.21 |