본문 바로가기

TIL(Today I Learned)

TIL-230725(클론코딩-오늘의집(4))

📝오늘 공부한 것

  • 클론코딩 - '오늘의 집'  데이터크롤링, 코드리팩토링

 

알게 된 점

 

오늘의 집 상품 데이터크롤링을 진행하였다.

개념 공부도 하지 않고 바로 진행을 해서 많은 것들이 헷갈렸다.

동적 크롤링, 정적 크롤링 / selenium, jsoup / 크롤링, 스크랩핑 의 차이점도 알지못했다.

 

*동적 크롤링 / 정적 크롤링

정적 크롤링 : url을 입력했을 때 모든 정보를 볼수 있음.

동적 크롤링 : 페이지 이동이 있어야 볼 수 있음.

https://coding-kindergarten.tistory.com/27

 

[Python/웹 크롤링] 동적/정적 페이지 차이와 그에 따른 크롤링 방법 간단정리

안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다. 코딩유치원에서는 파이썬 기초부터 사무자동화, 웹크롤링, 데이터 분석, 머신러닝 등의 다양한 패키지까지 초보자도 알

coding-kindergarten.tistory.com

 

*Selenium / Jsoup / BeautifulSoup

크롤링하는 방법이 selenium과 jsoup만 있는줄 알았더니, BeautifulSoup도 있었다. 심지어 구글링했을때 크롤링에는 대표적으로 Selenium과 BeautifulSoup 이 두가지 라이브러리를 사용한다고 나왔다. Selenium은 웹동작, BeautifulSoup은 html 정보 파싱할 때 주로 사용한다고 한다.

https://offbyone.tistory.com/116

 

jsoup : 자바 HTML 파서(Java HTML Parser)

CKEditor, Smart Editor 같은 HTML 에디터로 글을 작성하는 사이트의 경우 작성된 글에서 html 태그(tag)를 제거한 순수한 텍스트만을 추출하거나, img 태그만을 추출하여 썸네일(Thumbnail)을 만들거나 하는

offbyone.tistory.com

https://rubber-tree.tistory.com/88

 

[Python 웹 크롤링] Selenium 과 BeautifulSoup의 조합

지난 포스팅 Requests 와 BeautifulSoup의 조합에 이어 2021.05.21 - [SW programming/Python] - [Python 웹 크롤링] Requests 와 BeautifulSoup 의 조합 이번 포스팅에서는 Selenium 과 BeautifulSoup의 조합에 대해 다뤄보도록 하

rubber-tree.tistory.com

https://heodolf.tistory.com/104

 

[크롤링] Selenium을 이용한 JAVA 크롤러 (2) - Jsoup과 비교 (With. Twitter)

2020/02/25 - [Back-end/JAVA] - [크롤링] Jsoup을 이용한 JAVA 크롤러 (1) - HTML 파싱 2020/02/25 - [Back-end/JAVA] - [크롤링] Jsoup을 이용한 JAVA 크롤러 (2) - 파일 다운로드 2020/02/27 - [Back-end/JAVA] - [크롤링] Selenium을 이

heodolf.tistory.com

블로그들을 읽어봤지만, 어떠한 것들이다 라는 것만 대충 이해하고 어떻게 사용하는지 각각의 차이점과 장단점 등을 이해하지 못했다. 나중에 크롤링 기능을 직접 구현하면서 공부해봐야겠다.

 

*크롤링 / 스크랩핑

그런데!!우리팀이 했던 것은 크롤링이 아니라 스크래핑이었던 것이다!!!

그리고 오늘의 집 홈페이지가 아닌 https://www.guud.com/index 의 데이터에서 가구사진, 제목 등 몇개의 데이터만 가져왔다. 그래서 크롤링이라고 할 수 없고 스크래핑이라고 해야한다는 것을 알게되었다.

  https://blog.hectodata.co.kr/crawling_vs_scraping/

 

비개발자가 쉽게 설명하는 웹 크롤링(Crawling)과 웹 스크래핑(Scraping)의 차이점

여러 플랫폼들은 ‘웹 크롤링(Web Crawling)’과 ‘웹 스크래핑(Scrapint)’ 기술을 활용하여 인터넷의 수많은 데이터 속에서 고객이 원하는 정보만을 골라 보여줍니다. 비슷한듯 다른 크롤링과 스크

blog.hectodata.co.kr

 

느낀 점🤔

항해99 초반에 파이썬을 배웠을 때 영화사이트에서 데이터 스크래핑하는 것을 배웠었다. 이번에 했던 방식도 그때와 비슷했다. 그런데 내가 직접 구현한 것이 아닌 팀원분이 진행하시고 화면공유를 통해 같이 보고 한것이라 제대로 이해하지 못했던 것 같다. 내가 직접 코드를 구현해보면서 다시 공부해봐야겠다.