[Jsoup] 웹 크롤링으로 원하는 값 추출하기

Toy프로젝트를 진행하며 웹사이트의 원하는 데이터를 가져와야 했습니다.

이번 포스팅은 Jsoup을 사용하며 웹페이지를 크롤링한 방법을 공유합니다.

Jsoup

- 정적인 자료를 수집하는 경우에 주로 사용합니다.

- 정적 데이터를 비교적 빠르게 수집할 수 있지만 브라우저가 아닌 HTTP Request를 사용하기 때문에 동적 데이터를 수집하기 위해서는 해당 서버의 인증키 요구 등 수집할 수 없는 경우가 많다.

- 또한 동적인 기능을 지원하지 않는 경우가 많다.

Selenium

- 빅데이터 관련, 동적인 자료를 수집할 때 주로 사용한다.

- Jsoup에 비해 속도는 느리지만 브라우저 드라이버를 사용하여 동적 데이터도 수집 가능하다.

[개인 의견]

아직 Selenium을 사용해보지 않은 초보 개발자의 입장에서 Selenium과 Jsoup의 차이점을 명확히 구분하고 설명드리기는 어렵습니다만(ㅜㅠ), 제가 느껴본 바를 그대로 설명해보겠습니다.

Selenium은 화면에 출력되는 모습 그대로(ex. 사용자가 보고있는 웹페이지)의 data를 크롤링할 때 유용할 것 같습니다. (macro를 구현한다던지..)

Jsoup은 화면에 뿌려지는 모습 보다는, 원시 코드(HTML 코드를 크롤링하여 활용)를 그대로 크롤링 하기에 유용한 것 같습니다.

Jsoup을 실제로 사용하기 전에 주요 요소 먼저 확인하겠습니다.

클래스명	설명
Document	Jsoup 얻어온 결과 HTML 전체 문서
Element	Document의 HTML 요소
Elements	Element가 모인 자료형
Connection	Jsoup의 connect 혹은 설정 메소드들을 이용해 만들어지는 객체(연결을 하기 위한 정보를 담고 있다)
Response	URL에 접속해 받은 결과(Document와 다르게 status 코드, status 메시지나 charset같은 헤더 메시지와 쿠키등을 가지고 있다)