상세 컨텐츠

본문 제목

[TIL] 2024.04.05 axios, puppeteer를 활용한 웹스크래핑

[TIL]

by 재호링 2024. 4. 5. 03:34

본문

스크래핑 성공했다.

axios만으로 해결해보려고했는데

상세정보 페이지로 넘어가면 html 코드로

값을 받아오는 것이 아닌 json 형태로 추출된 데이터만

전해줘 파싱하기가 대단히 어렵다고 판단.

 

그래도 계속 해보려고 시도했지만

패킷을 분석해봐도 요청을 보내보아도

content의 정보를 가져오기가 너무 힘들었다.

 

puppeteer를 활용해서 빠르게 다음 단계로

넘어가라는 조언을 받아 퍼펫티어를 이용해

데이터를 스크래핑해왔다.

 

url을 스크래핑하는 코드는 axios만을 이용해

서비스의 부하를 줄였지만

 

content의 정보를 파싱할 수 없는

상세정보 페이지를 긁어올때는

자원소비가 많지만 puppeteer를 활용해

날먹했다.

관련글 더보기