스크래핑 성공했다.
axios만으로 해결해보려고했는데
상세정보 페이지로 넘어가면 html 코드로
값을 받아오는 것이 아닌 json 형태로 추출된 데이터만
전해줘 파싱하기가 대단히 어렵다고 판단.
그래도 계속 해보려고 시도했지만
패킷을 분석해봐도 요청을 보내보아도
content의 정보를 가져오기가 너무 힘들었다.
puppeteer를 활용해서 빠르게 다음 단계로
넘어가라는 조언을 받아 퍼펫티어를 이용해
데이터를 스크래핑해왔다.
url을 스크래핑하는 코드는 axios만을 이용해
서비스의 부하를 줄였지만
content의 정보를 파싱할 수 없는
상세정보 페이지를 긁어올때는
자원소비가 많지만 puppeteer를 활용해
날먹했다.
[TIL] 2024.04.08 news.service 테스트코드 작성 (0) | 2024.04.09 |
---|---|
[TIL] 2024.04.05 인기순 정렬과 스크래핑 데이터 중복처리 (0) | 2024.04.06 |
[TIL] 2024.04.03 스크래핑 잘 안됨 (0) | 2024.04.03 |
[TIL] 2024.04.02 네트워크 패킷 분석 (0) | 2024.04.03 |
[TIL] 2024.04.01 스크래핑 데이터 저장 (0) | 2024.04.01 |