본문 바로가기
반응형

크롤링2

네이버 카페 중고 물품 자동 탐색기 지난번에 Java 공부를 좀 한다고 했는데... 그 연습 코딩의 첫 결과물로 네이버 카페 중고 물품 탐색기를 만들어 보기로 했다. 네이버 카페에 물건을 검색하면, 대부분이 물건을 매입한다는 업자의 글이다. 한두번 올리는게 아니라 몇 분 단위로 도배를 하는데, 네이버와 중고나라는 이걸 제지할 생각이 전혀 없는 것 같다. 이 덕분에 중고나라의 이용자는 빠르게 번개장터와 당근마켓으로 넘어갔다. 뭐 카페에서 특정 키워드가 포함된 게시물을 표시하지 않는 확장이 있기도 하지만, 카페 내 검색만 가능하고, 계속 다른 페이지를 넘겨 가면서 직접 물건을 찾는 건 귀찮은 일이다. 그래서 정해진 조건에 따라 물건을 알아서 찾아 주는 프로그램을 작성하기로 했다. import org.jsoup.Jsoup; import org... 2020. 10. 5.
파이썬으로 크롤링하면서 데이터를 가져올 수 없을 때 방금 내가 겪은 일이어서 정보 공유 차원으로 올려본다. 가끔씩 파이썬으로 크롤링을 하면서 분명 URL을 제대로 입력했는데도 불구 웹의 내용을 가져올 수 없는 경우가 있다. 분명 응답 코드는 200인데 말이다(가끔씩 응답 코드 403을 내보내는 경우도 있다). 이럴 경우에는 유저 에이전트를 헤더에 추가시켜주면 된다. 유저 에이전트는 https://namu.wiki/w/%EC%82%AC%EC%9A%A9%EC%9E%90%20%EC%97%90%EC%9D%B4%EC%A0%84%ED%8A%B8 사용자 에이전트 - 나무위키 아래에 샘플을 준비했다. Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.27.. 2020. 2. 20.
반응형