본문 바로가기

크롤링2

[Python] lxml, request 조합으로 뉴스기사 크롤링하기 -2 코드 작성환경은 구름ide 우분투 18.0 버전에서 작성했고, python3 입니다. 2020/01/04 - [Python] - [Python] lxml, request 조합으로 뉴스기사 크롤링하기 -1 [Python] lxml, request 조합으로 뉴스기사 크롤링하기 -1 처음에 lxml으로 html파싱을 하면서 절대경로로 탐색하는 바람에 삽질을 많이했었다. // : 절대경로 , .// : 현재 Node에서 탐색 사용법을 기록해두기위해 간단한 뉴스기사 크롤러를 만들어봤다. https://news.joi.. jogamja.tistory.com 이번엔 1편에서 작성한 코드를 바탕으로 multiprocessing 을 통해 속도를 높여봅시다. 일단 앞서 작성한 코드들을 관리하기위해 함수단위로 분할해주었습니.. 2020. 1. 5.
[Python] lxml, request 조합으로 뉴스기사 크롤링하기 -1 처음에 lxml으로 html파싱을 하면서 절대경로로 탐색하는 바람에 삽질을 많이했었다. // : 절대경로 , .// : 현재 Node에서 탐색 사용법을 기록해두기위해 간단한 뉴스기사 크롤러를 만들어봤다. https://news.joins.com/sports/baseball/list/1?filter=All 스포츠 > 야구 뉴스 - 중앙일보 스포츠 > 야구 뉴스 - 중앙일보 - 야구, 해외야구, 축구, 해외축구, 농구/배구 news.joins.com 우리가 크롤링할 뉴스사이트는 여기다. 먼저 크롬으로 구조부터 살펴보자. div[class=list_basic] 안에서 li안에 기사들의 정보가 존재하는걸 알수있다. 일단 link부터 뽑아오자. 일단 모듈들을 import하자. import requests from.. 2020. 1. 4.


Release the ad block. You cant see it if you dont release it.
블로그 포스팅 및 정보를 볼 수 없습니다.
광고 차단 프로그램이 원인일 수 있으므로 해제 또는 삭제 후 확인 부탁드립니다.

Please release Adblock