본문 바로가기

파이썬2

[Python] lxml, request 조합으로 뉴스기사 크롤링하기 -2 코드 작성환경은 구름ide 우분투 18.0 버전에서 작성했고, python3 입니다. 2020/01/04 - [Python] - [Python] lxml, request 조합으로 뉴스기사 크롤링하기 -1 [Python] lxml, request 조합으로 뉴스기사 크롤링하기 -1 처음에 lxml으로 html파싱을 하면서 절대경로로 탐색하는 바람에 삽질을 많이했었다. // : 절대경로 , .// : 현재 Node에서 탐색 사용법을 기록해두기위해 간단한 뉴스기사 크롤러를 만들어봤다. https://news.joi.. jogamja.tistory.com 이번엔 1편에서 작성한 코드를 바탕으로 multiprocessing 을 통해 속도를 높여봅시다. 일단 앞서 작성한 코드들을 관리하기위해 함수단위로 분할해주었습니.. 2020. 1. 5.
[Python] lxml, request 조합으로 뉴스기사 크롤링하기 -1 처음에 lxml으로 html파싱을 하면서 절대경로로 탐색하는 바람에 삽질을 많이했었다. // : 절대경로 , .// : 현재 Node에서 탐색 사용법을 기록해두기위해 간단한 뉴스기사 크롤러를 만들어봤다. https://news.joins.com/sports/baseball/list/1?filter=All 스포츠 > 야구 뉴스 - 중앙일보 스포츠 > 야구 뉴스 - 중앙일보 - 야구, 해외야구, 축구, 해외축구, 농구/배구 news.joins.com 우리가 크롤링할 뉴스사이트는 여기다. 먼저 크롬으로 구조부터 살펴보자. div[class=list_basic] 안에서 li안에 기사들의 정보가 존재하는걸 알수있다. 일단 link부터 뽑아오자. 일단 모듈들을 import하자. import requests from.. 2020. 1. 4.