본문 바로가기

Python3

[Python] lxml, request 조합으로 뉴스기사 크롤링하기 -2 코드 작성환경은 구름ide 우분투 18.0 버전에서 작성했고, python3 입니다. 2020/01/04 - [Python] - [Python] lxml, request 조합으로 뉴스기사 크롤링하기 -1 [Python] lxml, request 조합으로 뉴스기사 크롤링하기 -1 처음에 lxml으로 html파싱을 하면서 절대경로로 탐색하는 바람에 삽질을 많이했었다. // : 절대경로 , .// : 현재 Node에서 탐색 사용법을 기록해두기위해 간단한 뉴스기사 크롤러를 만들어봤다. https://news.joi.. jogamja.tistory.com 이번엔 1편에서 작성한 코드를 바탕으로 multiprocessing 을 통해 속도를 높여봅시다. 일단 앞서 작성한 코드들을 관리하기위해 함수단위로 분할해주었습니.. 2020. 1. 5.
[Python] lxml, request 조합으로 뉴스기사 크롤링하기 -1 처음에 lxml으로 html파싱을 하면서 절대경로로 탐색하는 바람에 삽질을 많이했었다. // : 절대경로 , .// : 현재 Node에서 탐색 사용법을 기록해두기위해 간단한 뉴스기사 크롤러를 만들어봤다. https://news.joins.com/sports/baseball/list/1?filter=All 스포츠 > 야구 뉴스 - 중앙일보 스포츠 > 야구 뉴스 - 중앙일보 - 야구, 해외야구, 축구, 해외축구, 농구/배구 news.joins.com 우리가 크롤링할 뉴스사이트는 여기다. 먼저 크롬으로 구조부터 살펴보자. div[class=list_basic] 안에서 li안에 기사들의 정보가 존재하는걸 알수있다. 일단 link부터 뽑아오자. 일단 모듈들을 import하자. import requests from.. 2020. 1. 4.
[Python] BeautifulSoup 으로 크롤링하기 table = soup.a # a태그 하나 찾음. table = soup.find('div',{'id' : 'perfect'}) text = table.a.get_text() # table에서 a태그인걸 찾고, 그걸 string으로 변환시킴. 일단 BeautifulSoup를 import하고.. from urllib.request import urlopen from bs4 import BeautifulSoup as bs BeautifulSoup 객체를 만들자. url = "주소" # http://www.naver.com 같은거 html = urlopen(url) source = html.read() html.close() soup = bs(source, "html5lib") # BeautifulSoup 객.. 2019. 11. 10.