crawling wikipedia

https://github.com/goldsmith/Wikipedia 여기서 pywikibot을 추천.

https://www.mediawiki.org/wiki/Manual:Pywikibot/Installation

https://www.mediawiki.org/wiki/Manual:Pywikibot/BotPasswords

/Users/n18016/pywikibot/user-config.py 경로에 생성

파일이 생성되었고 해당경로로 가서 스크립트를 실행해야함.

import pywikibot
site = pywikibot.Site()
page = pywikibot.Page(site, u"List of passenger airlines")
list_of_passenger_airlines = page.text
print(list_of_passenger_airlines, file=open("/Users/n18016/Documents/workspace/tour-geolocation-data/list_of_passenger_airlines.txt", "a"))

아 하다보니까 get full text하기 어렵긔

(https://github.com/martin-majlis/Wikipedia-API) 로 바꿔보자.

(https://github.com/siznax/wptools) infobox 내용얻기위해 검색 중 추천받음.

(https://stackoverflow.com/a/10180899/10194999)

이거 설치하다가 에러 있었는데, (https://github.com/transloadit/python-sdk/issues/4#issuecomment-347009356) 이렇게 해결.

Exporting two constants (as stated here pyca/cryptography#3489):

export CPPFLAGS=-I/usr/local/opt/openssl/include
export LDFLAGS=-L/usr/local/opt/openssl/lib
Installing with pip

pip install pycurl --global-option="--with-openssl"

진행중..

infobox 정보 (https://www.geeksforgeeks.org/fetching-text-wikipedias-infobox-python/)

range vs xrange

(https://www.geeksforgeeks.org/range-vs-xrange-python/)

wikipedia의 검색어로 가져올때 우선순위가 높은걸 바로 가져왔음 좋겠는데 일단 옵션을 다 보여주는 문제가 있음. 그리고 멈춰버림. try catch 해야하는데, usage가 있어서 참고 (https://github.com/goldsmith/Wikipedia/issues/35)

(https://stackoverflow.com/questions/6531482/how-to-check-if-a-string-contains-an-element-from-a-list-in-python)

이거도 참고했는데 이해안됨 ㅅㄱ

그리하여 완성된 코드

(https://gist.github.com/ohoroyoi/3d616c2f94e39e32455db682dd50229e)

저작자표시 비영리 동일조건

'내가 당면한 문제와 해결방안' 카테고리의 다른 글

spring (0)	2019.08.17
python for iterate loop check next item (0)	2019.07.31
RestController랑 그냥 Controller (0)	2019.07.26
pageable (0)	2019.07.25
index (0)	2019.07.24

MINIMALISM

crawling wikipedia

'내가 당면한 문제와 해결방안' 카테고리의 다른 글

티스토리툴바

crawling wikipedia

'내가 당면한 문제와 해결방안' 카테고리의 다른 글

'내가 당면한 문제와 해결방안' Related Articles

티스토리툴바