본문 바로가기

내가 당면한 문제와 해결방안

crawling wikipedia

https://github.com/goldsmith/Wikipedia 여기서 pywikibot을 추천.

https://www.mediawiki.org/wiki/Manual:Pywikibot/Installation

https://www.mediawiki.org/wiki/Manual:Pywikibot/BotPasswords 

 

/Users/n18016/pywikibot/user-config.py 경로에 생성

 

파일이 생성되었고 해당경로로 가서 스크립트를 실행해야함.

import pywikibot
site = pywikibot.Site()
page = pywikibot.Page(site, u"List of passenger airlines")
list_of_passenger_airlines = page.text
print(list_of_passenger_airlines, file=open("/Users/n18016/Documents/workspace/tour-geolocation-data/list_of_passenger_airlines.txt", "a"))

 

 

 

아 하다보니까 get full text하기 어렵긔

(https://github.com/martin-majlis/Wikipedia-API) 로 바꿔보자.

 

(https://github.com/siznax/wptools) infobox 내용얻기위해 검색 중 추천받음.

(https://stackoverflow.com/a/10180899/10194999

이거 설치하다가 에러 있었는데, (https://github.com/transloadit/python-sdk/issues/4#issuecomment-347009356) 이렇게 해결.

Exporting two constants (as stated here pyca/cryptography#3489):

export CPPFLAGS=-I/usr/local/opt/openssl/include
export LDFLAGS=-L/usr/local/opt/openssl/lib
Installing with pip

pip install pycurl --global-option="--with-openssl"

진행중..

 

infobox 정보 (https://www.geeksforgeeks.org/fetching-text-wikipedias-infobox-python/)

 

range vs xrange

(https://www.geeksforgeeks.org/range-vs-xrange-python/)

 

wikipedia의 검색어로 가져올때 우선순위가 높은걸 바로 가져왔음 좋겠는데 일단 옵션을 다 보여주는 문제가 있음. 그리고 멈춰버림. try catch 해야하는데, usage가 있어서 참고 (https://github.com/goldsmith/Wikipedia/issues/35)

 

(https://stackoverflow.com/questions/6531482/how-to-check-if-a-string-contains-an-element-from-a-list-in-python)

이거도 참고했는데 이해안됨 ㅅㄱ

 

 

그리하여 완성된 코드

(https://gist.github.com/ohoroyoi/3d616c2f94e39e32455db682dd50229e)

'내가 당면한 문제와 해결방안' 카테고리의 다른 글

spring  (0) 2019.08.17
python for iterate loop check next item  (0) 2019.07.31
RestController랑 그냥 Controller  (0) 2019.07.26
pageable  (0) 2019.07.25
index  (0) 2019.07.24