https://github.com/goldsmith/Wikipedia 여기서 pywikibot을 추천.
https://www.mediawiki.org/wiki/Manual:Pywikibot/Installation
https://www.mediawiki.org/wiki/Manual:Pywikibot/BotPasswords
/Users/n18016/pywikibot/user-config.py 경로에 생성
파일이 생성되었고 해당경로로 가서 스크립트를 실행해야함.
import pywikibot
site = pywikibot.Site()
page = pywikibot.Page(site, u"List of passenger airlines")
list_of_passenger_airlines = page.text
print(list_of_passenger_airlines, file=open("/Users/n18016/Documents/workspace/tour-geolocation-data/list_of_passenger_airlines.txt", "a"))
아 하다보니까 get full text하기 어렵긔
(https://github.com/martin-majlis/Wikipedia-API) 로 바꿔보자.
(https://github.com/siznax/wptools) infobox 내용얻기위해 검색 중 추천받음.
(https://stackoverflow.com/a/10180899/10194999)
이거 설치하다가 에러 있었는데, (https://github.com/transloadit/python-sdk/issues/4#issuecomment-347009356) 이렇게 해결.
Exporting two constants (as stated here pyca/cryptography#3489):
export CPPFLAGS=-I/usr/local/opt/openssl/include
export LDFLAGS=-L/usr/local/opt/openssl/lib
Installing with pip
pip install pycurl --global-option="--with-openssl"
진행중..
infobox 정보 (https://www.geeksforgeeks.org/fetching-text-wikipedias-infobox-python/)
range vs xrange
(https://www.geeksforgeeks.org/range-vs-xrange-python/)
wikipedia의 검색어로 가져올때 우선순위가 높은걸 바로 가져왔음 좋겠는데 일단 옵션을 다 보여주는 문제가 있음. 그리고 멈춰버림. try catch 해야하는데, usage가 있어서 참고 (https://github.com/goldsmith/Wikipedia/issues/35)
이거도 참고했는데 이해안됨 ㅅㄱ
그리하여 완성된 코드
(https://gist.github.com/ohoroyoi/3d616c2f94e39e32455db682dd50229e)
'내가 당면한 문제와 해결방안' 카테고리의 다른 글
spring (0) | 2019.08.17 |
---|---|
python for iterate loop check next item (0) | 2019.07.31 |
RestController랑 그냥 Controller (0) | 2019.07.26 |
pageable (0) | 2019.07.25 |
index (0) | 2019.07.24 |