크롤링을 진행해 보면서 얻은 결과 정리(고급 기술 X)

트위터

-트위터 api 키 얻기

https://apps.twitter.com

 

-기본적인 트위터 크롤링의 방법을 얻을 수 있는 곳.

http://www.dealingdata.net/2016/07/23/PoGo-Series-Tweepy/#search

 

- 트위터는 정책상으로 인해 현재 날짜로부터 10일 이외의 날은 받을 수 없습니다. 그 외의 결과를 원한다면 돈을 지불...

 

- 대표적으로 tweepy가 있는데, 위처럼 since, until과 같은 파라미터가 있었으나 정책 변경 이후, 업데이트로 인해 없어진 상황

(API에는 공식적으로 없지만, 직접 사용하면 적용이 됩니다.)

 

- TweepError해결

- tweepy사용 시 구글에 돌아다니는 예제 중에서 OR문을 쓰는 예제가 있습니다. 테스트 해본 결과 생각보다 원하는 결과를 얻기 힘들거라고 예상해봅니다. 따라서 저는 OR문 보다는 ['1', '2']의 형식을 사용하였습니다.

- 위의 형식을 사용하다 보면 약간의 불만을 가질 수 있습니다. 제가 DB쪽 지식(?)이 부족해서 그런진 몰라도?? 'machine learning' 과 '#machine learning'의 결과는 다릅니다. 하지만 'machinelearning'과 '#machinelearning'의 결과는 같다는 걸 확인하였습니다(user ID 비교함)

***************************************************************************************************

크롤링을 이용한 분석부터 끝까지는 이 사이트를 참고하면 좋을 것 같다.

http://miniddong.me/2016/11/12/zika-tweet-lda/

 

***************************************************************************************************

 

페이스북

-페이스북은 그룹 페이지의 타임라인을 분석할 수 있게끔 api를 제공하고 있으나, 타인의 타임라인을 탐색하는 것은 안되도록 하고 있다.

-페이스북 api 키 얻기

https://developers.facebook.com/tools/explorer

 

-페이지의 글은 크롤링 할 수 있다. 단, 페이지의 access key를 받아야 함.

 

 

 

'# 기타 공부한 것들 > 파이썬_etc.' 카테고리의 다른 글

파이썬 언어의 기본 etc  (0) 2019.02.01
파이썬 함수 all(), any()  (0) 2019.01.16
windows docker 설치하기  (0) 2019.01.11
cv2를 이용한 이미지 관련  (0) 2018.12.08
Anaconda 가상환경 설치법  (0) 2018.10.26