크롤링을 진행해 보면서 얻은 결과 정리(고급 기술 X)
트위터
-트위터 api 키 얻기
-기본적인 트위터 크롤링의 방법을 얻을 수 있는 곳.
http://www.dealingdata.net/2016/07/23/PoGo-Series-Tweepy/#search
- 트위터는 정책상으로 인해 현재 날짜로부터 10일 이외의 날은 받을 수 없습니다. 그 외의 결과를 원한다면 돈을 지불...
- 대표적으로 tweepy가 있는데, 위처럼 since, until과 같은 파라미터가 있었으나 정책 변경 이후, 업데이트로 인해 없어진 상황
(API에는 공식적으로 없지만, 직접 사용하면 적용이 됩니다.)
- TweepError해결
- tweepy사용 시 구글에 돌아다니는 예제 중에서 OR문을 쓰는 예제가 있습니다. 테스트 해본 결과 생각보다 원하는 결과를 얻기 힘들거라고 예상해봅니다. 따라서 저는 OR문 보다는 ['1', '2']의 형식을 사용하였습니다.
- 위의 형식을 사용하다 보면 약간의 불만을 가질 수 있습니다. 제가 DB쪽 지식(?)이 부족해서 그런진 몰라도?? 'machine learning' 과 '#machine learning'의 결과는 다릅니다. 하지만 'machinelearning'과 '#machinelearning'의 결과는 같다는 걸 확인하였습니다(user ID 비교함)
***************************************************************************************************
크롤링을 이용한 분석부터 끝까지는 이 사이트를 참고하면 좋을 것 같다.
http://miniddong.me/2016/11/12/zika-tweet-lda/
***************************************************************************************************
페이스북
-페이스북은 그룹 페이지의 타임라인을 분석할 수 있게끔 api를 제공하고 있으나, 타인의 타임라인을 탐색하는 것은 안되도록 하고 있다.
-페이스북 api 키 얻기
https://developers.facebook.com/tools/explorer
-페이지의 글은 크롤링 할 수 있다. 단, 페이지의 access key를 받아야 함.
'# 기타 공부한 것들 > 파이썬_etc.' 카테고리의 다른 글
파이썬 언어의 기본 etc (0) | 2019.02.01 |
---|---|
파이썬 함수 all(), any() (0) | 2019.01.16 |
windows docker 설치하기 (0) | 2019.01.11 |
cv2를 이용한 이미지 관련 (0) | 2018.12.08 |
Anaconda 가상환경 설치법 (0) | 2018.10.26 |