개발/Python
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석
HEAD1TON
2017. 9. 1. 14:36
728x90
반응형
동일한 키워드를 가지는 신문 기사를 논조가 다른 신문사에서 긁어와 사용된 단어를 워드클라우드로 시각화해 분석해보는 예제입니다.
키워드는 '사드'를 사용했고, 신문사는 동아일보, 한겨레신문 두 신문사에서 각각 150개씩 기사를 긁어왔습니다.
결과는 아래와 같습니다. (왼쪽이 동아일보, 오른쪽이 한겨레신문 입니다.)
키워드가 '사드'인 만큼, 워드클라우드 모양을 미사일로 만들어봤습니다.
워드클라우드를 살펴보면 동아일보는 '중국'을 한겨레신문에서는 '미국'을 가장 많이 사용했음을 알 수 있습니다.
분석환경은 우분투 16.04에서 파이썬 3.5.2버전을 사용했습니다.
다음 글 부터 사용된 라이브러리와 코드를 차근차근 살펴보도록 하겠습니다.
연관된 글
특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 1 (개요)
특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 2 (네이버 뉴스 크롤링하기)
특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 3 (동아일보, 한겨레 '사드'관련 기사 크롤링하기)
특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 4 (단어 사용 빈도 체크하기)
특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 5 (워드클라우드 만들기) 미작성
출처: http://yoonpunk.tistory.com/3 [윤빵꾸의 공부노트]
728x90
반응형