개발/Python

[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석

HEAD1TON 2017. 9. 1. 14:36
728x90
반응형

article_crawling.py

article_crawling1.py

cleaner.py

crawling.py

output_cleand.txt

output.txt

result_acticls1.txt

result_articles.txt

words_result.txt

words_result1.txt

words.py

동일한 키워드를 가지는 신문 기사를 논조가 다른 신문사에서 긁어와 사용된 단어를 워드클라우드로 시각화해 분석해보는 예제입니다.

키워드는 '사드'를 사용했고, 신문사는 동아일보, 한겨레신문 두 신문사에서 각각 150개씩 기사를 긁어왔습니다.

결과는 아래와 같습니다. (왼쪽이 동아일보, 오른쪽이 한겨레신문 입니다.)




키워드가 '사드'인 만큼, 워드클라우드 모양을 미사일로 만들어봤습니다.

워드클라우드를 살펴보면 동아일보는 '중국'을 한겨레신문에서는 '미국'을 가장 많이 사용했음을 알 수 있습니다.

분석환경은 우분투 16.04에서 파이썬 3.5.2버전을 사용했습니다.

다음 글 부터 사용된 라이브러리와 코드를 차근차근 살펴보도록 하겠습니다.



연관된 글

특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 1 (개요)

특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 2 (네이버 뉴스 크롤링하기)

특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 3 (동아일보, 한겨레 '사드'관련 기사 크롤링하기)

특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 4 (단어 사용 빈도 체크하기)

특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 5 (워드클라우드 만들기) 미작성



출처: http://yoonpunk.tistory.com/3 [윤빵꾸의 공부노트]

728x90
반응형