이번 포스팅에서는 Python을 활용하여 웹페이지에서 텍스트를 추출하고 이를 워드클라우드로 나타내고 텍스트들간의 유사도를 활용해 관련성을 구해보겠습니다.
파이썬 텍스트 마이닝은 간단한 편이지만 몇 가지 모듈을 설치해야 합니다.
웹 크롤링을 위해 Beautifulsoup4, 한국어 텍스트 분석을 위한 KoNLPy,워드 클라우드를 위한 pygame,simplejson,pytagcloud 가 필요합니다.
>pip install beautifulsoup4
cmd라인에서 다음과 같이 입력하여 먼저 beautifulsoup4 모듈을 설치하시고
http://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 로 가셔서 자신의 세팅에 맞는 JPype1-0.x.x-cp36-…whl 파일을 받으시면 됩니다. 글 작성 기준 버전은 0.6.2인데 최신버전으로 받으시면 될겁니다. 참고로 KoNLPy를 설치하시기 전에 Java가 설치되어있는지 확인하시고 없다면 설치해주시면 됩니다.
>pip install JPype1 …… .whl
cmd라인에서 파일을 받은 경로로 이동하신 뒤(cd 폴더명), 받은 파일의 이름을 install 뒤에 입력하시면 모듈이 설치됩니다.
>pip install pygame
>pip install simplejson
>pip install pytagcloud
cmd라인에 3개의 모듈을 설치하시면 됩니다.
pip install konlpy
다음 포스팅에서는 설치된 모듈을 통해 웹페이지에서 크롤링한 텍스트를 시각화 해보겠습니다.
'Program > Python' 카테고리의 다른 글
Python을 활용한 텍스트 마이닝 3.텍스트 분석-데이터 전처리 (0) | 2017.09.11 |
---|---|
Python을 활용한 텍스트 마이닝 2.텍스트 분석-데이터 수집 (0) | 2017.09.11 |
[데이터 분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 4 (단어 사용 빈도 체크하기) (0) | 2017.09.01 |
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 3 (동아일보, 한겨레 '사드'관련 기사 크롤링하기) (0) | 2017.09.01 |
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 2 (네이버 뉴스 크롤링하기) (0) | 2017.09.01 |