Python을 활용한 텍스트 마이닝 10.텍스트 분석-감성 분석(Sentiment Analysis) 3편

머리만1톤 2017. 9. 11. 17:58

2017. 9. 11. 17:58

저번 시간의 Naive Bayes Classifier에 이어서 Doc2Vec에 대해 알아보겠습니다.

Doc2Vec은 벡터 공간 모형의 일종으로 간단한 신경망 모형을 통해 만들어지는 모델입니다.

Word2Vec과 유사하지만 단어가 아닌 문장, 문단, 문서를 통해 벡터를 만들기 때문에 단어간의 유사성 뿐만 아니라 문서의 구성요소간의 유사성을 정의하고 계산할 수 있습니다.

즉, 문맥을 고려한 분석이 가능하다는 것이 가장 큰 장점입니다.

Doc2Vec을 활용한 감성 분석을 하기 위해 먼저 gensim 외 필요한 패키지를 불러옵니다.

1
2
3
4
5
import gensim
from gensim.models import Doc2Vec
import numpy as np
from random import shuffle
from sklearn.linear_model import LogisticRegression

Doc2Vec 모델 생성을 위한 gensim 패키지!

1
2
3
4
5
from nltk.corpus import stopwords
from nltk import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer
import multiprocessing
import os

Text preprocessing 을 위한 nltk패키지

1
2
stop_words = set(stopwords.words('english'))
lemm = WordNetLemmatizer()

1
2
3
4
5
6
7
8
LabeledSentence = gensim.models.doc2vec.LabeledSentence
class LabeledLineSentence(object):
    def __init__(self, doc_list, labels_list):
        self.labels_list = labels_list
        self.doc_list = doc_list
    def __iter__(self):
        for idx, doc in enumerate(self.doc_list):
            yield LabeledSentence(words=str(doc).split(),tags=[self.labels_list[idx]])

1
2
review_list = []
labels_list = []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
files = os.listdir('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/train/pos')[:1000]
for file in files:
    review = ''
    with open('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/train/pos/{}'.format(file), 'r', encoding = 'utf-8') as f:
        for word in word_tokenize(f.read()):
            if lemm.lemmatize(word) not in stop_words:
                review += ' ' + word
        f.close()
    review_list.append(review)
    labels_list.append('pos_' + file)
 
files = os.listdir('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/train/neg')[:1000]
for file in files:
    review = ''
    with open('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/train/neg/{}'.format(file), 'r', encoding = 'utf-8') as f:
        for word in word_tokenize(f.read()):
            if lemm.lemmatize(word) not in stop_words:
                review += ' ' + word
        f.close()
    review_list.append(review)
    labels_list.append('neg_' + file)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
files = os.listdir('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/test/pos')[:1000]
for file in files:
    review = ''
    with open('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/test/pos/{}'.format(file), 'r', encoding = 'utf-8') as f:
        for word in word_tokenize(f.read()):
            if lemm.lemmatize(word) not in stop_words:
                review += ' ' + word
        f.close()
    review_list.append(review)
    labels_list.append('pos_' + file)
 
files = os.listdir('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/test/neg')[:1000]
for file in files:
    review = ''
    with open('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/test/neg/{}'.format(file), 'r', encoding = 'utf-8') as f:
        for word in word_tokenize(f.read()):
            if lemm.lemmatize(word) not in stop_words:
                review += ' ' + word
        f.close()
    review_list.append(review)
    labels_list.append('neg_' + file)

Naive Bayes와 같은 방식을 통해 전처리와 train/test data셋을 생성합니다.

1
it = LabeledLineSentence(doc_list = review_list, labels_list = labels_list)

1
2
3
4
model = Doc2Vec(size = 3000, window = 10, dm = 0, alpha=0.025, min_alpha=0.025, min_count=5, workers=multiprocessing.cpu_count())
model.build_vocab(it)
model.train(it, total_examples = 4000, epochs = 20)
model.save('partial_Doc2Vec.model')

리뷰 리스트와 레이블 리스트를 합쳐서 LabeledLineSentence 객체를 생성합니다.

그 다음 Doc2Vec모델을 다음과 같이 학습시킵니다.

size 는 feature 벡터의 차원입니다.

window는 문서의 내에서의 예측을 위한 예측된 단어와 문맥의 단어들 사이의 최대 거리입니다.

dm은 트레이닝 알고리즘으로 distributed memory가 default 값입니다.

alpha값은 초기 학습률(learning rate)이고 min_alpha는 alpha값이 학습과정에서 선형으로 줄어들어서 도달하는 최소 값입니다.

min_count 이하의 total frequency를 가진 단어들은 모두 무시됩니다.

workers는 cpu의 코어 수에 따라 multi-threads를 지원해서 병렬처리하는 옵션입니다.

그 밖의 옵션에 대한 설명은 https://radimrehurek.com/gensim/models/doc2vec.html을 참고해 주세요.

1
model = Doc2Vec.load('partial_Doc2Vec.model')

이제 생성된 모델을 통해서 앞서 NBC와 같이 train 셋에 대해 감성 분석을 시행하겠습니다.

1
2
x_train = np.zeros((2000, 3000))
y_train = np.zeros(2000)

1
2
3
4
5
6
7
8
files = os.listdir('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/train/pos')[:1000]
for i in range(1000):
    x_train[i] = model.docvecs['pos_' + files[i]]
    y_train[i] = 1
files = os.listdir('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/train/neg')[:1000]
for i in range(1000):
    x_train[i+1000] = model.docvecs['neg_' + files[i]]
    y_train[i+1000] = 0

1
2
x_test = np.zeros((2000, 3000))
y_test = np.zeros(2000)

1
2
3
4
5
6
7
8
files = os.listdir('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/test/pos')[:1000]
for i in range(1000):
    x_test[i] = model.docvecs['pos_' + files[i]]
    y_test[i] = 1
files = os.listdir('C:/Users/lifebloom/Desktop/udsl/text_mining/aclImdb/test/neg')[:1000]
for i in range(1000):
    x_test[i+1000] = model.docvecs['neg_' + files[i]]
    y_test[i+1000] = 0

1
2
clf = LogisticRegression()
clf.fit(x_train, y_train)

logistic regression classifier를 이용해서 긍, 부정으로 분류하였습니다.

1
clf.score(x_test, y_test)

test 셋에서 출력해본 결과 약 91.65%의 정확도를 보였습니다. NBC보다 높은 정확도를 보였지만 전체데이터(25000)를 대상으로 한 경우 정확도가 79%대로 떨어지는 모습을 보였습니다.

특정 분석법이 절대 우위에 있는 것이 아니라 다양한 분석방법을 시행해보고 결과를 비교해 보는 것이 좋은 방법 같습니다.

다음 시간에는 감성 분석의 마지막 시간으로 인공신경망(ANN)을 활용한 감성분석을 해보도록 하겠습니다.

저작자표시

'Program > Python' 카테고리의 다른 글

MongoDB 에 데이터 저장하고 불러오기 (0)	2017.10.02
Python을 활용한 텍스트 마이닝 11.텍스트 분석-감성 분석(Sentiment Analysis) 4편 (0)	2017.09.11
Python을 활용한 텍스트 마이닝 9.텍스트 분석-감성 분석(Sentiment Analysis) 2편 (0)	2017.09.11
Python을 활용한 텍스트 마이닝 8.텍스트 분석-감성 분석(Sentiment Analysis) (0)	2017.09.11
Python을 활용한 텍스트 마이닝 7.텍스트 분석-영문 텍스트 마이닝2 (0)	2017.09.11

(─━┘_└━─)/ 머리만1톤(Head1Ton)

Python을 활용한 텍스트 마이닝 10.텍스트 분석-감성 분석(Sentiment Analysis) 3편

'Program > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바