정말 간단한 LSTM으로 정확도 80%대까지 올렸다. 23,000개 데이터를 7,000번 학습시겼다. 정확하게 하려면 모든 카테고리 데이터를 동일하게 맞추고, 내부 태그를 정확하게 정리해야 하는데 시간없어 하지 못했다. [21:33:28]>cat process | head -100 로드한 모델 vocab 최대값은 2611 로드한 모델 vectror 크기는 5 인티저 값은 [‘AUX’ ‘DATA’ ‘EMER’ ‘END_A’ ‘END_B’ ‘ERROR’ ‘PROX_INTLK’ ‘SOL_A’ ‘SOL_B’] 출력 크기는 9 Model:…… keras로 키워드 분석((5+1)/5) 계속 읽기
[태그:] 형태소분석
keras로 키워드 분석(5/5)
간단한 데이터(1,200개)로 태그 분류기를 만들었다. validation을 0.2로 설정하면 val_acc가 0.3에서 움직이지 않는다. 그러나 0.1로 바꾸면 0.99까지 올라가는 마법을 볼수있다. 데이터가 적어 많이 입력하면 어떨지 잘 모르겠다. 똥을 먹으면 똥을 싼다. 똥을 음식으로 바꾸려면 물, 비료도 주고 햇빛도 잘 쬐여야한다. 농사나 손가락 노가다나 별 차이없어 보인다. https://youtu.be/Jlao-zax0wA 모델을 저장해서, 다시 불러오는 방식으로 바꾸었다. 하도 많이 수정하다…… keras로 키워드 분석(5/5) 계속 읽기
keras로 키워드 분석(4/5)
대박이다!! 1,000회를 돌렸는데 0.87 정확도를 보였는데, verb까지 검사하니 0.93에서 시작한다!! kkma가 동사로 끝나는 명사형 단어를 동사로 인식한다!! 사용자 입력을 받아들여 단어를 분석하는 부분을 아래와 같이 했다. from konlpy.tag import Okt okt=Okt() from gensim.models import Word2Vec from keras.layers import Dense, Flatten, SimpleRNN, Dropout from keras.models import Sequential from keras.preprocessing.sequence import pad_sequences from keras.layers.embeddings import Embedding from…… keras로 키워드 분석(4/5) 계속 읽기
keras로 키워드 분석(3/5)
과거 acc를 못 올리는 이유를 알아보았다. 둘 중 하나를 선택하는 문제는 activation softmax대신 sigmoid를 사용해야 한다. 아래로 고치고 1,000번 학습시켰다. 최고값을 찾은 weight를 파일로 저장했다. 147번 학습해보니 0.99?? 정확도를 보이나, vlaidation 체크용은 0.87대 정확도를 보인다. from konlpy.tag import Okt okt=Okt() from gensim.models import Word2Vec from keras.layers import Dense, Flatten, SimpleRNN from keras.models import Sequential from…… keras로 키워드 분석(3/5) 계속 읽기
keras로 키워드 분석(2/5)
keras가 지원하는 embedding을 어떻게 사용하는지 몰랐다. keras가 제공하는 문서가 embedding 기능을 정확히 설명한다. https://keras.io/layers/embeddings/#embedding weight로 embedding_matrix를 입력하고, input으로 index를 입력하면 index를 vector로 변경한다. 따라서 아래와 같은 순서로 작업해야 한다. 미리 만든 word2vec 파일을 불러온다.전체 vocab 총 양을 embedding_matrix로 설정한다.konlpy로 각 태그를 분리한다.불러온 word2vec 파일에서 해당하는 단어 index를 구하고, 이를 문장으로 만든다.적절한 길이로 padding한다.이를 입력으로 먹인다.…… keras로 키워드 분석(2/5) 계속 읽기