Search

이상한 변호사 우영우를 주제로 한 감정분석

URL
프로젝트 당시에 유행하던 이상한 변호사 우영우 관련 유튜브 영상을 조회수가 높은 기준으로 정렬한 뒤 댓글을 크롤링하여 댓글의 내용이 긍정/부정/중립인지 판단하는 주제로 진행했습니다.

프로젝트 주제

NLP 프로젝트의 주제로 어떤 것을 해볼지 고민하던 중 텔레그램 api 를 활용한 챗봇 만들기, 네이버 음식점리뷰를 크롤링하여 감정분석을 할지 고민하다가 당시 유행하기 시작하던 ‘이상한 변호사 우영우’ 라는 드라마를 주제로 해보면 재미있을 것 같다. 라는 생각이 들어 시작하게 되었습니다.
‘이상한 변호사 우영우’ 를 유튜브에 검색한 후 조회수를 내림차순으로 정렬하여 당시의 기준으로 조회수가 50만 회가 넘어가는 영상들의 댓글들을 가져와 분석을 진행하였습니다. 영상의 종류는 다양했는데 ost 커버, 촬영 비하인드, 스토리 요약 영상 등 다양한 영상이 있었기에 다양한 댓글들을 수집할 수 있었고, 해당 드라마가 나왔을 당시에 논란이 된 부분이 있었기 때문에 보통의 리뷰 데이터보다 많은 부정적인 반응과 날것의 데이터를 수집할 수 있었을 것이라 예상하고 진행했습니다.

아이디어

nltk 를 사용한 불용어 처리
konly 를 활용한 형태소 분석
Kobert model 사용

Self-Feedback

프로젝트를 진행하면서 전처리를 위해 많은 논문을 읽고 여러 방법을 사용해봤는데, 처음 진행해보는 NLP 프로젝트였기에 전처리 과정에 있어서 미숙함이 있었고 이 부분에 시간을 많이 썼음에도 불구하고 분류를 완전히 못한 것이 아쉽게 느껴집니다.
앞서 말한 것을 바탕으로 라벨링을 진행하려 했으나 잘 진행되지 않았고 데이터는 충분했지만, 라벨링 된 항목이 부족했기에 4천 개의 데이터만을 사용했습니다. 여러 가지로 분류를 해내고 싶었지만, 시간이 부족했기에 긍정, 부정, 중립(애매함) 3가지로만 분류하게 되었습니다.
유튜브 댓글이기 때문에 한국어만 있던 것이 아닌 외국어, 이모지 등이 존재했는데 이 부분은 전처리로 해결했습니다. 댓글의 비속어 같은 부분에서는 쉽게 부정적으로 예측하였으나 은어, 비꼬는 어투, 광고 문구, 인터넷 속어 등에 대해선 분류를 제대로 못 해낸 부분이 아쉽게 느껴졌습니다.
직접 구상부터 시작해서 진행한 프로젝트여서 그런지 즐기면서 작업했던 프로젝트입니다.