Search

리테일앤인사이트 매출 패턴 분석

URL
분석, ML, DL 관련한 여러 프로젝트를 진행해봤지만, 그중 제일 재미있었고 다방면의 시도를 해볼 수 있었던 프로젝트입니다.

프로젝트 주제

프로젝트 주제는 리테일앤인사이트의 컨설팅을 받는 지역 마트, 단일 점포들의 매출 데이터에서 매출 패턴 기반 동일 상품 인식 및 공통 카테고리 체계를 생성하는 것이었습니다.
데이터는 리테일앤인사이트를 통해 제공받았으며 보안상 점포의 지역이나 점포명 등의 정보는 마스킹 된 상태로 제공받았습니다.
주제는 매출 패턴 분석과 공통 카테고리 체계 생성으로 정해져 있지만 정답이 정해져 있지 않은 프로젝트였습니다. 사측에서도 분류가 굉장히 난잡하게 되어있는 상황이기에 이를 통합하기 위한 좋은 아이디어를 찾는 과정에서 해당 프로젝트가 시작됐습니다. EDA 에 많은 노력과 시간을 쏟았고 사측, 멘토, 팀원분들과 소통하며 나오는 좋은 아이디어들을 시도해보았습니다.

문제 및 해결방안

1.
데이터를 처음 받았을 당시 제공받은 데이터의 매장 수가 너무 적고 데이터의 시작 날짜가 2021년 9월 ~ 2022년 9월 까지였기 때문에 추가로 데이터를 요청하여 진행하였습니다.
2.
제공받은 데이터에서 이상치로 잡히는 데이터들은 신규 마트거나 테스트를 위해 임의로 값을 넣은 것들, 가격 컬럼에 바코드 번호(18자리의 숫자로 구성된 숫자) 가 들어가게 되면서 말도 안되게 튀는 값들이 존재하는 상황이었습니다. 이러한 입력 오류는 기계가 해주는 것이 아닌 사람이 수작업으로 하는 작업이기 때문에 이러한 상황이 존재했고 이러한 이상치는 목표를 위해서 불필요했기 때문에 제거 후 진행했습니다.
3.
단일 마트가 아닌 여러 마트의 데이터를 합쳐서 사용하기 때문에 카테고리의 종류가 너무 난잡하고 비슷한 종류의 상품이더라도 하나로 묶이지 않는 상황이었습니다. 홈플러스 롯데마트 이마트 같은 큰 마트가 아닌 지역 마트, 작은 점포들이 사용하는 카테고리가 다를 수밖에 없고 새로운 상품이 들어오는 경우에 기타항목 등으로 등록해서 사용하는 경우가 많았기 때문입니다. 따라서 정리가 되지 않은 카테고리들을 리테일앤인사이트에서 현재 분류에 사용하고 있는 카테고리를 가져와 직접 마스킹해줬습니다.

사용한 기술

LGBM
Prophet
DTW
Clustering

기업 & 멘토 피드백

Self-Feedback

아쉬웠던 부분은 기업이 바쁜 관계로 프로젝트를 진행하는 데 문제가 있었음에도 피드백을 일주일에 한 번밖에 받지 못했던 점입니다. 데이터를 늦게 받아 프로젝트를 바로 시작하지 못했던 점도 아쉬웠습니다.
외부적인 요인을 제외하고 보완하고 싶은 부분은 EDA 를 하거나 초기 모델을 구상하는 부분에서의 시간을 단축하는 것입니다.
많은 문제가 있는 상황에서 하나씩 해결해가며 다방면의 시도를 해볼 수 있었다는 점에서 가장 기억에 남고 재미있던 프로젝트입니다.