AI CONNECT 에서 진행한 고객 데이터를 활용한 식당 만족도 예측 주제의 대회입니다.
이어드림스쿨과 AI CONNECT 에서 진행한 1차 모의 경진대회 입니다.
고객 및 식당 정보를 이용한 음식점 평점 예측
추천 시스템(Recommendation System) | 개방형 문제 | MAE(Mean Average Error)
문제정의
•
고객 및 식당 정보를 이용하여 특정 고객이 특정 식당에 부여한 평점을 예측하는 문제입니다
데이터 설명
데이터 개요
다음의 Column으로 이루어진 Table 형태의 CSV 데이터 (Encoding: 'UTF-8', Delimiter: ',')
Column 정보
1.식당 정보(Item)
•
식당ID : 식당의 고유 ID (Primary Key)
•
식당이름 : 식당의 이름 (텍스트)
•
주소 : 식당의 도로명 주소 (텍스트)
•
메뉴 : 식당의 주요 메뉴와 해당 메뉴의 가격 정보 (텍스트)
•
영업시간 : 식당의 영업요일,영업시간,Break Time 등의 정보
•
평점 : 해당 식당의 모든 유저의 평점의 평균값 (범위:1~5)
•
AI산출점수 : 자체 DB를 바탕으로 산출한 종합점수 예측값 (범위:0~100)
•
좋아요 수 : 유저들에게 받은 좋아요 수
•
주요품목 : 유저들이 남긴 판매 주요 품목에 대한 해시태그 (텍스트)
•
방문목적 : 유저들이 남긴 주요 방문 목적에 대한 해시태그 (텍스트)
•
시설 : 유저들이 남긴 주요 식당 시설에 대한 해시태그 (텍스트)
2.유저 정보(User)
•
리뷰_작성자 : 유저의 고유 ID(Primary Key)
•
총평 : 유저 개인의 대상 식당에 대한 총 평점 (범위:1~5)
•
맛평점 : 유저 개인의 대상 식당에 대한 맛 평점 (범위:1~5)
•
가격평점 : 유저 개인의 대상 식당에 대한 가격 평점 (범위:1~5)
•
서비스평점 : 유저 개인의 대상 식당에 대한 가격 평점 (범위:1~5)
•
텍스트 : 유저 개인의 대상 식당에 대한 리뷰 (텍스트)
데이터 구성
•
Train 식당와 유저에 대한 모든 정보를 담고 있음
•
Test 식당에 관한 정보와 User의 ID 정보만 담고 있음 -> 해당 ID의 유저가 남긴 평점을 예측하는 문제
평가지표
MAE
아이디어
•
추천시스템은 어떻게 정리하고 접근하냐에 따라서 수많은 모델이나 접근방식이 있을 수 있기 때문에 어떤 데이터가 주어졌는지, 문제에서 맞히라고 요구하는 것이 무엇인지에 따라서 설계하고 접근하는 것이 중요하다는 걸 배웠습니다.
•
평점 예측이기 때문에 Regression 문제이고, RandomForest 와 LGBMRegressor 가 사용되었습니다.
•
딥러닝적인 추천 문제에 대한 접근 방법의 baseline model 로는 DeepFM 이 사용되었습니다.
Self-Feedback
•
대회 초반에는 여러 시도를 해봤으나, 부트캠프 내에서의 작은 대회다 보니 참여율도 저조했고 아이디어를 교류할 팀원들이 없는 상태로 멘토님들에게만 의지할 수 밖에 없던 상황이 아쉬웠습니다.
.png&blockId=c1d34259-a859-4dca-a9da-6dc03aa171b4)
.png&blockId=03b2eaa2-8ad8-4e8b-9a63-0342c8ffbbcf)
.png&blockId=03b2eaa2-8ad8-4e8b-9a63-0342c8ffbbcf&width=256)
.png&blockId=be4aa77f-9156-488f-9b06-ddf4ff39a89b)
