Kaggle의 IEEE-CIS Fraud Detection 이상 거래 탐지 프로젝트입니다.
이어드림스쿨 머신러닝 과제로 진행했던 IEEE-CIS Fraud Detection 이상 거래 탐지 프로젝트입니다.
대회의 목적은 데이터가 불균형한 실제 상거래 데이터에서 이상 거래를 탐지하는 것입니다. 처음 시도에는 XGB, LGBM 같은 부스팅 기반의 모델을 사용했으며, Leaderboard 에서 상위권을 차지한 팀들의 솔루션을 분석하고 마지막으로는 competition 에서 1등을 한 solution 을 자세히 살펴보았습니다.
Self-Feedback
•
이미 종료된 대회지만 진행하면서 나온 결과와 상위권 솔루션 코드나 설명 등을 비교해보며 어떤 생각들을 가지고 대회를 진행하는지 배울 수 있었고 DIscussion 탭의 많은 토론들도 도움을 주었다.
•
다시금 느낀 점은 데이터를 분석에 있어서 EDA가 아주 중요하다는 것이다. 문제를 풀어가는 방법들에는 다양한 이론, 기술들이 있지만 중요한건 데이터에 맞는 방법을 사용하는 것. 그리고 전처리에서 많은 힘을 쓰는 것이다. Kaggle 의 창업자인 Anthony Goldbloom 도 "데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는 데 쓰인다." 라고 말했듯이 전처리에 많은 힘을 쓸 필요가 있다.
•
팀 프로젝트로 시작한 프로젝트였으나 주제를 정해야 하는 날 팀원 두 명이 나가게 되면서 혼자 프로젝트를 진행했지만, 마음은 편안했던 프로젝트였다.
.png&blockId=c1d34259-a859-4dca-a9da-6dc03aa171b4)
.png&blockId=6f91ddcd-f910-4384-8d1f-23ed6c278ae2)
.png&blockId=6f91ddcd-f910-4384-8d1f-23ed6c278ae2&width=256)
.png&blockId=e8788018-f0ba-414b-865b-91017fcefb2d)