본문 바로가기
ChatGPT 아카이브/Pandas

drop_duplicates() 함수 파헤치기

by Nanki 2025. 3. 4.

📌 drop_duplicates() 개념 정리

항목설명

📌 무엇인가? drop_duplicates()는 중복된 행을 제거하는 pandas 함수
❓ 왜 써야 하는가? 데이터에서 중복된 값이 있을 경우 분석 결과가 왜곡될 수 있기 때문
⚙️ 어떻게 동작하는가? 지정한 열 기준으로 중복된 행을 제거하고, 첫 번째(또는 마지막) 값을 남김
📌 기본 사용법 df.drop_duplicates(subset=['column_name'], keep='first', inplace=False)

 

🛠 drop_duplicates() 동작 방식 비교

옵션설명예제

기본 사용법 모든 열을 기준으로 중복 제거 df.drop_duplicates()
특정 열 기준 특정 열의 중복값을 기준으로 제거 df.drop_duplicates(subset=['col1'])
첫 번째 값 유지 같은 값이 여러 개 있을 때 첫 번째 값만 남김 (기본값) df.drop_duplicates(keep='first')
마지막 값 유지 같은 값이 여러 개 있을 때 마지막 값만 남김 df.drop_duplicates(keep='last')
중복된 값 모두 제거 중복된 행을 모두 삭제 (고유한 값만 남김) df.drop_duplicates(keep=False)
원본 변경 (inplace) True 설정 시 DataFrame을 직접 수정(기본값 : False) df.drop_duplicates(inplace=True)

 

📝 빠른 암기 공식

✅ df.drop_duplicates(subset=[열], keep='first/last/False', inplace=True/False)

"기준 열은 subset"
"유지할 값은 keep"
"원본 수정은 inplace"

반응형