본문 바로가기

ChatGPT 아카이브/Pandas

drop_duplicates() 함수 파헤치기

by Nanki 2025. 3. 4.

📌 drop_duplicates() 개념 정리

항목설명

📌 무엇인가?	drop_duplicates()는 중복된 행을 제거하는 pandas 함수
❓ 왜 써야 하는가?	데이터에서 중복된 값이 있을 경우 분석 결과가 왜곡될 수 있기 때문
⚙️ 어떻게 동작하는가?	지정한 열 기준으로 중복된 행을 제거하고, 첫 번째(또는 마지막) 값을 남김
📌 기본 사용법	df.drop_duplicates(subset=['column_name'], keep='first', inplace=False)

🛠 drop_duplicates() 동작 방식 비교

옵션설명예제

기본 사용법	모든 열을 기준으로 중복 제거	df.drop_duplicates()
특정 열 기준	특정 열의 중복값을 기준으로 제거	df.drop_duplicates(subset=['col1'])
첫 번째 값 유지	같은 값이 여러 개 있을 때 첫 번째 값만 남김 (기본값)	df.drop_duplicates(keep='first')
마지막 값 유지	같은 값이 여러 개 있을 때 마지막 값만 남김	df.drop_duplicates(keep='last')
중복된 값 모두 제거	중복된 행을 모두 삭제 (고유한 값만 남김)	df.drop_duplicates(keep=False)
원본 변경 (inplace)	True 설정 시 DataFrame을 직접 수정(기본값 : False)	df.drop_duplicates(inplace=True)

📝 빠른 암기 공식

✅ df.drop_duplicates(subset=[열], keep='first/last/False', inplace=True/False)

✔ "기준 열은 subset"
✔ "유지할 값은 keep"
✔ "원본 수정은 inplace"

저작자표시

'ChatGPT 아카이브 > Pandas' 카테고리의 다른 글

pandas rename 함수 / astype 함수 / Pandas의 View 와 Copy 반환 (0)	2025.03.05
dropna() vs fillna() 비교 / NaN과 None의 차이 (0)	2025.03.04
표현식(expression)과 할당문(statement) 둘 다 함수 return 값에 올 수 있을까? + 할당표현식( := ) (0)	2025.03.04
.loc와 .iloc의 차이점/왜 둘은 모두 []를 사용할까?/loc와iloc가 데이터를 가져오는 과정 (0)	2025.03.03
왜 Pandas는 2차원 리스트를 기본으로 사용할까? (0)	2025.03.03

티스토리툴바