📌 drop_duplicates() 개념 정리
항목설명
📌 무엇인가? | drop_duplicates()는 중복된 행을 제거하는 pandas 함수 |
❓ 왜 써야 하는가? | 데이터에서 중복된 값이 있을 경우 분석 결과가 왜곡될 수 있기 때문 |
⚙️ 어떻게 동작하는가? | 지정한 열 기준으로 중복된 행을 제거하고, 첫 번째(또는 마지막) 값을 남김 |
📌 기본 사용법 | df.drop_duplicates(subset=['column_name'], keep='first', inplace=False) |
🛠 drop_duplicates() 동작 방식 비교
옵션설명예제
기본 사용법 | 모든 열을 기준으로 중복 제거 | df.drop_duplicates() |
특정 열 기준 | 특정 열의 중복값을 기준으로 제거 | df.drop_duplicates(subset=['col1']) |
첫 번째 값 유지 | 같은 값이 여러 개 있을 때 첫 번째 값만 남김 (기본값) | df.drop_duplicates(keep='first') |
마지막 값 유지 | 같은 값이 여러 개 있을 때 마지막 값만 남김 | df.drop_duplicates(keep='last') |
중복된 값 모두 제거 | 중복된 행을 모두 삭제 (고유한 값만 남김) | df.drop_duplicates(keep=False) |
원본 변경 (inplace) | True 설정 시 DataFrame을 직접 수정(기본값 : False) | df.drop_duplicates(inplace=True) |
📝 빠른 암기 공식
✅ df.drop_duplicates(subset=[열], keep='first/last/False', inplace=True/False)
✔ "기준 열은 subset"
✔ "유지할 값은 keep"
✔ "원본 수정은 inplace"
반응형
'ChatGPT 아카이브 > Pandas' 카테고리의 다른 글
pandas rename 함수 / astype 함수 / Pandas의 View 와 Copy 반환 (0) | 2025.03.05 |
---|---|
dropna() vs fillna() 비교 / NaN과 None의 차이 (0) | 2025.03.04 |
표현식(expression)과 할당문(statement) 둘 다 함수 return 값에 올 수 있을까? + 할당표현식( := ) (0) | 2025.03.04 |
.loc와 .iloc의 차이점/왜 둘은 모두 []를 사용할까?/loc와iloc가 데이터를 가져오는 과정 (0) | 2025.03.03 |
왜 Pandas는 2차원 리스트를 기본으로 사용할까? (0) | 2025.03.03 |