티스토리 뷰

DevOps/DB

[mongoDB] 중복된 document 제거

brad.min 2023. 2. 23. 18:07
반응형

mongodb에 데이터를 입력하면 _id 외에 다른 key의 중복 값을 제거해야할 필요가 있다.

의료 상담 데이터를 크롤링하는 과정에서 중복된 document가 발생하여 중복 값을 제거 하는 것을 찾아보았다.

하지만 어느 버전 이상부터 중복 값을 제거하는 기능이 없어져서 새로운 collection을 만든 후 유니크한 데이터를 옮기는 방법을 선택했다.

 

hidoc 컬랙션 수 (중복값이 있는 컬랙션)

 

hidoc 컬랙션 유니크 값 (counselAnswerCid 키를 기준)

 

temp 컬랙션을 생성 (counselAnswerCid를 유니크 키로 지정)

 

hidoc의 컬랙션을 전부 temp로 옮김

 

temp 카운트 확인

 

기존의 hidoc 컬랙션을 지우고 컬랙션 이름 변경

 

 

반응형

'DevOps > DB' 카테고리의 다른 글

[Redis] Docker-compose로 redis를 설치하기  (1) 2024.05.03
벡터 DB 비교  (0) 2024.02.21
스칼라쿼리 원리  (0) 2021.02.06
[MySQL] show index from 테이블 해석  (0) 2021.01.22
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함