DecisionLab

사이트맵 인덱스와 RSS의 차이점, 대규모 사이트 노출량 폭발시키는 전략

대규모 사이트 수집 최적화 핵심

· 사이트맵 인덱스: 5만 개가 넘는 URL은 여러 지도로 나눠서 관리하세요.

· 우선순위(Priority): 모든 페이지가 똑같이 중요하진 않습니다. 0.0에서 1.0 사이로 비중을 조절하세요.

· 업데이트 빈도: changefreq 태그로 로봇의 재방문 주기를 유도할 수 있습니다.

· RSS의 한계: RSS는 최신글 중심입니다. 전체 노출을 원한다면 사이트맵이 정답입니다.

콘텐츠는 많은데 정작 검색창엔 보이지 않을 때

건너 아는 사장님이 커뮤니티 사이트를 하나 운영하고 계십니다. 회원들이 하루에도 수백 개씩 글을 올리는데, 이상하게 네이버 검색 결과에는 아주 예전에 쓴 글들만 뜨고 최신 글들은 함흥차사였습니다. 사장님은 매일 서치어드바이저에 들어가서 수집 요청 버튼을 눌러댔지만, 그건 쏟아지는 소나기를 컵으로 받아내는 격이었죠. 

제가 옆에서 들여다보니 가장 큰 문제는 사이트맵이었습니다. 단일 사이트맵 파일 하나에 수만 개의 URL을 억지로 밀어 넣으려다 보니 용량은 초과되었고, 네이버 로봇은 파일을 읽다 말고 그냥 돌아가 버리고 있었습니다. 네이버의 규칙은 엄격합니다. 하나의 사이트맵은 50,000개 이상의 URL을 담을 수 없고 용량도 10MB를 넘기면 안 됩니다. 이걸 무시하면 아무리 좋은 글을 써도 로봇은 우리 사이트가 얼마나 넓은지 알 길이 없습니다.

솔직히 말해서 큰 사이트일수록 지도를 세분화해야 합니다. 카테고리별로, 혹은 발행 시기별로 지도를 쪼개서 로봇이 소화하기 편하게 만들어주는 과정이 필수적입니다. 사장님께 이 원리를 설명하고 사이트맵 인덱스 구조로 개편했더니, 몇 주 뒤부터 수집량이 눈에 띄게 늘어나는 걸 목격했습니다. 정말 신기하더군요.

5만 개의 장벽을 넘는 사이트맵 인덱스의 힘

사이트 내 콘텐츠가 너무 많아서 단일 문서로 감당이 안 될 때 사용하는 것이 바로 사이트맵 인덱스입니다. 이건 여러 개의 사이트맵 주소를 한데 모아둔 '마스터 지도'라고 생각하면 쉽습니다. 예를 들어 자유게시판용 지도, 공지사항용 지도, 자료실용 지도를 따로 만들고 이걸 인덱스 문서 하나에 담아서 제출하는 방식이죠.

네이버 로봇은 이 마스터 지도를 보고 "아, 이 사이트에는 지도가 여러 장 있구나"라고 인식한 뒤 각각의 세부 지도를 차례대로 방문합니다. 이렇게 하면 수십만 개의 페이지도 빠짐없이 로봇에게 알려줄 수 있습니다. 근데 이게 참 묘합니다. 무작정 주소만 나열한다고 끝이 아니거든요. 로봇이 어떤 길을 먼저 갈지 가이드를 줘야 합니다.

피드 제출 시 반드시 지켜야 할 기본 매너

RSS나 사이트맵 내부의 모든 URL은 반드시 소유 확인을 마친 도메인과 일치해야 합니다. 다른 사이트의 주소가 섞여 있으면 수집 시스템에서 거부당할 확률이 매우 높습니다. 또한 서버 응답 속도가 너무 느려도 제출이 제한되니 최적화가 먼저입니다.

로봇에게 '진짜 중요한 글'을 콕 집어 알려주는 법

사이트맵 내부를 들여다보면 prioritychangefreq라는 태그가 있습니다. 이건 로봇에게 주는 힌트 같은 겁니다. 모든 페이지의 중요도를 1.0으로 설정하면 로봇은 오히려 혼란을 느낍니다. "다 중요하다는 건 결국 다 똑같다는 거네?"라고 생각하며 지 멋대로 순서를 정해버리죠. 그래서 진짜 중요한 메인 페이지나 핵심 카테고리는 0.8 이상으로, 단순한 아카이브 글은 0.5 정도로 비중을 나누는 게 현명합니다.

또한 lastmod 태그는 페이지가 마지막으로 수정된 날짜를 알려줍니다. 로봇은 이 날짜를 보고 "오, 이 글은 어제 수정됐네? 다시 읽어봐야겠다"라고 판단합니다. 무의미하게 주소만 던져주는 것보다 이런 추가 정보를 꼼꼼히 채워주는 것이 로봇의 재방문 주기를 당기는 기술입니다. 사실 코딩을 조금만 알면 자동 생성 스크립트로 충분히 관리할 수 있는 부분입니다.

RSS보다 사이트맵을 더 권장하는 이유

간혹 RSS만 제출하고 안심하는 분들이 계십니다. 물론 RSS도 중요합니다. 하지만 RSS는 본문을 포함하고 있어서 용량이 금방 커지는 단점이 있습니다. 그래서 보통 최신 글 위주로 소량의 URL만 담게 되죠. 반면 사이트맵은 오직 URL 정보만 담기 때문에 수만 개의 주소를 효율적으로 전달하는 데 최적화되어 있습니다. 네이버가 사이트맵을 더 적극적으로 활용하라고 권장하는 이유도 여기에 있습니다.

수집이 안 된다고 답답해하기 전에 내 사이트의 RSS 피드가 '본문 전체 공개'로 되어 있는지부터 확인하세요. 요약본만 제공하면 네이버 로봇은 콘텐츠의 가치를 제데로 평가하기 어렵습니다. 10MB라는 용량 제한 안에서 최대한 본문을 정직하게 보여주는 피드 설계가 필요합니다. 하지만 역시 대규모 사이트라면 사이트맵이 메인이고 RSS는 보조 수단으로 가져가는 게 맞습니다.

결국 검색 로봇과의 소통은 '정확한 정보 제공'에서 시작됩니다. 지도는 상세할수록 좋고, 길 안내는 친절할수록 로봇이 자주 찾아옵니다. 사장님네 사이트도 사이트맵을 쪼개고 우선순위를 조절한 뒤부터는 죽어있던 옛날 글들까지 하나둘 검색 결과에 다시 등장하기 시작했습니다. 운영자라면 이 정도 디테일은 챙겨야 하지 않을까요. 솔직히 이게 노출의 시작입니다.

로봇이 일하기 편한 환경을 만드세요

사이트맵 인덱스와 RSS는 네이버 검색 로봇에게 제공하는 가장 강력한 내비게이션입니다. 수만 개의 페이지가 미로 속에 갇혀있지 않도록, 오늘 바로 서치어드바이저의 피드 현황을 점검해 보세요. 정확한 규격의 지도가 내 사이트의 노출량을 결정합니다.

 

연관글

연관 글