네이버 검색 누락 탈출기: robots.txt부터 서버 오류까지 수집 현황 점검

글을 아무리 열심히 발행해도 네이버 유입이 숫자 '0'에 단단히 멈춰있다면, 내 글의 품질이나 키워드를 의심하기 전에 아주 근본적인 출입문부터 확인해야 합니다. 검색 엔진이라는 거대한 시스템이 내 공간을 어떻게 바라보고 있는지 직면하는 순간, 완전히 새로운 사실을 깨닫게 되거든요.

여러분이 정성껏 작성한 웹사이트의 콘텐츠는 수집 - 정제 - 색인 - 랭킹이라는 엄격한 4단계를 순서대로 거쳐 비로소 네이버 검색창에 노출됩니다. 이 모든 과정의 절대적인 첫 관문인 '수집' 단계에서 오류가 발생해 로봇이 발길을 돌린다면, 이후의 그 어떤 훌륭한 SEO 최적화 작업도 전부 무용지물이 됩니다.

세상에서 가장 완벽한 유령의 집을 짓고 있었습니다

제 가까운 지인이 최근 야심 차게 독립 도메인을 파서 멋진 사이트를 하나 열었습니다. 매일 밤을 새워가며 정말 전문적이고 수준 높은 칼럼들을 쏟아냈죠. 문장 하나하나, 자료 하나하나에 지독하게 공을 들이는 엄청난 노력파였습니다. 그런데 한 달이 훌쩍 넘도록 방문자 트래픽 그래프가 바닥에 딱 붙어서 미동조차 하지 않았습니다. 솔직히 옆에서 지켜보는 제가 다 피가 마를 지경이었죠.

도대체 원인이 뭘까 싶어 같이 노트북을 켜고 네이버 웹마스터도구에 접속했습니다. 그리고 '수집 현황' 리포트를 열어본 순간. 제 눈을 의심했습니다. 색인이나 랭킹은커녕, 애초에 네이버 검색로봇이 이 사이트의 문서를 단 하나도 제대로 가져가지 못하고 빨간색 에러만 무수히 뿜어내고 있었거든요. 그동안 지인은 아무도 들어올 수 없는 캄캄하고 단절된 유령의 집 안에서 혼자 묵묵히 글만 쓰고 있었던 겁니다. 진짜 허탈했죠.

로봇의 눈에 비친 아찔한 오류 투성이의 지름길

아무리 압도적으로 좋은 콘텐츠를 꽉꽉 채워 둔 웹사이트라 하더라도 검색 반영의 첫 단계인 수집이 원천적으로 막혀버리면 그다음 단계로 영원히 넘어갈 수 없습니다. 검색로봇이 오류 없이 내 글을 편안하게 퍼갈 수 있도록 돕는 것이 1순위입니다.

스스로 문을 걸어 잠그고 손님을 기다린 격입니다

지인의 사이트가 토해내고 있는 주요 수집 오류 유형들을 화면에 띄워놓고 하나씩 뜯어보기 시작했습니다. 가장 먼저 발견된 황당한 원인은 바로 로봇 비허용 상태였습니다. 초기 사이트 세팅 과정에서 robots.txt 규칙을 수집 비허용으로 잘못 건드려 놓은 겁니다. 검색 엔진 기계에게 제발 내 사이트에는 들어오지 말라고 대문에 대문짝만 한 접근 금지 경고문을 떡하니 붙여놓은 격이랄까요. 자기가 스스로 문을 굳게 걸어 잠그고 왜 네이버 검색 노출이 안 되냐고 억울해했던 겁니다.

여기에 다운로드 사이즈가 큰 페이지 오류가 쉴 새 없이 쏟아지고 있었습니다. 방문자에게 생생한 현장감을 주겠다며, 4MB를 거뜬히 넘기는 초고화질 무손실 사진들을 본문에 수십 장씩 무자비하게 때려 넣은 게 화근이었죠. 로봇은 생각보다 성격이 아주 급하고 인내심이 부족합니다. 이렇게 무겁고 덩치가 큰 HTML 문서를 만나거나, 단일 문서 수집 시도에 1분 이상이 소요되어 버리면 가차 없이 에러를 내뿜고 영영 뒤돌아 가버립니다.

가끔은 도메인이나 서버 자체가 뻗어버려서 문제일 때도 있습니다. 도메인을 아예 발견할 수 없다는 DNS 오류나, 웹 서버 연결에 시간이 너무 오래 소요되어 TIMEOUT이 발생하는 연결 실패 오류. 이런 것들이 누적되면 검색 엔진은 해당 사이트의 건강 상태가 완전히 망가졌다고 판단해 발길을 아예 끊어버립니다.

화려한 인테리어보다 튼튼한 진입로 공사가 먼저입니다

상황이 이쯤 되니 문제는 산더미였습니다. 지워진 빈 페이지로 자꾸 연결되는 404 페이지 오류부터, HTTP 응답코드가 4xx나 5xx로 떨어지는 심각한 웹 서버 오류까지 겹쳐있었거든요. 심지어 표준에 맞지 않는 기괴하고 비정상적인 URL 형태와 마크업을 도저히 해석할 수 없는 콘텐츠 오류까지 줄줄이 엮여 있었습니다. 그러니까 사이트 전체가 수집 로봇 입장에서는 한 걸음 내딛기조차 힘든 함정투성이 지뢰밭이었던 거죠.

당장 스킨을 화려하게 꾸미고 글을 더 발행하는 작업을 올스톱 시켰습니다. 그리고 로봇의 발목을 잡고 있는 막힌 진입로의 잔해들을 치우는 기초 공사에 돌입했습니다. 대단한 서버 개발 로직을 짠 게 아닙니다. 가이드라인이 명확하게 짚어주는 오류들을 하나하나 정직하게 소거해 나갔습니다.

· robots.txt 설정을 꼼꼼히 수정하여 검색 로봇의 수집을 전면 허용 상태로 변경

· 4MB 이상의 덩치 큰 고화질 이미지들을 웹용으로 대폭 압축하여 다운로드 소요 시간 단축

· 존재하지 않는 404 에러 페이지들과 비정상적인 URL 구조를 깔끔하게 리다이렉트 처리

· 서버 접속 지연(TIMEOUT)을 유발하는 무거운 자바스크립트 등 불필요한 리소스 최소화

진짜 막노동이 따로 없었습니다. 며칠 밤을 새워가며 사이트 구석구석에 거미줄처럼 얽힌 에러들을 풀고 또 풀었죠. 그리고 웹마스터도구에 수집 요청을 밀어 넣은 뒤 조용히 기다렸습니다. 그게 다예요. 정말 지독한 기다림이었습니다.

그러다 약 일주일 정도 지났을까요. 바닥에 납작하게 엎드려 죽어있던 수집 현황 그래프의 선이 기적처럼 고개를 치켜들기 시작했습니다. 수집 실패 에러가 마법처럼 사라지면서 로봇이 드디어 막힘없이 문서를 퍼가기 시작한 겁니다. 꽉 막혀있던 첫 번째 관문이 뻥 뚫리자, 그동안 차곡차곡 쌓아둔 고퀄리티 칼럼들이 순식간에 정제와 색인을 거쳐 네이버 검색 랭킹의 상단을 하나둘씩 장악해 나갔습니다. 소름이 돋더라고요.

아무리 최고급 식자재로 미슐랭 급 요리를 만들어도, 식당으로 오는 진입 도로가 뚝 끊겨있다면 파리만 날릴 뿐입니다. 검색엔진 최적화의 화려하고 복잡한 기술에 눈을 돌리기 전에, 내 사이트가 당장 로봇에게 정상적으로 '수집'될 수 있는 상태인지 점검하는 것이 무조건 먼저입니다. 지금 당장 수집 현황 리포트를 열어보세요. 내 소중한 글들이 시작점부터 길을 잃고 캄캄한 에러의 벽에 부딪혀 헤매고 있는 건 아닌지 두 눈으로 확인해야 합니다. 그것이 진정한 검색 노출의 첫 단추입니다.

 

연관글

연관 글