블로그 만들자 기다렸다는 듯이 날아온 색인 생성 안 됨 알림은 인사인가
블로그 글 2개를 발행한 저녁 색인 생성이 되지 않는다는 알림이 왔습니다. 색인 생성되지 않는 이유는 항상 날아오는 것이기에 그다지 별 의미 없이 넘겼습니다만, 이번에도 블로그 생성하고 글 2개 발행한 시점에서 색인이 안 된다는 알림을 받았습니다. 매번 블로그 만들자마자 날아온 색인 생성 알림은 그냥 첫 글 발행한 기념 인사인가 봐요.
사실 색인이 안 된다는 글들을 살펴봐도 손댈 것은 없습니다. 이전에는 당연하게 받았던 첫 글 색인 생성 안 됨을 이번에는 과연 어떤 문제일까 살펴보기로 합니다.
색인 생성이 되지 않는 이유가 3가지나 됩니다. 글 2개 발행했지만, 사실은 구글 서치에서는 첫 번째 글을 읽고 포스팅에 접근할 수 없자 알림을 보낸 것인데요, 다르게 이야기하면 글을 발행하고 이틀 후에 색인을 시도했다는 겁니다. 상당히 빠른 접근입니다. 이전 블로그 생성하고 글을 발행하면 일주일씩 걸리기도 했고 다른 것은 10일도 걸렸습니다. 그렇게 생각한다면 이번 블로그는 기대해도 될까요. 은근히 긍정 회로가 돌아가고 있습니다.
글 2개인데 색인이 생성되지 않는 글은 5개이며 이유는 3개입니다. 여기서 색인 생성된 글도 포스팅이 아닙니다. https://www.사이트이름.kr/ 도메인이름으로 색인이 되었다는 것이니 실제 포스팅이 색인 되기까지는 조금 더 기다려야 합니다.
색인이 생성되지 않는 이유는 robots.txt에 의해 차단, 디리렉션이 포함된 페이지, 적절한 표준 태그까지 3가지, 글 5개입니다. 발행한 글이 5개가 아니라 색인 되지 않는 이유에 걸린 글이 5개이니 같은 글이 모든 이유에 들어갈 수 있습니다.
robots.txrt에 의해 차단된 글입니다. 순수 포스팅이 아닌 맨 위에는 카테고리, 그다음은 검색경로로 보이네요.
이번에는 리디렉션이 포함된 페이지인데요, 첫 번째는 색인이 되었다는 주소와 같습니다. 그 아래는 모바일에서 생성되는 주소입니다. 이 두 가지는 색인이 된 항목에도 있고, 앞으로도 색인이 되지 않았다고 수시로 날아오는 포스팅에 계속 포함되고 있습니다. 그래서 이 주소는 앞으로 색인이 안 됨으로 올라오더라도 그렇거니하고 잊어버리면 됩니다.
적절한 표준 태그가 포함된 대체 페이지에는 앞서 보았던 모바일 포스팅 주소가 올라왔습니다.
색인 요청하는 방법입니다. 해당 페이지에 커서를 올리면 돋보기 아이콘이 올라옵니다. 클릭합니다.
앞서 수동 색인 요청 과정을 거쳐 지금은 색인 요청이 되어있는데 표시된 색인 요청을 눌러 신청합니다.
그리고 지금 구글 서치 사이트에 등록한 사이트맵을 한 번 더 확인합니다.
이곳은 구글 블로그 설정 오른쪽 맞춤 robots.txt 입력하는 문구입니다. 여기까지 확인하고 이상이 없으면 기다리면 됩니다. 색인이 안 되는 것은 어쩔 수 없습니다. 방법도 없구요. 블로그 생성하는 과정을 아래 이전 포스팅을 참고하세요.
robots.txt 입력하는 문구에 대해 조금 더 알아보겠습니다.
User-agent: *
Disallow: /search
Allow: /
User-agent: * : 모든 검색 엔진 크롤러에 적용됩니다.
Disallow: /search : /search 경로와 그 하위 경로를 크롤링하지 않도록 명령합니다.
Allow: / : 나머지 모든 경로를 크롤링할 수 있도록 허용합니다.
여기서 왜 Disallow: /search를 허용하면서 크롤링하지 않도록 할까요, 이상하지 않나요. 무조건 많이 긁어가면 좋은데요, 그 이유를 보겠습니다.
Disallow: /search는 robots.txt 파일에서 검색 엔진 크롤러에 /search 경로와 그 하위 경로를 크롤링하지 않도록 지시하는 규칙으로, 여기서 크롤링(crawling)은 검색 엔진 로봇이 포스팅을 방문하고 내용을 긁어가는 과정을 의미합니다. 그럼, 왜 긁어가지 못하게 막아야 할까요.
search 경로를 Disallow 하는 이유
이유보다는 설명을 조금 더 수정하면 Disallow: /search는 방문자가 사이트에 들어와서 검색하는 결과는 가져가지 말라는 명령어입니다. 이것은 블로그를 운영하다 보면 알 수 있는데요, 간단하게 블로그 글쓰기, 블로그 수입, 블로그 돈 벌기, 등의 유사 제목으로 글을 발행할 수 있습니다. 그리고 방문자는 해당 주제를 찾아 사이트로 왔기에 비슷한 글을 읽게 되겠죠. 그랬을 때 방문자가 사이트 내에서 검색을 한 결과는 색인하지 말라는 겁니다. 이런 비슷한 글을 크롤링하게 되면 중복 콘텐츠로 불이익을 받을 수 있는 것을 방지하는 거죠.
처음 블로그를 개설했다면 구글 블로그 설정, robots.txt 설정에는 Disallow: /search, 이 명령어는 빼더라도 문제는 되지 않을 겁니다. 처음부터 중복 포스팅을 작성하지는 않을 거니까요. 잊지 말고 나중에 추가할 수가 있다면 처음에는 빼는 것이 좋겠습니다. Disallow: /search에 대한 설명은 복잡하고 어려운 내용이 많은데요, 간단합니다.
그리고 블로그 세팅은 상세한 것까지는 모르더라도 다른사람 만큼만 하면 됩니다. 그 이상의 설정은 없어도 되는 과정입니다. 중요한 것은 좋은 글을 많이 발행하고 더 중요한 것은 색인이 잘되는 것, 그리고 또 더욱더 중요한 것은 검색 싸움에서 이기고 꼭대기에 내 글을 꽂는 겁니다. 남들과 같이하면 된다고 했지만, 이번 블로그는 애드센스 승인까지는 중복 포스팅을 발행할 일은 없으니 Disallow: /search, 이 명령어는 빼고 가겠습니다.