크롤링 예산이란? 구글이 내 사이트를 방문하는 횟수가 정해져 있다
크롤링 예산(Crawl Budget)이란?
구글봇은 전 세계 수십억 개의 웹페이지를 돌아다닙니다. 하지만 자원이 무한하지 않기 때문에, 각 사이트에 할당하는 크롤링 횟수를 조절합니다. 이걸 '크롤링 예산'이라고 합니다. 쉽게 말해, 구글이 일정 기간 동안 내 사이트에서 방문할 수 있는 페이지 수에 한계가 있다는 뜻입니다.
블로그 수십 개짜리 소규모 사이트에서는 크게 문제가 안 됩니다. 하지만 네이버 블로그처럼 하나의 도메인(blog.naver.com) 아래에 수백만 개의 블로그가 모여있는 경우, 개별 블로그에 돌아가는 크롤링 기회는 극히 적어집니다.
크롤링 예산에 영향을 주는 요소
| 요소 | 영향 | 예시 |
|---|---|---|
| 사이트 규모·인기도 | 클수록 예산 많음 | 대형 뉴스: 하루 수만 번 / 개인 블로그: 며칠에 한 번 |
| 서버 응답 속도 | 느리면 예산 감소 | 같은 시간에 더 적은 페이지 방문 |
| 업데이트 빈도 | 자주 변경 시 방문 증가 | 몇 달째 변화 없으면 방문 주기 길어짐 |
| 크롤링 오류 | 오류 많으면 예산 축소 | 404·서버 에러가 반복되면 예산 삭감 |
네이버 블로그에 크롤링 예산이 중요한 이유
네이버 블로그는 blog.naver.com이라는 하나의 도메인을 수백만 블로그가 공유합니다. 구글 입장에서 blog.naver.com은 초대형 사이트이지만, 개별 블로그 /myblog 하위 경로에 할당되는 크롤링 기회는 매우 제한적입니다.
그래서 글을 열심히 올려도 구글봇이 방문하지 않아 색인이 안 되는 겁니다. 자연 크롤링에만 의존하면 전체 글의 20~30%만 색인되는 이유가 여기에 있습니다. Indexing API로 직접 색인을 요청하면 이 한계를 우회할 수 있습니다.
크롤링 예산을 효율적으로 쓰는 법
- 불필요한 페이지 차단: robots.txt로 관리자 페이지, 검색 결과 페이지, 태그 페이지 등 색인이 불필요한 페이지의 크롤링을 차단하세요. 구글봇이 중요한 페이지에 집중하도록 도울 수 있습니다.
- 깨진 링크 정리: 404 에러를 반환하는 페이지가 많으면 크롤링 예산이 낭비됩니다. 없는 페이지로 가는 링크를 정리하세요.
- 사이트맵 최신 유지: 사이트맵에 실제로 존재하고 색인이 필요한 URL만 포함하세요. 삭제된 페이지가 사이트맵에 남아있으면 크롤링 예산을 잡아먹습니다.
- Indexing API 활용: 크롤링 예산과 무관하게 구글에 직접 URL을 알릴 수 있습니다. 인덱스키트가 이 역할을 대신합니다.
자주 묻는 질문
Q. 크롤링 예산을 직접 확인할 수 있나요?
Google Search Console의 '설정 > 크롤링 통계'에서 구글봇의 방문 빈도, 다운로드 크기, 응답 시간 등을 확인할 수 있습니다. 다만 네이버 블로그는 서치콘솔에 등록할 수 없으므로 이 데이터를 볼 수 없습니다.
Q. 크롤링이 됐는데 색인이 안 될 수도 있나요?
네. 크롤링은 구글봇이 페이지를 '방문'하는 것이고, 색인은 방문 후 콘텐츠를 '등록'하는 것입니다. 방문했더라도 콘텐츠 품질이 기준 미달이거나 중복이면 색인을 건너뛸 수 있습니다.
관련 글 더 보기
- 네이버 블로그 구글 색인 완벽 가이드, 검색 유입을 2배로 늘리는 법— 네이버 블로그 글이 구글에 안 나오는 구조적 이유와, 색인 요청으로 검색...
- robots.txt와 sitemap 제대로 설정하기, 잘못 건드리면 검색에서 사라집니다— 구글 크롤러가 내 사이트를 제대로 읽게 만드는 기본 설정입니다. 설정 실...