AI 가시성을 위한 Robots.txt 구성 방법
보안과 제어를 유지하면서 AI 크롤러를 허용하도록 robots.txt 파일을 구성하는 기술 가이드.
robots.txt 파일은 AI 크롤러가 가장 먼저 확인하는 것입니다. 잘못 구성된 robots.txt는 AI 시스템에서 콘텐츠를 완전히 차단할 수 있습니다. 올바르게 설정하는 방법은 다음과 같습니다.
단계별 가이드
현재 robots.txt 감사
yoursite.com/robots.txt에서 현재 robots.txt를 확인하세요. AI 크롤러를 차단할 수 있는 규칙을 찾으세요.
팁:
- 'Disallow: /' 규칙 확인
- 특정 AI 봇 차단 찾기
- crawl-delay 설정 검토
각 AI 크롤러에 대한 규칙 추가
각 주요 AI 크롤러를 명시적으로 허용하세요. GPTBot, ClaudeBot, PerplexityBot, Google-Extended에 대한 특정 User-agent 규칙을 추가하세요.
팁:
- ChatGPT용 GPTBot
- Claude용 ClaudeBot 및 anthropic-ai
- Perplexity용 PerplexityBot
- Gemini 학습용 Google-Extended
규칙 순서 올바르게 지정
특정 AI 크롤러 규칙을 일반 와일드카드 규칙 앞에 배치하세요. Robots.txt는 위에서 아래로 처리되며 특정 규칙이 우선해야 합니다.
팁:
- 특정 user-agent 규칙 먼저
- 와일드카드 규칙은 나중에
- robots.txt 테스터로 순서 테스트
필요한 리소스 허용
AI 크롤러는 페이지를 제대로 렌더링하고 이해하기 위해 CSS, JavaScript, 이미지에 대한 접근이 필요합니다. 이러한 리소스를 차단하지 마세요.
팁:
- /css/, /js/, /images/ 디렉토리 허용
- 정적 자산 차단하지 않기
- Google의 URL Inspection 도구로 테스트
민감한 영역 적절히 차단
AI 봇을 포함한 모든 크롤러에서 관리 영역, 로그인 페이지, 내부 도구를 차단하세요. 이것은 AI 인덱싱에 가치를 제공하지 않습니다.
팁:
- /admin/, /login/, /api/ 차단
- 내부 검색 결과 차단
- 사용자 계정 페이지 차단
사이트맵 참조 추가
XML 사이트맵을 가리키는 Sitemap 지시어를 포함하세요. 이것은 AI 크롤러가 모든 콘텐츠를 발견하는 데 도움이 됩니다.
팁:
- 사이트맵에 절대 URL 사용
- 사이트맵이 유효한 XML인지 확인
- 모든 중요한 페이지 포함
흔한 실수 피하기
AI 봇에 대한 예외 없이 'Disallow: /' 사용
공격적인 crawl-delay 값 설정
렌더링에 필요한 CSS/JS 파일 차단
사이트맵 참조 추가 잊음
배포 전 변경 사항 테스트하지 않음
기대 결과
AI 크롤러가 콘텐츠에 접근하고 인덱싱 가능
AI 응답에서 더 나은 표현
AI를 통한 리퍼럴 트래픽 증가
AI가 접근할 수 있는 것에 대한 명확한 가시성