로봇 파일(robots.txt)과 사이트맵(sitemap.xml)에 대해서 알아보자.

로봇파일에 대한 설명

로봇 파일(robots.txt)은 검색엔진의 검색엔진 크롤러인 수집 로봇을 위해서 준비해야 하는 파일이다.

 

로봇 파일(robots.txt)은 검색엔진 수집 로봇을 위한 웹 표준이며 모든 웹 사이트의 루트 폴더에 위치해야 하는 파일이다. 로봇 파일을 통해서 검색엔진 로봇에게 웹사이트의 사이트맵 위치와 접근 가능한 파일, 접근하면 안되는 파일에 대한 정보를 알려준다.

 

상황에 따라서는 검색 로봇이 수집하면 안되는 웹페이지나 정보가 있을 수 있다. 이 경우 로봇 파일을 통해서 정보를 제공하는 것이다. 반드시 색인이 되어야 하는 웹 페이지의 웹 주소를 포함한 사이트맵 파일의 위치를 지정해주고 검색엔진이 웹사이트를 더 빠르게 효율적으로 수집할 수 있도록 도와주는 역할을 한다.

 

로봇 파일은 html형태가 아닌 일반 텍스트 파일로 작성하는 것이 중요한 특징이다. 텍스트 파일로 작성한 후 웹사이트의 루트 디렉토리에 위치시켜야 한다. 만약 루트 디렉토리가 아닌 다른 곳에 위치시킨다면 검색 로봇이 해당 파일을 찾을 수 없게 된다.

 

로봇 파일은 누구에게나 공개되는 파일로 도메인 주소 뒤에 robots.txt를 입력하면 웹 브라우저에서 바로 세팅된 내용을 확인할 수 있다. 만약 웹사이트의 모든 정보에 대해서 검색 로봇이 수집해가길 원한다면 모든 것을 허용하는 형태로 작성하며 반대로 전체를 수집하지 않도록 막을 수도 있다. 그리고 특정 검색엔진의 로봇을 차단시킬 수도 있다. 특정 검색엔진의 로봇을 차단하려면 User-agent부분에서 정의를 하면 된다.

 

검색엔진최적화 SEO관점에서는 웹사이트의 모든 콘텐츠를 차단시키는 구조라면 좋지 않은 영향을 끼치게 되는 것은 당연하다. 그래서 가능한 한 모든 콘텐츠를 허용하는 것이 좋다.

 

검색엔진 별로 검색 로봇의 이름은 모두 다르다. 검색엔진의 업데이트에 따라서 검색 로봇의 이름도 바뀌는 경우도 있다. 구글 검색로봇은 Googlebot, 네이버는 Yeti, 빙은 Bingbot, 야후는 Slurp이라고 부른다.

 

 

사이트맵에 대한 설명

사이트 맵은 웹사이트에 대한 모든 리소스의 목록을 나열한 파일이다.

 

사이트 맵은 웹사이트의 목차와 같은 역할을 하는 파일이다. 사이트 맵 자체가 검색엔진 상위 랭킹 점수와 관련되어 있지는 않지만 웹 사이트 안에 있는 모든 페이지에 대한 목록을 제공하기 때문에 검색 엔진 로봇의 일반적인 크롤링 과정에서 누락될 수 있는 웹 페이지를 제공해줘서 누락되지 않는 관점에서 중요한 역할을 한다.

 

사이트맵의 형식은 기본 형식, 기본 형식과 추가 정보가 결합된 형태, 이미지 목록을 나열한 이미지 사이트맵, 비디오 주소를 나열한 비디오 사이트맵이 있다.

 

사이트 맵 파일은 반드시 루트 디렉토리에 위치하지 않아도 된다.

 

사이트 맵 파일에 대한 위치를 로봇 파일에서 지정하기 때문에 정확하게 지정만 되어 있으면 루트 디렉토리에 위치하지 않아도 되는 것이다. 하지만 많은 웹사이트들은 로봇 파일과 함께 사이트맵 파일도 동일하게 루트 디렉토리에 업로드하고 있다. 사이트 맵도 마찬가지로 웹 사이트 url 주소 뒤에 sitemap.xml을 붙이면 해당 웹사이트의 사이트 맵에 대한 정보를 브라우저를 통해서 볼 수 있다.

 

사이트 맵은 정해진 양식으로 제작되어야 하며 사이트 맵에 대한 형식이 존재한다. 다만 검색엔진에게 전달하고자 하는 정보와 목적에 따라서 사이트 맵에서 작성되는 형식이 조금은 다를 수 있다.

 

사이트 맵을 만든 다음에는 보통 검색엔진에 사이트 맵을 제출하는 방식으로 진행된다. 구글 검색엔진에게 제출할 때는 구글서치콘솔을 이용하며 네이버 검색엔진에게 제출할 때는 네이버 서치어드바이저를 이용해서 제출한다.