[인터넷 마케팅] 웹사이트, 블로그운영자들을 위한 검색로봇활용 방법(robots.txt작성법)

[구글오프라인모임] IT로 평생직업을 준비하라

1. 주제 : IT로 평생직업을 준비하라

2. 일시 : 2017년 8월 10일 저녁 7시30분

3. 장소 : 교회정보기술연구원(서울 묵2동, 7호선 먹골역)

4. 대상 : 1인기업, 스타트업 기업, 창업을 준비하는 개인, 창직을 준비하는 개인

5. 신청 : http://googler.pe.kr/wordpress/index.php/archives/20070

[인터넷 마케팅] 웹사이트, 블로그운영자들을 위한 검색로봇활용 방법(robots.txt작성법)

 

    검색로봇이 웹사이트에 방문할때 가장 찾는 파일은 robots.txt이다.  검색로봇은 이 파일에 쓰여진 내용에 따라 자료을 검색에 참조한다. 검색엔진 로봇은 사이트전체나 특정부분의 제한접근을 하도록 만드는 역활을 한다.

    robots.txt 파일은 어떤 디렉토리는 접근가능하고 어떤 디렉토리는 접근할 수 없도록 알려주는  파일이라고 생각하면 된다.

    robots.txt 파일은 메모장을 통해 작성할 수 있으며 저장은 반드시 루트디텍토리(최상위)에 저장되어야 한다.  만약 서브디렉토리에 넣을 경우 효과적을 얻을 수 없다.

    주의해야 할 것은 홈페이지 비밀번호나 아이디, 개인정보등의 문서가 있는 디렉토리의 접근을  허용하지 않아야 되는 경우라면 robots.txt 파일에서 로봇이 접근하지 않도록 할 수 있지만 이렇게 중요한 것들은 아예 웹에 올리지 않는 것이 상책이다.

 

1. Robots.TXT에 사용되는 명령어들

  (1) USer-agent : 수집주체을 의미하며 *은 모든 로봇을 의미한다.

  (2) Allow : 허용한다.

  (3) Disallow : 허용하지 않는다.(불허용)

  (4) / : 모든을 의미한다.(모든 것)

  (5) Crawl-delay : 방문주기 지정(초단위)

 

2. Robots.TXT 파일의 실제

  (1) 전체문서 수집을 허용하지 않을 경우  :

      User-agent: *
      Disallow: /

  (2) 전체문서 수집을 허용할 경우

      User-agent: *
      Disallow: /
  (3) 일부 디렉토리의 문서 수집만 허용할 경우 : (예 : googler)

      User-agent: *
      Disallow: /googler/
  (4) 네이버(특정검색엔진)만 전체문서을 허용할 경우

      User-agent: NaverBot
      Disallow:
      User-agent: *
      Disallow: /

  (5) 네이버(특정검색엔진)의 방문주기를 30초로 할 경우

      User-agent: NaverBot
      Crawl-delay: 30
 
3. 참고자료

  (1) 트래핑문제로 홈페이지나 블로그에 접근할 수 없다면 : http://googler.pe.kr/wordpress/index.php/archives/5539

  (2) Robots 파일을 현명하게 사용하는 방법 : http://googler.pe.kr/wordpress/index.php/archives/5752

  (3) 구글해킹예방법 : http://googler.pe.kr/wordpress/index.php/archives/5752

  (4) 검색로봇 100배활용하기 : http://googler.pe.kr/wordpress/index.php/archives/4255
  

 

이동현 원장

구글오프라인 사용자 모임 대표, (사)교회정보기술연구원 원장, (사)한국교회 언론회 정보통신 전문위원, (사)한국교회연합회 SNS위원장, [저서] 구글완전정복1(이론편), 구글완전정복2(실전편), 구글완전정복3(교사편), 트위터와 페이북의 선교적활용, 스마트전도법