[도와주세요] 우리회사의 정보가 구글링되는데 어떻게 하면 될까요

[구글오프라인모임] IT로 평생직업을 준비하라

1. 주제 : IT로 평생직업을 준비하라

2. 일시 : 2017년 8월 10일 저녁 7시30분

3. 장소 : 교회정보기술연구원(서울 묵2동, 7호선 먹골역)

4. 대상 : 1인기업, 스타트업 기업, 창업을 준비하는 개인, 창직을 준비하는 개인

5. 신청 : http://googler.pe.kr/wordpress/index.php/archives/20070

[도와주세요] 우리회사의 정보가 구글링되는데 어떻게 하면 될까요


얼마전 모기업에서 홈페이지의 특정폴더에 회사주요자료을 업로드해 놓았는데 외부로 노출되었다고 연락왔다. 이 회사처럼 많은 기업들이 홈페이지 ftp에 접근하여 업로드하는 기업들이 많이 이런 기업들이 더 이상 생기지 않기를 바라면서 포스팅해 나가고자 한다.

1. 사이트의 전체 또는 일부를 크롤링하지 못하게 하려면?

  robots.txt 파일은 사이트에 대한 접근을 제어하는 역할을 한다. robots.txt 파일을 사용하면 웹을 크롤링하는 검색엔진 로봇을 차단할 수 있다. 검색로봇은 자동으로 작동하며 한 사이트의 페이지에 액세스하기 전에 특정 페이지에 대한 접근을 차단하는 robots.txt 파일을 찾는다. 그렇기 때문에 크롤링을 하지 못하게 하려면 robots.txt 설정부터 해야 한다.

2. robots.txt 파일은 루트에 놓아두어야 한다.

  robots.txt 파일은 웹서버의 루트에 넣어두어야 한다. robots.txt 파일을 만든 후 웹서버의 루트에 들어 두면  로봇은 홈페이지에 방문하자마자 robots.txt 파일만 찾아 확인한다. 루트가 아닌 곳에 넣어두면 소용이 없다. 반드시 루트에 넣어두어야 한다. 웹호스팅이나 웹서버로 홈페이지를 운영한다면 http://도메인명/robots.txt 에 넣어두고 만약 티스토리의 경우에는 웹서버의 루트에 접근할 수 없기 때문에 인텍스파일의 메타태그에 들어가 접근을 제어한다.

3.  robots.txt 파일은 메모장으로 만듭니다.

  robots.txt 파일은 윈도우의 메모장으로 작성할 수 있으며 소문자로 파일명을 만든다.  주의해야 할 것은 User-Agent, Disallow 이다. 사이트의 모든 페이지 정보를 수집 차단하고자 할 경우 다음과 같이 robots.txt 를 만든 후 웹서버에 탑재하면 된다.

User-Agent: *

Disallow: /

User-Agent: 규칙의 적용 로봇명

Disallow: 차단하려는 페이지명

4. 티스토리는 메타태그을 통해 제어한다.

  웹호스팅 홈페이지나 웹서버로 홈페이지을 구동하는 기업이 아닌 티스토리처럼 포털사이트에서 운영하는 사이트중에 메타태그을 수정권한을 제공하는 곳에서 메타태그를 통해 홈페이지를 제어할 수 있다.

  robots.txt 파일을 사용하지 않는 대신 html페이지에 <META>태그를 추가하여 로봇이 페이지에 대한 색인을 생성하지 못하도록 할 수 있다. 로봇이 홈페이지에 대해 색인을 생성하지 못하도록 하기 위해서는 인텍스파일의 <HEAD> 부분에 아래의 메타태그를 추가하면된다.

<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>

5. 회사 홈페이지에서 노출된 게시물속에 개인정보나 기업에 대한 주요 기술정보등이 노출되었다. 가장 먼저 무엇부터 해야 할까요?

  노출되었다고 여기지는 정보을 급한대로 백업해 둔후 홈페이지에 올라간 게시물들을 삭제한다. 게시물만 삭제하였다고 끝나는 것이 아니다.  구글봇이 해당 게시물들을 저장해 둔다. 그러므로 반드시 구글이 수집한 모든 페이지의 캐쉬을 함께 삭제해 두어야 한다. 구글이 캐시에 저장해 두는 이유는 바로 캐시된 페이지가 웹서버의 일시적인 다운등으로 원본 페이지를 사용할 수 없을 때 사용자에게 제공하기 위해서이지만 개인정보가 있을 경우에는 매우 예민하게 반응할 수 밖에 없다. 그러므로 반드시 해당 게시물을 삭제하더라도 구글 캐쉬에 저장되어 있는 저장된 페이지와 함께 html버전으로 캐쉬에 저장된 페이지을 함께 삭제해 두어야 한다.

  특히 회사의 개인정보, 사원정보, 은행정보가 노출된 게시물에 포함되어 있다면 해당 게시물을 삭제하고 첨부파일로 된 개인정보가 있을 경우 웹서버에서 해당 파일도 함께 삭제해 둔다.

6. 노출된 정보 삭제방법

  (1) 인터넷에 노출된 게시물과 구글캐쉬된 게시물의 경로을 파악한 후 메모한다.

  (2) 구글 웹사이트에 가입․로그인한 후 자동삭제 시스템에 접근한다.

https://www.google.com/webmasters/tools/removals?hl=ko&pli=1

  (3) 삭제하고자 하는 경로을 입력한 후 삭제요청한다.

이동현 원장

구글오프라인 사용자 모임 대표, (사)교회정보기술연구원 원장, (사)한국교회 언론회 정보통신 전문위원, (사)한국교회연합회 SNS위원장, [저서] 구글완전정복1(이론편), 구글완전정복2(실전편), 구글완전정복3(교사편), 트위터와 페이북의 선교적활용, 스마트전도법