또 하나의 잉여짓..
3월 부터 후니넷(hooni.net) 평일 기준 일일 방문자가 천 명이 넘었다.
크롤링하는 봇인지 실제 사용자인지.. 그리고 실제 사용자라면 어떤 경로로 접속을 하는지..
그 유입 경로를 확인해보려고 PHP로 프로그램을 간단한 만들어서 HTTP Referer 로그를 쌓고 그 데이터를 살펴봤다.
굳이 왜 직접 만들었냐면..? 처음엔 XE의 플러그인을 적용했더니 사이트 속도가 현저히 떨어졌고 이후로 몇 가지 외부 Tool을 사용해 봤지만 데이터를 실시간으로 확인할 수 없거나 일부 데이터만 일시적으로 제공하는 등.. 내 입맛에 맞는 것을 찾지 못했기 때문이다.
(혹시 제가 만든 것과 비슷한게 이미 있었다면.. 추천 좀 ㅠㅠ;)
유입 경로와 검색 키워드에 대한 히스토리는 아래 링크를 통해 접속할 수 있고,
관리자가 아니라도 모든 데이터를 열람할 수 있다.
몇 주 동안 데이터를 모아 확인해보니 주로 실제로 Google, Naver, Daum, Nate 등의 검색엔진을 통해서 유입되고 있었다. 크롤링 봇(Crawling Bot)도 꽤 있었지만 그들이 실제 사용자를 물어오고 있다는 것이니 나쁘지 않았다. 처음엔 단순히 Raw 데이터를 저장하고 원시적으로 확인하는 정도였지만 데이터가 쌓이니 검색어만 추출하고 관리해보고 싶다는 생각이 들었다. 그래서 Raw 데이터를 수집하는 부분만 분리해서 더 빠르게 실행될 수 있도록 했고, Referer 정보를 가공하고 필요한 정보를 추출하는 등의 기능에 대한 DB 스킴과 로직을 단계별로 추가했다.
다행히(?) 국내 검색엔진들을 통해서 검색 키워드를 추출해서 저장하는데 어려움이 없었다. 하지만 Google은 더 이상 Referer에 검색 키워드 정보를 제공하지 않는다.
Google은 개인정보와 보안 이라는 그럴 듯한 핑계로 제공하지 않는다고 하지만 사실 자체 서비스(구글 웹마스터; Google Analytics)에서 통계 정보를 독점하려고 제공하지 않는 듯 하다. 실제로 검색 결과에서 해당 링크로 이동하기 전에 Referer 정보와 그 해시를 자체적으로 저장한 후, 이동 시 Referer 정보를 없애버리는 것 같다.
Naver도 언젠가는 Google처럼 Referer의 정보를 없애버릴 것 같지만, 아직까지는 친절하게 이전의 검색어 정보까지 oquery라는 파라미터로 얻어낼 수 있었다.
그리고 Daum 쪽의 쿼리를 보면서 좀 특이한 부분을 발견했다. Nate가 Daum의 검색엔진을 쓰고 있는 듯 했다. 싸이월드가 한참 잘나갈 때 SK커뮤니케이션즈에서 일했던 나로써는 Nate의 약한 모습이 안쓰러울 뿐이다. 실제 사업적으로 어떤 관련이 있는지는 모르지만 단지 데이터만 가지고 확인할 수 있었던 것은 daum.net/search? 일 때는 실제 Daum 데이터를 검색하는 것이고 daum.net/nate? 일 때는 Nate 데이터를 검색하는 것 같다.
그 밖에 Zum을 통해서 유입되는 경우도 간간히 있다는게 신기하다.
키워드는 대부분 프로그래밍 관련 단어들인데 그 중 좀 억울하고 부끄럽고 특이한 단어는..
"일본야동" 관련..
모두 이 컨텐츠로 연결되고 있었다. (실제로.. 야동은 없다!! ㅋㅋ)
일본야동 스샷 hooni.net/67319
어찌됐든...
악의적이거나 의미 없는 봇의 접속이 아니라 실제로 검색엔진을 통해서 유입된다는 경우가 많았다는 사실을 확인했고 최근 몇 주 동안 그 검색 키워드와 관련 컨텐츠를 다시 보는 재미가 있었다.
이 후 주기적으로 통계를 작성하는 스크립트도 만들고 그 결과 시각화하는 기능을 추가해 볼 예정이다.