© 95C, 출처 Pixabay
안녕하세요. 개발자 최원입니다.
이번 글에서는, 블로그 마케팅 시장에서 널리 알려진, 외부문서 링크 첨부와 블로그 저품질과의 상관관계에 대해 개발자의 시각으로, 검색엔진의 출처신뢰도 및 문서품질 측정 알고리즘을 바탕으로 분석한 내용을 전하고자 합니다.
다양한 문서 품질 분석 기술은 어떠한 방식으로 진행되고, 이 기술들의 주목적이 무엇인지. 그리고, 이 글을 바탕으로 나의 문서품질을 향상 시키는 방법에 대한 유익한 시간이 되었으면 좋겠습니다.
* 해당 글은 약 6천자 분량으로, 시간적인 여유를 두시고 정독하시는것을 권장드립니다.
시작하기에 앞서,
링크가 문서에 영향을 주는 분석 기술들
SEO에서 링크가 문서의 품질에 영향을 줄 수있는 기술들에 대해 알아보자
첫번째
HTML의 anchor 태그(하이퍼링크) 분석을 통한 백링크 수집
<a href="주소" title="주소에 대한 요약설명">주소가 의미하는 주요 단어 또는 문장</a>
백링크란, 문서 내에 포함된 하이퍼링크의 정보를 바탕으로 문서 내에서 이동 가능한 모든 주소를 의미하는 주요 SEO 마케팅 용어입니다.
백링크를 통한 분석과정에는 보통 아래와 같이 3가지의 구분이 존재하며, 이에 따라 분석결과가 각기 달라지는 특징이 존재합니다. 이 내용을 간단하게 요약하면 아래의 내용과 같습니다.
여기서의 색인이란 별다른 페이지 이동없이, 동일한 페이지 내부에서 지정된 위치의 정보로 단순 이동하기 위한 형태의 주소를 의미합니다.
그렇다면, 대표적으로 가장 높은 문서 신뢰도와, 대부분의 검색 키워드에서 상위 순위를 점유하고 있는 위키 서비스의 링크 구조를 바탕으로, 해당 기술을 이해하여 보겠습니다.
나무위키의 "네이버 블로그" 문서에 포함된 하이퍼링크 (청색: 내부링크, 녹색: 외부링크)
현재 위 본문에는 2개의 색인, 11개의 내부 문서, 3개의 외부 문서 등 총 16개의 링크를 포함하고 있습니다.
검색엔진은 이 링크에 대한 정보를 수집 후, 이후 소개하게 될 제목 및 본문 내 키워드의 연관성 등을 바탕으로 양쪽의 문서를 모두 검증하고, 이를 상황에 맞게 처리하게 됩니다.
구글의 검색결과를 기준으로, 백링크 수집 및 분석을 통해 어떠한 현상이 발생하는지 알아보고자 하신다면 아래와 같은 영역을 통해, 인용된 문서간 관계성이 어떻게 검색결과에 영향을 주고 있는지 알 수 있습니다.
구글에서 백링크를 통해 문서간 관계성을 바탕으로 표시 된 정보
네이버의 경우, 대표 사이트 1개에 대해서만 해당 기능이 활성화 되며, 아래와 같은 표시영역을 통해, 분석된 결과가 어떻게 적용되었는지 확인해 볼 수 있습니다.
네이버에서 백링크를 통해 문서간 관계성을 바탕으로 표시 된 정보
두번째
링크 된 부모 문서와 자식 문서와의 관계성 측정
모든 웹문서와 관련된 데이터는 계층형(계단형, Tree형) 구조를 띄고 있다는 점을 이용한 관계도 측정.
위 첫번째 과정을 통해 수집된 모든 링크들은, 제목 및 본문 등에 존재하는 다양한 키워드와, 작성자가 정의한 목차, 색인키워드 등의 분석을 통해 각 문서와의 관계성을 상호 측정하게 됩니다.
앞서 첫번째 과정에서 가져온, 구글의 "네이버 블로그" 검색결과에 포함된 "다음 블로그"의 문서와 상호참조하여 어떠한 검색 결과를 나타내고 있는지 알아봅시다.
가장 먼저, 각 문서들의 주요 공통 주제를 뽑아봅니다. 일반적으로 노출이 잘 되는 모든 웹문서는 앞서 소개한 HTML문서 구조에 알맞게, 문서를 아래로 읽어갈수록 대그룹에서 소그룹으로 점진적으로 세분화 되어가는 특징을 가지고 있습니다.
이로 인해, 대부분의 경우 공통 주제를 얻기 위해, 가장 상단에 표시된 요소부터 순차적으로 공통점을 찾아가는 방식을 활용하고, 문서의 구조에서 공통점을 발견하지 못하면, 본문 키워드 분석 과정을 통해 2차 분석이 진행되게 됩니다.
두 문서의 공통 주제 - 대표적인 소셜 네트워크 서비스
실제로 "다음 블로그"를 구글에서 검색해보면, 아래와 같이 "네이버 블로그"의 검색결과와 동일한 형태의 문서 관계성 결과를 확인 할 수 있습니다. 이것과 같은 상황이 확인되는 키워드들은 서로 "관계성이 매우 높으며, 동일 수준의 키워드 그룹(계층형)"이라는 의미로 해석이 가능합니다.
"다음 블로그" 문서도 네이버 블로그 문서를 포함중에 있는것을 확인.
그렇다면 이번에는, 관련 계층으로 소개된 카페, 소모임 영역의 "네이버 카페"와 "다음 카페"에 대한 검색결과를 살펴보도록 하겠습니다.
"네이버 카페" 문서에는 동일한 등급의 문서가 존재하지 않는 것으로 보여진다.
"다음 카페" 문서에는 "블로그" 검색결과와 같이 카페 소모임에 대한 하위계층 문서가 포함되어있다.
왜 위와 같은 상황이 생기게 된걸까요? 바로 문서의 구조의 차이로 인해, 상호간 관계성을 검증하는 것이 실패하였기 때문입니다. 실제로, 각 본문의 시작영역을 앞서 알아본것과 같이 공통점을 찾아보면 명백한 차이점이 있다는 것을 확인 할 수 있습니다.
두 문서의 공통 주제 - (알 수 없음)
앞서 본 네이버 블로그, 다음 블로그의 시작 부분과 달리, 네이버 카페에는 문서의 시작부분에 공통적인 요소가 누락되어있다는것을 확인 할 수 있습니다.
이를 간략하게 해석하자면, 문서의 구조상 차이점을 가지고 있어, 동일한 목적을 가진 문서로서의 기능을 상실한 것으로 볼 수 있습니다.
세번째
수집 된 주소에 대한 문서의 고유성
중복된 카피문서를 주소에 인용하는 것은, 본문품질을 크게 떨어뜨리는 중요한 요인이다.
해당 내용은, 다들 생소하실 거라고 생각됩니다. 이번 네이버의 쿠팡대란을 통해, 쿠팡 파트너스의 링크 방식이 블로그 노출에 악영향을 준다는 사실이 널리 알려져 있습니다. 하지만 이는 충분한 설명이 보강되지 않고 있고, 네이버 측에서도 문서가 누락되는 원인에 대해 명확하게 밝히고 있지 않습니다. 하지만, 검색엔진들의 문서품질 평가 기술을 토대로 원인을 파악하게 되면, 해당 링크를 통한 문서의 고유성 검증단계를 통과하지 못했기 때문으로 보여집니다.
대표적으로 표시되는 주소와 들어갔을때 최종 도달 페이지의 주소가 다른 링크 줄이기 등의 리디렉션(주소 전환) 서비스는 아래와 같이 4가지 양상을 띄며, 이에 따라 검색엔진은 이 4가지 가능성을 모두 평가하고 문서의 품질을 결정하게 됩니다.
하지만, 웹 표준 시장에서 정의된 국제적인 약속이 존재하는데, 바로 "내용은 동일하지만 주소가 다른경우, 반드시 통신 정보 또는 문서 정보 내에 원본 주소를 명시할 것"이라는 국제적인 규약입니다.
상기에 소개된 4가지의 리디렉션 중, 가장 부정적인 영향을 받는 방식은 바로 2번째, 3번째를 표준 규격에 맞지 않게 이용하는 경우입니다. 이는 심하게는 주소 자체에 대한 영구적인 패널티를 부여하여, 인용만 해도 문서의 품질이 낮아지고 노출에서 제거되는 상황을 초래하기도 합니다.
또한, 웹 표준 시장을 선도하고 있는 W3C에서는, 점점 다양해져가는 문서의 경로와, 길어지는 주소등을 대체하기 위해 활용되는 리디렉션 기술 등을 바탕으로 아래와 같은 표준안을 국제표준으로서 선언하였으며, 전세계의 모든 검색엔진은 이 표준을 따르고 있습니다.
기술 문서 및 영문에 익숙하지못한 분들을 위해, 구글 개발자 문서에서 설명한 해당 원본 주소 명시와 관련된 기술문서를 인용하도록 하겠습니다.
쿠팡 파트너스의 리디렉션
매우 잘못된 형태의 리디렉션을 취하고 있다
하지만, 쿠팡의 경우 이 규약을 지키지 않은 형태의 리디렉션 정책을 가지고있으며, 이는 결국 "단일 주소에 대한 너무 다양화 된 개인화 주소의 물량으로 인해, 매우 낮은 품질의 주소로 평가할 수 있다"라는 매우 안좋은 사례를 남기게 된것이지요.
쿠팡 파트너스 링크의 리디렉션 흐름을 보면 아래와 같습니다. 상기 내용을 정독하셨다면, 어떠한 문제점을 가지고 있는지 금방 파악이 가능하실 겁니다.
1단계 - 301 방식의 HTTP 리디렉션, canonical 정보의 부재
2단계 - 302 방식의 HTTP 리디렉션, canonical 정보의 부재
3단계 - canonical 정보의 부재
네번째
링크 된 주소의 정상 동작 여부
수집 과정에서 50x, 40x 오류 상태코드를 발생시키는 페이지는 검색엔진 수집에서 별도로 제외시켜야한다.
검색엔진은 본문내에 인용된 링크가 정상적으로 동작하지 않는 경우, 문서 품질을 크게 낮추는 특징을 가지고 있습니다. 그렇기 때문에 해당 주소가 본인이 직접 운영하는 웹 사이트인 경우, 오류를 일으킬 수 있는 웹 주소 경로는 반드시 robots.txt 등으로 검색수집에서 제외해야 할 필요가 있습니다.
그 이유는, 검색엔진이 문서를 평가하는 과정에서 링크의 소실로 인해, 완벽하게 문서 내의 정보를 전달하지 못하는 문서라고 판단하기 때문입니다. 이로 인해, 검색결과에서 제외되거나, 문서의 신뢰도가 극도로 낮아지며, 노출이 제한되는 상황을 초래하기도 합니다.
각 HTTP 오류 상태 코드에 대한 자세한 내용과 원인 등이 궁금하시다면 아래 주소를 참고해주세요.
그래서 제 결론은,
링크와 저품질은 관계성이 없다.
링크를 넣는다고 블로그 전체가 비활성화되는 저품질은 관련이 없다. 각 문서 마다의 품질은 개별 평가된다.
해당 내용이 어떻게 느껴지셨나요? 개발자가 바라보는 SEO 시장에 있어서, 본문 내 링크의 여부는 일반적으로 알려진 블로그 저품질(블로그 전체가 노출이 줄어드는 현상)과 아무런 관계가 없습니다.
오히려 적절한 링크가 삽입되게 되면, 문서의 품질이 향상되는 이점까지도 존재하기도 합니다.
하지만, 상기 명시된 내용 중 반드시 지켜야만 하는 항목에 대해서는 꼭 지켜주시는 것을 강력하게 권장드립니다.
시간을 내어 긴 글을 끝까지 정독해주셔서 감사합니다.
이 글이 도움이 되셨다면, 공감과 댓글로 화답해주세요.
그리고 앞으로도 개발자로서의 다양한 마케팅 이야기를 듣고자 하신다면 이웃으로 구독해주세요.
To. 갈 때 까지 가버리신 블로그 강사 분들께.
초보 블로거 대상 교육이라고 강사도 수준이 초보면 어쩝니까.. 거.. 너무 한거 아니오?
이 꼭두새벽에 제 링크 인용과 관련된 글에 대해 이건 무조건 잘못됐다 식으로 비판댓글을 남기시다가, "객관적인 관련 논문 등의 자료를 제시하라, 개인적인 경험은 이야기 말고"라고 답글을 남기니 댓삭하고 차단까지 박고 도망가신 일방 3천따리 블로그 강사분이 있어, 살짝 급발진 해봅니다.
뭐.. 이 분 말고도, 프사없는 서브계정으로 욕설 댓글 박고 가시는 분들도 더러 있답니다..
저도, "링크 절대 넣지 마라"라고 피력을 하고 있는 강사분들이 매우 많다는 점을 잘 알고 있습니다.
흔하게 유튜브에서 블로그 강좌만 검색해봐도 넘치고 넘치는 내용이 "링크 절대 넣지 마라"이더군요.
물론, 초보자를 대상으로, 이 복잡한 기술적인 과정을 이해시키는 것보단, 잘못된 링크로 인한 문서품질 저해 원인을 근본부터 차단하고자, "아예 넣지 마라"라고 눈높이에서 설명하고 있다는 것도 잘 알고는 있습니다.
하지만, 대부분의 강사분들이, 논문이나, 기술적용 사례 등 조금 더 고급 지식의 영역으로 파고들어가게 되면 꿀먹은 벙어리가 되는 사례를 너무나도 많이 지켜봐왔습니다.
그런 강사 분한테 배워서 블로그 하다가, 제게 기업 블로그 컨설턴팅 문의가 왔었던 경우가 꽤 있었습니다.
뭐.. 대부분 기업 홈페이지에 블로그 글을 복붙하는 등의 중복문서가 원인이어서 근본적인 해결은 불가한 상황이었지만요.
그런 점에서, 감히 한 말씀 드리자면,
수강생분들이 초보자의 수준을 벗어난 시점에도 참고할 수 있는, 이러한 웹 시장에서의 기술들을 추가 교육을 하고, SNS 등 채널 확장의 중요성과 그에 대한 지식과 활용방안을 상호 고민해가며 보강해 나가는 것이, 브랜딩을 목적으로하는 우수한 창작자를 양성하기 위한, 참 마케팅 교육자의 모습이 아닐까 합니다.
갈 때 까지 가버리신 분들, 제발 정신 좀 차리세요.
얕은 지식으로, 초보 블로거들을 농락하지 맙시다.
개발자 최원 드림.
※ 위 배너를 클릭하면 다른 마케팅이야기를 찾아 볼 수 있습니다 ※
#블로그운영 #블로그강좌 #마케팅강좌 #운영가이드 #SEO #링크관계성 #본문분석 #링크된문서의관계성 #문서관계성 #관계성검증 #검색엔진원리 #SEO원리 #SEO기초 #링크인용 #링크넣기 #블로그저품질 #관계없음