© gary_at_unsplash, 출처 Unsplash
안녕하세요. 개발자 최원입니다.
이번 글에서는, 네이버 블로그 운영 시 제목 및 본문의 수정, 삭제가 좋지않다는 정보와 관련해, 이를 기술적인 시각으로 해석하고, 아무런 근거없이 돌고돌던 카더라 정보에 대해 명확한 원인을 제시하고자 합니다.
많은 마케팅 강사들이 대부분 어떠한 근거자료 없이, 자신의 경험만으로 마케팅에 대한 지식을 이야기하는 경우가 많습니다.
다양한 IT기술과 통계를 근거로 자료를 수집하고 기초 정보를 충분하게 검증하는것이 마케팅 관련 정보 이해에 얼마나 중요한 역할을 하는지, 이 글을 통해 많은 분들이 알게 되었으면 좋겠습니다.
다소 어려운 기술용어에 대한 해설이 많은 관계로, 만약 이해가 잘 안되시는 내용이 있다면 댓글로 질문을 남겨주시기 바랍니다.
시작하기에 앞서,
대규모 데이터베이스 관리기술에 관하여.
대형 서비스에서 활용되는 데이터베이스 관리 기술과 이에 따른 데이터 갱신 주기에 대하여.
실시간 집계 데이터 관리
시간 순서대로 나열된 단순 데이터 기록 방식의 데이터 관리 방식
실시간 집계 데이터는 유효성이 검증되지 않은 유형의 데이터를 의미합니다. 데이터가 시간순서대로 나열만 되어있을뿐, 데이터에 대한 신뢰도는 매우 낮은것이 특징입니다.
간혹, 실시간 과정에서 데이터의 유효성을 검증하는 등의 절차가 포함되는 경우가 있으나, 이 과정에서 천문학적인 연산비용이 발생하기 때문에, 일반적으로 데이터를 분배하기 위한 역할외에는 별도의 가공이 없는것이 일반적입니다.
위 표는 실시간 집계 데이터에서 기록으로 인한 디스크 및 메모리의 지연 과 유효성 검증 등의 추가연산 지연으로 인해, 약 백만건의 데이터에 대한 실시간 처리가 진행 될 시, 서비스 품질에 얼마나 영향이 생기는지에 대해 표현한 표입니다.
위 표를 보고 우리가 깨달아야 하는건, 백만개의 데이터들이 1,000,000밀리초 안에 처리되지 못한 상태에서 백만개의 새로운 데이터들이 추가된다면, 가장 마지막에 위치한 2백만번째 데이터는 과연 언제 처리 될 것인가? 라는 의문입니다.
이러한 이유로, 실시간으로 집계된 데이터는 단순 기록 또는 유효성 검증 이전단계의 데이터가 대부분이며, 로우데이터(raw data)라고 불립니다. 대부분, 별도의 유효성 검증이 필요없는 단순 기록 데이터에서 찾아볼수 있는 관리 유형입니다.
이런 문제점을 해결하기 위해서, 네이버와 같은 대규모 서비스는 여러대의 서버를 이용하여 데이터를 분산처리하는 고도화된 데이터 관리 기술이 적용되어 있는것이 특징입니다. 각 분산된 서버에 의해 가장 오래걸린 지연시간이 최종 지연시간과 큰 차이를 보이지 않는 것이 특징입니다.
수많은 로우데이터에 대한 대규모의 분산처리 과정을 거친 후, 이를 한곳에 일괄적으로 모으는 식으로 데이터를 관리하여, 서비스 운영 품질에 영향을 주는 지연시간을 단축시키는것이 분산처리방식의 주요 목적입니다.
비실시간 집계 데이터 관리
실시간으로 집계된 데이터를 n차 가공 및 필터링하여, 데이터의 검증 과정을 거친 최종 데이터 관리 방식
비실시간 집계 데이터는, 실시간 집계 과정에서 수집된 로우데이터(raw data)를 내부적인 기준에 의해 여러가지 조건에 의해서 연쇄적인 데이터의 유효성에 대해 검증 절차를 거친 데이터를 의미합니다.
이러한 형태로 데이터를 비실시간 재가공하는 절차를 배치프로그램(batch program)이라고 표현하며, 가공이 완료되지 않은 일부 데이터를 제외한 채, 일정한 시간 내에 기록이 완료된 데이터만을 대상으로 재집계하는 것이 특징이며, 이렇게 처리되는 데이터들은 일정한 주기를 바탕으로 갱신되는 결과를 나타내게 됩니다.
빅데이터 분석이라고 불리는, 인공지능(AI)의 적용 기술 또한 이러한 비실시간 집계가 완료된 특정 구간의 결과값들의 집단을 대상으로 추가적인 비실시간 집계를 하는 것이 보편적입니다. 이 과정 역시, 상기 언급한 분산처리방식을 이용해 지연속도를 최대한 가속화하는 구조로 설계되어있는 점이 특징입니다.
이 내용을 보고 우리가 깨달아야하는것은, 네이버 블로그에 글을 작성하였을때, 누구는 빨리 노출이되고, 누구는 늦게 노출이 되는지에 대한 차이점의 원인이 바로 이 비실시간 집계 데이터 관리 기술에 의한 결과라는 점입니다.
그렇다면,
네이버는 어떻게 데이터를 처리하고 있는걸까?
프로그램 처리 기술을 토대로 해석해보는, 네이버에 존재하는 다양한 데이터들의 처리 방식.
그렇다면, 대부분의 기업들이 활용중인 보편적인 데이터관리 기술과 공개된 여러가지 논문 내용을 바탕으로, 네이버 검색 시장에서 블로그와 노출에 영향을 주는 주요 데이터들은 각각 어떠한 시점에서 데이터들이 다루어지고 어느시점에 갱신되는지 간략하게 알아보도록 하겠습니다.
네이버 검색, 키워드 검색량
최종 데이터의 유형 - 비실시간 집계 데이터
검색하는 트래픽을 실시간 집계하고, 검색 절차에 대한 유효성을 검증한 데이터 집단을 네이버 광고 키워드 도구 및 네이버 데이터랩 검색어 트렌드 등의 서비스에서의 데이터로서 활용되는 것이 특징.* 데이터 조작을 방지하기 위해, 검증된 데이터만을 기반으로 함. (자동완성, 연관검색어 등에 활용)
네이버 검색, 키워드 유입량
최종 데이터의 유형 - 비실시간 집계 데이터
검색 후 발생한 콘텐츠 유입기록을 실시간 집계하고, 유입 절차에 대한 과정 중 검색 과정이 있는지에 대한 여부를 바탕으로 유효성을 검증한 데이터 집단을 네이버 크리에이터 어드바이저 등의 서비스에 활용되는 것이 특징.* 데이터 조작을 방지하기 위해, 검증된 데이터만을 기반으로 함. (C-Rank 분석 등에 활용)
네이버 블로그, 방문자/조회수/유입경로/체류시간 등의 오늘 통계
최종 데이터의 유형 - 실시간 집계 데이터
블로그 및 콘텐츠에 방문한 모든 유입기록을 실시간 집계하고, 유효성이 검증되지 않은 로우데이터를 기반으로 하기에, 실제 C랭크 등을 평가하기 위한 유효한 데이터와는 차이점이 크지만 실시간으로 확인이 가능한것이 특징.* 데이터 조작을 하더라도, 검증되지않은 단순 기록을 기반으로 수치가 계속해서 증가함. (품앗이 등)
네이버 블로그, 방문자/조회수/유입경로/체류시간 등의 지난 통계
최종 데이터의 유형 - 비실시간 집계 데이터
블로그 및 콘텐츠에 방문한 모든 지난 유입 기록을 바탕으로 모든 데이터에 대한 유효성을 검증하고 통계에 재반영하는 것이 특징. 결과적으로 이 과정을 통해 산출된 데이터들이 블로그 성장의 주요 지표로서의 가치를 가짐.* 데이터 유효성이 검증되지 않은 일부 데이터에 대해, 일부 차감이 발생 함.* 0시를 기준으로 전일 통계가 즉시 제공되지 않는 요인이기도 함.
네이버 블로그, 콘텐츠 분석
최종 데이터의 유형 - 비실시간 집계 데이터 (비공개, 내부 데이터)
콘텐츠에 포함된 단어, 문장, 문단, 문맥, 결론 등을 바탕으로 유효한 단어들을 분리하고, 글의 목적 이해 등을 목적으로 분석하며, 이 내용을 바탕으로 C-Rank 및 D.I.A, D.I.A+, BERT 등 검색엔진 핵심 알고리즘에서 활용되는 것이 주요 특징.* 대외적으로 공개하지 않는 노출 관련 핵심 지표 자료 중 하나.* 분석된 수치를 바탕으로 블로그의 성장 또는 노출 과정에서 직접적인 영향을 주게 됨.
네이버 블로그, 출처 신뢰도(C-Rank) 관련 분석지수
최종 데이터의 유형 - 비실시간 집계 데이터 (비공개, 내부 데이터)
앞서 검증된 블로그 및 콘텐츠에서 발생한 모든 유입 기록과 콘텐츠 분석 내용 등을 바탕으로 여러가지의 요인을 추가적으로 검증하여 재계산되는 것이 주요 특징.* 대외적으로 공개하지 않는 노출 관련 핵심 지표 자료 중 하나.* 매우 까다로운 과정을 통해 검증된 수치를 바탕으로 블로그의 성장 또는 노출 과정에서 영향을 주게 됨.
네이버 블로그, D.I.A 및 D.I.A+ 관련 콘텐츠 분석지수
최종 데이터의 유형 - 비실시간 집계 데이터
콘텐츠에 포함된 단어, 문장, 문단, 문맥, 결론 등을 바탕으로 유효한 검색유입에 대한 통계데이터, 키워드를 기준으로하는 대규모 상대평가 등의 분석이 진행되는 것이 주요 특징.* 대외적으로 공개하지 않는 노출 관련 핵심 지표 자료 중 하나.* 다수의 창작물에 대한 데이터 결과와의 비교평가를 바탕으로 블로그의 성장 또는 노출 과정에서 영향을 주게 됨.
네이버 애드포스트, 광고 노출수/클릭수/예상수익 오늘 통계
최종 데이터의 유형 - 실시간 집계 데이터
애드포스트가 연동된 채널에서 발생한 노출수/클릭수 및 이에 따른 수익현황을 실시간으로 보여주며, 크리에이터 어드바이저에서 "예상항목"으로 표시되는 것이 특징.* 유효성이 검증되지 않은 수치를 기반으로 하기때문에, "예상"이라는 용어가 반드시 따라붙으며 표기됨.
네이버 애드포스트, 광고 노출수/클릭수/예상수익 지난 통계
최종 데이터의 유형 - 비실시간 집계 데이터
애드포스트가 연동된 채널에서 발생한 노출수/클릭수에 대해 유효성을 거치고, 최종 검증된 수치를 바탕으로 수익이 재계산되며, 검증된 데이터는 애드포스트의 수입보고서/지급보고서 등에서 확인이 가능한것이 특징.* 매우 까다로운 데이터 유효성이 검증되지 않은 일부 데이터에 대해, 차감이 발생 함.* 0시를 기준으로 전일 통계가 즉시 제공되지 않는 요인이기도 함.
위 내용 이외에도, 언급되지 않은 수많은 데이터 들이 존재하며, 이는 각 역할에 따라서, 실시간 또는 비실시간으로 집계가 처리되고, 이를 바탕으로 매우 복잡한 구조의 데이터 그룹을 이루고 있습니다.
그렇다면,
그렇다면 발행/수정/삭제 시 어떠한 변화가 생길까?
블로그에 글을 발행하거나, 수정 또는 삭제 시 발행하는 데이터의 갱신과정에 대하여.
앞서 작성한 네이버의 여러가지 데이터와 이에 대한 처리방식을 근거로하여, 블로그 발행, 수정, 삭제 시 어떠한 현상이 발생하는 지에 대해 하나의 예를 바탕으로 알아보도록 하겠습니다.
여기서 중요한점은, 콘텐츠 분석에 대한 집계는 실시간 데이터가 아닌 비실시간 데이터며, 당장은 영향이 없어보이더라도, 검색엔진의 시스템에 의해 재집계가 되는 시점에 도달해서야 영향이 눈에 보인다는 점입니다. 이 점을 매우 유의하시며 내용을 이해 바랍니다.
위 표는, 한 블로그에 포함된 콘텐츠에 대한 분석결과를 간략하게 도식화한 내용입니다. 이 블로그를 바탕으로 새로운 글이 발행 또는 기존의 글이 수정/삭제 되었을때, 어떠한 현상이 생기게 되는지 간단한 시뮬레이션을 통해 확인해보도록 하겠습니다.
위 표는, 예시를 위한 자료이므로, 다양한 가치있는 데이터를 평가하기 위한 안목을 키우기 위한 교육 목적으로만 이해하시기바랍니다.
발행
새로운 글이 발행되었을때, 내 채널 및 콘텐츠에 대한 평가 데이터의 변화
수정
기존의 글이 수정되었을때, 내 채널 및 콘텐츠에 대한 평가 데이터의 변화
비공개 설정은 수정과 동일하게 동작합니다.
참고사항
삭제
기존의 글이 삭제되었을때, 내 채널 및 콘텐츠에 대한 평가 데이터의 변화
온라인 창작물은,
최초 발행이 매우 중요합니다.
수정, 삭제 등으로 인한 데이터의 변화는 일순간에 전체 평가 결과를 바꿔버릴 수 있다.
앞서 나열한 내용을 토대로, 내용을 이해한다면, 많은 마케팅 강사들에 의해 알려진 글의 수정/삭제가 주는 영향에 준다는 카더라에 대한 원리 이해에 도움이 될것이라고 생각합니다.
검색엔진은 항상 방대한 데이터를 다루는 특징 탓에, 실시간 집계로 인한 폭발적인 비용 발생과 관련해 현실적인 타협을 하는 부분이 매우 많은 곳에 존재합니다. 이와 관련한 기술을 바탕으로 검색엔진을 사업적인 측면으로 이해하게 된다면, 창작 활동에 있어 해도 되는것과 안되는것이 명확하게 구분되기 시작할 것입니다.
블로그 운영에 관해 알려진 수많은 카더라에 대해 기술적인 해석과 원리이해, 그리고 객관적인 사실 판단을 위한 기초 지식 등이 궁금하신 분은 언제든 댓글로 궁금증을 적어주시기 바랍니다.
시간을 내어 긴 글을 끝까지 정독해주셔서 감사합니다.
이 글이 도움이 되셨다면, 공감과 댓글로 화답해주세요.
그리고 앞으로도 개발자로서의 다양한 마케팅 이야기를 듣고자 하신다면 이웃으로 구독해주세요.
함께 보면 좋은 내용
※ 위 배너를 클릭하면 다른 마케팅이야기를 찾아 볼 수 있습니다 ※
#블로그운영 #블로그강좌 #마케팅강좌 #운영가이드 #블로그평가 #글수정 #글삭제 #블로그노출 #저품질원인 #품질평가향상 #품질관리 #블로그품질