© clarktibbs, 출처 Unsplash
안녕하세요. 개발자 최원입니다.
이번 글에서는, 수많은 검색엔진들이 오랜 시간 동안 다양한 기술을 접목하고 발전하며, 변화해온 웹 페이지의 제목과 본문을 분석하는 기술에 대한 내용을 간략하게 소개하고, 이를 블로그 작성시 어떻게 활용하면 도움이 될지 고민해 볼 수 있는 시간을 가지도록 하겠습니다.
이 글을 통해, 어떠한 글 작성 방법이 적절할지 자신만의 노하우를 만들어 나갈 수 있는 시간이 되길 바랍니다.
알아두면 쓸모있을 잡지식
아마도?
이해하시겠습니까? 휴먼.
이 글은 대부분이 기술의 발전과정에 대한 내용을 다루기에, 모든 기술의 변천과정에 대한 내용을 이해하기 위해서는 기계학습이라는 구조론적인 컴퓨팅 학습법에 대한 이해를 어느정도 하고 계셔야 한다고 생각합니다. 기계학습법은 순차적인 과정의 의한 학습 실행, 조건의 변화 및 연산의 과정을 통한 원리이해, 이해를 기반으로 하는 알고리즘 정립, 알고리즘에 입각한 결과 도출 등 매우 체계적이고 단순한 구조를 가지고 있습니다. 이를 컴퓨팅 사고라고도 표현합니다.
간단하게 설명하자면, 처음에는 가장 작은 단위인 알파벳, 그다음에는 단어, 그 다음에는 문법, 그다음에는 숙어, 그다음에는 독해, 그다음에는 회화 등으로 순차적으로 이어지는 언어 학습법과 매우 유사하며, 실제 컴퓨터 IT개발의 발전은 이와 같은 학습법을 바탕으로 성장해 온 것이 특징입니다. 지금에 와선 AI의 도입을 통해 수많은 경우의 수를 고려하는 방식의 자율학습 방식을 활용하고 있습니다.
이를 알고 있으면, 향후 IT 관련 기술들이 어떻게 발전할지에 대해 다양한 기초기술들을 토대로 미래를 예측 해 볼 수 있습니다.
시작하기에 앞서,
한글로 된 문장을 분해하는 문장 분석 기술에 대하여
아버지가방에들어가신다 = 아버지가 방에 들어가신다? 아버지 가방에 들어가신다?
기계는 위 문장을 어떻게 분석하게 되는지, 지난 수십년간 발전해온 문장 기술을 나열하고, 이를 바탕으로 어떠한 기술들이 문장 분석에 활용 중이며, 앞으로는 어떻게 변화해나갈지 예측해보는 시간을 가지도록 하겠습니다.
첫번째
형태소 분석을 하지 않았을 때의 문장 분석
사전 등록 단어를 이용한 단어 찾기
과거, 문장 분석 기술이 그리 발전하지 않았을 당시에는, 모든 단어들을 사전에 등록하여, 문장을 분석하는 기술을 이용했습니다. 이를 바탕으로 문서내에 해당 단어들이 얼마나 존재하는지를 계산하고 단어의 유무에 따른 분석결과를 얻을 수 있던, 매우 기초적인 기술이었습니다.
그렇기 때문에 상기 예시의 문장은 "아버지", "가방", "방" 3가지 사전 등록 단어에 의해, 아래와 같은 2가지의 분석결과를 가지고 있게 되었습니다. 단순히 사전 등록 단어가 포함되었는지에 대한 여부로만 결정되는 것이 특징입니다.
현재에 이르러선, 대부분의 검색엔진의 경우 분석이 불가능한 문서에 대해서만 이와 같은 분석기법을 활용하여 검색결과 노출에 활용하고 있습니다.
"아버지"가 "방"에 들어가신다
"아버지" "가방"에 들어가신다
두번째
문법에 따른, 형태소 분석을 통한 문장 분석 (자연어처리)
문법을 이용하여 문장을 분해하고 명확한 단어를 추출하기
아마, 이 글을 보시는 대부분의 창작자분들은 생소하게 다가오는 단어이리라 생각합니다.
형태소 분석이란, 문장이 쓰인 언어의 맞춤법, 문법, 사전등록단어 등을 바탕으로 문장을 분석하고 결과적으로 문장을 기계적인 연산을 위해 분석하기 위해 명사, 조사, 부사 등 문장을 구성하는 구조론에 입각한 기초 문장 분리 기술을 의미합니다.
전 세계의 모든 언어에는, 단어가 나열되고 활용되는 일정한 규칙이 존재합니다. 이를 문법이라고 하게되는데, 이 문법을 역으로 분석하여, 주어와 목적어, 서술어, 그리고 조사의 사용을 바탕으로 주어와 목적어의 관계성을 바탕으로, 문장의 의도가 무엇인지 알 수 있게 되면서, 이 문장이 어떠한 의미를 가지고, 쓰여있는지에 대한 분석도 가능해진 기술입니다. 이 기술은 문장이 과거의 경험으로 쓰여있는지, 아니면 앞으로의 계획을 쓴것인지도 파악이 가능한것이 특징입니다.
죽, 육하원칙 등 본문을 구성하는 단어와 문장의 배치들이 한글의 문법과 적절하게 어우러지고 있는지, 문장을 작성하는 방법 자체에 신경을 쓸 필요가 있습니다.
문과 한 스푼
아버지/가 방/에 들어가/시/ㄴ다
주어: 아버지, 목적어: 방, 서술어: 들어가, 보어: ㄴ다결과 - 아버지가 방에 들어간다 (현재진행형 문장)
아버지 가방/에 들어가/시/ㄴ다
주어: 아버지, 목적어: 가방, 서술어: 들어가, 보어: ㄴ다결과 - 아버지가 가방에 들어간다 (현재진행형 문장)
세번째
빅데이터를 이용한 문장 분석
빅데이터를 이용한 앞선 문장 분석의 결과를 재보정하는 기술
이는 다수의 창작 플랫폼이나 검색엔진에서 주로 활용되는 형태로, 간단하게 실생활 속 빅데이터를 이용한 문장 분석의 활용 사례로는, 지금 쓰시고 계신 스마트폰 키보드의 자동완성 기능입니다.
즉, 내가 평소에 어떤 문장을 어떠한 방법으로 어떠한 구성을 가지고 작성을 하였느냐에따라, 문장의 의도를 미리 파악하고 단어를 추천해주는 기술을 자동완성 기능이라고 하며, 이는 매우 유사한 형태로 대부분의 검색엔진의 문장분석 기술에도 활용되고 있습니다.
대부분의 검색엔진의 경우엔 창작자가 플랫폼 생산한 문장들과 검색소비자가 소비한 문장 등을 수집하고, 이를 학습하여, 문장분석, 단어추천 등에 활용하게 됩니다. 집단지성에 의한 어학사전 편찬 시장과 매우 유사하다고 보면 이해가 쉽습니다.
예를 들어, 과반수 이상의 절대 다수가 "아버지가방에들어가신다"라는 문장을 "아버지가 방에 들어가신다"라고 작성하거나 소비하고 있다면, 절대다수에 의해 "아버지 가방에 들어가신다"는 탈락하고, "아버지가 방에 들어가신다"라고 분석이 되는 것이 특징입니다.
단, 생산과 소비에 따른 가변적인 데이터를 기준으로 하기에, 절대다수가 평소와는 다른 선택을 하게 되면, 결과값이 바뀌는 현상을 동반하는 것이 특징입니다. 보통 학습기간을 무한정 범위로 하지않고, 최근 7일, 30일, 90일 등 일정한 기간을 중심으로 최근 트렌드를 중심으로 학습하는것이 특징입니다.
즉, 최근 생산과 소비의 동향을 바탕으로, 단어를 트렌드에 맞게 배치하여, 글을 작성하는 것이 유효합니다.
이 방식의 경우, 문법과 관계없이 문장의 용법에 대해 중점적으로 분석하는 관계로 문법과는 큰 관계성이 없습니다.
그렇다면,
추가 도입 가능한 문장 분석기술은?
검색엔진이 도입 할 수 있는 문장 분석 기술
네번째
문장에 쓰인 단어에 따른 감정 분석
감정을 기반으로 문장을 분류하는 기술
검색엔진은 언제나 편향적이지 않는 정보를 제공 해야할 의무가 어느정도 있습니다. 이로 인해, 모든 검색엔진은 검색결과에 대해, 정확성을 높히면서도 중립성을 지키고자 하는 것이 특징입니다.
그렇기에, 의도적이고 매우 부정적인 글의 검색결과는 대부분 노출이 되지 않도록 조절하는 특징을 가지고 있습니다. 그렇기 때문에, 본문내 감정선을 일정하게 유지하여 작성하는 것이 유효합니다.
다섯번째
단어와 단어의 연관성을 측정하는 문장 의도 분석
각 단어들의 연관성을 측정하는 문장 의도 분석
해당 분석은 앞서 소개한, 형태소 분석, 빅데이터 분석과 매우 관계성이 높은데, 주어와 목적어의 상호관계가 서로 얼마나 관계성이 있는가를 바탕으로 문장의 의도를 분석하고, 얼마나 명확한 의도를 가진 제목인지를 계측하게 됩니다.
또한, 이를 바탕으로, 본문과의 관계성을 계산하는, 과정에서도 이 과정을 통해 산출된 데이터가 활용되므로 매우 중요한 역할을 합니다. 이와 비슷하게, 문장 속 단어들의 연관성을 분석하여, 얼마나 명확한 주제를 다루고 있는 문장인지를 파악하는 기술도 이에 포함됩니다.
즉, 제목 및 문장 내에서 쓰이는 단어들의 관계성을 매우 신경쓰면서 작성할 필요가 있습니다.
특히, 제목을 분석하는 과정에서 매우 중요한 역할을 하므로, 관련성이 매우 높은 단어를 위주로 작성하실것을 권장합니다.
여섯번째
문장과 문장의 연관성을 측정하는 문맥 분석
각 문장들의 관계성을 바탕으로하는 문서 신뢰도 측정 기술
앞서 이야기한, 단어와 단어의 관계성을 바탕으로 측정하는 기술과 매우 유사하나, 이 방식은 문장과 문장의 흐름, 즉 문맥을 분석하고, 글쓴이가 어떤 내용을 전달하고자 하는지, 그래서 이 내용의 과정과 결론은 어떠한 흐름을 가지고 있는지 등을 분석하게 됩니다.
이렇게 산출된 데이터는 소비자의 검색니즈에 의해 한번 더 필터링되는 역할을 하게 됩니다. 이로 인해 문장과 문장사이에 불필요한 감정표현, 동문서답(?) 등의 표현을 자제하는 것이, 문맥 분석의 결과를 향상 시키기 위한 적합한 기법입니다.
즉, 글쓴이의 의도가 이리저리 흔들리는, 감정적인 글을 쓰지말고, 시간에 흐름에 따른, 체계적인 글을 써야합니다.
아래의 문장을 보고, 각 예시들이 제목의 의도와 본문의 의도가 일치하는지, 한번 확인해봅시다.
예시1, 상품리뷰
제목: 3주면 애기피부가 된다. 피부관리 추천 A제품.이번에 피부관리 때문에 A제품을 샀다. 배송 온 A제품을 바로 개봉하고, 발라보니 매우 촉촉한 느낌의 질감이었다. 피부에 몇번 슥슥 발랐는데, 벌써부터 피부가 촉촉해진것같다. 이렇게 3주 정도 꾸준하게 하고나면 효과가 나온다니깐, A제품을 매일 발라봐야겠다.
예시2, 맛집리뷰
제목: 꿀맛보장 경기도 갈비찜 맛집 - A매장아이들과 함께 밥을 먹으려고 A매장에 가서 갈비찜을 시켰다. 갈비찜 메뉴가 유명해서 찾아오게 되었다. 아이들이 놀수 있는 놀이방도 있었다. 갈비찜이 테이블 위로 옮겨졌다. 아이들이 신나게 갈비를 뜯는다. A매장의 메뉴판을 다시한번 살펴보니 갈비냉면도 판매하고 있었다. A매장 갈비찜 최고
예시3, 여행기
제목: 달달한 커플 데이트 장소, 경기도 A수목원남자친구랑 놀러가기로 결정했어요. 코로나 때문에 실내데이트는 좀 꺼려지네요. 그래서 야외로 놀러갈만한 장소를 한참 검색하다가 경기도에 위치한 A수목원을 찾았어요. A수목원은 중앙호수를 중심으로 산책로가 조성되어있는데, 진짜 풍경이 에술이에요. 이번에 남자친구와 A수목원을 다녀와서 건진 인생샷 몇장을 올려봐요.
* 예시는 예시일 뿐, 본인의 글을 꼭 소비자의 입장에서 다시한번 읽어보세요!
글을 작성하고 나면, 항상 재차 읽어보면 글쓴이가 전하고자 하는 내용이 무엇인지 확인하는 연습을 반드시 해야합니다. 일반적인 상황에서의 블로그는 대부분 소리내어 읽어보기가 가장 좋은 방법입니다.
결론.
제목은 관련있는 키워드를 중심으로
본문은 시간순서 육하원칙 주제전달
노출을 위한 글쓰기, 생각보다 쉽습니다.
앞서 나열한 내용을 바탕으로, 가장 이상적인 글쓰기에 대해 큰 줄기를 요약하자면 아래와 같습니다.
제목은 관련이 높은 키워드를 중심으로 배치하고, 동시에 본문을 나타낼 수 있는 키워드를 중심으로 작성 할 것.
본문은 시간에 따른 순서에 맞게 작성하고, 육하원칙을 준수한 문장을 통해, 의도를 더욱 명확하게 전달 할 것.
이 글을 통해, 인터넷 시장에서의 글쓰기에 대해 조금 더 구체적이고 긍정적인 해법을 얻어가셨으면 좋겠습니다.
시간을 내어 긴 글을 끝까지 정독해주셔서 감사합니다.
이 글이 도움이 되셨다면, 공감과 댓글로 화답해주세요.
그리고 앞으로도 개발자로서의 다양한 마케팅 이야기를 듣고자 하신다면 이웃으로 구독해주세요.
함께 보면 좋은 내용
※ 위 배너를 클릭하면 다른 마케팅이야기를 찾아 볼 수 있습니다 ※
#블로그운영 #블로그강좌 #마케팅강좌 #운영가이드 #글짓기 #글쓰는방법 #블로그글쓰기 #글쓰기강좌 #전략적인글쓰기 #자연어처리 #문장분석 #검색엔진원리