구글 검색 알고리즘 작동 방식 및 알고리즘 로직 이해하기

구글 검색 알고리즘 작동 방식 및 알고리즘 로직 이해하기

구글 검색 알고리즘 작동 방식
구글 검색 알고리즘 작동 방식

구글 검색 알고리즘 작동 방식 검색 엔진이 어떻게 작동하는지 정확히 파악하여 순위를 높이고 페이지로 더 많은 트래픽을 유도할 수 있습니다. 자세히 알아보려면 계속 읽어보십시오.

내용물

검색 엔진 작동 방식의 특정 측면에 관심이 있으십니까? 아래 링크를 사용하여 문서 내의 특정 섹션으로 건너뜁니다. 키워드에 대해 구체적으로 알고 싶다면 검색 엔진이 키워드를 사용하는 방법에 대한 이 문서를 확인하십시오.

구글 검색 알고리즘 작동 방식 Google과 같은 검색 엔진이 콘텐츠를 찾는 방법

인덱싱

순위 지정 알고리즘

Google 알고리즘 이해

– 관련성

– 권한

– 신뢰

– 사용성

결과 유형 및 개인화

Google과 같은 검색 엔진이 콘텐츠를 찾는 방법

구글의 매트 커츠는 구글의 작동 원리에 대해 설명한다. 이 영상보다 좀 더 자세히 말씀드리겠습니다. 그러나 그것은 내용에 대한 훌륭한 입문서이다.

매트 커츠가 언급했듯이 구글은 ‘거미’라고 불리는 약간의 코드를 사용하여 웹을 기어다닌다. 이것은 한 페이지에서 다음 페이지로 연결되는 링크를 따라가는 작은 프로그램으로, 각 페이지가 복사되어 서버로 전달됩니다. 거미줄은 거대하며, 만약 구글이 발견한 모든 콘텐츠의 기록을 유지한다면 관리할 수 없을 것이다. 구글이 페이지 코드만 기록하고 유용하지 않다고 생각하는 페이지(중복, 낮은 가치 등)를 덤핑하는 이유다.

거미는 링크에서 링크까지 뛰어다니며 새로운 페이지를 발견하는 매우 특별한 방식으로 작동합니다. 따라서 컨텐츠가 연결되어 있지 않으면 인덱싱되지 않습니다. 새로운 도메인이 발견되면 스파이더는 먼저 이 페이지를 찾습니다.

domain.com/robots.txt

인덱싱할 콘텐츠나 사이트맵을 찾을 위치 등 스파이더에 대한 메시지를 이 페이지에 남길 수 있습니다. 그런 다음 거미는 이 지시를 따라야 합니다. 하지만 꼭 그럴 필요는 없다. 구글의 거미들은 일반적으로 잘 행동하고 여기에 남겨진 명령을 존중할 것이다.

여러분은 로봇이 어떻게 하는지에 대해 더 많이 알 수 있습니다.여기서 txt는 SEO의 좀 더 기술적인 측면을 다룬다.

거미 자체는 작고 간단한 프로그램이다. 무료로 다운로드하여 웹에 공개할 수 있는 오픈 소스 버전이 많이 있습니다. 구글에 필수적인 만큼 콘텐츠를 찾는 것은 현명한 방법이 아니다. 그 다음입니다.

인덱싱

콘텐츠가 많을 때는 해당 콘텐츠로 바로 가는 방법이 필요합니다. 구글은 질의가 입력될 때마다 정렬되는 모든 페이지를 포함하는 하나의 큰 데이터베이스를 가질 수는 없다. 너무 느릴 거예요. 대신 기본적으로 이 프로세스를 단축하는 인덱스를 만듭니다. 검색 엔진은 하둡과 같은 기술을 사용하여 대량의 데이터를 매우 빠르게 관리하고 쿼리합니다. 색인 검색은 매번 전체 데이터베이스를 검색하는 것보다 훨씬 빠릅니다.

‘and’, ‘the’, ‘if’와 같은 일반적인 단어는 저장되지 않습니다. 이것들은 정지어라고 알려져 있다. 일반적으로 검색 엔진의 내용 해석에 추가되지 않기 때문에(단어로 구성되는 예외도 있지만 “존재 여부”는 공간을 절약하기 위해 제거됩니다. 페이지당 매우 적은 공간일 수 있지만, 수십억 페이지를 다룰 때는 중요한 고려사항이 된다. 이러한 생각은 구글과 구글이 내리는 결정을 이해하려고 할 때 유념할 가치가 있다. 페이지당 작은 변화는 규모에 따라 매우 다를 수 있습니다.

순위 지정 알고리즘

콘텐츠가 인덱싱되었습니다. 그래서 구글은 그것을 복사해서 색인에 페이지의 바로가기를 넣었습니다. 좋습니다. 이제 관련 검색 쿼리와 일치하면 해당 쿼리를 찾아 표시할 수 있습니다. Google에서 검색한 각 검색에는 1000개의 결과가 있을 가능성이 높으므로 이제 Google은 결과를 어떤 순서로 표시할 것인지 결정해야 합니다. 이것은 결과 순서를 조작하기 위해 요소를 조정하는 SEO의 핵심입니다.

구글은 알고리즘을 통해 어떤 쿼리가 어디로 갈지 결정합니다. 알고리즘은 문제를 해결하기 위해 뒤따르는 과정이나 규칙 집합을 의미하는 일반적인 용어입니다. Google과 관련하여, 이것은 페이지의 순위를 결정하는 가중 메트릭 세트입니다.

구글 검색 알고리즘 이해

구글 알고리즘은 예전처럼 미스터리가 아니며, 개별 요소들과 측정 기준들이 꽤 잘 문서화되어 있다. 우리는 모든 주요 페이지 및 페이지 외 메트릭이 무엇인지 알고 있습니다. 까다로운 부분은 그들 사이의 가중치나 상관관계를 이해하는 것이다.

만약 당신이 ‘초콜릿 케이크 레시피’를 검색했다면 그 알고리즘은 검색어에 비해 페이지의 무게를 더하게 될 것이다.

간단하게 두 가지 메트릭과 이러한 메트릭이 서로 어떤 영향을 미칠 수 있는지 살펴보겠습니다.

메트릭 1이 URL입니다. 키워드는 www.recipes.com/chocolate-cake과 같은 URL에 표시될 수 있습니다.

구글은 URL에서 ‘초콜릿 케이크’와 ‘레시피’라는 키워드를 볼 수 있어 가중치를 적용할 수 있다.

이제 미터법 2로 넘어가면 페이지의 백 링크가 연결됩니다. 이것들 중 많은 수가 초콜릿 케이크와 레시피라는 키워드를 가지고 있을 것이다. 그러나 키워드가 URL에 나타나면 관련 여부에 관계없이 해당 키워드가 백링크에 표시될 것으로 예상되므로 Google은 이 메트릭의 가중치를 낮춥니다. 반대로 키워드가 URL 어디에도 나타나지 않을 경우 Google은 미터법 2에 가중치를 더 적용하도록 선택할 수 있습니다.

구글이 바라보는 모든 다른 요소들은 서로에게 영향을 미친다. 각각은 (가중치 측면에서) 다소 가치가 있을 수 있으며 이들 사이의 관계는 지속적으로 변화한다. 구글은 매년 수백 건의 업데이트를 발행하며, 이를 지속적으로 수정하고 있다. 측정 기준 자체보다 더 많이 변경된 것은 가장 일반적으로 이러한 관계와 가중치입니다. 이러한 상황이 발생하면 펭귄이나 판다와 같은 더 중요한 업데이트에 보통 포함됩니다.

서로 다른 메트릭스는 4가지 주요 섹션으로 나눌 수 있습니다.

구글 검색 알고리즘 관련성

질의 내용과 얼마나 관련이 있습니까? 인덱서가 결과에 나타나야 하는지 여부를 결정하는 첫 번째 테스트입니다. 그러나 키워드의 순위를 매기기 위해 한 단계 더 나아간다. 무언가를 검색할 때 가능한 한 가장 관련성이 높은 결과를 보고자 하는 것이 이치에 맞다.

관련성은 페이지 내 요인과 오프 페이지 내 요인의 혼합에 의해 결정됩니다. 두 가지 모두 페이지 제목과 앵커 텍스트와 같은 키워드 배치에 초점을 맞춥니다. 일부 메트릭은 이러한 메트릭의 조합입니다. 예를 들어 도메인 전체가 검색어와 관련이 있는 것으로 보이면 점수를 매기는 개별 페이지의 관련성 점수가 상승합니다. 이에 대해 더 알고 싶다면 ‘검색엔진이 키워드를 사용하는 방법’이라는 제 글을 읽어보는 것을 추천합니다.

권한

권위(Authority)는 래리 페이지가 발명한 페이지랭크(PageRank)에 뿌리를 두고 있다. 그것은 구글이 콘텐츠를 평가하는 방법의 중추이다. 페이지랭크를 이해하는 것은 구글의 작동 방식을 이해하는 열쇠의 일부이지만 순위에 영향을 미칠 수 있는 수백 가지 추가 요인이 있으며 페이지랭크는 과거에 비해 중요성이 떨어진다는 점을 기억할 필요가 있다.

페이지랭크는 종종 투표로 설명된다. 페이지에 대한 각 링크는 투표이며, 더 많은 표를 가질수록 더 좋은 순위를 매겨야 합니다. 투표가 많은 페이지가 다른 페이지로 연결되면, 그 투표 권한의 일부는 또한 넘겨집니다. 따라서 한 페이지에 하나의 링크만 있더라도, 만약 그 링크가 투표가 많은 페이지의 링크라면, 그 링크는 여전히 순위가 잘 매겨질 수 있고, 그 링크에 연결된 페이지도 그것의 혜택을 받을 수 있다. 링크를 통해 페이지에서 페이지로 전달되는 값을 링크 주스 또는 페이지 주스라고 합니다.

권위의 맥락에서도 관련성은 중요하다. 관련 앵커 텍스트가 있는 링크는 관련 사이트의 링크도 아니고 관련 앵커 텍스트가 없는 링크보다 가중치를 더 많이 전달할 수 있으며, 구글은 검색 결과의 맥락에서 이를 무시할 가능성이 높다.

신뢰

이것은 검색 결과를 인위적으로 조작하기 어렵게 만드는 데 초점을 맞춘 안티스팸 알고리즘입니다. 구글은 SEO와 애증 관계를 맺고 있으며 신뢰 메커니즘도 그 일부분이다. 한편으로, 많은 SEO는 훌륭한 콘텐츠와 사용자 경험을 만드는 것입니다. 다른 한편으로는 구글이 결과의 자연스러운 순서로 결정한 것을 인위적으로 조작하려는 시도이기도 하다.

신뢰 지표는 조작하기 매우 어려우며, 다른 지표에 대한 구글의 신뢰도를 높여준다. 콘텐츠의 연령이나 도메인과 같은 것들은 신뢰 지표입니다. 만약 당신이 ‘나쁜 이웃'(홍등가라고 생각)의 링크를 많이 가지고 있다면, 이러한 링크들은 구글이 당신의 사이트의 ‘초콜릿 케이크 레시피’ 검색 순위를 매기는 것에 대해 다시 한번 생각하게 만들 것이다. 같은 방식으로 페이지나 도메인이 나쁜 이웃에 연결되면 신뢰 지표가 손상됩니다.

구글은 사실 도메인 등록 대행자이며, 이것은 그들이 다른 도메인에 대한 모든 whois 데이터를 볼 수 있다는 것을 의미한다. 이를 통해 도메인이 얼마나 자주 주인이 변경되었는지, 등록이 만료될 때까지의 기간과 같은 정보를 이러한 트러스트 메트릭에 통합할 수 있습니다. 이것들은 조작하기에 훨씬 더 어렵다.

신뢰는 또한 도메인 또는 페이지의 유형과 사용자에게 연결되는 유형에 따라 결정됩니다. 나쁜 이웃과 반대의 영향으로 .edu 도메인과 같은 학술 사이트는 높은 신뢰를 가지고 있다. 다른 도메인 유형도 신뢰 점수가 높기 때문에 해당 도메인 유형의 링크가 더 중요합니다.

사용성

구글은 검색 결과에 표시되는 콘텐츠가 검색 엔진 로봇뿐만 아니라 인간에게도 매력적이기를 원한다. 이러한 요인들만을 위한 일련의 지표가 있습니다. 좋은 콘텐츠를 가지고 있지만, 예를 들어, 광고에서 그것을 다루는 것은 좋은 사용자 경험을 만들어내지 못할 것입니다. 구글이 광고 배치가 지나치게 두드러지는 페이지의 가중치를 낮추는 이유다.

페이지 속도가 다른 중요한 요소인데, 너무 느리게 로드되는 페이지는 검색자들에게 성가신 요소로 작용하여 사람들이 검색 결과를 다시 클릭하고 다른 페이지를 선택하게 만든다. 구글은 사람들이 구글을 계속 사용하길 원하기 때문에 그들이 보여주는 결과가 빠르게 로딩되는 것이 그들의 관심사입니다. HTML에서 페이지 속도를 측정하지만 크롬 사용자 데이터를 사용할 수도 있습니다.

구글 검색 알고리즘 결과 유형 및 개인화

휴대 전화에서 검색하는 경우 데스크톱 컴퓨터에서 검색하는 것과 다른 결과 세트가 표시됩니다. 인덱서에서 반환되는 실제 결과(낮은 수준)는 다릅니다. 단지 기기 유형만이 보이는 결과에 영향을 주는 것이 아니라, 구글은 사용하는 검색어에 따라 완전히 다른 형식으로 결과를 표시할 수 있습니다.

지역화된 검색의 가중치는 서로 다르며 제품 검색과 같은 다른 결과 페이지 형식으로 표시됩니다. 또한 Google이 비디오 및 이미지를 포함한 결과를 반환할 수 있는 혼합 미디어 검색이 있습니다. 일부 검색에는 매우 좁은 용어 집합에 대한 전용 결과 페이지가 있습니다. 이것들은 일반적으로 스포츠 경기나 선거와 같은 시사와 관련이 있다.

또 다른 요인은 개인화입니다. 이전에 검색한 내용은 Google이 반환하는 결과에 영향을 미칩니다. 이곳에서는 기계학습의 정도가 행해지고 있다. 따라서 구글은 한 가지 유형의 결과를 일관되게 검색하는 경우 향후 유사한 검색이 동일한 성격을 가질 것이라고 가정할 것이다. 이것은 특히 한 단어가 여러 의미를 갖는 모호한 검색에서 두드러진다.

관련글 : 구글 SEO 가이드 기본 사항

출처 : How Google and its algorithm work

구글 검색 알고리즘 작동 방식 및 알고리즘 로직 이해하기”의 1개의 생각

  1. 이재호 답글

    정말 알고 싶었던 정보입니다.
    구글이 쉽다고 얘기하시는 분들보다
    어렵다고 하시는분들이 이러한 부분 때문에
    그런게 아닌가 싶네요.

답글 남기기

이메일 주소는 공개되지 않습니다.