Патент Google: временнЫе данные

Апрель 13th, 2005

Вчера были на paintball в Чехии, недалеко от Праги. Обсуждали очень мощно патеты гугля, к сожалению сейчас нет времени особо рассказать обо всем что было сказано собравшимися, думаю уже в понедельник выложу сюда некоторые полезные мысли которые прозвучали, а пока если кто-то из присутствующих при обсуждении зайдет сюда, оставьте плиз свои координаты тут внизу в комментах, я вам обязательно сообщу когда тут выложу информацию.

Сегодня я хочу прокомментировать статью о патенте Google, полная версия русского документа размещена тут (http://www.master-x.com/articles/article/233/), а английская тут (http://socengine.com/seo/guide/google-historical-data-patent.html)

До того как начну комментировать хочу заметить:

  • не думаю, что все, что заявленно в этом документе работает
  • уверен, что любая информация, сказанная разработчиками Google о своем движке на все 100% используется против Google (и разработчики Google это знают)
  • Итак, приступим:

    Данный отчет был создан с целью помочь SEO в понимании концепций и практических приложений, содержащихся в Заявке на Патент США, поданной компанией Google за № 20050071741 и озаглавленной «Получение информации, основанное на временнЫх данных» (Information Retrieval Based on Historical Data) — . В данном документе предлагаются мои собственные советы и интерпретация — поэтому будьте добры провести собственное исследование, прежде чем действовать в соответствии с моими рекомендациями.
    # Обзор 5 наиболее важных концепций данного документа

    Эти 5 концепций, на мой взгляд, являются наиболее важными и фундаментальными для профессионалов в области оптимизации для поисковых систем, понимание которых повысит эффективность их работы.

    1. Концепция Google по отношению к «Получению документа» (Document Inception)

    Дата «получения документа», которая может относиться как к вебсайту в целом, так и к отдельной странице, используется Google во многих областях. Эти данные могут быть получены из регистрационной информации, либо на основании даты, когда Google впервые обнаружил ссылку на сайт/страницу, или непосредственно сам сайт/страницу. Google использует эти данные для ранжирования документов, а также для вычисления релевантности и достоверности информации.

    2. Как может повлиять на ранкинг обновление контента

    В соответствии с рассматриваемым Патентом, смена контента с течением времени оказывает большое влияние на измерения, проводимые Google. Поисковая система использует изменения для определения «свежести» или «просроченности» вебсайтов и страниц, а также степень воздействия этих данных на ценность ссылок на странице и ее собственные рейтинги. Измеряется, также, величина изменений — имели место «настоящие», большие изменения, или поверхностные; ранжирование проводится, в том числе, и на основании этих данных.

    Google утверждает, также, что для некоторых типов запросов более важны специфичные виды результатов — неизменные результаты будут предпочтительнее для информации, которая не нуждается в обновлении; свежий контент хорош для результатов, которые должны соответствовать сегодняшнему дню; сезонные результаты будут изменять свою позицию в рейтингах в зависимости от времени года/месяца, и т.д.

    3. Определение спама и наказание

    Google предлагает использовать множество новейших систем по обнаружению спама и его предотвращению — если верить Патенту. Сюда включается:

    # Отслеживание сайтов, которые слишком быстро поднимаются в рейтингах.
    # Отслеживание регистрационной информации, IP-адресов, name-серверов, хостов, и т.п., которые занесены в их собственный «черный список»
    # Рост ссылок «не по теме»
    # Скорость наращивания количества входящих ссылок
    # Процент схожих анкор-текстов
    # Перемещения топиков/тем или их добавление

    4. Что Google пытается измерить

    Google стремится, или пытается активно измерять, каждый из следующих факторов:

    # Информацию о домене
    # Дату получения сведений о домене
    # Срок продления домена (10 лет, 5 лет, или 1 год)
    # Адреса и имена администратора и технической службы
    # DNS Records
    # Адреса Name-серверов
    # Расположение хостинга и компанию
    # Постоянство этих данных
    # Информацию о поведении пользователя онлайн
    # CTR (Click-Through Rate) индивидуальных результатов в результатах поисковых запросов
    # Продолжительность времени, проведенного на данном сайте/странице
    # Данные, содержащиеся на вашем компьютере
    # Список букмарков/избранного
    # Кэш и временные файлы браузера на компьютере
    # Частоту визитов на отдельные сайты/страницы (история)

    5. Влияние этого Патента

    Я полагаю, что этот Патент поможет проверить большинство теорий, которые возникли вокруг механизмов ранжирования Google. За последние 18-24 месяца на основных форумах SEO было немало дискуссий вокруг практически каждого пункта этого Патента, и сейчас появилась возможность проверить полученные выводы.

    ВременнЫе данные

    1. Документы могут оцениваться Google на основании «одного или нескольких типов временнЫх данных»

    2. Дата получения может рассматриваться как фактор, влияющий на оценку (я полагаю, что чем раньше получен документ, тем лучше, однако явно это не указано)

    А я думаю дата получения документа — это начало отсчета работы гуглевых скриптов с ним.
    Тоесть некоторые переменные принимают значение 0, и запускаются некоторые процессы.
    Например все понижающие факторы равны нулю, и с течением первых нескольких суток могут увеличивать значение. И то что свежий документ якобы «взлетает» в выдачу — это как раз отсутствие влияния понижающих факторов на первом этапе.

    3. Google может определять, каков возраст каждой из страниц на данном вебсайте, и затем определять средний возраст страниц на вебсайте в целом. Разница между возрастом определенной страницы и средним возрастом всех страниц используется при оценке.

    Интересно — имеется ввиду возраст страницы вообще? Или возраст страницы в кэше у Google? А вот на счет среднего возраста страниц мне кажеться это бред. Google хорошо ранжирует и свежие странички и старые нормально висят в выдаче. Мне кажется этот пункт можно пропускать.

    4. В оценку для вебсайта может включаться количество времени, прошедшее с момента «получения документа» — то есть, возраст сайта

    Согласен, тут все довольно просто.

    5. При определении возраста сайта может использоваться одна из следующих методологий: дата, когда Google впервые «обнаружил» сайт (читай: его спайдер прошел по сайту);

    Возможно.

    когда Google впервые нашел ссылку на сайт;

    Логично.

    или когда сайт достиг «определенного количества страниц». Я понимаю последнее следующим образом: Google устанавливает некую планку для размеров сайта (количество содержащихся в нем страниц). Когда сайт преодолевает эту планку, включается расчетный механизм (скорее всего, положительный).

    Не думаю. Наращивание кол-ва страниц на сайте не включает ни один положительный механизм. Может включить механизм поедания сайта ботами, если не достигнут предельных вес сайта. Так например, для сайта с PR5 — сайт проедается до 100,000 страниц. Хотя на сайте может быть 200 или 300 тысяч страниц. А каким это боком может относиться к возрасту сайта? И вообще, для меня не понятен сам термин «возраст сайта».
    В ранжировании документов в выдаче фигурируют странички, но никоем образом не сайты,
    тоесть возраст сайта может быть только косвенным фактором ранжирования. Хотя конечно, очень важным. У меня есть опыт, когда на старом, весомом сайте новые странички взлетали
    очень высоко в выдачу — при этом по миллионным запросам, имея всего-навсего одну
    ссылку.

    Частота обновления документа с течением времени

    6. Оценка Google будет основываться (согласно Патенту) на «определении частоты, с которой контент изменяется с течением времени».

    7. «Частота, с которой изменяется контент», будет определяться усредненным временем между изменениями, числом изменений за определенный промежуток времени, и уровнем изменений за один отрезок времени, по отношению к уровню изменений к другому временнОму периоду. Так, если вы обновляете ваш вебсайт каждый день, затем переходите на еженедельные обновления, ваши коэффициенты во временнЫх измерениях Google изменятся.

    Что может дать эта информация? Если сайт меняется ежедневно, то логично боту приходить ежедневно. Если еженедельно — то раз в неделю. Если при прочих равных — есть два документа, один на сайте с ежедневным обновлением, второй на сайте с еженедельным, кто будет выше в выдаче? Имеет ли смысл делать сайт чаще обновляемым?

    9. Оценка, основанная на изменениях (описанная в п.8), будет определяться количеством новых страниц за данный период времени, соотношением новых страниц к старым и общим «процентным содержанием контента документа, который был изменен в течение определенного периода».

    Логично и понятно, таким образом отсекаются «надстройки» над контентом. Тоесть, например, у вас все странички собраны по одному темплейту, Google (со временем) разбереться где действительно контент, а где random текст и будет отслеживать изменение именно контента, а шелуху будет отсекать.

    10. Оценка изменений (из п.8) будет основываться на «воспринимаемой важности частей», которые подверглись изменениям. В расчете также будут учитываться изменения, соотнесенные к весу каждой из отдельных страниц сайта — то есть, если изменяются важные страницы, это окажет эффект, отличный от результатов изменения неважных страниц. Я предполагаю, что важность оценивается, в основном, ссылками (как внутренними, так и внешними), которые ведут на определенную страницу. Так что, если изменится страница обратной связи с вами — невелико дело, но если изменится ваша заглавная страница — тут уже совсем другой расклад.

    Все ясно.

    11. Оценка по «разнообразию документов» — множеству страниц на данном вебсайте — включает в себя определение последней даты изменения для каждой страницы, определение средней даты изменения, и оценка документов, основанная на, «по крайней мере частично», различиях между изменением определенной страницы и усредненным изменением документа. Так, если одна страница содержит добавленную в нее новую информацию, она будет оцениваться отлично от других страниц, тогда как если все страницы изменялись совместно (например, новая дата, или новая ссылка, копирайт в «подвале, и т.д.), они все будут равнозначны (поскольку их дата изменения, соотнесенная с усредненной, одна и та же).

    Очень интересная мысль, тоесть отслеживаются изменения по всему сайту одновременно, есть смысл изменять «накатом».

    Количество изменений с течением времени

    12. Оценка Google может, также, включать измерение количества контента, который изменяется с течением времени на данном вебсайте.
    13. «Степень изменения контента» из п.11 будет определяться из соотношения новых страниц к общему количеству страниц на сайте, и по процентному содержанию измененного контента в течение определенного промежутка времени.

    Проще говоря, всё должно быть плавно? Тоесть +100к страниц, это видимо довольно серьезный шаг, который может повлечь за собой варианты?

    14. «Изменения в течение определенного промежутка времени» из п.12 будут оцениваться на основании «различного веса различных частей контента, на основании воспринимаемой важности». Опять же, я понимаю это как внешние и внутренние ссылки на страницу — чем больше ссылок, тем выше «воспринимаемая важность».

    Данные Click-Through Rate

    15. «ВременнЫе данные» из п.1 могут включать информацию о том, «как часто документ выбирался из набора результатов поисковых запросов». Это буквально означает отслеживание кликов и награждение соответствующих сайтов с бОльшим CTR — наподобие тому, как действует AdSense. Google будет оценивать, основываясь на «показателе того, как часто документ выбирался с течением времени… при включении в набор результатов поисковых запросов». Мы всегда предполагали, что так оно и есть, но это первое однозначное свидетельство, полученное непосредственно из первых уст.

    И завтра появится новая волна clicker-ов? Видимо Google к этому готов? Или это утка?

    16. Google будет назначать «бОльшую оценку», когда документ выбирается чаще. Тут большого ума не надо.

    А вот и вторая волна кликеров.

    Соответствие документа поисковым терминам

    17. Google может оценивать, основываясь на «определении, соответствует ли документ (который появился в результатах поискового запроса) поисковым терминам.

    Поисковые термины — словосочетания из AdWords?

    Запросы, которые не изменяются, но со временем приобретают новое значение

    18. Google (согласно Патенту) определяет, остается ли неизменной или меняется «информация, относящаяся к запросам», и на основании этого оценивает документы. Например, до 11 сентября фраза 9-11 никак не соотносилась с терроризмом, однако после этих событий ситуация изменилась. Google будет рассчитывать документы, основываясь на изменениях в результатах данного запроса, чтобы идти в ногу со временем.

    Просроченность документов.

    19. «Просроченность документов» учитывается, как составляющая оценки Google.

    20. Google может, также, определять, являются ли «просроченные документы» более предпочтительными для определенных типов запросов (тех, которые не изменяются с течением времени, или на которые требуется особый, однозначный ответ).

    21. «Предпочтительность» просроченных документов может быть определена, исходя из того, как часто на них кликали в результатах поиска (по сравнению с другими документами). Мне нравится пример со статьей из Wikipedia о природе вулканов — она не нуждается в особых обновлениях и будет долгое время служить хорошим релевантным источником для запроса — «природа вулканов».

    Поведение ссылок

    22. ВременнЫе данные могут, также, принимать во внимание «поведение ссылок с течением времени».

    23. Появление и исчезновение ссылок отражается на оценке поведения ссылок (из п.22) 24. Появление/исчезновение ссылок датируется в системе Google и используется при оценке.

    25. Появления/исчезновения ссылок отслеживаются, и Google измеряет, «какое количество ссылок появилось или исчезло в течение промежутка времени, и наблюдается ли тенденция» к увеличению или уменьшению ссылок. ВременнАя (зависящая от времени) природа групп ссылок будет оцениваться Google.

    Свежесть ссылок

    26. Google может использовать «свежесть ссылок» и назначать ссылкам удельный вес, основываясь на свежести.

    27. «Свежесть» ссылки (из п.26) рассчитывается по дате появления этой ссылки, по дате любых изменений в ссылке или анкор-тексте, по дате появления страницы и сайта, с которого ведет ссылка, и по дате ссылок на эту ссылающуюся страницу. Итак, если у вас есть новая запись в блоге, которая ссылается на новый сайт, свежесть будет максимальной, поскольку страница новая, ссылка на страницу новая, страница блога, которая содержит ссылку на страницу новая, и ссылка на запись в вашем блоге с вашего же сайта тоже новая (слишком много нового, поэтому ссылка будет суперсвежей).

    И супер хорошей? Свежесть это хорошо? А может быть старая ссылка со старого сайта это еще лучше?

    28. Вес ссылки учитывает, также, насколько сайт «заслуживает доверия», насколько важна страница, содержащая ссылку, и насколько «свежи» страница и сайт, содержащие ссылку.

    Ничего нового

    29. Оценка учитывает, также, «распределение возраста в связи со ссылками, основанное на возрасте ссылок». Google примет во внимание возраст ссылок на вашу страницу, и временной период, за который вы получили ссылки, то есть, количество новых ссылок, протяженность процесса во времени, давно ли получены большинство ссылок, и т.д.

    Изменения в анкор-тексте с течением времени

    30. Google может, также, рассчитывать изменения в анкор-тексте с течением времени, и использовать полученные данные для оценки. Я полагаю, что анкор-текст не меняется очень часто, однако ничто им не мешает измерять эту величину.

    Очень интересно, только не ясно, насколько это хорошо или плохо. Тоесть изменение текста линка это конечно фактор, но если он например часто меняется — насколько это хорошо или плохо?

    Изменения контента в документе по сравнению с соответствующим анкор-текстом

    31. Google, также, может измерять, изменился ли контент документа, в то время как анкор-текст остался неизменным, и наоборот. Таким образом они пытаются защититься от манипуляций с анкор-текстом, когда документ выглядит релевантным анкор-тексту, а затем заменяется чем-то другим.

    Следовательно можно установить связь «контент-ссылка» и если все динамически меняется это хорошо, а если идут манипуляции только с линками — то плохо.

    Свежесть анкор-текста

    32. Свежесть анкор-текста может быть принята во внимание.

    33. Свежесть анкор-текста рассчитывается по «дате появления», «дате изменения» и датам изменения и появления страницы, на которой расположена ссылка.

    И разумеется с поправкой на изменение контента на странице, на которую стоит линк
    со свежим текстом.

    Характеристики трафика сайта/страницы

    34. Характеристики трафика, соответствующие странице/сайту могут приниматься во внимание при оценке.

    35. Образцы трафика будут проходить соответствующий анализ, результаты которого будут использоваться в оценке Google. Так, Google, скорее всего, измеряет трафик на сайт/страницу и определяет, увеличивается или уменьшается он с течением времени — они определяют тенденции, на которых основываются при оценке.

    Разумеется это все на основании данных GoogleBar. К GoogleBar’у мы пристально присмотримся чуть познее.

    Поведение пользователя

    36. Поведение пользователя в отношении отдельной страницы/сайта может отражаться на оценке.

    37. Google говорит, что поведение пользователя (из п.36) — это, в основном, просто процент кликов пользователей на сайт/страницу, когда он появляется в результатах поиска, наряду с количеством времени, которое проводит пользователь «пользуясь документом». Думаю, нам всем нужно отслеживать количество времени, которое пользователи проводят на наших сайтах.

    И снова Toolbar. Вез него оценивать поведение (пусть и среднестатистическое просто не реально).

    Информация, касающаяся домена

    38. Оценка может, также, включать сайты, ассоциированные с данным сайтом, и «информацию, касающуюся домена». Подробнее это объясняется ниже.

    39. Ассоциированные сайты (из п.38) оцениваются с позиций «легитимности», что я понимаю как не-спаммеры, имеющие другого владельца, и т.д. Google говорит, в частности, что «оценка документа основывается… на том, легитимен ли домен, ассоциированный с документом».

    40. «Дата окончания срока регистрации домена», «запись доменного name-сервера» и «name-сервер, ассоциированный с доменом являются составляющими того, каким образом Google устанавливает легитимность «ассоциированного» сайта.

    Google недавно стал регистрантом доменных имен, как говорит руководство — не для того чтобы продавать домены, а для того, чтобы иметь полную информацию по доменным именам. Для справки — стоимость регистрации регистранта первого уровня около $7,000

    Данные предыдущих ранкингов

    41. Оценки временнЫх данных принимают во внимание, также, «информацию, относящуюся к предыдущему ранкингу». Это значит, что Google будет хранить информацию о предыдущих ранкингах сайта и использовать ее в последующих оценках.

    42. Google может, также, рассчитывать, где находился сайт в предыдущих ранкингах и как изменилось его положение, и использовать полученные результаты при оценке.

    43. По отношению к п.41, Google использует сезонность, «ажиотажность» и изменения в оценках с течением времени как метрики для расчета оценок предыдущих ранкингов. Так, если сайт особенно релевантен запросу «подарки подруге» накануне Дня Святого Валентина, но не подходит тому же запросу перед Рождеством, Google отметит эту информацию и будет ранжировать соответствующим образом.

    44. Google, также, может (в рамках п.41) учитывать «пики рейтинга» сайта/страниц в поисковых результатах.

    Сверх интересная, как для меня, информация. Пока воздержусь от комментариев, сейчас хочу примерить эту «одежку» к своим сайтам и сделать какие-то выводы. Но то что эта информация может быть собрана и использована — факт.

    Данные, предоставляемые пользователем

    45. «Данные, предоставляемые пользователем» также могут учитываться и отслеживаться для оценки ранкинга.

    46. «Данные, предоставляемые пользователем» включают в себя: списки «Избранное», букмарки, темп-файлы и кэш-файлы пользователей, за которыми ведется наблюдение. Мне не совсем понятно, как они могут получать подобные данные без установки «Google Spyware» — возможно, в виде поиска на рабочем столе или тулбара Google.

    47. Результаты наблюдений за тем, насколько интенсивно сайт/страница «добавляется или убирается из данных, генерируемых пользователями», могут использоваться при оценке.

    Не думаю что эта информация очень влиятельна, но её влияние наверно таки есть.
    К продолжению разговора о Google Spyware: становится понятен смысл разработок Google Toolbar и Google Desktop.

    Динамика роста анкор-текста

    48. Оценки могут включать «динамику роста анкор-текста» — Google может мониторить использование анкор-текста в больших группах и отслеживать где/когда они указывают на различные сайты и страницы.

    Видимо имеется ввиду динамика роста различного анкор-текста.

    Залинковка независимых равнозначных сайтов (peers)

    49. Информация, «касающаяся залинковки независимых равнозначных сайтов» может быть добавлена в оценку путем «определения роста количества независимых равнозначных сайтов, которые содержит документ». Google, в целом, будет мониторить сайты, которые не относятся к вашей отраслевой категории, и то, как они на вас ссылаются (я предполагал, что здесь подразумевались не относящиеся к предмету равнозначные сайты, но на самом деле имеются в виду сайты «не по теме», см. ниже «Залинковка независимых равнозначных сайтов»).

    Темы документа

    50. «Темы документа» могут быть включены в оценку, здесь используется «экстракция тем». Я полагаю, что этот процесс определяется тем, как Google добывает текст и анализирует содержащиеся на странице слова.

    Идентификация релевантных документов.

    51. Релевантность документов данному поисковому запросу может быть частью системы оценки. Таким образом Google дает понять, что документы про «розовых псов» будут анализироваться ранкинговым алгоритмом, когда пользователь вводит запрос «розовые псы».

    Если имееться ввиду local rank то вполне может быть, и я вполне допускаю что этот алгоритм давно работает.

    Разнообразие временнЫх данных

    52. Google может, также, использовать «средства для получения разнообразных типов временнЫх данных, ассоциированных с документом», для оценки сайтов/страниц. Это означает, что они будут использовать методологию, которая группирует все разрозненные части временнОй информации для определения оценки.

    ВременнАя компонента.

    53. «ВременнЫе данные» могут измеряться Google и использоваться в ранкингах. Я не совсем уверен, что они под этим подразумевают — полная цитата: «Система для оценки документа, включающая в себя: временнУю компоненту, составленную таким образом, чтобы получить один или более типов временнЫх данных, ассоциированных с документом; и ранкинговая компонента, составленная для: генерации оценки документа, основанной, хотя бы частично, на одном или более типов временнЫых данных».

    Грубо говоря, если сайт попал в песочницу, или под какой-то фильтр, то он преобретает какой-то новый «временной статус», и все последующие ранкинговые компоненты частично могут базироваться на этом статусе. Тоесть раз попавшись — пятно на всю жизнь?!

    Ранкинг залинкованных документов.

    54. Google может измерять документы, на которые вы ссылаетесь и оценивать на основе «угасающей функции возраста данных о залинковке». Так, в расчет принимается свежесть или застойность линков (однако неизвестно, что дает положительный, а что отрицательный результат).

    55. Для п.54, Google говорит, что «данные о залинковке включают, по меньшей мере, одну ссылку». Итак, они не будут измерять данные о залинковке для страниц, не содержащих ссылок.

    56. Для п.54, Google может включать анкор-текст в данные о залинковке.

    57. Для п.54, Google говорит, что данные о залинковке включают в себя рейтинг, основанный… на ссылках и анкор-тексте, предоставленных одним или несколькими ссылающимися документами». Google просто сообщает, что данные о залинковке включают в себя анкор-текст и другую информацию о ссылках, ведущих на страницу.

    58. Google может использовать «продолжительность залинкованных данных» и на основании этих показателей вносить коррективы в ранкинги, учитывая изменения, стабильность и возраст залинкованных данных. Ниже они объясняют, как это все оценивается.

    59. Google будет «понижать ранкинг, если продолжительность указывает на короткую жизнь данных о залинковке, и повышать ранкинг, если продолжительность показывает долгую жизнь данных о залинковке.» На самом деле, Google в общих чертах объясняет то, что мы называем «песочница (sandboxing)» — чем старее ссылка, тем большую ценность она имеет, в то время как новые ссылки имеют относительно низкую ценность. Это не объясняет полностью весь процесс, поскольку многие сайты быстро получают хороший ранкинг, но хоть какое-то объяснение феномена мы имеем.

    60. Google может изменять оценку, штрафуя за ссылки на документы, которые они считают «просроченными» в течение какого-то промежутка времени, и повышать оценку за часто обновляемый контент. Так, лучше ссылаться на страницу, которая часто обновляет свой контент.

    61. «Линкобойка» (link churn) может измеряться (объясняется в п.62) и на основе этих данных вносятся поправки в оценку.

    62. «Линкобойка» «рассчитывается как функция от изменения одной или более ссылок, содержащихся в документе, с течением времени». Опять же, Google ссылается на изменения в направлении ссылок, их анкор-текстов, и т.д. на данной странице. Чем больше изменений, тем круче «сбиваются ссылки».

    63. «Линкобойка» может вызвать штрафы, если она превосходит определенные границы. Так, если ваши ссылки все время меняются, ссылка не будет обладать большой ценностью. Это должно нейтрализовать методы, используемые популярной спаминговой компанией «Traffic Power/1p».

    Комментарии следуют…

    2 Responses to “Патент Google: временнЫе данные”

    1. 1 Дима
      Январь 22nd, 2006 at 11:35

      Очень хорошая статья, спасибо автору!

    2. 2 А Соломко
      Февраль 18th, 2008 at 21:32

      Да.

      У меня на сайте есть одна страница, которая в 5-ке топа. Страница регулярно обновляемая, по 2-3 раза в неделю. Страница СЧ.