В далеком 2009, Яндекс начал использование алгоритма в арсенале которого намного больше различных факторов для ранжирования. Этот способ машинного обучения, названный Матрикснет, достойно зарекомендовал себя, так как имеет высокую степень переобучаемости без надобности увеличивать число асессорских оценок.
Существует много факторов, которые могут самостоятельно или же комплексно определить тип каждого сайта учитывая разные условия. К примеру, чрезмерное число ключей на странице будет несомненно минусом и может нехорошо отразится на авторитете сайта для поисковика, есть и исключения, если веб-страница допустим будет каталогом, то вполне возможно что завышенное количество вхождений оправдано.
С появлением Матрикснета удалось сконструировать очень умную и сложную систему присвоения позиций с огромным числом коэффициентов. Данная методика машинного обучения ведет проверку огромного количества различных параметров за небольшое время и без сильной нагрузки на сервера.
Архитектура
Существует множество серверов которые подготавливают списки требуемых ответов, в результате этой подготовки получается список самых релевантных определенным запросам страниц. Далее эти страницы проходят проверку Матрикснетом. В результате этой работы мы быстро находим ответы на интересующие вопросы и в топе самые релевантные страницы.
Прежде чем запросы обработаются, происходит пара процессов:
- Составляется список различных факторов через описание страницы, веб-сайта, запроса, ссылок через большое количество разных признаков.
- Процесс обучения, в процессе которого Матрикснет выявляет все параметры ресурсов, находящихся в топе. На этом этапе работа асессоров заключается в оценке обучающей выборки, на основании которой работает формула ранжирования.
Алгоритм Яндекса улучшается, совершенствуется и развивается очень быстро, на протяжении последних лет появились возможности общения с веб мастерами, было уделено особое внимание созданию четких инструкций для асессоров, введено много новых пунктов для оценки сайтов.
Процесс обучения
Обучение Матрикснета происходит благодаря взаимодействию техники и человека. Начальными данными имеются много подобранных факторов, а так же обучающая выборка, в ней имеются сайты которые были максимально оценены, так же и нерелевантные.
Входные данные проходят загрузку в систему. Она начинает обрабатывать страницы, выделяя в них такие показатели, как релевантность и нерелевантность ресурсов. Все эти факторы предоставлены числами, поэтому формула находится подбором коэффициентов путем решения уравнений.
Простой пример уравнения: