web разработка по низким ценам
ул. Шевченко, 37а / офис 1
Украина, ЧО, г. Нежин
+38 068 681 00 08
ежедневно с 08:00 до 22:00
Оставьте заявку, и мы перезвоним вам в течении 15 минут
отправить
Представьтесь пожалуйста *Например, Виктор Смирнов
Ваш номер телефона *Например, +38 (068)-681-00-08
Примечание для оператораНапример, Пожалуйста, свяжитесь со мной во второй половине дня
* - поля, обязательные для заполнения
x
Оставьте заявку, и мы свяжемся с вами в ближайшее время
отправить
Тема обращенияНапример, Требуется продвижение сайта
Представьтесь пожалуйстаНапример, Виктор Смирнов
Ваш номер телефонаНапример, +38 (068)-681-00-08
Ваш e-mailНапример, youname@site.com
Сообщение для оператораНапример, Пожалуйста, помогите мне определиться с тарифом
Все поля, обязательны для заполнения
x
» Стемминг – SEO-Wiki

Стемминг – SEO-Wiki

Опубликовано: 13.02.2017 в 01:50

Стемминг (от английского stemming) – поиск основы слова, который учитывает морфологию исходного слова. Стемминг производит морфологический разбор слова, выявляет его общую для всех грамматическую форуму основы, отсекая окончания и суффиксы.

Стемминг – SEO-Wiki

История стемминга

Джули Бет Ловинс написал первый размещенный стеммер в 1968 году. Его статья отличается ранней датой публикации и оказала существенное влияние на другие, более поздние работы в этой области.

Позже стеммер написал Мартин Портер и опубликовал его в 1980 году. Такой стеммер приобрел широкое распространение и стал стандартным алгоритмом для английских текстов.

В 2000 году Доктор Портер получить премию «Стрикса» за работы по стеммингу, а также поиск информации.

Алгоритмы стемминга, созданные Портером свободно распространялись. Но многие из них включают труднонаходимые недостатки. Как следствие, эти алгоритмы не могут работать в полную силу. Для того чтобы устранить подобные ошибки Мартин Портер создал официальную свободную реализацию алгоритма примерно в 2000 году. Он не прекращал работать над ним на протяжении нескольких следующих лет, создав Snowball – улучшенные стемменги английского языка и некоторых других языков.

Как работает стемминг

Поисковики, применяя в алгоритмах работы стемминга, получают возможность осуществлять поиск страниц с учетом морфологии слова. Это означает, что при вводе запроса пользователем, поисковик учитывает все возможные словоформы этого слова, отражая его в выдаче. Например, при отправлении поискового запроса «аквариум», в поисковой выдаче будут присутствовать все словоформы с основой введенного слова, такие как «аквариума», «аквариумы», «аквариумом» и т.д.

Анализатор стемминга mystem

«Яндекс» для морфологического поиска создала программу mystem. Анализатор может спокойно распространяться для некоммерческого использования. Предлагаются версии для самых распространенных операционных систем: Windows, Linux, MacOS и FreBSD. Анализатор mystem позволяет провести слова к словарной (начальной) форме, узнать их частотность в русском языке, а также грамматические характеристики. Морфологический анализ английского был доступен в версии 1.0. Программы mystem применяют для анализа словаря русских слов, которые чаще всего употребляются, и предлагают гипотетическую начальную форму для других.

Классификации словоформ сильно отличаются от общепринятых:

  • времена делятся на прошедшее и непрошедшее;
  • в одну парадигму включены многие глаголы, отличающиеся суффиксом, несовершенного и совершенного вида открыть (открыть {открывать}, открывать {открывать}).

Анализатор mystem используется в качестве основы ПО для морфологической разметки Национального корпуса русского языка (его создатели Поляков А. Е., Панкратов Д. В. и Титов В. А.).

Понравился материал? Поделитесь с друзьям:
0
Поделилось
0 комментариев к новости
Комментарии к данной новости отсутствуют. Будьте первым, и выразите свое менение!
Добавить комментарий
Ваше Имя:
Ваш E-mail:
Ваш комментарий: