На главную
Контакты
Карта сайта
+7 920-274-09-13
zfsfg
AYurov
zfrsfg
novopromo.ru
О нас
Наши клиенты
Услуги
Дизайн сайта
Разработка сайта
Продвижение сайта
Контекстная реклама
Поисковый аудит
Архив новостей
Статьи
Ваши благодарности
Контакты




PhraseRank

Обнаружение спам документов в информационной поисковой системе основанной на словосочетаниях (фразах)
РЕЗЮМЕ

информационная поисковая система использует словосочетания для индексации, извлечения, организации и описания документов. Словосочетания идентифицируются таким образом, что позволяют предсказывать появление других словосочетаний в документах. Документы индексируются в соответствии с теми фразами, которые они в себе содержат. Спам документ идентифицируется, основываясь на количестве связанных фраз в документе.


ПУНКТЫ ПАТЕНТНОЙ ФОРМУЛЫ
Метод обнаружения спам документов в информационной поисковой системе с использованием компьютера, метод включает в себя: поддерживание списка фраз, каждая фраза ассоциируется со списком родственных фраз; определение ожидаемого количества родственных фраз присутствующих в документе для любой фразы из списка фраз; определение для документа и хотя бы для одной фразы в документе действительное количество родственных фраз присутствующих в документе; определение документа как спам документа путем сравнения действительного количества родственных фраз присутствующих в документе с ожидаемым количеством родственных фраз.
Метод, описанный в пункте 1, где определение ожидаемого количества родственных фраз присутствующих в документе для любой фразы из списка фраз далее состоит из: прохождения по дереву поиска индекса документов; определение набора фраз в документе из списка фраз, для каждой фразы в документе, для каждого документа, а также определения количества родственных фраз в документе; определение ожидаемого количества родственных фраз, как среднего числа определенного количества родственных фраз во всех пройденных документах.
Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа, если действительное количество родственных фраз в документе значительно превышает ожидаемое количество родственных фраз для хотя бы одной фразы.
Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа, если действительное количество родственных фраз присутствующих в документе, хотя бы для одной фразы, превышает ожидаемое количество родственных фраз или, по крайней мере, число кратное стандартному отклонению от ожидаемого количества родственных фраз.
Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа, если действительное число родственных фраз в документе хотя бы для одной фразы превышает ожидаемое число родственных фраз или, по крайней мере, число кратное ожидаемому числу родственных фраз.
Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа где, для каждой минимальной множественности фраз в документе, действительное число родственных фраз в документе значительно превышает ожидаемое число родственных фраз.
Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа где, действительное число родственных фраз представленных в документе, по крайней мере, для одной фразы превышает предопределенный максимум ожидаемого числа родственных фраз.
Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения для документа набора наиболее значимых фраз представленных в документе; определение действительного числа родственных фраз представленных в документе для каждой из наиболее значимых родственных фраз; определение документа как спам документа по отношению к значимой фразе, если действительное число родственных фраз значительно превышает ожидаемое число родственных фраз.
Метод, описанный в пункте 1, далее состоит из: добавления документа в список спам документов, в зависимости от того был ли он определен как спам документ.
Метод, описанный в пункте 9, далее состоит из: получения поискового запроса, предоставление набора документов релевантных поисковому запросу, каждый документ обладает определенным значением по релевантности; определение, был ли документ идентифицирован как спам документ, для каждого документа в наборе документов; понижение значения релевантности документа, если документ был идентифицирован как спам документ; организация набора документов в зависимости от их значений релевантности.
Метод, описанный в пункте 8, далее состоит из: добавления документа к списку спам документов ассоциированных с наиболее значимой фразой; добавление документа к списку спам документов ассоциированных с родственной фразой, для каждой из родственных фраз наиболее значимой фразы.
ПРЕДПОСЫЛКи иЗОБРЕТЕНиЯ

[0003] Системы информационного поиска, которые также называют поисковыми машинами, на сегодняшний день являются неотъемлемой частью при поиске информации в таком многообразном, постоянно растущем информационном пространстве, как интернет. В общем, работу поисковой машины можно описать следующим образом: поисковая машина создает индекс, который соотносит документы (или "страницы") с отдельными словами, встречающимися в каждом документе. Документ предоставляется пользователю в ответ на запрос, содержащий определенное число поисковых запросов, как правило, приблизительно такое же число поисковых запросов содержится и в документе, который предоставляется. Предоставленные документы впоследствии ранжируются в соответствии с другими статистическими данными, такими как, частота поискового запроса в документе, доменное имя, анализ ссылок и т. д. Предоставленные документы затем отображаются пользователю, обычно, в том порядке, в котором они были ранжированы, и без какой либо последующей группировки или иерархии. В некоторых случаях, часть текста из документа предоставляется вместе со ссылкой на документ, для того чтобы дать представление о документе.

[0004] Прямое "булево" совпадение поисковых запросов имеет хорошо известные ограничения, и не обнаруживает документы, которые не имеют в себе поисковых запросов, но имеют родственные слова. Например, в типичной "булевой" системе, поиск "Australian Shepherds" не выдаст документы о других пастушьих собаках, таких как Border Collies, название которых не является прямым совпадением с поисковым запросом. Кроме того, такая система, выдаст большое количество документов со словами Australia и "shepherds" и поднимет их высоко при ранжировании (но они не будут иметь никакого отношения к пастушьим собакам).

[0005] Проблема в том, что традиционные системы индексируют документы, основываясь на отдельных словах, а не на концептах. Концепты часто выражаются во фразах, таких как, "Australian Shepherd," "President of the United States," и "Sundance Film Festival". В лучшем случае, прежние системы будут индексировать документы относительно заранее предопределенного и очень ограниченного набора "известных" фраз, которые обычно отбираются оператором-человеком. индексации фраз, как правило, не происходит, из-за нехватки вычислительных мощностей и памяти для идентификации всех возможных фраз из скажем трех, четырех или пяти и больше слов. Например, если допустить, что любые пять слов могут сформировать фразу, а в большом корпусе содержится приблизительно 200,000 слов, то получится примерно 3.2Х10 в 26 возможных фраз, очевидно гораздо больше, чем любая система может хранить и обрабатывать. Еще одной проблемой является то, что в лексиконе постоянно появляются новые фразы и исчезают старые, и это происходит гораздо чаще, чем появляются новые слова. Такие области как технологии, искусство, мировые события, право - являются активными генераторами новых фраз. Употребление других фраз постепенно уменьшается.

[0006] Еще одной проблемой, с которой сталкиваются существующие системы поиска информации - это появление спам документов. Некоторые из спам документов являются документами, которые не несут никакого смысла, а всего лишь являются коллекцией популярных слов и фраз, зачастую они встречаются в количествах сотен и тысяч; такие страницы называются "страницами забитыми ключевыми словами". Другие спам страницы включают слова и фразы, на которые ориентируются рекламодатели. Такие типы документов, создаются с целью попадания в выдачу поисковиков для отображения рекламы. Однако, для пользователя, который ищет определенную информацию, такие документы не представляют ценности и являются только тратой времени.

[0007] Соответственно, существует необходимость в системе поиска информации и методологии, которая бы позволяла полноценно идентифицировать фразы в корпусах больших размеров и индексировать документы полагаясь на фразы. В дополнение, существует необходимость в системе поиска информации для идентификации спам документов и отфильтровывания таких документов из результатов выдачи.
РЕЗЮМЕ иЗОБРЕТЕНиЯ

[0008] Система поиска информации и методология использует фразы для индексации, поиска, ранжирования и описания документов в коллекции документов. Система настроена таким образом, что идентифицирует фразы, которые наиболее часто встречаются в коллекции документов и маркирует их как "полноценные" или "хорошие" фразы. Таким образом, возможно, идентифицировать фразы, состоящие из четырех, пяти или более слов. Это решает проблему необходимости в идентификации всех возможных фраз, которые мы получаем в результате перестановок всех имеющихся слов.

[0009] Система далее настроена таким образом, что идентифицирует фразы, которые родственны друг другу, основываясь на возможности предсказания присутствия других фраз в документе. Если быть более точными, то показатель прогноза это отношение между действительным показателем встречаемости двух фраз и ожидаемым показателем встречаемости двух фраз. Прирост информации, отношение между действительным процентом встречаемости и ожидаемым - это один из способов вычисления этого показателя прогноза. Две фразы являются родственными, когда показатель прогноза превышает порог. В этом случае, вторая фраза имеет значительный информационный прирост относительно первой фразы. Семантически, родственными фразами будут те, которые обычно используются для описания той или иной темы, как например, "President of the United States" и "White House." Для определенной фразы, родственные фразы могут быть расположены в определенном порядке, в соответствии со степенью их релевантности или значимости, основываясь соответственно на их показателях прогноза.

[0010] Система поиска информации настроена таким образом, чтобы идентифицировать спам документ, основываясь на чрезмерном количестве родственных фраз наличествующих в документе.

[0011] Настоящее изобретение имеет последующие варианты осуществления изобретения в областях: архитектуры программного обеспечения, компьютерных программ, методов используемых компьютерными программами, компьютерно сгенерированными интерфейсами и презентациями.

[0012] Последующий материал, является описанием всего лишь нескольких основных черт из системы поиска информации и методологии, которые основываются на фразах. Те, кто обладают знаниями в области систем информационного поиска, оценят гибкость и широкие возможности системы работающей основываясь на фразах для индексации, аннотации, поиска и ранжирования при анализе и обработке документов...


Русский перевод под ред. и.Гурова
http://www.seoblog.biz/

  33 80 600 80