X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Нужен алгоритм проверки текста методом шинглов
k0ttee
k0ttee
Topic Starter сообщение 29.5.2014, 11:39; Ответить: k0ttee
Сообщение #1


Надоел мне уже этот "проверяйзер", который Advego Plagiatus зовут. Хочется многопоточности и пакетной проверки, так сказать, поставить проверку текстов на промышленные рельсы (сразу с отбрасыванием неуника по фильтру).

Написать такое на php будет довольно легко: нарезать текст да пихать кусочки в поисковики сверяя выхлоп.
Вопрос только в том, каким вообще раком сопоставлять тексты методом шинглов?

Гуглил я шинглы с супершинглами и даже старательно читал много букв. Да вот так и не придумал как запилить.


--------------------
Задонь кибер-коту на крипто-вискас
btc: 3Hq7X9CosVftRFPqWis1Dkk5MdtM1u6jj9
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
airman
airman
сообщение 31.5.2014, 18:54; Ответить: airman
Сообщение #2


я одно время пытался с ними разобраться, потом бросил это нудное дело))


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
prolisk
prolisk
сообщение 6.6.2014, 2:07; Ответить: prolisk
Сообщение #3


давайте разберемся.
1. форма для текста. легко
2. проверка кусками в гугл. легко
3. шинглы. возьмем, к примеру, 4. что если каждому слову присваивать номер. (такое ведь возможно? :) ) далее берем номер 1,2,3,4 и проверяем, следующий цикл 2,3,4,5, потом цикл 3,4,5,6...
хм, у кого какой ход мыслей?


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Amney_rs
Amney_rs
сообщение 6.6.2014, 3:28; Ответить: Amney_rs
Сообщение #4


(prolisk)
давайте разберемся.
1. форма для текста. легко
2. проверка кусками в гугл. легко
3. шинглы. возьмем, к примеру, 4. что если каждому слову присваивать номер. (такое ведь возможно? :) ) далее берем номер 1,2,3,4 и проверяем, следующий цикл 2,3,4,5, потом цикл 3,4,5,6...
хм, у кого какой ход мыслей?

Ничего не понял ))


--------------------
Доступные VPS под киносайты Дешевые VPS и хостинг - проверено временем и на собственном опыте! Отлично хостимся уже третий год!Заметки сис. админа - уникальные посты
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
k0ttee
k0ttee
Topic Starter сообщение 6.6.2014, 14:43; Ответить: k0ttee
Сообщение #5


3. шинглы. возьмем, к примеру, 4. что если каждому слову присваивать номер. (такое ведь возможно? :) ) далее берем номер 1,2,3,4 и проверяем, следующий цикл 2,3,4,5, потом цикл 3,4,5,6...
хм, у кого какой ход мыслей?

Я бы с пристрастием распросил авторов Advego Plagiatus, но на форуме они не признаются как их программа проверяет.

Технически я все это могу сделать. Но нужен алгоритм, чтобы оно работало правильно.

1. форма для текста. легко
2. проверка кусками в гугл. легко

Форма да, но я прям горю желанием заюзать file_get_contents('/папка/'.$file.'.txt'); внутри цикла, чтобы оно пакетно проверяло.
Куски в гугл запросто шлются через PHP+cURL.

Даже не знаю, приколоться что-ли да написать в поддержку Гугла? Может там подскажут...


--------------------
Задонь кибер-коту на крипто-вискас
btc: 3Hq7X9CosVftRFPqWis1Dkk5MdtM1u6jj9
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
prolisk
prolisk
сообщение 6.6.2014, 14:47; Ответить: prolisk
Сообщение #6


Amney, это криво-алгоритм, как реализовать задумку коттее ))

k0ttee, напиши.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
airman
airman
сообщение 6.6.2014, 22:28; Ответить: airman
Сообщение #7


(k0ttee)
они не признаются как их программа проверяет

а если предложить вознаграждение? :)


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
k0ttee
k0ttee
Topic Starter сообщение 7.6.2014, 0:08; Ответить: k0ttee
Сообщение #8


а если предложить вознаграждение?

Ну вот еще... Во-первых, придется искать того самого программиста (хотя найти вполне реально) и откатывать интересную сумму (over9000 как много денег). Те, на кого он работал, являются юридическим лицом и там полюбому есть бумажка о неразглошении коммерческой тайны. Хотя... В той конторе всего-то 10 или 15 человек и программист среди них. Он как бы часть команды и вряд ли согласится на палево темы.

Ради создания бесплатной программы с открытым исходным кодом еще и деньги вкладывать? Не, я конечно буду просить донейты в случае появления продукта на свет, но это будут копейки. Такая перспектива как-то не очень торт. <_<

И вообще - это бред: платить деньги, если я сам это написать собрался. Вы не находите? :blush:

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


--------------------
Задонь кибер-коту на крипто-вискас
btc: 3Hq7X9CosVftRFPqWis1Dkk5MdtM1u6jj9
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Нужен сайт с автонаполнением по XML
1 REGNET 1081 7.3.2024, 15:08
автор: REGNET
Открытая тема (нет новых ответов) Нужен райтер на постоянку
13 Kiloan_Frost 3273 6.3.2024, 22:24
автор: vitaliraduga
Открытая тема (нет новых ответов) Нужен постинг в твиттер
3 uahomka 1681 20.2.2024, 1:00
автор: robot_yaga2
Открытая тема (нет новых ответов) Перевод текста в речь нейросетями - сервис Zvukogram
13 Zvukogram 7098 19.2.2024, 18:16
автор: freon_mr777
Открытая тема (нет новых ответов) Нужен исполнитель на постоянную основу для набора небольших текстов
19 Думающий 8765 9.2.2024, 16:04
автор: Думающий


 



RSS Текстовая версия Сейчас: 19.3.2024, 11:15
Дизайн