Помощник
|
Парсер вебархива на php |
k0ttee
|
Сообщение
#1
|
|||||
|
|
|||||
|
||||||
Aman_sf |
30.10.2014, 23:45;
Ответить: Aman_sf
Сообщение
#2
|
|
вебархив некоторые картинки удаляет, а некоторые оставляет. Поэтому иногда там приходится искать свои картинки.
|
|
|
prolisk |
31.10.2014, 11:37;
Ответить: prolisk
Сообщение
#3
|
|
И главное - все абсолютно бесплатно! :beach:
1. Сколько по времени примерно сканит 100 страниц? 2. Если на линухе запустить 5-10 таких сканеров, систему тупит или нет? (плюс линухи в том, что я запускал много разных задач и она в отличии от виндовса не тупила так) -------------------- Блог вебмастера. Добавь свой сайт в белый каталог |
|
|
k0ttee
|
Сообщение
#4
|
|
вебархив некоторые картинки удаляет, а некоторые оставляет Это лучше чем ничего, да и выбирать не приходится. Восстановленный сайт все равно идет во всякие сапы, так что картинки не важны - главное восстановить CSS и картинки на главной. все абсолютно бесплатно Свободно ≠ бесплатно. За такую бесплатность приходится расплачиваться своим временем. Сколько по времени примерно сканит 100 страниц? Вебархив открывается не быстро. Если не устраивает вывод отчетности, можно допилить вывод циферок. Если на линухе запустить 5-10 таких сканеров, систему тупит или нет? Смотря как настроено php. Если память утекает, можно и одной ногой в swap попасть. Хотя, по менеджеру процессов памяти ест копейки. плюс линухи в том, что я запускал много разных задач и она в отличии от виндовса не тупила так Смотря что и на чем запускать. Прикладные задачи бывают разные. -------------------- btc: 3Hq7X9CosVftRFPqWis1Dkk5MdtM1u6jj9 |
|
|
webguru77 |
23.10.2017, 12:45;
Ответить: webguru77
Сообщение
#5
|
|
k0ttee, как могу с вами связаться? есть вопрос по поводу платной доработки парсера
|
|
|
k0ttee
|
Сообщение
#6
|
|
есть вопрос по поводу платной доработки парсера А разве уже не работает в том виде, который представлен тут? -------------------- btc: 3Hq7X9CosVftRFPqWis1Dkk5MdtM1u6jj9 |
|
|
webguru77 |
23.10.2017, 14:04;
Ответить: webguru77
Сообщение
#7
|
|
(k0ttee) есть вопрос по поводу платной доработки парсера А разве уже не работает в том виде, который представлен тут? Работает, но качает только одну страницу и все. Хотя в логе пишет "ok" для всех страниц из списка для скачивания. Нужно платно сделать возможность пакетного скачивания, ну то есть циклом. Я в php совсем слаб, сам хз как сделать( Если можно ваш скайп или почту в лс. Или тут скиньте, свяжусь Добавлено спустя 3 минуты 54 секунды: Написал в лс |
|
|
k0ttee
|
Сообщение
#8
|
|
Обновленная версия, собирающая относительные ссылки.
<?php
$target=''; //ссылка на главную в вебархиве, пример http://web.archive.org/web/20150315224128/http://site.ru/ set_time_limit(0); $domain=preg_replace("#(.*)http://#",null,$target); //выделяю домен $domain=str_replace('/',null,$domain); //выделяю домен $way=preg_replace("#http://$domain(.*)#",null,$target); //выделяю путь (начало ссылок в вебархиве) #функция извлекает все ссылки на странице function extract_all_links($target,$domain){ if(@$file=file_get_contents($target)){ $file=preg_replace("#\r\n#",null,$file); $file=preg_replace("#\n\r#",null,$file); $file=preg_replace("#\n#",null,$file); if(preg_match("#Wayback Machine doesn't have that page archived.#",$file)){ global $crashed; $crashed[]=$target; return; } #нахожу все ссылки preg_match_all("/<[Aa][\s]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"\s]*([^ \"'>\s#]+)[^>]*>/",$file,$matches); $urls=preg_replace("#(.*)http://#","http://",$matches[1]); #убираю из ссылок домен $urls=str_replace('http://'.$domain,null,$urls); $urls=str_replace('http://www.'.$domain,null,$urls); #чищу дубли и пустышки $urls=array_unique($urls); $urls=array_filter($urls); #убираю абсолютные ссылки, начинающиеся с домена отличного от целевого foreach($urls as $url){ if( !preg_match("#http://#",$url) && !preg_match("#https://#",$url) ){ $url=preg_replace("#^/#", null, $url); //убараю слеш в начале относительной ссылки $relative_urls[]=$url; //если нет ни http ни https - складываю в массив относительных ссылок } } #чищу дубли и пустышки $relative_urls=array_unique($relative_urls); $relative_urls=array_filter($relative_urls); $relative_urls=implode("\n",$relative_urls); return $relative_urls; }else{ global $crashed; $crashed[]=$target; return; } } #первый проход echo "\n###\n#1#\n###\n"; $site_map1=extract_all_links($target,$domain); $index=explode("\n",$site_map1); echo 'ONE='.count($index)."\n"; echo "\n###\n#2#\n###\n";; foreach($index as $second){ $site_map2[]=extract_all_links($way.'http://'.$domain.'/'.$second,$domain); } $site_map2=implode("\n",$site_map2); $site_map2=explode("\n",$site_map2); $site_map2=array_unique($site_map2); $site_map2=array_filter($site_map2); $index2=$site_map2; echo 'TWO='.count($site_map2)."\n"; $end=implode("\n",$index)."\n".implode("\n",$site_map2); $end=explode("\n",$end); $end=array_unique($end); $end=array_filter($end); file_put_contents('site-map.txt',implode("\n",$end)); if(count($crashed)!=0){ file_put_contents('crashed-map.txt',implode("\n",$crashed)); } echo 'CRASHED='.count($crashed)."\n"; ?> -------------------- btc: 3Hq7X9CosVftRFPqWis1Dkk5MdtM1u6jj9 |
|
|
zverr |
30.9.2020, 17:59;
Ответить: zverr
Сообщение
#9
|
|
Виндузятник ничего не понял :blink:
-------------------- |
|
|
Денчик |
30.9.2020, 21:49;
Ответить: Денчик
Сообщение
#10
|
|
(zverr) Виндузятник ничего не понял PHP из под винды тоже запускается. Для этого только софтину нужно соответствующую установить. На это туториалов в сети полно. А дальше, насколько я понял, вместо строки $target=' '; прописываешь строку $target='http://web.archive.org/web/20150315224128/http://site.ru/'; Где вместо site.ru прописываешь нужный сайт. И запускаешь этот скрипт, в соответствующей программе. |
|
|
|
Похожие темы
Тема | Ответов | Автор | Просмотров | Последний ответ | |
---|---|---|---|---|---|
A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров. | 351 | Forbidden | 277485 | 11.3.2024, 13:49 автор: AParser_Support |
|
Восстановление сайтов из Вебархива на Wordpress. | 39 | freeax | 32405 | 14.2.2024, 14:32 автор: freeax |
|
Бесплатный парсер бот в Телеграм - [Parser Pro] | 5 | Parser_Pro | 3265 | 27.1.2024, 16:12 автор: Parser_Pro |
|
СОЗДАНИЕ : / САЙтЫ / ЛЕНДЫ / БОТЫ ТГ / ВАЙТЫ / КРЕО / СОФТЫ / ДИЗАЙН [PHP, JS, HTML/CSS] и другое | 5 | CULA | 3244 | 19.12.2023, 18:55 автор: CULA |
|
Услуги по созданию и доработке скриптов PHP, MySQL, JavaScript, jQuery Разработка сайтов и сервисов под-ключ |
0 | alexey | 1130 | 24.11.2023, 14:46 автор: alexey |
Текстовая версия | Сейчас: 19.3.2024, 15:44 |