LINUX.ORG.RU

интернет-сканер под Linux


0

0

в программировании я не силен, только немного С и PHP. мне надо написать программку сканирования интернета, не знаю как точно это можно реализовать. примерно как поисковый робот гугла и яндекса а вот что она должна делать: 1) брать из MySQL ссылки, то есть адреса сайтов 2) сканировать весь сайт на предмет других ссылок 3) заносить их в базу данных 4) делать некоторую статистику (количество ссылок на ресурс с других серверов, дата.....) на PHP не напишешь...ограничено время скрипта, да и медленно это работает. хотелось бы как демон запускать, чтобы постоянно работал. на трафик плевать (300-400 GB/M), на размер базы тоже, канал хороший - 100MBit

Цель - собрать все интернет адреса :)) a то ни один регистратор их просто так не отдаст ;)

libcurl --> ( Spirit || regex ) --> <a href=???> --> mysqlcppapi как из С сделать доступ к MySQL? и можете кинуть ссылку на пример реализации через С загрузки странички и libcurl?


Ответ на: комментарий от anonymous

eto esli izwestny imena...a esli nado imet' WSE(!!!) datebase? otkuda ty zneasch pro domen "ddd-xxx-mmm.com"? chtoby ego prowerit' est' li on?

Zel' - sobrat' WSE adresa!

i tut ne hwatit prosto perebora slow :(

alrond
() автор топика

Типа перл для этого рулит.
И libcurl тебе не надо. Есть lwp, и недавно тут пробегал топик как им пользоватся. С БД тоже проблем не будет.

roller ★★★
()

> мне надо написать программку сканирования интернета

А может тебе еще и "крякер интернета" надо?

RTFM, блин!

no-dashi ★★★★★
()
Ответ на: комментарий от no-dashi

ja woobshe-to wpolne ser'ezno... i ne wizhu nichego plohogo w tom, chtoby imet' takuju bazu dannyh. a woobshe prosto est' zadumka na odin nekommercheskiy(!) project.

i prezhde chem rugat'sja neploho bylo by prochitat' wse soobshenie...

alrond
() автор топика
Ответ на: комментарий от no-dashi

da i ne takoy uzh ja i lamer...prosto ne programmer(!), a elektrotechnik-ingenieur po telekommunikazijam. i set' - moja spezializacija. a project imenno setewoy. nu da ladno...wizhu, chto rugat'sja prosche, chem rabotat' i pomogat'

alrond
() автор топика
Ответ на: комментарий от alrond

> i prezhde chem rugat'sja neploho bylo by prochitat' wse soobshenie...

Алгоритмы обхода графов давно отработаны -> RTFM.

Все примеры есть в документации -> опять RTFM.

Никто не отдаст всех ссылок? спроси inurl:http: на google.com :-)

no-dashi ★★★★★
()
Ответ на: комментарий от alrond

>a kak na schet togo, chtoby PERL-SCRIPT(!) postojanno(!!) raboral, ili iz crona zapuskalsya by? skol'ko eto mozhet resursow CPU/RAM est'?
Можно сделать.
Читай по поводу демонов.
А насчет ресурсов - это смотря как быстро тебе инет отдавать будет.
Если он такой навороченный, то можно сделать чтобы параллельно несколько адрессов качал и парсил тогда на 100% загрузить можно будет.

roller ★★★
()
Ответ на: комментарий от roller

Забыл сказать: через некоторое время твой MySQL перестанет справлятся.

roller ★★★
()

Если ты думаешь, что все адреса хотя бы раз помянуты где либо в виде URL, и что граф получается связный - то ты шибко заблуждаешься.

baklan
()

>Алгоритмы обхода графов давно отработаны -> RTFM.

Ok. nashel :)

>Все примеры есть в документации -> опять RTFM.

docs k chemu?

>Никто не отдаст всех ссылок? спроси inurl:http: на google.com :-)

i chto? ja poprobowal...nichego normal'nogo

>через некоторое время твой MySQL перестанет справлятся

no s 6-7GB basoy on sprawitsja :))) prawdo tjazhelo, no sprawitsja. a bol'she i ne nado. 1 zapis' 100bytes*60.000.000 ili luchshe PostgreSQL postawit'?

По данным VeriSign, по всему миру в общей сложности насчитывалось более 60 миллионов доменных имен. Как и прежде самые популярные доменные зоны - это COM и NET, на их долю приходится 52% всех доменных имен. В абсолютных цифрах это более 30,4 миллионов доменов

>Если ты думаешь, что все адреса хотя бы раз помянуты где либо в виде URL, и что граф получается связный - то ты шибко заблуждаешься.

dostatochno 99%, kotorye est' w links ;)

alrond
() автор топика
Ответ на: комментарий от alrond

>>через некоторое время твой MySQL перестанет справлятся

>no s 6-7GB basoy on sprawitsja :))) prawdo tjazhelo, no sprawitsja.
>a bol'she i ne nado.
>1 zapis' 100bytes*60.000.000 ili luchshe PostgreSQL postawit'?
Почему 100 byte?
Тебе же еще надо служебная всякая инфа. Типа время последней проверки. Количество ссылающихмя ресурсов. Возможно еще что-то.
А насчет справится попробуй сделай такую тестовую базу. На 50.000.000 записей. Поле адресса и даты обновления должны быть индексными, т.к. по ним будешь осуществлять часто поиск. Посмотри теперь с какой скоростью заносятся новые строки. С твоим инетом этого мало :)

roller ★★★
()
Ответ на: комментарий от roller

:) Ja prawda ne sowsem ponomaju pri chem zdes' skorost' interneta. MySQL i PERL-script naxodjatsja na odmon servere. No soglasen, chto i ne 100Byte pro zapis', a mnogo bol'she... i chto zhe delat'? Mozhet po kuskam kak-nibud'? poka ne predstawljaju :((( Kak naschet PostgreSQL?

alrond
() автор топика
Ответ на: комментарий от anonymous

Nel'zja :((( ja s raboty, a doma internet tol'ko cherez nedely budet

alrond
() автор топика
Ответ на: комментарий от alrond

>Ja prawda ne sowsem ponomaju pri chem zdes' skorost' interneta.
Ну мы же считаем что инет супер-скоростной и задержка только в производительности компа и ПО.
Да без разницы какая БД в принципе.
Просто хорошо продумывай БД и логику.
ЗЫ: не забудь что т.к. инет быстрый то одновременно надо качать парсить несколько страниц.

roller ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.