LINUX.ORG.RU

Нужно выкачать социальную сеть

 


1

2

Помогите с концептом или ткните на пример, если такой есть. Для академической задачи по BigData надо выкачать весь фэйсбук\вконтакт, информации что доступна без регистраций на страницах пользователей вполне хватит. Сразу вижу следующие вопросы: 1. Легально ли это? Не нарушает ли это законы РФ\США\Других стран? 2. Я так понимаю что надо очень быстрый интернет, то есть арендовать выделенный сервер на гигабитами в секунду. Не забанят ли за это хостеры? 3. Не забнят ли «по IP» служба безопасности социальных сетей? Не нарушает ли это правила социальных сетей? 4. Может кто знает с чего начать? Это должен быть shell script с использованием wget или есть специальные инструменты для этого?



Последнее исправление: bigfrogg (всего исправлений: 1)

Нарушает, см Дабл vs Вконтакте

PPP328 ★★★★★
()

Ничего не нарушает. Можешь качать без утайки.

Bfgeshka ★★★★★
()

Нарушает или нет, но думаю что ip забанят, по этому испольхуй тор и часто меняй выходные ноды.

torvn77 ★★★★★
()
Ответ на: комментарий от torvn77

Я пару лет назад эксперементировал с тором, и там была очень низкая скорость работы (для скоростей в гигабиты в секунду не подойдёт, только наверное если работать в очень во много потоков)

bigfrogg
() автор топика
Ответ на: комментарий от bigfrogg

наверное если работать в очень во много потоков

Судя по тому что ты пишешь вопрос решаемый.

torvn77 ★★★★★
()

Соцсеть забанит. Нужно много проксей. Законно ли? Зависит от страны. Впрочем, сам факт дампмнга это серая зона, реальные юридические риски зависят от дальнейших действий с данными.

KivApple ★★★★★
()

Делается это через API соцсети на любом удобном ЯП. Но у того же вконтакте есть свои ограничения на количество запросов для пресечения подобной деятельности.

aquadon ★★★★★
()

Вообще вопрос скорее в количестве IP, чем в канале. Например, vk api имеют официальные лимиты в 3 запроса в секунду. После этого до конца секунды ты будешь получать ошибку. Так что гигабит никак не загрузишь. Нужно много медленных коннектов с разными IP, а не один большой.

KivApple ★★★★★
()

Законы скорее всего нарушает, ну, или как минимум но применять к тебе меры начнут, если все выйдет за рамки «академической задачи»

И тебе нужно МНОГО прокси

Qwentor ★★★★★
()
Последнее исправление: Qwentor (всего исправлений: 2)

Дампни Википедию) у неё дампы в открытом доступе уже в архивах, свежие, по всем языкам. Там ведь тоже текст, картиночки и ссылки. Так какая разница.

Условно может считаться социальной сетью, ведь социальное взаимодействие, даже борьба и всё такое прочее, что есть в соцсетях.

Bruce_Lee ★★
()
Последнее исправление: Bruce_Lee (всего исправлений: 1)

По ВК особых проблем не будет - выкачаешь десятки миллионов профилей за копейки.

ФБ - фиг. Нужны будут солидные вливания денег, чтобы качать миллионами записей (да, будут банить аккаунты, айпишники, сувать капчу разгадывать).

Нарушает ли законы и тп? Пользовательские соглашения - да. Будут легко банить аккаунты. Нарушает ли законодательство РФ - да, читай про хранение персональных данных (объемы, на согласие пофиг, тк это паблик инфа, но это не 100% инфа).

Norgat ★★★★★
()
Ответ на: комментарий от KivApple

У ВК можно батчами качать профили в одном запросе, там в 3 запросах то ли 300, то ли 3000 профилей получить можно.

Norgat ★★★★★
()
Ответ на: комментарий от aquadon

У ФБ ты не получишь доступа к аккаунтам через API без прямого одобрения доступа со стороны пользователей.

Norgat ★★★★★
()

Ну и не сбрасывай со счетов объемы данных - это сотни миллионов записей. В переводе на дисковое пространство - это сотни гигабайт\терабайты будут (если реально гнать объемы). Соответственно под БД (чтобы оно работало и что-то могло за вменяемое время считать) нужен дедик за несколько сотен баксов минимум (в лучшем случае один).

Norgat ★★★★★
()

Делов-то - обратись к тов. майору

anonymous
()

начать нужно с того, что раздобыть пару петабайт хранилища для ВК, а потом нанять людей которые придумают в каком виде хранить данные и напишут краулер.
затем, подождать пол годика, годик. дело это не быстрое. ну или купить уже готовый дамп за мильёны у тех, кто озаботился таким много лет назад.
«shell script с использованием wget» ага.

system-root ★★★★★
()

лучше всего устанавливать шпиона на компы пользователей, и незаметно снифить трафик броузера. если спросят, скажи что это антивирус.

anonymous
()
Ответ на: комментарий от Norgat

Для ФБ тор не проканает, его выходные ноды давным давно в блек листах.

у FB есть луковый адрес

anonymous
()
Ответ на: комментарий от tyamur

А хранить где собрались?

в телеграмме :)

anonymous
()

ты лучше посмотри, может на пиратбее есть уже выкаченное

anonymous
()
Ответ на: комментарий от system-root

Какие-то вы цифры космические говорите. Мне не нужны ни музыка ни фильмы и даже картиночки. Суммарного текста (профиль, с кем знаком, что кому писал) за всю жизнь человека хорошо если 100 кб наберётся в среднем.

bigfrogg
() автор топика
Ответ на: комментарий от bigfrogg

внезапно, это цифры с лекции человека, который уже выкачал ВК и делает на этих данных бабосики.

system-root ★★★★★
()
Ответ на: комментарий от KivApple

Где взять за бесплатно или задешево много медленных коннектов? Тор?

bigfrogg
() автор топика

Если это правда академическая задача, то ты бы с начальством посоветовался. А то если ты опубликуешь результаты своих исследований, Фейсбук с Вконтактом могут начать предъявлять претензии. А если, скажем, начальство сможет с ВКонтактом договориться, то они, может быть, и базу тебе сольют.

proud_anon ★★★★★
()
Ответ на: комментарий от bigfrogg

Один профиль вк, чисто текстовая информация + реляционные связи + метаинформация, занимает от мегабайта (зависит от количества друзей и подписок). Прибавь к этому еще текст всех постов на стеночке (ты же это подразумеваешь кто кому писал), и метаинформация этих постов. Количество записей у некоторых достигает десятков тысяч. Плюс опять же реляционные данные. И это если еще не хранить прямые ссылки на картинки или хотя бы метинформацию этих картинок. Короче говоря, ты сильно заблуждаешься в расчетах.

На двоще есть анон, которые появляется периодами в тредах травли\набегов\расследований и вбрасывает архивную информация из профилей в его базе, которую он собирает уже много лет. Пару лет назад его БД весила 25тб. И она далеко не полная, как он сам говрит. Плюс он не хранит блобы, а только ссылки на них. Ну и текст\реляционка\мета.

anonymous
()
Ответ на: комментарий от anonymous

Толку от него если тебе аккаунты будут банить, а если парсить без аккаунта то на каждый запрос будут давать капчу? Это риторический вопрос, дорого будет.

Norgat ★★★★★
()
Ответ на: комментарий от anonymous

Толку от него если у тебя БД для аналитики на нем еле шевелиться будет? Хотя если один прогон скриптов аналитики по данным за неделю будет устраивать, то ок конечно.

Norgat ★★★★★
()
Ответ на: комментарий от Norgat

да, кстати, про «попарсить»: там же кругом скриптота в полный рост. так что мечта TCа про wget просто сразу идёт лесом.

Iron_Bug ★★★★★
()

Используй api.
Там можно за один раз много информации получить. Но по обьёму выйдет всё равно много.

tyamur ★★
()
Ответ на: комментарий от tyamur

Это незаконно. Правила использования API запрещают использовать его для подобных целей.

int64
()
Ответ на: комментарий от crutch_master

Поисковики чем занимаются по-твоему?

Сканируют файлы на компьютерах конечных пользователей. Водят автомобили без водителей. Открывают стрельбу в офисах. Например.

А что?

anonymous
()
Ответ на: комментарий от Harald

> Для академической задачи по BigData надо

ну да, ну да :)

А кому и для чего этот мусор ещё может понадобиться? Аж любопытно.

anonymous
()

а не проще ли зарегиться в соц.сети как приложение. и по апи вытянуть только нужное ??

смотри статейку, емнип на хабре, как чуваки проверяли теорию 6 рукопожатий. там как раз массовое получение данных из соц.сети, кажись как раз из обоих, и приводили.

pfg ★★★★★
()

Видимо вам нужен users.get и что-то посерьёзней чем shell... Ну и ознакомиться с правилами использования API.

art_metr
()
Ответ на: комментарий от system-root

Для начала полгодика на «изучить Shell», потом полгодика на написание «shell script с использованием wget»

затем, подождать пол годика, годик.

осознать что инструмент выбран не тот и начинать изучать что-то другое, повторить итерацию с другим инструментом... главное в бесконечный цикл не попасть...

art_metr
()
Ответ на: комментарий от Norgat

У вк есть метод friends, отдаёт по 5к друзей указанного ида, но нужно будет как-то удалять дубли. Пачкой конкретных идов/коротких имен через users, но не более тысячи за раз.

art_metr
()

Кстати, а есть какой-нить сервис, которые предоставляет прокси для скраппинга за денюжку? Чтобы они нормально работали. А то некоторые сайты спрашивают капчу после n запросов.

pawnhearts ★★★★★
()
Ответ на: комментарий от pawnhearts

В проекте где я участвую используем awmproxy.com для парсинга букмекеров. Усе работает. Но периодически адреса банят, поэтому гоняем не напрямую, а используем самописный чекер

Qwentor ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.