LINUX.ORG.RU

Нужно выкачать социальную сеть

 


1

2

Помогите с концептом или ткните на пример, если такой есть. Для академической задачи по BigData надо выкачать весь фэйсбук\вконтакт, информации что доступна без регистраций на страницах пользователей вполне хватит. Сразу вижу следующие вопросы: 1. Легально ли это? Не нарушает ли это законы РФ\США\Других стран? 2. Я так понимаю что надо очень быстрый интернет, то есть арендовать выделенный сервер на гигабитами в секунду. Не забанят ли за это хостеры? 3. Не забнят ли «по IP» служба безопасности социальных сетей? Не нарушает ли это правила социальных сетей? 4. Может кто знает с чего начать? Это должен быть shell script с использованием wget или есть специальные инструменты для этого?



Последнее исправление: bigfrogg (всего исправлений: 1)

Ответ на: комментарий от bigfrogg

Для моего проекта надо именно люди и их профиль

linux.org.ru <- this

Bobby_
()

Вторая страница комментариев и никто не вспоминил про Cambridge Analytica. До Рунета не дошло что ли?

phoenix ★★★★
()

Типовая академическая задача по социальным сетям - предсказание ребер графа. Для решения этой задачи достаточно глубины до друзей второго круга. Если это кандидатская по графам - просто обратись в VK, они охотно идут на встречу и предоставят тебе обезличенную информацию. На текущий момент формулировка задачи выглядит так, как будто сформулирована дилетантом. Рекомендую перед тем, как начинать какие-либо действия сформулировать цель.

anonymous
()
Ответ на: комментарий от anonymous

Забыл написать об инструментах. Типовыми инструментами для решения таких задач являются python с библиотекой networkx или java/scala/kotlin с apache giraph.

anonymous
()
Ответ на: комментарий от system-root

Будет не лишним ознакомиться с предметной областью перед тем, как давать совет. Все задачи, которые я видел с аналитикой соц. сетей имели вполне конкретную цель. Конкретная цель не требует всех данных соц. сети, поэтому может быть успешно решена с помощью обычного ноутбука. Особенно, если речь идет об академической задаче.

anonymous
()

1. Легально ли это?

Поисковики хранят базу всего публичного интернета, но ты же не поисковик?

Не нарушает ли это законы РФ\США\Других стран?

Зависит от многих факторов, вплоть до того сколько у тебя бабосов на банковском счету. Или думаешь законы стран логичны и выверены? И вот это прост так придумали: Закон, что дышло, хе-хе, — забубнил Ездаков, — куда повернул — туда и вышло.

2. Я так понимаю что надо очень быстрый интернет, то есть арендовать выделенный сервер на гигабитами в секунду.

Нужно много ipv4 не заблоченных пациентом. У хетцнера, например, много ipv4 заблочены. Купишь и обломаешься.

Поэтому покупать лучше у малоизвестных хостеров, но которые не перепродают ресурсы известных хостеров. А еще можно попробовать проксей купить, кто гарантирует, что они не заблочены. Но есть риск купить базу зомбей и попасть под раздачу отделения «К».

Не забанят ли за это хостеры?

Им пох, если тебя не ддосят и абузы на тебя не шлют.

Не забнят ли «по IP» служба безопасности социальных сетей?

Забанит.

Не нарушает ли это правила социальных сетей?

См. подпункт 1 (про законы)

4. Может кто знает с чего начать?

С программирования. Лучше использовать джаву, если не осилишь, можешь попробовать питон или голанг. Больше тебе не подскажут, потому что ты спалишь пул ipv4 своими неграмотными действиями, а людям потом новый пул собирать.

Это должен быть shell script с использованием wget или есть специальные инструменты для этого?

Нет, это будет относительно сложная, многопоточная программа, с выверенными таймаутами для каждого потока, с биндингом ipv4 или прокси на каждый поток. С библиотекой для разбора HTML и умеющая в XPath запросы. И по итогу сливающая всё в одну базу.

foror ★★★★★
()
Последнее исправление: foror (всего исправлений: 1)

Если для тебя всё это сложно, то можешь глянуть вот это https://habrahabr.ru/post/127584/ Тот кто её сделал уже очень давно в этой теме, можешь кстати к нему и обратиться. Если сам не осилишь сделать. Он ВК точно парсил. А вот и его сайт https://grablab.org/

foror ★★★★★
()
Ответ на: комментарий от anonymous

Вставляешь флешку в компьютер, скачиваешь. Ещё проще, чем засунуть слона в холодильник.

Tigger ★★★★★
()

Есть выкачаная ~300M база из ВК, поля такие "Системный номер","ФИО-Ник","Дата Рождения","Пол","Город","Страна","Часовой пояс","Ссылка фото","Ссылка фото","Ссылка фото","Ссылка фото","Контакт","Телефон-Контакт","Телефон-Контакт","Образование","Учебное заведение ID","Учебное заведение","Факультет ID","Название факультета","Год окончания учебного заведения","Рейтинг профиля","Uid" . Выложу если надо, но она большая, придется подождать.

dnb ★★★★
()
Ответ на: комментарий от KivApple

Там есть execute + за один запрос можно тащить больше одного профиля. Так что технически все реально

cobold ★★★★★
()
Ответ на: комментарий от cobold

Там тоже есть ограничения. В любом случае гигабит не загрузить.

KivApple ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.