Всё о секретах программного обеспечения и онлайновых сервисов
 
 
 
 
 

Анализ больших массивов данных социальных сетей

Институт системного программирования им. В.П. Иванникова Российской академии наук (ИСП РАН) разработал технологии Talisman и Texterra, предназначенные для анализа больших массивов данных социальных сетей.

Texterra («Текстерра») — это технология многоязычного интеллектуального анализа текста. В её основу положен программный комплекс, способный накапливать и анализировать информацию, устанавливать взаимосвязь между понятиями и проводить интеллектуальный анализ текстов. При этом Texterra опирается на объем понятий и терминов, почти на порядок превышающий размеры Британской энциклопедии, и может при необходимости расширить свою базу знаний ещё больше. В результате при использовании этой технологии возможно вычислять лексически сходные тексты, принадлежащие перу одного автора или написанные по единому плану, содержащие сходные семантические конструкции, и, таким образом, выявлять факт и структуру информационных «вбросов».

Система Talisman («Талисман»), в свою очередь, позволяет отследить и выявить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности ботов. Анализ производится по полным и неполным данным, указанным в профилях социальных сетей, социальным связям аккаунтов, подпискам, спискам друзей и читателей. В результате анализа определяются такие демографические атрибуты, как возраст пользователя, а также семейное положение, уровень образования и так далее. Если значения тех или иных атрибутов не вписываются в создаваемый программным комплексом алгоритм, можно с высокой долей вероятности говорить о том, что выпадающий из схемы профиль социальной сети принадлежит не живому человеку, а создан искусственно. Дальше приходит на помощь Texterra, позволяющая вычислить множества ботов, созданных одной рукой либо ведущихся по одному лекалу-методичке.

Также технология Talisman позволяет на основании анализа неполных данных с использованием информации из социальных сетей вычислить примерное место проживания пользователя, его принадлежность к определенному социальному слою, приверженность той или иной идеологии и другую полезную информацию.

Анализ больших массивов данных социальных сетей

«Анализ такого постоянно меняющегося массива данных, как информация в соцсетях,  сегодня — насущная необходимость, — отмечает директор ИСП РАН Арутюн Аветисян. — Это и маркетинговый инструмент, позволяющий оценивать аудиторию, выстраивать закономерности, помогающие работать адресно с разными возрастными и социальными группами. И во многом — инструмент безопасности. В последние десятилетия неограниченная интернет-анонимность стала источником угрозы для отдельных людей или компаний, для целых народов и стран. Работа в этом направлении способна в корне изменить ситуацию».

Важным, по мнению директора ИСП РАН, является также этический аспект применения разработок института, сохранение тайны личных данных и неприкосновенности частной жизни.

«При применении подобных технологий  необходимо, чтобы  не нарушались права пользователей социальных сетей, не разглашались персональные данные, — говорит Денис Турдаков, заведующий отделом информационных систем ИСП РАН. — Мы проводим  научные исследования, дорабатываем «Текстерру» и «Талисман». Всеобъемлющий анализ соцсетей пока затруднён, прорыв ещё предстоит, но ждать его осталось недолго».

В настоящий момент совершенствование перечисленных программных комплексов продолжается, наращиваются их функциональные возможности. Более подробную информацию о положенных в их основу технологиях Talisman и Texterra можно найти на сайте ispras.ru/technologies.