Новый материал SecureNews посвящен вопросам информационной безопасности в сфере Big Data (больших данных). Мы узнали у экспертов, что такое Big Data и какие средства используются для работы в данной отрасли, с какими угрозами можно столкнуться при работе с большими данными и как обеспечить их защиту.
Что скрывается за термином Big Data? Какие средства применяются для хранения и работы с большими данными?
Роман Баранов, руководитель направления аналитики компании КРОК:
«Если смотреть с точки зрения информационных технологий, то под термином Big Data подразумевается большое количество продуктов. По сути, они не несут в себе что-то принципиально новое, особенно, в части инструментов и возможностей. Думаю, на эту концепцию стоит взглянуть как на маркетинговый термин, который сегодня очень моден.
Если речь заходит про безопасность, то важно не только понимать, какой результат приносит Big Data, но и какими терминами оперирует, а также как получаются те или иные выводы на основе информации. Здесь необходим инструментарий, который будет давать полное представление обо всех потоках данных. Зная, ЧТО хранится, можно понять, КАК защищать системы и информацию».
Алексей Редькин, инженер подразделения стратегического маркетинга «Мицубиси Электрик»:
«Большими данными (Big Data) называются массивы информации, которые превышают вычислительные возможности обычных компьютеров, а также технологии для их обработки, анализа и представления в удобном человеку формате. Работа с большими данными стала возможной благодаря новым технологическим достижениям двухтысячных годов. В этот момент IT-специалисты научились распределять большие объемы информации по вычислительным системам и базам данных. Это открыло целый ряд новых областей применения такой информации. Так, работа с Big Data необходима для создания карт, оцифровывания больших массивов информации в фондах и библиотеках, прогнозирования погоды, работы систем общественного транспорта и обработки информации о транзакциях клиентов в банках.
Большие данные применяются и в сфере автоматизированного производства. В этом случае информация, полученная от оборудования, анализируется в реальном времени, и оператору или управленцу транслируется оптимальное решение для производственного или финансового процесса. С помощью Big Data машины также способны сами принимать решения и даже учиться без участия человека. Большие данные тесно связаны с технологиями IoT (интернета вещей) и IoE (интернета всего): физическое пространство и киберпространство с их помощью объединяются. К примеру, показатели производственной линии можно видеть в реальном времени на экране смартфона».
Алексей Краснопольский, директор по продукту «Первого ОФД»:
«Столь популярное на сегодняшний день понятие Big Data по сути своей представляет огромный массив информации, для работы с которым требуются специальные средства анализа, методы и алгоритмы, поскольку работа с большими данными посредством существовавших ранее стандартных инструментов является неэффективной. Основная задача Big Data – возможность обрабатывать колоссальные объемы данных и выстраивать на их основе прогнозные модели.
Горизонтальная масштабируемость и высокий уровень отказоустойчивости – вот основные принципы, на которых выстраивается работа с Big Data».
С какими угрозами сталкиваются или могут столкнуться организации, работающие с Big Data?
Максим Яцкевич, ведущий специалист по информационной безопасности компании НФП:
«С приходом новых технологий приходят и новые уязвимости, угрозы и риски. Штатные антивирусные системы, системы экранирования не предназначены для защиты большого объема данных. А отдельные системы, которые готовы взяться за Big Data, сильно тормозят обработку информации. Все эти факторы приводят к достаточно значимой для пользователя (компании) проблеме, которая может не позволить использовать новые и, вроде бы, перспективные технологии. К тому же защищать необходимо не только данные, но и программное обеспечение, которое занимается обработкой.
Как правило, в средних и крупных компаниях защита не состоит из одного-двух ПО, на которых все держится. Информационную безопасность в них обеспечивают комплексные многокаскадные решения».
Алексей Коняев, старший консультант SAS Россия/СНГ по решениям для обеспечения безопасности и противодействия мошенничеству:
«Бытует мнение, что можно обеспечить безопасность больших данных при условии персональной приватности и невозможности идентификации объектов: имена, адреса и номера договоров, как правило, не требуются для анализа больших данных, поэтому такую информацию нужно либо хешировать, либо удалять из источников анализа, либо шифровать. Однако представляется, что такое мнение ошибочно ввиду необходимости обеспечения безопасности данных во время всего жизненного цикла работы с ними – сбора, записи, хранения и перемещения. При этом следует учитывать, что технологии работы с большими данными зачастую построены на открытом коде, в который по умолчанию не может быть заложена никакая безопасность. Одновременно с этим целесообразно изолировать базы типа Hadoop и на сетевом уровне, чтобы исключить возможность несанкционированного доступа.
И, конечно же, необходимо уделять должное внимание и защите контура организации, выстраиванию правильных процессов управления ролями доступов в системы и приложения (например, с помощью, Sentry), применению современных интеллектуальных систем мониторинга и обеспечения информационной безопасности».
Ашот Оганесян, технический директор и основатель DeviceLock:
«Ключевая особенность больших данных – это наличие как множества точек «входа» информации в соответствующие распределенные базы данных, так и множество точек «выхода», точек доступа к большим данным. И тут, помимо очевидных задач обеспечения безопасности вычислений и транзакций, остро стоит и вопрос безопасности хранения и использования данных. Ведь как ни крути, в конечном счете все упирается в человеческий фактор – помимо машинной обработки в целях, например, построения статистических выводов, расчетов логистики в реальном времени и так далее, требуется участие пользователя для работы с отдельными сегментами таких баз данных или результатами машинной обработки. Если последствия «вытаскивания» и слива спамерам огромных списков адресов электронной почты и телефонов имеют не столь существенные последствия (да, получатели спама вряд ли будут довольны непрошеной рекламе, но это не смертельно), то последствия случайного, а уж тем более намеренного раскрытия и передачи в третьи руки данных медицинского или финансового характера могут быть намного более серьезными».
Павел Ворошилов, директор по продажам облачных продуктов дата-центра Xelent:
«Главная угроза – разумеется, риск потери данных. Для компании, использующей большие данные, это критическая опасность: крупные корпорации, строящие так называемый data-driven business (бизнес, построенный на данных), в такой ситуации могут нести колоссальные потери – именно из-за этого все компании тратят серьезные деньги на резервное копирование и репликацию.
Вторая угроза – недоступность данных. Большинство компаний, работающих с Big Data – это банки, ритейл, телеком-операторы, иными словами, бизнес, который должен функционировать в режиме 24/7. Для таких компаний каждая минута «простоя» означает серьезные финансовые и репутационные потери.
Третий риск – недостаточность «места» хранения растущего объема данных. Дело в том, что количество собираемой информации растет – как за счет роста бизнеса, так и за счет новых показателей, которые собирает система. Крайне важно, чтобы у компании всегда было резервное пространство в системе хранения данных».
Как можно обеспечить защиту больших данных?
Андрей Зеренков, руководитель направления развития кибербезопасности в государственных и телекоммуникационных организациях РФ и за рубежом группы компаний Softline:
- Постоянный контроль легитимности источников информации, а также защита узлов кластера от его несанкционированного расширения (внедрения чужих) и от несанкционированных изменений на самих узлах (например, вследствие атаки вредоносного ПО или АРТ). Антивирусы здесь не помогут – нужны продукты харденинга хостов. Легитимность источников и обработчиков можно также подтвердить сертификатами.
- Использование анализаторов кода приложений, чтобы избежать влияния через программную среду бизнес-аналитики.
- Строгая аутентификация пользователей на основе сертификатов и управление правами доступа.
- Наличие отчетности о соответствии требованиям, с контролем соответствия, разумеется.
- Защита сред Big Data, реализованных в «чужих» облаках, через защиту каналов связи и дополнительную защиту данных в облаке – шифрование и/или динамическое маскирование. И, конечно, постоянный мониторинг и анализ.
Павел Луцик, руководитель проектов по информационной безопасности компании КРОК:
«К обеспечению защиты больших данных стоит подходить комплексно, учитывая все возможные угрозы нарушения конфиденциальности, целостности и доступности этих данных. Так, в частности, необходимо реализовать следующий комплекс мер:
- Использовать надежные механизмы аутентификации и разграничения прав доступа при обращении к данным.
- Отделить персональные данные от других данных.
- Обеспечить защиту пароли доступа с помощью механизмов шифрования или хеширования, и убедиться, что при этом используются надежные алгоритмы, такие как AES, RSA, SHA-256.
- Обеспечить логирование всех важных событий информационной безопасности при обработке больших данных с целью дальнейшего расследования возможных инцидентов.
- Обеспечить защиту хранилища данных и логи транзакций, в том числе с помощью механизмов шифрования.
- Обеспечить безопасность конечных устройств, в том числе мобильных, с которых осуществляется работа с большими данными, посредством применения антивирусного ПО и систем управления мобильными устройствами класса MDM.
- Обеспечить защиту серверных компонентов систем, участвующих в обработке больших данных (межсетевое экранирование, в том числе уровня приложений, антивирусная защита и так далее).
- Систематически проводить тренинги для повышения осведомленности персонала при работе с большими данными».
Юрий Сергеев, заместитель начальника отдела проектирования защищенных систем Центра информационной безопасности компании «Инфосистемы Джет»:
«Защиту стоит начать с аудита всех настроек инфраструктуры. Затем необходимо обеспечить настройку встроенных механизмов защиты: аутентификацию, авторизацию, аудит. Интегрировать решения с существующим в организации PKI (Public Key Infrastructure – инфраструктура открытых ключей) для замены самоподписанных сертификатов, применяемых в решениях. Также можно задуматься о средствах шифрования. Например, для баз данных Hive и Hbase, работающих поверх Hadoop, можно обеспечить шифрование на уровне отдельных столбцов. Наконец, начать интеграцию с имеющимися в компаниями средствами безопасности - сканерами уязвимости, SIEM-системами и другими решениями. Для аудита доступа к BigData можно применять решения класса Database Activity Monitoring, которые уже несколько лет поддерживают все передовые продукты из этой сферы».
Михаил Комаров, директор по продажам компании DIS Group:
«В первую очередь надо выстроить процессы управления данными (Data Governance) – это позволит четко понимать, где какая информация находится. Также есть решения, которые позволяют анализировать информацию, находящуюся на кластере, и определять, конфиденциальная она или нет. Такие решения также интегрируются с программным обеспечением по контролю доступа. Важной задачей является динамическое обезличивание данных. Такой класс решений обезличивает данные в реальном времени в зависимости от роли пользователя при этом не меняя исходные данные. То есть пользователь работает с реальными данными не видя их. Перечисленные решения позволят контролировать возникновение и распространение данных, доступ к ним и скрывать чувствительные данные от рядовых пользователей, что позволит усилить защиту Big Data в дополнении к классическим решениям по аутентификации ролевым моделям, сетевой защите и так далее».