Доклады
Андрей Николаенко
IBS
Занимается проектированием серийных аппаратно-программных инфраструктурных и платформных комплексов, в качестве системного архитектора принимал участие в создании крупномасштабных информационных систем для федеральных структур, предприятий энергетики и ЖКХ, операторов связи. Сфера интересов — функциональное программирование для систем работы с большими данными, систематизация и энциклопедизация знаний по кластерным платформам и методам обработки данных.
Инструменты больших данных: от конкуренции к интеграции
Hadoop ворвался в мир корпоративных хранилищ — традиционную вотчину массово-параллельных реляционных СУБД, а на роль централизованных платформ данных сегодня претендуют резидентные гриды данных. С другой стороны, Hadoop и передовые NoSQL-системы «заговорили» на SQL, а реляционные СУБД научились выполнять задания MapReduce, овладев эффективным хранением JSON. Но такая конкуренция за ниши стала не только источником бурного развития самих инструментов, но и инициировала процессы интеграции инструментов. Уже сейчас можно на при помощи одной методики проектировать хранилища и на HDFS, и на MPP-СУБД, а одним SQL-запросом можно «обойти» базы данных всех видов — от резидентных гридов и NoSQL-систем до РСУБД и Hadoop. В докладе приводится обзор современных технологий больших данных и анализируются тенденции их взаимодополнения и сосуществования.
Денис Аникин
Mail.ru
Отвечает за технологическую инфраструктуру почтовых и облачных сервисов компании Mail.Ru. Эксперт по распределенным высоконагруженным системам и оптимизации инфраструктуры для выполнения масштабируемых нагрузок. За двенадцать лет профессиональной деятельности Денис вырос от программиста до технического директора.
Хранилище данных Интернета вещей
Без СУБД не обходится ни один Интернет-сервис – базы данных являются основой любой современной ИТ-инфраструктуры, причем сегодня они должны автоматически распределяться по различным узлам, обладать средствами восстановления в случае отказа оборудования и масштабироваться в зависимости от текущей нагрузки. Все это особенно важно для Интернета вещей, для поддержки которых возможностей традиционных СУБД недостаточно. В докладе на примере открытой системы Tarantool, преимущества которой уже оценили такие компании как Yota, «ВымпелКом», Badoo, Avito, QIWI и Wallarm, будет показано какой должна быть СУБД для поддержки решений Интернета вещей, позволяющая обрабатывать информацию в реальном времени.
Дмитрий Бабаев
МТС
Эксперт по наукам о данных в компании МТС. В должности data scientist занимается всем, что связано машинным обучением и работой с данными. Ранее работал в Tinkoff Bank и Яндекс.
Организация больших данных для их эффективного использования в машинном обучении
В докладе пойдет речь о типах данных, образующих нынешние «большие данные» на примере проблем, решаемых сегодня телеком-операторами и Интернет-компаниями. Будут рассмотрены способы представления данных применительно к задачам машинного обучения. Особое внимание в докладе будет уделено алгоритмам машинного обучения, позволяющим получить компактные представления больших данных, экономящим компьютерные ресурсы без потери качества решения реальных задач.
Артем Данилов
Avito.ru
Архитектор хранилища данных в Avito.ru, занимается разработкой хранилищ с 2011 года, в частности, в компании ВТБ Факторинг. С 2014 года создает хранилище на платформе HPE Vertica. Специализируется на создании распределенных систем хранения и анализе данных.
Развитие хранилища Avito.ru – от больших к очень большим данным
На первый взгляд, проектирование хранилища данных – типовая задача: собрать требования, построить модель данных и реализовать ETL, однако лавинообразный рост объема данных и их сложности легко может нарушить работоспособность хранилища. В докладе показано, как, вслед за расширением бизнеса, хранилище Авито за несколько лет выросло до 76 Тбайт: откуда вообще у компании большие данные; в чем состоят основные принципы аналитики; как эволюционировало хранилище Avito.ru. Особое внимание уделено ответу на вопрос: почему следование ограничениям шестой нормальной формы (Anchor Modeling) помогает оперативно расширять хранилище, эффективно масштабировать нагрузку в среде MPP СУБД и развиваться в условиях микросервисов.
Александр Сидоров
HeadHunter
Руководит направлением анализа данных в компании HeadHunter, занимается разработкой и развитием поисковых и рекомендательных систем, метрик и автомодерацией. Работал менеджером проектов и руководителем сервисов в компании Яндекс. С 2004 года увлекается проектированием и разработкой систем с элементами искусственного интеллекта.
Машинное обучение: умный поиск работников и работодателей
Значительное время специалистов по подбору кадров обычно уходит на разбор резюме и определение кого из претендентов на вакансию следует приглашать на очное или телефонное собеседование. Аналогичная ситуация возникает и при выборе работодателя – на личной странице соискателя необходимо выводить перечень вакансий наиболее точно отражающий его запросы. В докладе показано, как технологии машинного обучения позволили компании HeadHunter упростить поиск работы и найм сотрудников, на десятки процентов повысив точность рекомендаций и в каком направлении будет развиваться проект обработки больших данных.
Олег Финошин
Vizex
Создатель и первый руководитель служб оперативной информационной графики холдинга ВГТРК и телеканала «Рен-ТВ», разработчик информационного центра «Выборы» Центральной избирательной комиссии РФ, Ситуационного центра МО РФ, Центра мониторинга ЕМИАС и ряда других федеральных проектов. Курирует разработку новых программных инструментов для интерактивной визуализации аналитических, статистических и картографических данных, разрабатывает методы анализа информации и аналитические инфографические инструменты для государственных и частных компаний, которым требуется визуализация в реальном времени актуальных параметров бизнес-процессов.
Визуальный анализ — выявление скрытых проблем и их решений в больших массивах данных: медицина, производство, транспорт и др.
Визуальный анализ данных призван вовлечь человека в процесс обнаружения знаний в больших объемах сырых данных путем их представления в форме, обеспечивающей обнаружение скрытых закономерностей и аномалий, невозможное в случае применения какой-либо алгоритмической идентификации. В докладе показано как с помощью новых технологий интерактивной визуальной работы с большими массивами оперативной и стратегической информации погрузить человека в данные и через визуальные образы дать ему инструменты восприятия существующих проблем и возможных путей их решения. Особое внимание будет уделено способам интегрированного представления множества влияющих на проблему аспектов с целью облегчения понимания информационных, управленческих и финансово-экономических процессов, а также обнаружения их взаимосвязей.
Валерий Артемьев
Банк России
Окончил МВТУ имени Н.Э. Баумана, проходил стажировку по банковским системам в Великобритании по программе TACIS, изучал методы и средства создания аналитических систем и хранилищ данных в лаборатория IBM Silicon Valley Lab, получил квалификацию бизнес–аналитика по большим данным. В отраслевой лаборатории МГТУ им. Н.Э. Баумана совмест­но с НИИ «Восход» проводил анализ и моде­лирования ИВС специаль­ного на­зна­чения. С 1993 года Валерий работает в подразделении информатизации Центрального банка России, планировал и руководил проектами по web-приложениям, XML-форматам сбора отчетности, хранилищам данных и бизнес­–аналитике. Участвовал в создании централи­зованных систем для блока банков­ского надзора Банка России на основе технологий хранилищ данных и бизнес–аналити­ки: ЕИСПД для монито­рин­га и анализа деятельности кредитных организаций и АКС для анализа платежной информации. Сейчас работает архитектором ИТ-решений в должности консультанта Департамента информационных технологий Банка России.
Причины неудач проектов больших данных
Сегодня произошла консолидация технологий, связанных с обработкой больших данных – уровень зрелости и освоения этих технологий стал важной составляющей успеха проектов в условиях вольницы Open source и наличия корпоративных устоев. Однако оказалось, что одних лишь технологий для успеха проектов больших данных недостаточно.
Новые возможности для работы с большими данными вызвали всплеск интереса к продвинутой аналитике (машинному обучению, искусственному интеллекту и др.), data mining и исследованию данных. Открылись новые горизонты для предписывающей аналитике, анализа текстов, изменилось само отношение к качеству данных. Однако возник дефицит специалистов, обладающих знаниями и навыками в области анализа данных, программирования, управления данными и лингвистики. Вместе с тем, включение data scientists в проектную команду — необходимое, но не достаточное для успеха проекта условие.
Любой проект больших данных – это конкретная предметная область, однако недостаток знаний его участников в конкретной прикладной сфере, отсутствие постановок задач анализа и критериев эффективности их решения, а также неосведомленность бизнес–аналитиков о потенциале технологий больших данных, методов и средств их анализа приводят к краху проекта.
Доклад посвящен изложению причин неудач проектов больших данных и рекомендациям по устранению возникающих на их пути барьеров.
Евгений Линник
«Техносерв»
Окончил Современную Гуманитарную Академию по специальности "Информатика и вычислительная техника". В период 2006-2013 годы занимался разработкой различных информационных систем в крупных коммерческих организациях, включая "Газпром" и "Альфа-Банк". Начиная с 2015 года, занимается развитием направления BigData в компании "Техносерв", а с 2016 года работает директором департамента больших данных.
Большие данные в системах противодействия мошенничеству
В последние три года технологии больших данных все шире используются бизнесом для решения повседневных задач и одна из проблем, с которой можно эффективно справиться с помощью, например, алгоритмов machine learning ─ это борьба с мошенничеством в финансовом секторе. В докладе анализируется опыт решения задачи выявления мошенничества с помощью инструментов из экосистемы Hadoop и Spark MLlib.
Максим Савченко
"Сбербанк-Технологии"
Получил степень магистра в МФТИ, работал в Исследовательском центре им. М.В. Келдыша, Лаборатории квантовой химии AlgoDign и в Институте теоретической и прикладной электродинамики РАН. С середины нулевых занимается прикладной аналитикой, с 2009 года и по сей день – риск-моделированием, R&D и проектной работой, предусматривающей, в частности, применение технологий машинного обучения для решения задач финансовой индустрии. С 2010 года работает в группе компаний ПАО «Сбербанк», занимая на сегодняшний деть должности руководителя разработки моделей в Центре компетенций исследований и разработки моделей компании "Сбербанк-Технологии" и аналитика в блоке «Риски» Сбербанка.
Made on
Tilda