Как стать Data Driven организацией – рецепт Сбербанка
Преобразование банка в организацию, управляемую на основе данных, требует технологической и культурной революции. О том, как ее провести, в ходе конференции «Скоринг-2017. Инновации. Новые данные. Удаленная идентификация» рассказал Максим Еременко, старший управляющий директор и главный исследователь данных Сбербанка.
Что такое Data Science? Прежде чем говорить о применении Data Science в банке, нужно определиться с тем, что это такое. На вопрос Максима Еременко «Кто использует Data Science в своей работе?» руки подняли около четверти зала – следовательно, с термином банки знакомы, хоть и не в большей части. Далее Максим Еременко попросил проголосовать, какие компетенции являются ключевыми для исследователя данных. С помощью бота, разработанного barrymore.io, удалось оперативно собрать данные с аудитории и выяснить, что из предложенных вариантов 16% полагают, что наиболее важна экспертиза в предметной области, 5% выбрали математику, 1% – компьютерные технологии, и 76% считают, что важны все вышеперечисленные компетенции. Максим Еременко согласился с последними, указав, что в весной этого года руководители Сбербанка были в MIT и Стэнфорде, где общались с людьми, которые развивают направление Data Science и AI, и определяют необходимые компетенции так:
То есть навыки работы с computer science – это не только языки программирования, но и умение извлекать данные, в том числе из труднодоступных мест, преобразовывать данные низкого качества в данные приемлемого качества. Это умение работать с пакетами статистического анализа – SAS, Python, R, часть из которых Open Source, часть – с закрытым кодом. И еще одна ключевая экспертиза – владение математическим аппаратом, умение использовать его в прикладной деятельности.
Под искусственным интеллектом в Сбербанке понимают систему, которая принимает решения либо вместо людей, либо подобно людям, то есть помогает принимать им решения. Как отметил Максим Еременко, вопрос, что же именно относить к этому классу технологий, сложный – можно базовый кредитный скоринг относить к ИИ, а можно говорить о более сложных системах. Система ядерной защиты СССР, например, тоже в каком-то смысле была ИИ. Так или иначе, машинное обучение дало основной толчок парадигме data driven, наряду с возможностью хранить большие объемы данных.
Ключевые факторы перехода к Data Driven организации Когда в Сбербанке рассмотрели проекты на ближайшие полтора-два года, то выяснили, что в основном речь идет о дескриптивном исследовании данных или самообучающихся системах. «Благо, данные и вычислительные мощности это позволяют», – говорит Максим Еременко.
Ключевым фактором работы банка в парадигме Data Driven Максим Еременко называет количество решений, принимаемых на основе анализа данных. При этом он делает акцент на культурном аспекте: «Иногда надо убедить себя, что аналитика данных дает более консистентный, более достоверный результат, чем эксперт, который сидит в этом направлении уже 25 лет. Но он может не знать чего-то, что показывают данные».
Ключевые подходы к моделированию В качестве ключевых подходов к моделированию в Сбербанк используют следующие:
CRISP – это Cross Industries Standard Process по дата майнинг – межотраслевой стандарт извлечения данных.
Диаграмма в форме рыбы иллюстрирует вовлеченность заказчика и исследователя данных на этапах моделирования. Для заказчика она максимальная в начале разработки модели, то есть при постановке бизнес-требований и при согласовании целевых переменных, как осуществлять разметку выборки, и в конце – когда идет внедрение модели, потому что очень часто в это время нужно собрать вместе IT, отвечающих за разные направления, обеспечить интеграцию потоков данных и целостность результата. А вовлеченность исследователя данных максимальна, когда идет этап сбора данных, разметка целевых признаков и моделирование этих признаков.
Технологический стек Так выглядит технологический стек, который использует Сбербанк:
Используются внутренние и внешние источники. Для обработки данных есть песочницы, где хранить их дешево, но при этом качество данных там недостаточно для того чтобы модель жила в промышленном контуре.
Когда модель разработана, протестирована, отпилотирована, провалидирована, идет ее имплементация в процесс, необходимо обеспечить наличие данных. В этой части Сбербанк с прошлого года внедряет GridGain, чтобы сократить time to market по особо важным моделям, принятие решений по которым требуется в режиме, приближенном к реальному времени.
Применение Data Science в Сбербанке В качестве одного из примеров применения машинного обучения Максим Еременко привел сегментацию клиентов. Оценив склонность к «цифровизации» клиентов, Сбербанк разделил их на 3 категории. Первая из них: последователи трендов. Это наименее активные пользователи цифровых сервисов, лишь 20% из которых входили в интернет вчера, а остальные – еще ранее, а регулярно пользуются поисковыми сервисами из них лишь 10%. Второй сегмент – это обычные потребители цифровых технологии. И, наконец, большинство клиентов Сбербанка, как выяснилось, – активные агенты цифровой экономики. То есть это люди, которые активно используют интернет в работе и пользуются финансовыми услугами через мобильные приложение. Причем это не только Москва, но и регионы. Как раз за этот сегмент ведут борьбу цифровые корпорации.
Касательно нейронных сетей Максим Еременко высказался осторожно: «Их можно использовать, но нужно это делать очень грамотно, потому что если натравить нейронную сеть на транзакции по картам, то она в лоб даст достаточно низкий результат». В то же время, по его словам, есть так называемые механизмы предподготовки данных: нужно перевести MCC-коды в вектор, провести ряд процедур по классификации, и уже на классифицированных данных использовать нейронную сеть. Совсем недавно, как рассказал Максим Еременко, – за 2 недели до конференции – Сбербанк подписал договор с Физтехом о применении проекта iPavlov для целей применения в качестве консультанта. Обработка естественного языка (NLP) должна позволить банку роботизировать часть когнитивных функций людей.
Один из последних кейсов, который анонсировал Сбербанк – это психоскоринг, то есть скоринг на основе психометрического исследования. Максим Еременко рассказал, что Сбербанк на опыте убедился – психометрический портрет клиента можно использовать для оценки кредитного скоринга. По его словам, как минимум 2 из 5 букв – параметров психометрического портрета человека – действительно значимы с точки зрения ранжирования заемщиков. К примеру, люди, принимающие решения на основе здравого смысла, гораздо лучше обслуживают кредиты, чем люди, принимающие решения на основе эмоций. «И все это очень хорошо работает на граничных значениях, когда есть ярко выраженные психотипы», – заключил Максим Еременко.
Несколько подробнее о том, как может работать такая система психотипирования, рассказала Елена Конева, директор по развитию бизнеса, БКИ и скоринга компании FICO. Недавно FICO приобрела компанию EFL, предоставляющую психометрические и альтернативные данные для принятия решений о кредитах в 30 с лишним странах и более чем 36 финансовых учреждениях. Решение EFL – это интерактивная анкета, по которой генерируется кредитный скоринг. Приложение EFL анализирует личные качества человека, которые в значительной степени связанные с успешностью и желанием платить – знания о финансах, опыт и стабильность, восприятие себя и общества и другие. Приблизительно за 20-30 минут физическое лицо отвечает на вопросы анкеты EFL на планшете или мобильном телефоне, затем ответы передается специалистам EFL, которые их проанализируют и сгенерируют 3-значный скоринг. Таким образом, FICO предлагает финансовым учреждениям возможность кредитовать тех, кто раньше был исключен из финансовой системы. При этом финансовые учреждения ежемесячно отправляют информацию о платежах своих клиентов с целью непрерывной адаптации к потребностям заказчика и совершенствования модели.
Эта статья была разослана 3609 людям, которые подписались на тему «Инновации»
Чтобы подписаться на «Инновации», просто введите Ваш электронный адрес.