Дата-сайентист Даниил Швец: алгоритмам часто приписывают предвзятость, невзирая на зависимость данных
За последнее десятилетие искусственный интеллект прошел путь от идей из области фантастики до прикладной технологии. И уже сегодня алгоритмы сопровождают нас повсюду: в смартфонах, автомобилях, интернет-магазинах и даже офлайн-ритейле.
За всеми этими разработками стоит огромное количество ученых, инженеров, разработчиков и менеджеров, которые шаг за шагом приближают человечество к новым технологическим горизонтам.
В эксклюзивном интервью для ForkLog AI руководитель команды дата-саенс (Data Science) в Tango.me Даниил Швец рассказал, в чем на самом деле заключается суть профессии дата-сайентиста (Data Scientist), почему алгоритмы предвзяты, как бороться с дипфейками и зачем OpenAI продает свои разработки.
ForkLog AI: Добрый день, Даниил. У вас первое образование — экономическое и вы даже работали по специальности. Почему решили перейти в IT?
Даниил Швец: Это скорее случайность. Когда я заканчивал бизнес-менеджмент я понял, что быть менеджером хорошо, но управлять нужно чем-то конкретным в определенной области.
Имея мощный математический бекграунд, я решил вернуться к чему-то более техническому. И как раз это было время, когда дата-саенс был на подъеме. К тому же я какое-то время пытался его учить, делать свои проекты.
Мне всегда были интересны способы как-то скомбинировать бизнес и технологии. Я и до сих пор считаю, что дата-саенс — это лучшее, где можно найти и бизнес-ориентированные области, и технические инструменты.
ForkLog AI: С какими трудностями вы столкнулись во время смены деятельности?
Даниил Швец: Трудности возникли с тем, что дата-саенс — это не только математика и алгоритмы, но и компьютерные науки, разработка программного обеспечения и прочее. У меня возникли проблемы именно с технической частью.
Например, написать алгоритм, как оказалось, не проблема. Но чтобы его запустить потребовались навыки, связанные больше с дата-инжиниринг, чем с дата-саенс. С этим были сложности.
И когда я пошел учиться на дата-сайентиста понял, что мне серьезно не хватает навыков в области компьютерных наук. Поэтому, когда у меня спрашивают, что нужно знать перед началом обучения, я советую хотя-бы базово их пройти.
ForkLog AI: Вы выросли в Москве, но уже давно перебрались за границу. Как бы вы оценили отрасль IT в СНГ в целом и искусственного интеллекта в частности?
Даниил Швец: В России и СНГ, еще с советского времени, остались мощные научно-педагогические наработки. Тут сосредоточено большое количество профессионалов, хорошо понимающих математику, которая является неотъемлемой частью ИИ и программирования. В других странах у людей с этим проблемы.
То есть, с точки зрения кадров, людей и потенциала — это, наверно, наиболее мощные страны, которые я знаю.
Однако проблема в России и СНГ в том, что осмысленный ИИ создается под зонтиком больших компаний, таких как Сбер или Яндекс.
Насколько я вижу, в России тяжело создать стартап с нуля, который был бы не связан с какой-то крупной компанией или госструктурами. В Израиле, Лондоне, Америке — человек с образованием и идеей сможет так или иначе найти инвесторов. А вот в России, как мне кажется, процесс поиска финансирования и автономного развития стартапов — это то, чего не хватает.
Из-за этого большое количество талантливых людей либо идут работать в Яндекс и Сбер, которые замечательные компании с действительно мощными наработками, либо уезжают из страны. Возможностей создавать стартапы в России и, возможно, в СНГ меньше, чем в некоторых других странах.
ForkLog AI: В таком случае, должно ли государство помогать развитию отрасли?
Даниил Швец: Разумеется. За IT будущее, причем не только за технологиями, которые отвечают прямым интересам государства. Сюда можно отнести потенциальные продукты, которые будут способствовать росту экономики, пойдут на экспорт и будут как-то улучшать жизнь граждан.
На мой взгляд, правительство должно [поддерживать индустрию], причем это не связано с Россией, Украиной, Беларусью — это относится к абсолютно любому государству и не зависит от географии.
ForkLog AI: Говоря о мировых тенденциях в отрасли ИИ, какие вы видите перспективы и в правильном ли направлении она движется?
Даниил Швец: Сейчас отрасль двигается в очень хорошем направлении. Да, есть некий тренд на монополизацию направлений и исследований крупными корпорациями. Можно назвать с полдюжины компаний, таких как Google, Facebook, Amazon и несколько других, которые монополизировали многие сферы IT-индустрии, например, облачные технологии. Если на горизонте появляется потенциальный конкурент — они его или покупают, или душат. Это безусловно минус.
Но, с другой стороны, это дает возможность большому количеству стартапов пользоваться теми же облачными хранилищами и технологиями этих компаний, развиваться без необходимости вкладывать сумасшедшие деньги в собственную инфраструктуру. Это что касается распределения сил.
Что насчет управления, то сейчас наблюдается тренд на автоматизацию различных процессов, в том числе с помощью ИИ. И это замечательно! Конечно, возникает ряд этических вопросов, где та самая грань, которую нельзя переступать. Например, распознавание лиц: должно ли это быть повсеместно?
Но если говорить глобально, искусственный интеллект улучшает и упрощает жизнь людей, делает ее эффективней и комфортней.
ForkLog AI: А как вы относитесь к распознаванию лиц?
Даниил Швец: Распознавание лиц — это очень хорошая и продвинутая технология, которая может упростить большое количество процессов, в том числе поиск преступников. Но ею нельзя злоупотреблять. Если эту технологию используют по прямому назначению, а не в собственных интересах — то я абсолютно за. Другое дело, что сейчас происходит в некоторых регионах Китая. Социальный рейтинг, контроль за каждым действием человека — на мой взгляд, уже некоторый переход за грань.
ForkLog AI: На ваш взгляд, китайский опыт ведет к некому подобию цифровой тирании или же к безопасному обществу?
Даниил Швец: Эти вещи тесно связаны друг с другом. У всех технологий есть как плюсы, так и минусы.
С одной стороны, если контролировать каждое действие человека — преступность уменьшится, раскрываемость увеличится, а общество будет в безопасности. С другой стороны, люди потеряют личные свободы.
Все зависит от того, на какие жертвы готов пойти человек ради спокойствия и некоторой стабильности. Сложно представить, как можно обеспечить абсолютно безопасное общество, используя технологии исключительно для контроля за преступностью, но при этом сохранить степень свободы и закрытости личной жизни граждан.
ForkLog AI: А как обстоят дела с распознаванием лиц в Израиле?
Даниил Швец: Я здесь вижу гораздо меньше камер, чем во многих других местах. Либо в Израиле их научились маскировать так, как не умеют где-нибудь в другом месте, либо здесь действительно с этими вещами попроще.
ForkLog AI: Говоря об Израиле, в последнее время появилось несколько новостей о том, как Армия обороны Израиля использует искусственный интеллект в военных целях. Один из последних кейсов — применение роя автономных дронов во время недавних обстрелов. Применение ИИ в боевых условиях — это угроза для человечества или вопросы безопасности?
Даниил Швец: Тут зависит от того, где поставить границу: применение искусственного интеллекта для защиты — это, на мой взгляд, позитивная вещь, допустим дроны, перехватывающие ракеты. Использование ИИ для атаки — это уже более скользкая тема, и тут я скорее на стороне того, чтобы это ограничивать вне зависимости от того, насколько оправдана такая атака.
ForkLog AI: Крупные технологические компании стараются отмежеваться от участия в подобных проектах. Например, сотрудники Google в 2018 году вынудили компанию отказаться от сотрудничества с Минобороны США. Тогда же компания разработала внутренние этические нормы. Как считаете, это правильный шаг в сторону демилитаризации ИИ?
Даниил Швец: Крупные компании оказались в сложном положении. С одной стороны, они не могут не участвовать, потому что только они имеют необходимые знания и мощности для выполнения оборонных проектов. С другой стороны, корпорации, так как они не являются государственными, подвержены огромным репутационным издержкам.
И сейчас любой скандал вызовет большое количество проблем, бойкотов и прочего, что отразится на компании, сотрудниках и выручке.
Они, как мне кажется, делают эту работу. Да, доказательств конечно же нет. А если бы они были — это бы означало, что они плохо делают свою работу.
Я подозреваю и предполагаю, что такие компании, как Google так или иначе, напрямую или через их структуры участвуют в стратегических разработках. В том числе и с Министерством обороны.
Естественно, они стараются это не афишировать, в том числе и внутри компании. Потому что в таких организациях, как Google невозможно хранить секрет про крупный проект.
ForkLog AI: Дипфейки с каждым годом становятся все качественнее. Насколько вероятно их широкое распространение в злонамеренных целях?
Даниил Швец: На мой взгляд, конечно, будет. Мы видим на примере большого количества других технологий, которые изначально были только в научных статьях. Потом они становились доступны компаниям с мощностями уровня Google или Facebook. После этого умельцы смогли сделать что-то подобное, а уже потом любой желающий мог пользоваться этим через приложение.
Например, несколько лет назад было популярно приложение, которое состаривает человека. Это то, что пять-семь лет назад было лишь описано в научных статьях. И постепенно, постепенно — это стало более доступно.
Тот же путь проходит и дипфейк. Пока что общедоступные сервисы не настолько хороши, чтобы быть идеально неотличимыми. Но этот процесс неумолим, его нельзя повернуть вспять. Всегда будут компании, заинтересованные в создании стартапа или приложения, которые будут делать более качественные дипфейки и технология станет более доступной, в том числе и для людей с не самыми лучшими намерениями.
Мне кажется, что дипфейки — это очень большая опасность. Я плохо представляю себе ситуацию, в которой через несколько лет, когда качество общедоступных дипфейков будет настолько высоко, что картинку нельзя будет отличить от настоящей, и чтобы мошенники этим не воспользовались.
ForkLog AI: Как с этим бороться и кто должен делать это?
Даниил Швец: Есть такие же алгоритмы, которые распознают дипфейки. Это как есть вирусы и антивирусы, это извечная борьба. Тут вполне возможно то же самое.
Существуют методики, как отличить реальные изображения от сгенерированных. Недавно компания Adobe выпустила инструмент, который позволяет увидеть, было ли изображение отретушировано в фотошопе или нет. Тут возможна некоторая аналогия: ровно как злоумышленники будут использовать дипфейк, так и их потенциальные жертвы смогут покупать некоторые сервисы, определяющие и отличающие их от настоящих изображений.
ForkLog AI: Дипфейки идут бок о бок с вопросами этики и морали. В последнее время появилось много исследований и новостей о том, что некоторые алгоритмы предвзяты к определенным слоям населения. Как вы думаете, проблема реальна или это кратковременный тренд?
Даниил Швец: Алгоритмы предвзяты, потому что они учатся на некоторых данных. Если мы видим, что определенные люди попадают в аварии чаще других, то алгоритм страховой компании повысит таким людям вероятность аварий и увеличит стоимость полиса. Является ли это предвзятостью? На мой взгляд, нет. Потому что это и есть данные.
Понятно, что те или иные факторы влияют на то, что мы предсказываем. И если речь идет о росте, то вряд ли кто-то будет жаловаться на дискриминацию из-за роста. Но если решающими факторами в том или ином процессе, связанном с дата-саенс, являются пол, национальность или цвет кожи — это считается, что алгоритм кого-то дискриминировал. Однако это возникает скорее из-за глобальных общественных проблем, из-за того, что эта тема является острой на сегодняшний день.
ForkLog AI: В вашей практики такие случаи бывали, когда алгоритм мог повести себя предвзято?
Даниил Швец: Конечно, это случается практически везде, где есть признаки, связанные с полом, возрастом, национальностью и так далее. Суть алгоритма в том, что каждый параметр так или иначе влияет на результат. Если в алгоритме считать, например, у мужчин и женщин все одинаково — значит мы не будем использовать пол в этом алгоритме, потому что он нам не дает никакой разбивки. Соответственно практически в любом алгоритме, где так или иначе используются пол, цвет кожи, возраст — эти факторы могут так или иначе влиять.
ForkLog AI: Вопросы этики и появление общего ИИ также часто неразрывны. А нужен ли он человечеству вообще?
Даниил Швец: Пока что искусственный интеллект очень далек от некоторой идеи искусственного разума, который подразумевается под общим ИИ. Я не вижу, что в ближайшие несколько лет общий ИИ появится в том виде, чтобы он смог превзойти и заменить большое количество глобальных человеческих институтов принятия решений.
ForkLog AI: Недавно лаборатория DeepMind заявила, что обучения с подкреплением достаточно для создания общего ИИ. Вы согласны с таким утверждением?
Даниил Швец: Обучение с подкреплением действительно может добиться феноменальных результатов, но на очень ограниченных полях. Когда речь идет о шашках, шахматах или другой игре с конкретным набором правил и ограничений, внутри которых можно провести огромное количество симуляций и в процессе научиться — тогда да, безусловно. В тех же шахматах, го, видеоиграх такие алгоритмы обыгрывают самых серьезных профессионалов среди людей. Однако это все производится на конкретных областях с очень ограниченным набором правил, которые не меняются.
В контексте общего интеллекта наш мир — это огромная многомерная модель, которую нельзя упростить до простого механизма с ограниченным количеством правил. А тут уже у обучения с подкреплениями возникают некоторые проблемы, потому что, когда слишком большое количество переменных без какой-либо конкретики, у него нет возможности проводить огромное количество симуляций.
Ведь как происходит обучение? Допустим в шахматах: берется политика алгоритма и симулируется. Они проводят друг с другом миллиарды партий и в это же время учатся.
В реальном мире такая симуляция плохо реализуема. Можно делать какие-то реальные действия, получать на них отклик и замерять результаты. Но тут скорость далека до тех миллиардов партий в день, которые может сыграть компьютер сам с собой.
Поэтому несмотря на то, что я действительно считаю обучение с подкреплением одной из самых потенциально интересных и наиболее важных областей искусственного интеллекта и вообще науки, но я не вижу, каким образом в нынешней ситуации этот инструмент можно использовать для решения более абстрактных и многомерных проблем, встречающиеся в реальной жизни и не ограниченных конкретной, очень специфической сферой.
ForkLog AI: Кого бы вы назвали из публичных людей двигателями и угрозой отрасли?
Даниил Швец: Я считаю, что сейчас индустрию двигают вперед не столько конкретные люди, сколько большое количество людей, работающих в ней в целом. Если лет 15–20 назад были, так сказать, пионеры искусственного интеллекта, которые создали основу всего того, с чем мы работаем сейчас, то сейчас мы видим, что большое количество топовых моделей, новых публикаций идут не от конкретных людей. Они идут из-за накопления какого-то количества знаний и бесконечных экспериментов с ними. И рано или поздно кто-то таки выстрелит с чем-то феноменальным.
Поэтому сейчас таких имен скорее даже и нет. Безусловно есть те, за кем стоит следить. Намного выше вероятность, что кто-то не очень известный, кто будет ставить большое количество экспериментов и опытов, удачных и неудачных, сделает что-то феноменальное.
ForkLog AI: OpenAI в свое время обещала, что не будет монетизировать свои разработки. Но в прошлом сентябре она подписала договор с Microsoft об эксклюзивном использовании GPT-3, а совсем недавно компании представили Copilot для GitHub. Организация постепенно превращается в коммерческую?
Даниил Швец: Любой компании нужны деньги. OpenAI связана с другими предприятиями, но она не может вечно жить на дотации. Даже те компании, которые делают вещи для общественного блага, open-source и прочее, у них, если серьезная компания, работают серьезные сотрудники. Если есть большое количество серьезных сотрудников и серьезной техники — за это нужно чем-то платить.
Поэтому идея создания чего-то исключительно для общественного блага, но при этом не получая денег — она нереализуема. Организация может получить средства либо у других компаний, что вызывает не меньше вопросов, либо монетизировать какие-то из своих наработок для того, чтобы у нее были возможности некоторые другие наработки отдавать обществу безвозмездно.
ForkLog AI: По поводу Copilot, насколько перспективны подобные инструменты? Вы бы пользовались в своей работе ими?
Даниил Швец: Конкретно этим инструментом я не пользовался. Я в принципе не пользовался никакими помощниками в написании кода. И мне кажется, что большинство пишущих код людей вряд ли воспользуются этим в ближайшее время. Но подобные инструменты могут помочь начинающим программистам или тем, кому надо решить какую-то задачу, но при этом им не хватает каких-то навыков.
ForkLog AI: Не произойдет ли в будущем такой ситуации, что по мере распространения подобных инструментов начинающие программисты станут больше полагаться на них и терять некоторые навыки и компетенции, которые они могли бы развить в процессе работы, получая знания из других источников?
Даниил Швец: Безусловно. Допустим из-за распространения автокорректора даже грамотные люди стали чаще допускать ошибки в текстах, написанных от руки.
Так же могу сказать за себя, практически разучился считать устно. Для каких-то простых вещей мы все сейчас используем калькулятор. Потому что они стали общедоступными. Я уверен, что старшее поколение, привыкшее жить и работать в мире без калькуляторов, считают в уме гораздо лучше.
Когда приходит какое-то улучшение и упрощение, то люди теряют какие-то базовые навыки и возможно это же случится с программированием.
ForkLog AI: Ваш прошлый профессиональный и предпринимательский опыт помогает вам в нынешней профессии?
Даниил Швец: Если говорить про какие-то прямые навыки — то никак. Но я бы сказал, что опыт в разных сферах, независимо от того, что это: экономика, предпринимательство, медицина или другие вещи, они позволяют на любую проблему, в том числе связанную с искусственным интеллектом и дата-саенс, смотреть более комплексно и с разных сторон.
Я считаю, что различный профессиональный опыт позволяет мне комплексно смотреть на проблему, понимать бизнес-задачу и ее смысл, прежде чем решать ее с помощью дата-саенс.
ForkLog AI: Тяжело было найти первую работу в области дата-саенс?
Даниил Швец: Найти первую работу очень тяжело, но в этом плане мне повезло. Когда я только закончил обучение, так получилось, что я выиграл хакатон, организованный одним крупным банком. После этого выяснилось, что им нужен человек, который будет экспериментально реформировать некоторую систему, связанную дата-саенс и аналитикой. И я подумал, почему бы и нет?
Я считаю это везением. И глобально, я понимаю, что найти первую работу очень тяжело. Особенно из-за того, что сейчас можно получить действительно хорошие знания на Coursera, DataCamp и других онлайн-курсах, что привело к высокой конкуренции на рынке труда.
ForkLog AI: Что бы вы посоветовали начинающим дата-саенс?
Даниил Швец: Я бы посоветовал достаточно простую вещь, которую многие не делают — не ограничиваться техническими знаниями, которые есть в тех же курсах и учебниках. Я советую смотреть на то, как решать бизнес-проблемы. Сейчас большое количество людей учат всю эту теорию, они знают, как сделать стандартный проект, посмотреть на результат и так далее. Безусловно это важно, без этого никак. Но сейчас существуют библиотеки, которые позволяют в несколько строчек сделать все эти вещи.
На мой взгляд, дата-сайентист — это уже не просто техническая специальность, которая, грубо говоря, создает алгоритмы. Это скорее люди, которые решают проблемы бизнеса с помощью дата-саенс, алгоритмов, данных, обучения и прочего. И именно то, как переводить бизнес-проблемы в язык данных — это то, что я ищу в людях, которых нанимаю. И многим моим знакомым, которые нанимают дата-сайентистаов, это то, чего им действительно не хватает.
Повторюсь, дата-сайентист – это не только техническая специальность. Это человек, который умеет дать решение определенной продуктовой или бизнесовой проблеме методами алгоритмов.
ForkLog AI: Насколько я знаю, вы занимаетесь и творческой деятельностью. Как вы относитесь к различным алгоритмам, которые разработаны для выполнения задач, связанных с искусством?
Даниил Швец: В ближайшее время здесь человека не заменят, хотя бы, потому что суть творчества — это всегда придумывать хоть немного что-то новое, а не просто что-то скопировать или сделать в стиле старого.
Все настоящие творческие прорывы — это некоторая новизна. Что бы ни было, все алгоритмы обучаются на чем-то уже существующем. Возможно ли научить компьютер имитировать какое-либо произведение в том или ином жанре? Безусловно, и в будущем у него это будет получаться лучше. Но сможет ли компьютер, по крайней мере, сегодняшний, создать и придумать новый жанр? Вот в этом я сомневаюсь.
Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!
Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!