С развитием компьютерных технологий появилось понятие Big Data – массива информации большого объёма. Специалистов, которые стали работать с большими данными, называют дата-сайнтисты. В их задачи входит обработка и структуризация данных для обнаружения закономерностей и построения прогнозов. Рассмотрим подробнее, кто такие специалисты по data science – что это за профессия, где можно её получить и сколько удастся заработать.
Data Science – область знаний на стыке анализа, статистики и машинного обучения. Это наука о данных, но такое понятие достаточно размыто и не отражает сути. Data переводится как «данные» – именно с ними работает специалист: собирает, хранит, обрабатывает, ищет нужную информацию в массиве. Science переводится как «наука» и означает, что специалист должен не просто собрать данные и отправить на хранение. Он обязан уметь структурировать и анализировать их, находить закономерности и использовать для построения прогнозных моделей. Но и на этом всё не заканчивается – дата-сайнтисты не просто выдвигают версии, но и строят планы по применению результатов для конкретных задач.
Дата Сайнс – довольно трудоёмкая сфера деятельности. Специалисту приходится работать с большими объемами неструктурированных данных и извлекать из них полезную информацию, которую можно использовать в том числе для бизнеса. Это касается многих сфер, например, e-commerce, здравоохранения, логистики, рекламы, финансов. Самый простой пример – планирование перевозок и составление оптимальных маршрутов доставки в сфере логистики.
Специалистов, работающих с Big Data, называют data scientist. В их задачи обычно входит:
Например, в бизнесе такой специалист может обработать массив данных о спросе на товары компании за прошлые периоды – 1 год, 5 лет или десятилетие. Затем на основе полученного результата составить прогноз, как поменяется спрос в текущем году или в следующие 5–10 лет.
Такие сотрудники востребованы в различных сферах – в ритейле, финтехе, промышленности и др. И чем крупнее компания, тем больше она нуждается в таком специалисте.
Основные компетенции:
Дата-сайнтист и аналитик данных – разные профессии. Оба таких специалиста используют большие массивы данных, но аналитик только анализирует информацию, а Data Scientist ещё и строит прогнозные модели.
Специалист по Дата Сайнс должен уметь:
Для этого понадобятся определённые знания:
Кроме того, нужно разбираться:
В некоторых случаях используются другие языки программирования, например, С или C++, но обычно их применяют в решении сложных или нестандартных задач.
В мире Data Science также существует деление на Junior, Middle, Senior, Team Lead. Соответственно, отличается и перечень задач для каждого профиля. Например, Junior Data Scientist умеет подготовить данные, использовать машинные модели обучения, определить качество, но обычно работает под руководством более опытного наставника. Middle участвует в обсуждении бизнес-задач клиента и бо́льшую часть работ выполняет самостоятельно. Senior не только решает, но и ставит задачи, выступает ментором для джуниоров. Есть разные направления роста – например, переход в Deep Learning engineering (разработка нейронных сетей).
Спрос на специалистов по науке о данных растёт во всём мире. Стремительное развитие алгоритмов машинного обучения и построения на их основе прогнозов говорит о том, что у профессии есть потенциал. Такие специалисты нужны в разных отраслях:
По прогнозам Министерства труда США, к 2026 году спрос на эту профессию вырастет почти на 30%. В России востребованность специалистов в сфере обработки больших данных за 3 прошлых года увеличилась более чем на 400%. По состоянию на начало апреля 2023 на hh.ru размещено 420 вакансий.
Как и в других сферах, заработок напрямую коррелирует с объёмом навыков и опытом работы. В среднем, по данным hh.ru, джуниоры могут рассчитывать на зарплату от 40–60 тыс. руб., специалисты с опытом – на 150–200+ тыс. руб.
Конечно, в регионах зарплаты программистов и других IT-специалистов скромнее, чем предлагают столичные работодатели. Доход зависит ещё и от сферы деятельности – в крупных компаниях, например, банках, IT, оклады в целом выше.
Изучить Дата Сайнс можно и с нуля, но легче это сделать, если владеть какой-либо другой IT-специальностью. Для этого подойдут статьи, тематические форумы, блоги, видео в интернете и бесплатные курсы. Без хотя бы базовых знаний освоить профессию будет сложно, в этом случае лучше использовать платные курсы, где со студентами работают преподаватели и дают обратную связь.
Для тех, кто делает первые шаги в профессии, подойдут бесплатные курсы – на них можно получить базовые знания и понять, стоит ли двигаться дальше:
Бесплатное обучение обычно предполагает самостоятельное освоение программы и направлено на то, чтобы дать слушателям базовую информацию по Data Science – что это такое, где применяется, какие инструменты используют, в каком направлении двигаться дальше.
Платные курсы более эффективны, поскольку на них можно получать обратную связь от наставника, программы обычно структурированы:
В школах студенты работают под руководством наставников с проверкой домашних работ. По окончании обучения можно получить сертификат или диплом.
Профессия относительно новая, поэтому отдельного направления в вузах нет. Необходимые знания можно получить в технических институтах и университетах:
Отлично подойдут вузы, где есть направления по математическому анализу, машинному обучению.
Как и во многих digital-профессиях, в работе с Big Data есть свои нюансы.
К преимуществам профессии можно отнести:
Ещё один плюс – лёгкий переход в другую нишу в сфере IT и возможность совмещения специальностей.
Недостатками профессии можно считать:
Самообучение бывает малоэффективным, особенно для тех, кто не переходит из другой IT-сферы, а начинает с нуля. Поэтому иногда не обойтись без платных курсов.