Data Science: что это такое, перспективы профессии и как обучиться

Иван Блинов
Иван Блинов Иван Блинов
8405
Специализация: кредиты, микрозаймы, вклады, ипотека, автострахование, дебетовые и кредитные пластиковые карты
Задать вопрос
6 минут чтения
2
0
245
Комментировать

С развитием компьютерных технологий появилось понятие Big Data – массива информации большого объёма. Специалистов, которые стали работать с большими данными, называют дата-сайнтисты. В их задачи входит обработка и структуризация данных для обнаружения закономерностей и построения прогнозов. Рассмотрим подробнее, кто такие специалисты по data science – что это за профессия, где можно её получить и сколько удастся заработать.

Data Science – что это такое

Data Science – область знаний на стыке анализа, статистики и машинного обучения. Это наука о данных, но такое понятие достаточно размыто и не отражает сути. Data переводится как «данные» – именно с ними работает специалист: собирает, хранит, обрабатывает, ищет нужную информацию в массиве. Science переводится как «наука» и означает, что специалист должен не просто собрать данные и отправить на хранение. Он обязан уметь структурировать и анализировать их, находить закономерности и использовать для построения прогнозных моделей. Но и на этом всё не заканчивается – дата-сайнтисты не просто выдвигают версии, но и строят планы по применению результатов для конкретных задач.

Дата Сайнс – довольно трудоёмкая сфера деятельности. Специалисту приходится работать с большими объемами неструктурированных данных и извлекать из них полезную информацию, которую можно использовать в том числе для бизнеса. Это касается многих сфер, например, e-commerce, здравоохранения, логистики, рекламы, финансов. Самый простой пример – планирование перевозок и составление оптимальных маршрутов доставки в сфере логистики.

Кто такой Data Scientist

Специалистов, работающих с Big Data, называют data scientist. В их задачи обычно входит:

  • построение и тестирование математических моделей;
  • поиск закономерностей;
  • построение прогнозов.

Например, в бизнесе такой специалист может обработать массив данных о спросе на товары компании за прошлые периоды – 1 год, 5 лет или десятилетие. Затем на основе полученного результата составить прогноз, как поменяется спрос в текущем году или в следующие 5–10 лет.

Такие сотрудники востребованы в различных сферах – в ритейле, финтехе, промышленности и др. И чем крупнее компания, тем больше она нуждается в таком специалисте.

Основные компетенции:

  • использование алгоритмов машинного обучения, математической статистики – применяются для проверки гипотез и обработки полученных результатов;
  • разработка – DevOps, SysOps, SRE и др.;
  • понимание бизнеса клиента.

Дата-сайнтист и аналитик данных – разные профессии. Оба таких специалиста используют большие массивы данных, но аналитик только анализирует информацию, а Data Scientist ещё и строит прогнозные модели.

Что должен знать и уметь Data Scientist

Специалист по Дата Сайнс должен уметь:

  • разобраться в задаче клиента;
  • подготовить почву для дальнейшей работы с продуктом – определить источник данных, инструменты их обработки;
  • анализировать и структурировать информацию;
  • использовать модели машинного обучения для решения задачи;
  • провести тестирование;
  • на основе полученных результатов выстроить прогноз.

Для этого понадобятся определённые знания:

  • линейной алгебры;
  • теории вероятности;
  • математического анализа;
  • статистики.

Кроме того, нужно разбираться:

  • в SQL и библиотеках;
  • в базах данных;
  • в Python;
  • во фреймворках, например, Scikit-learn.

В некоторых случаях используются другие языки программирования, например, С или C++, но обычно их применяют в решении сложных или нестандартных задач.

В мире Data Science также существует деление на Junior, Middle, Senior, Team Lead. Соответственно, отличается и перечень задач для каждого профиля. Например, Junior Data Scientist умеет подготовить данные, использовать машинные модели обучения, определить качество, но обычно работает под руководством более опытного наставника. Middle участвует в обсуждении бизнес-задач клиента и бо́льшую часть работ выполняет самостоятельно. Senior не только решает, но и ставит задачи, выступает ментором для джуниоров. Есть разные направления роста – например, переход в Deep Learning engineering (разработка нейронных сетей).

Актуальность и востребованность профессии

Спрос на специалистов по науке о данных растёт во всём мире. Стремительное развитие алгоритмов машинного обучения и построения на их основе прогнозов говорит о том, что у профессии есть потенциал. Такие специалисты нужны в разных отраслях:

  • банках;
  • логистических компаниях;
  • в IT-сфере;
  • на производстве;
  • страховых и рекламных компаниях;
  • сельском хозяйстве и медицине;
  • метеорологии;
  • сфере продаж и др.

По прогнозам Министерства труда США, к 2026 году спрос на эту профессию вырастет почти на 30%. В России востребованность специалистов в сфере обработки больших данных за 3 прошлых года увеличилась более чем на 400%. По состоянию на начало апреля 2023 на hh.ru размещено 420 вакансий.

Сколько зарабатывает специалист в Data Science

Как и в других сферах, заработок напрямую коррелирует с объёмом навыков и опытом работы. В среднем, по данным hh.ru, джуниоры могут рассчитывать на зарплату от 40–60 тыс. руб., специалисты с опытом – на 150–200+ тыс. руб.

Конечно, в регионах зарплаты программистов и других IT-специалистов скромнее, чем предлагают столичные работодатели. Доход зависит ещё и от сферы деятельности – в крупных компаниях, например, банках, IT, оклады в целом выше.

Как обучиться Data Science

Изучить Дата Сайнс можно и с нуля, но легче это сделать, если владеть какой-либо другой IT-специальностью. Для этого подойдут статьи, тематические форумы, блоги, видео в интернете и бесплатные курсы. Без хотя бы базовых знаний освоить профессию будет сложно, в этом случае лучше использовать платные курсы, где со студентами работают преподаватели и дают обратную связь.

Бесплатные курсы

Для тех, кто делает первые шаги в профессии, подойдут бесплатные курсы – на них можно получить базовые знания и понять, стоит ли двигаться дальше:

  1. «Введение в Data Science и машинное обучение» от Bioinformatics Institute. Курс рассчитан на новичков, познакомит с азами машинного обучения и базовой теорией Дата Сайнс на реальных кейсах. Состоит из 30 видеоуроков, 54 тестов и интерактивных задач. В программе 11 блоков на различные темы. На занятия нужно выделять в среднем до 6 часов в неделю.
  2. «Машинное обучение» от ОмГТУ. Курс обучает работе с Big Data, анализу результатов. Состоит из 73 видеоуроков и 68 тестов, продолжительность – 72 часа. Разбит на 3 большие блока, по итогу которых слушатели выполняют тесты и практическое задание.
  3. «Data Science: будущее для каждого» от Нетологии. Трёхдневный курс в онлайн-формате для новичков. Позволит разбираться в разных направлениях работы с большими данными, приобрести базовые навыки и изучить инструментарий. В конце обучения – одно практическое занятие. Доступ к выданным материалам остаётся навсегда.
  4. «Анализ данных» от РЭУ им. Г.В. Плеханова. Программа для начинающих, знакомящая со статистическим анализом. Состоит из 20 уроков, 137 тестов и одного видео. Подойдёт для новичков, но необходимы знания общеэкономической теории и математики.
  5. «Introduction to Data Science» от Alison. Англоязычный курс, состоит из трёх больших модулей. Позволяет получить базовые навыки, подойдёт для начинающих. При успешной сдаче итоговых тестов выдаётся сертификат.

Бесплатное обучение обычно предполагает самостоятельное освоение программы и направлено на то, чтобы дать слушателям базовую информацию по Data Science – что это такое, где применяется, какие инструменты используют, в каком направлении двигаться дальше.

Платные курсы

Платные курсы более эффективны, поскольку на них можно получать обратную связь от наставника, программы обычно структурированы:

  1. «Специалист по Data Science» от Яндекс.Практикум. Продолжительность 8,5 месяцев, на курсе изучают Python и его библиотеки, Jupyter Notebook и SQL. В процессе студенты собирают портфолио с 16 проектами, по окончании школа помогает с поиском работы. Подходит для освоения профессии с нуля и начинающих датасаентистов.
  2. «Профессия Data Scientist» от Skillbox. Курс с тремя направлениями обучения – data-engineer, аналитик данных и machine learning engineer. Состоит из более чем 100 практических заданий, рассчитан на 12 месяцев. По окончании лучшим студентам предлагают трудоустройство в компаниях-партнерах.
  3. «Data Scientist» от ProductStar. Интенсив с акцентом на практику для новичков. Научит работать с SQL, Python, библиотеками, строить модели машинного обучения. При школе работает карьерный центр, который помогает с трудоустройством.
  4. «Основы работы с большими данными» от учебного центра «Специалист». Курс представлен в двух форматах – очном и онлайн. Перед началом занятий студенты проходят бесплатное тестирование для определения уровня предварительной подготовки.
  5. «Data Scientist» от Skill Factory. Продолжительность обучения 2 года, подходит новичкам. Около 80% времени занимает выполнение практических задач. На глубокое изучение уйдет в среднем 8 часов в неделю. Есть несколько тарифов.

В школах студенты работают под руководством наставников с проверкой домашних работ. По окончании обучения можно получить сертификат или диплом.

Вуз

Профессия относительно новая, поэтому отдельного направления в вузах нет. Необходимые знания можно получить в технических институтах и университетах:

  • МФТИ;
  • СПбГУ;
  • Казанский НИТУ и др.

Отлично подойдут вузы, где есть направления по математическому анализу, машинному обучению.

Плюсы и минусы профессии

Как и во многих digital-профессиях, в работе с Big Data есть свои нюансы.

Плюсы

К преимуществам профессии можно отнести:

  • высокий уровень зарплат – даже новички на позиции стажёра или Junior могут рассчитывать на зарплату в среднем от 50–80 тыс. руб.;
  • востребованность – с увеличением объёма данных растёт спрос и на дата-сайнтистов, которых привлекают к работе и в небольших, и в крупных, частных и государственных компаниях;
  • возможность работать удалённо – можно проживать в регионе, но устроиться в штат крупной столичной компании с соответствующей зарплатой;
  • гибкий график – заказчику важно, чтобы все запланированные работы были выполнены, но специалист сам может распределять рабочую нагрузку.

Ещё один плюс – лёгкий переход в другую нишу в сфере IT и возможность совмещения специальностей.

Минусы

Недостатками профессии можно считать:

  • достаточно высокий порог входа – освоить с нуля профессию сложно, необходимо знать статистику, математику, информатику;
  • невозможность со 100% точностью предсказать результат – построенная модель может оказаться неэффективной, её приходится переделывать, иногда по нескольку раз;
  • необходимость постоянно учиться и осваивать новые навыки;
  • «лишние» обязанности – не все работодатели могут точно определить пул задач дата-сайентиста и привлекают его, например, к составлению отчётов или написанию кода;
  • часто ненормированный рабочий график.

Самообучение бывает малоэффективным, особенно для тех, кто не переходит из другой IT-сферы, а начинает с нуля. Поэтому иногда не обойтись без платных курсов.

2
0
245
5
Рейтинг статьи 5 из 5