IT.UA - home page

Меню
Aside section
Назад к списку

Data science

Определения

Русскоязычная Википедия дает такое определение:

Наука о данных (data science; иногда даталогия — datalogy) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.

Однако некоторые эксперты полагают, что это определение ошибочно, потому что data science – не "наука о данных", как написано в русскоязычной Википедии. Данные не являются предметом этой науки, поэтому называть data science синонимом предложенной Петером Науром науки datalogy ошибочно. Термин data science на русский язык, возможно, стоило бы переводить как "наука работы с данными" или "научные методы работы с данными". Следовательно, задача, решаемая теми, кто занимается data science, состоит в извлечении знаний с использованием методов, объединенных под общим названием data mining, в объединении статистики и других методов анализа данных с целью понимания того, что содержат в себе данные.1

Англоязычная Википедия дает несколько иные определения.2

Наука о данных — это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и пониманий (insights) из данных, представленных в различных формах, как структурированных, так и неструктурированных; она в значительной степени синонимична с глубинным анализом данных (data mining) и большими данными. Наука о данных — это "концепция объединения статистики, анализа данных, машинного обучения и связанных с ними методов" для "понимания и анализа реальных явлений". Она использует методы и теории, взятые из многих областей в контексте математики, статистики, информатики и компьютерных наук. Обладатель премии Тьюринга Джим Грей представлял науку о данных как "четвертую парадигму" науки и утверждал, что "все в науке меняется из-за воздействия информационных технологий" и взрывообразного увеличения количества данных (data deluge).

Четвертая парадигма науки

Обладатель премии Тьюринга Джим Грей и астроном и футуролог Алекс Шалаи разделили научное прошлое человечества на три периода использования данных и дополнили его современным четвертым.

  • Античные времена — описание наблюдаемых феноменов и логические выводы, сделанные на основе наблюдений.
  • XVII век — создание теорий с использованием для доказательства их истинности аналитических моделей.
  • XX век — использование методов численного моделирования, ставшее возможным благодаря появлению компьютеров.
  • XXI век — использование методов, основанных на анализе данных; применение для работы с огромными объемами данных статистических и других методов извлечения полезной информации.3

Очевидно, data science — наука XXI века; она рассматривается как академическая дисциплина, а с начала 2010-х годов, во многом благодаря популяризации концепции "больших данных", — и как практическая межотраслевая сфера деятельности, при этом профессия специалиста по исследованию данных (data scientist — "учёного по данным") с начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных.

В настоящее время термин data science часто используется взаимозаменяемо с более ранними концепциями, такими как business analytics (бизнес-аналитика), business intelligence (интеллектуальный анализ данных), predictive modeling (прогнозное моделирование) и statistics (статистика). Во многих случаях более ранние подходы и решения теперь просто переименовываются в "науку о данных", чтобы стать более привлекательными. Это может привести к тому, что термин станет "размытым", как это уже произошло с термином "большие данные".2

Основные отличия data science от business intelligence (BI)

Полнота используемых данных:

BI — структурированные цифровые данные, дающие весьма ограниченную картину окружающего мира
data science — любые данные, достаточные для отражения картины окружающего мира с любой требуемой полнотой.

Основные цели анализа:

BI — анализ предыдущих данных, чтобы выявить тенденции бизнеса, оценить влияние определенных событий на ближайшее будущее.
data science — прогнозирование будущих результатов с целью принятия обоснованных решений, получение ответов на вопросы "что" и "как".

Конечный результат:

BI —информация
data science — знания

В обоих случаях решающую роль играют специалисты. Главное различие между двумя специальностями заключается в том, что эксперт в области BI способен предоставить объективную картину от прошлого до текущего момента, в то время как data scientist должен понимать, как и что нужно делать.4

Данные, информация, знание…

Поскольку мы отметили выше, что конечный результат интеллектуального анализа данных (BI) — информация, а результат анализа data science — знания, следует упомянуть о концепции DIKW.

DIKW (англ. data, information, knowledge, wisdom — данные, информация, знания, мудрость) — информационная иерархия, в которой каждый следующий уровень добавляет определённые свойства к предыдущему.5

  • В основании находится уровень данных.
  • Информация добавляет контекст.
  • Знание добавляет "как" (механизм использования)
  • Мудрость добавляет "когда" (условия использования)

Информация — это данные, которые существенны для наблюдателя из-за их значимости для наблюдателя. Знание состоит из информации, подкрепленной намерением или направлением. Можно сказать, что знание — то, что превращает информацию в инструкции (рецепты). Критики концепции DIKW полагают, что такое представление о знании может быть полезным (и действенным) в контексте бизнеса, но слабо согласуется с тем, что считалось знанием в течение тысяч лет. В соответствии с DIKW знание является результатом фильтрации информации, тогда как "традиционное" знание и связанные с ним процессы, не говоря уже о мудрости, является результатом более сложных процессов: социальных, культурных и т. п. То есть DIKW дает искаженное и упрощенное представление о знании и мудрости. Однако "отличительные характеристики знания все ещё являются предметом неопределенности в философии",6 а ответ на вопрос "В чем вы видите различие между данными и информацией?" могут дать очень немногие специалисты даже из сферы IT.7  Поэтому введение соотношения данные-информация-знания, пусть и в упрощенном виде, несомненно полезно.

Жизненный цикл data science

На рисунке ниже представлены пять этапов жизненного цикла науки о данных:

  • Capture (захват) — сбор данных, ввод данных, прием сигнала, извлечение данных)
  • Maintain (поддержка) — хранение данных, очистка данных, подготовка данных, обработка данных, архитектура данных)
  • Process (обработка) —интеллектуальный анализ данных, кластеризация/классификация, моделирование данных, обобщение данных)
  • Analyze (анализ) — поисковый/подтверждающий, прогнозный анализ, регрессия, анализ текста, качественный анализ)
  • Communicate (информирование о результатах) — передача данных, визуализация данных, бизнес-аналитика, принятие решений)8

Соответственно, специалист по изучению данных (data scientist) должен уметь не только добывать и анализировать, но и обрабатывать большие массивы данных, причем с использованием множества инструментов.  Однозначного описания этой профессии пока нет, да и вряд ли оно появится в ближайшем будущем — слишком многое зависит от сферы применения навыков работы с данными.

Основные задачи data scientist

Специалист по изучению данных должен уметь:

  • извлекать необходимую информацию из разнообразных источников;
  • использовать информационные потоки в режиме реального времени;
  • устанавливать скрытые закономерности в массивах данных;
  • статистически анализировать их для принятия грамотных бизнес-решений.9

Data scientist должен быть любопытным и ориентированным на результат, хорошо знать особенности отрасли, в которой работает, обладать хорошими коммуникационными навыками, которые позволят ему объяснять полученные технические результаты своим "нетехническим" коллегам. Он должен обладать значительным опытом в области статистики и линейной алгебры, а также знаниями в области программирования, хранилищ данных, интеллектуального анализа и моделирования для построения и анализа алгоритмов.

Он также должен быть в состоянии использовать ключевые технические инструменты и навыки, в том числе:

R, Python Apache, Hadoop, MapReduce;
Apache Spark, NoSQL databases, Cloud computing, D3;
Apache Pig, Tableau, iPython notebooks, GitHub.

И тогда он будет обладателем лучшей профессии в США по итогам 2016, 2017, 2018 гг. и сможет получать в среднем 120 тыс. долл. в год.10

Ссылки:
1. https://www.cfin.ru/itm/kis/choose/mro.shtml
2. https://en.wikipedia.org/wiki/Data_science
3. http://www.tadviser.ru/index.php/Статья:Данные
4. http://www.tadviser.ru/index.php/Статья:Почему_Data_Scientist_сексуальнее%2C_чем_BI-аналитик
5. https://ru.wikipedia.org/wiki/DIKW
6. https://ru.wikipedia.org/wiki/Знание
7. http://www.tadviser.ru/index.php/Статья:Данные
8. https://datascience.berkeley.edu/about/what-is-data-science/
9. http://www.tadviser.ru/index.php/Статья:Специалист_по_изучению_данных_(data_scientist)
10. https://datascience.berkeley.edu/about/what-is-data-science/

  • Предыдущая
  • следующая
Get in touch

Получить
наше бизнес предложение
Получить
наше бизнес предложение
Заполнить форму