Несмотря на многообразие современного мира, есть один ключевой навык, который важен для специалистов различных отраслей. Это — грамотность данных.
Когда мы говорим о цифровой трансформации, то во многом она зависит от уровня информационной грамотности команды. Она помогает на максимум понять и использовать тот потенциал, который заложен в технологии и процессы, основанные на данных.
Итак, HR-специалистам и рекрутерам нужно понимать, что включает в себя определение «грамотность данных». Кроме того, эти специалисты должны понимать, какой показатель грамотности данных является минимально допустимым для человека, которого нанимают. Это понимание поможет правильно строить программы повышения квалификации для команды, а также корректно формулировать требования к людям, которые будут наняты после цифровой трансформации.
Статистика. Компания Gartner ежегодно проводит опрос директоров по управлению данными. В рамках этого исследования было определено, что низкий уровень грамотности в работе с данными является вторым по значению внутренним препятствием к успеху офиса CDO. Именно поэтому грамотность данных включена в более 80% стратегий управления данными и аналитикой, программ управления изменениями.
Можно сказать, что грамотность работы с данными — суперсила для современного специалиста. Именно от нее зависит способность понимать данные и интерпретировать их. Проведем аналогию: умение писать и читать являются обязательными для любого современного человека, а уже скоро таким же станет грамотность данных.
Информация = данные. То есть данные окружают любого сотрудника: информация о продажах, товарных остатках, рыночных показателях и так далее. Люди, которые являются информационно грамотными, обычно отличаются следующим:
«Читаю и перевожу со словарем» — примерно так можно охарактеризовать минимальный уровень грамотности при работе с данными.
Работник, который имеет базовый уровень грамотности при работе с данными, умеет следующее:
То есть человек знает, что структурированные данные организованы определенным образом, например, как таблицы или базы данных. Кроме того, работник может фильтровать, группировать данные, понимать базовые типы данных, отличать даты от строковых данных.
Также работник может работать с неструктурированными данными: текстами, картинками, постами в соцсетях и тому подобное. Например, ему под силу выделить ценную информацию из неструктурированных данных.
Еще грамотный сотрудник владеет различными методами обработки данных и понимает, когда и какой следует применить. Например, структурированные данные требуют статистического анализа или агрегации данных, а вот неструктурированные данные логично обработать через распознавание изображений или метод обработки естественного языка.
То есть дать такой уровень информации, который позволяет принимать взвешенные решения.
Грамотный человек в состоянии увидеть в данных ошибки разных типов (пропущенные значения, дубли, неточности). Кроме того, сотрудник должен понимать потенциальное влияние той или иной ошибки на конечный результат.
Когда грамотный сотрудник готовит данные для анализа, он видит пробелы, понимает, как их заполнить и собрать недостающую информацию. Если получить данные невозможно, человек знает, как воспользоваться интерполяцией, импутацией данных (импутация среднего значения, регрессионная импутация и т.д.).
Также нужно вовремя выявлять и обрабатывать аномальные или выбросные значения, которые могут исказить результаты анализа.
То есть знает основные статистические концепции и правила их применения.
Например, грамотный человек знает разницу между средним значением и медианой. Следовательно, такой сотрудник знает, что медиана — показатель более надежный и хорошо подходит для асимметричного распределения данных.
Также грамотный специалист понимает ограничения в использовании средних в анализе, ведь те могут искажать результаты при экстремальных значениях или ненормальных распределениях.
Еще один важный нюанс — работа с ограничениями прямых и обратных операций с процентами. Следует, например, знать, что увеличение на 50% не является компенсацией уменьшения на 50%.
Те, кто работает с данными, должны ориентироваться в специфике динамики, связанной с малыми начальным базами или нулевыми значениями. Особенно важно это при работе с процентами и темпами роста. Здесь следует понимать, что при условии небольшого начального значения (базы) незначительное абсолютное изменение дает большое изменение в процентах.
Когда же начальная база нулевая, то процентное изменение вычислить невозможно, оно становится неопределенным или бесконечным.
Такие знания позволяют точно объяснять процентные изменения и утверждать, что анализ соответствует контексту. Кроме того, они подчеркивают значение рассмотрения абсолютных значений в соответствии с процентами, это позволяет видеть развернутую картину тенденций данных.
Следует понимать корреляцию — статистическую взаимосвязь между двумя и более переменными, то есть степень, до которой изменения между переменными связаны между собой.
Не менее важно выделять ложные корреляции, когда между переменными нет причинно-следственной связи, и не делать необдуманных выводов.
Также имеет значение понимание того, что корреляция не является синонимом причинно-следственной связи. То есть, даже если переменные коррелируют, это не означает, что изменения в одной переменной обязательно ведут к изменениям другой.
Важно понимать, когда целесообразно использовать тот или иной тип диаграммы:
Также следует разумно использовать цвета. Например, отказаться от большого количества цветов и оттенков, показывать особо важные моменты акцентами.
Итак, теперь вы знаете, что такое уровень грамотности при работе с данными. Это поможет выбрать в команду достаточно квалифицированных сотрудников, которые помогут выйти на новый уровень в принятии решений.
