data_science (original) (raw)
- June 6th, 2017, 08:00 pm
Хадлей Викхам. Упорядоченные данные. 6 из 6
Шестая и последняя часть перевода статьи Хадлея Викхама.
6. Обсуждение
Очистка данных является важной проблемой, однако этот предмет редко обсуждается в статистике. Данная работа обозначает небольшой, но важный подраздел очистки данных, который я называл упорядочиванием данных: структурированием массива данных для облегчения манипуляции, визуализации и моделирования. Впереди все еще много работы. Пошаговые улучшения происходят по мере того, как улучшается наше понимание упорядоченных данных и упорядоченных инструментов, и по мере того, как мы улучшаем нашу способность снижать затраты при переводе данных в упорядоченную форму.
( Collapse )
- nasurdinov_ms
- May 30th, 2017, 08:00 pm
Хадлей Викхам. Упорядоченные данные. 5 из 6
Пятая часть перевода статьи Хадлея Викхама.
R> ggplot(data = devi, aes(x = n, y = dist) + geom_point()
R>
R> last_plot() +
R> scale_x_log10() +
R> scale_y_log10() +
R> geom_smooth(method = "rlm", se = F)
( Collapse )
- nasurdinov_ms
- May 23rd, 2017, 08:00 pm
Хадлей Викхам. Упорядоченные данные. 4 из 6
Четвертая часть перевода статьи Хадлея Викхама.
4.3. Моделирование
Моделирование является вдохновляющей идеей данной работы, потому что большинство инструментов для моделирования лучше всего работают с упорядоченными массивами данных. Каждый статистический язык содержит способ описания модели как соединения различных переменных – предметно-ориентированный язык, который связывает реакции (responses) с предсказывающими переменными (predictors):
( Collapse )
- nasurdinov_ms
- May 16th, 2017, 08:00 pm
Хадлей Викхам. Упорядоченные данные. 3 из 6
Третья часть перевода статьи Хадлея Викхама.
Таблица 11. Исходный массив данных по погоде. Существует столбец для каждого возможного дня в месяце. Столбцы d9 – d31 не показаны для экономии места
( Collapse )
- nasurdinov_ms
- May 9th, 2017, 08:00 pm
Хадлей Викхам. Упорядоченные данные. 2 из 6
Продолжаем публикацию статьи Хадлея Викхама.
Данный массив данных содержит три переменные: религия, доход и частота. Для их упорядочивания мы должны «расплавить», или сложить их стопкой. Иными словами, мы должны обратить столбцы в строки. В то время как это часто описывается как переделывание широкого массива данных в длинный или высокий, я буду избегать этих терминов, т.к. они неточные. Плавление характеризуется списком столбцов, которые уже являются переменными, или «колвар» (colvar, column variable – в буквальном переводе «столбцовая переменная» - прим. перев.), для краткости. Другие столбцы обращаются в две переменные: новая переменная, называемая «столбец», содержащая повторяемые имена столбцов и новая переменная, называемая «значение», содержащая сцепленные значения данных из предварительно разделенных столбцов. Это проиллюстрировано в таблице 5 с помощью шуточного массива данных. Результатом плавления является «расплавленный» массив данных.
( Collapse )
- nasurdinov_ms
- May 2nd, 2017, 08:00 pm
Хадлей Викхам. Упорядоченные данные. 1 из 6
Мы начинаем публикацию статьи Хадлея Викхама "Упорядоченные данные". Статья опубликована в журнале "Journal of Statistical Software" в августе 2014 года, доступна онлайн здесь и здесь.
Хадлей Викхам. Упорядоченные данные
Hadley Wickham. Tidy Data
Аннотация
Огромный объем усилий расходуется на очистку данных, для того, чтобы подготовить их для анализа, однако немногие исследования фокусируются на том, чтобы сделать очистку данных как можно более легкой и эффективной. Данная статья затрагивает небольшой, но важный компонент очистки данных (data cleaning): упорядочивание данных (data tidying). Упорядоченный массив данных легок для манипуляции, моделирования и визуализации, и имеет специфическую структуру: каждая переменная является столбцом, каждое наблюдение является строкой, каждый тип наблюдения является таблицей. Такая структура делает легким упорядочивание грязного массива данных, т.к. для работы с широким разнообразием неупорядоченных массивов данных требуется небольшой набор инструментов. Данная структура также делает более легким разработку упорядоченных инструментов для анализа данных, инструментов, которые принимают и выпускают упорядоченные массивы данных. Преимущества унифицированных структуры данных и соответствующих инструментов показаны на учебном примере, очищенном от необходимости проведения рутинных манипуляций с данными.
Ключевые слова: очистка данных (data cleaning); упорядочивание данных (data tidying); реляционные базы данных; язык R.
( Collapse )