Scientific journal
Scientific Review. Technical science
ISSN 2500-0799
ПИ №ФС77-57440

COMPARATIVE ANALYSIS OF THE IMPLEMENTATION OF CORRELATION ANALYSIS IN MICROSOFT EXCEL AND LIBREOFFICE CALC

Pepelyshev D.I. 1 Vorobev D.A. 1
1 Ural Federal University named after the first President of Russia B.N. Yeltsin
3007 KB
The importance of correlation analysis is difficult to overestimate. It underlies many research works, business analytics and forecasting. Understanding the relationships between variables allows you to make informed conclusions about the influence of one factor on another, predict future values and make effective decisions. This work is devoted to a comparative analysis of the implementation of correlation analysis in two popular electronic processors: Microsoft Excel and LibreOffice Calc. The purpose of the study is to identify similarities and differences in the methods and results of calculating correlation coefficients in both applications, compare the accuracy of the built-in methods, and evaluate the ease of use of interfaces for performing analysis. The study examines the most popular type of correlation coefficient, the Pearson correlation coefficient, which can be calculated using built-in functions in both programs. Historical weather data for the city of Yekaterinburg for December 2024 was used as a data set. The results will help users choose the most suitable tool for their analytical tasks. The conclusion briefly describes the advantages and disadvantages of each program and provides recommendations for choosing the optimal program.
Microsoft Excel
LibreOffice Calc
correlation analysis
comparative analysis
analytics

Введение

С ростом объемов данных, которые генерируются в различных сферах нашей жизни – от социальных сетей и Интернета вещей до промышленных приложений и научных исследований – становится критически важным использовать современные инструменты и технологии, способные эффективно обрабатывать и анализировать большие массивы информации [1,с. 44].

Проведение сравнительного анализа реализации корреляционного анализа в Libre Office Calc и Microsoft Excel становится актуальной задачей, поскольку выбор программного обеспечения может существенно повлиять на результаты исследования и работу пользователя.

Корреляционный анализ – это статистический метод, который используется для оценки и измерения степени взаимосвязи между двумя или более переменными. Он позволяет определить, насколько изменение одной переменной связано с изменением другой [2,с. 75].

Данный инструмент помогает выявить наличие и направление связи между переменными: положительная корреляция означает, что с увеличением одной переменной другая также увеличивается, в то время как отрицательная корреляция указывает на то, что увеличение одной переменной связано с уменьшением другой. Он часто применяется в различных областях, таких как экономика, психология, социология и медицина, для выявления закономерностей и построения прогнозов [3,с. 100].

Основным показателем, используемым в корреляционном анализе, является коэффициент корреляции Пирсона (*), который варьируется в диапазоне от -1 до +1. Коэффициент +1 указывает на идеальную положительную корреляцию, -1 – на идеальную отрицательную корреляцию, а 0 говорит о том, что между переменными нет линейной зависимости [4].

 

missing image file. (*)

Цель исследования – выявить сходства и различия в методах и результатах расчета корреляционных коэффициентов в обоих приложениях, сравнить точность встроенных методов, а также оценить удобство использования интерфейсов для выполнения анализа.

Набор данных

В качестве набора данных для сравнения использовался архив погоды в Екатеринбурге за промежуток с 3 по 9 декабря 2024 г. Данные были взяты с открытого источника – сайта метеоновостей hmn.ru. Пример данных для анализа представлен в таблице.

Пример данных для анализа

Дата

Время

Температура,

°C

Относительная влажность воздуха

Дата

Время

Температура,

°C

Относительная влажность воздуха

03.12.24

02:00

-1

81

06.12.24

02:00

-5

70

05:00

0

80

05:00

-6

71

08:00

-1

84

08:00

-7

78

11:00

0

83

11:00

-8

77

14:00

0

82

14:00

-6

70

17:00

0

83

17:00

-9

82

20:00

0

84

20:00

-9

83

23:00

0

86

23:00

-9

83

04.12.24

02:00

-1

89

07.12.24

02:00

-9

83

05:00

-2

88

05:00

-10

84

08:00

-3

89

08:00

-10

83

11:00

-3

89

11:00

-10

79

14:00

-3

85

14:00

-9

67

17:00

-3

89

17:00

-11

74

20:00

-2

90

20:00

-12

80

23:00

-3

88

23:00

-13

78

05.12.24

02:00

-3

86

08.12.24

02:00

-13

80

05:00

-3

85

05:00

-13

77

08:00

-4

82

08:00

-13

77

11:00

-3

83

11:00

-13

72

14:00

-4

68

14:00

-12

69

17:00

-4

74

17:00

-15

77

20:00

-4

73

20:00

-15

82

23:00

-4

71

23:00

-14

81

09.12.24

02:00

-12

79

09.12.24

14:00

-6

42

05:00

-10

70

17:00

-6

44

08:00

-8

51

20:00

-6

66

11:00

-7

53

23:00

-7

74

missing image file

Рис. 1. Расчет коэффициента корреляции с помощью функции «КОРРЕЛ» в программе Microsoft Excel

missing image file

Рис. 2. Расчет коэффициента корреляции с помощью инструментов анализа в программе Microsoft Excel

missing image file

Рис. 3. Результат расчета в программе Microsoft Excel

missing image file

Рис. 4. Расчет коэффициента корреляции в программе Libreoffice Сalc

missing image file

Рис. 5. Результат расчета в программе Libreoffice Сalc

Для выявления взаимосвязи между анализируемыми данными были выбраны два самых значимых показателя – среднесуточная температура и относительная влажность воздуха.

Реализация в Microsoft Excel

Одним из способов, с помощью которого можно провести корреляционный анализ в Microsoft Excel, является использование функции «КОРРЕЛ». Для использования данной возможности необходимо открыть мастер функций и выбрать эту функцию. В качестве аргументов она принимает два массива данных, для которых будет определяться коэффициент корреляции [5, с. 38].

При использовании тестового набора данных результат получился примерно 0,22, что можно трактовать как слабая прямая зависимость. На рис. 1 представлен скриншот с результатом.

Кроме того, корреляцию можно вычислить с помощью одного из инструментов, который представлен в пакете анализа. Для этого нужно зайти в анализ данных и выбрать инструмент «корреляция». Далее выбирается нужный диапазон ячеек, который будет сравниваться (рис. 2, 3) [6, с. 129].

Как можно увидеть, на данных рисунках представлен коэффициент корреляции. Естественно, он оказался тот же, что и при использовании первого способа вычисления. Это объясняется тем, что оба варианта выполняют одни и те же вычисления, однако произвести их можно разными способами, что однозначно, можно отнести к плюсам программы Microsoft Excel, так как каждый исследователь сможет выбрать наиболее удобный для себя способ вычисления коэффициента корреляции.

Реализация в Libreoffice Сalc

Для того, чтобы выполнить корреляцию в Libreoffice Сalc, необходимо зайти в раздел «Данные» и выбрать из предложенного списка формул корреляцию. После этого нужно указать массив данных, влияние друг на друга которых будет рассматриваться. На рис. 4 представлен пример интерфейса для расчета коэффициента корреляции в программе Libreoffice Сalc [7, с. 39].

Результат выполнения вставляется в выбранной ячейке таблицы, при этом выполняется вставка мини-таблицы, состоящей из нескольких столбцов и строк. Пример результата расчета коэффициента корреляции представлен на рис. 5.

Результат коэффициента корреляции оказался таким же, как и в Excel, с точностью до 9 знака, что является довольно высоким показателем. Из недостатков Libreoffice Calc можно отметить, что вставка результата осуществляется в ячейку в формате мини-таблицы, состоящей из нескольких столбцов и строк. Это плохо, так как новые данные могут заменить значения в существующих ячейках.

Заключение

Таким образом, сравнительный анализ реализации корреляционного анализа в Microsoft Excel и LibreOffice Calc выявил как сходства, так и различия в результатах расчета коэффициента корреляции Пирсона. Обе программы предоставляют функциональность для выполнения такого анализа, но незначительные различия в обработке данных могут приводить к небольшим отклонениям в полученных результатах.

Microsoft Excel, обладая более широким функционалом и возможностями, может быть предпочтительнее для сложных исследовательских задач, требующих, например, дополнительных визуализаций или углубленного статистического анализа.

LibreOffice Calc, являясь бесплатным и кроссплатформенным решением, остается удобной альтернативой для решения задач, не требующих высокой степени точности и детализации.