from math import log10 as lg, floor
from tabulate import tabulate
import matplotlib.pyplot as plt

sample = sample = [
    100.0, 110.5, 75.2, 115.0, 90.5, 98.0, 100.0, 107.0, 92.0, 92.5,
    88.8, 110.2, 71.5, 115.0, 115.0, 115.0, 121.8, 122.0, 107.0, 105.0,
    91.4, 107.0, 92.0, 87.8, 88.1, 110.0, 110.0, 107.0, 102.0, 92.0,
    107.0, 95.8, 100.0, 102.0, 102.0, 96.5, 110.0, 107.0, 102.0, 101.9,
    105.0, 107.0, 81.3, 84.1, 102.0, 101.9, 105.0, 102.0, 100.0, 105.2,
    87.0, 72.2, 74.1, 120.0, 91.5, 107.0, 97.6, 87.0, 100.0, 91.0,
    98.1, 100.0, 80.2, 115.0, 81.3, 100.0, 102.0, 107.0, 107.0, 107.0,
    98.0, 107.0, 103.2, 115.0, 127.4, 102.0, 115.0, 81.2, 103.3, 102.4,
    113.3, 96.6, 102.0, 102.0, 92.0, 91.1, 107.0, 102.1, 102.0, 89.0,
    105.0, 100.0, 83.2, 97.5, 107.1, 76.0, 122.0, 100.0, 98.0, 111.5
]

n = len(sample)

a, b = min(sample), max(sample)

k = 1 + floor(3.322 * lg(n))

R = b - a

h = R / k

start = a - h/2
k_ = k + 1
intervals = set((start + h * i, start + h * (i + 1)) for i in range(k_))

frequencies = {}

for interval in intervals:
    frequencies[interval] = sum(1 for element in sample if interval[0] <= element < interval[1])

gfd = sorted(frequencies.items(), key=lambda item: item[0][0])

gfdt = [(f"({start:.2f}, {end:.2f})", freq) for (start, end), freq in gfd]
print(tabulate(gfdt, headers=["Interval", "Frequency"], tablefmt="github"))

| Interval         |   Frequency |
|------------------|-------------|
| (99.87, 100.53)  |           3 |
| (100.53, 101.19) |           6 |
| (101.19, 101.84) |           6 |
| (101.84, 102.50) |          10 |
| (102.50, 103.16) |          29 |
| (103.16, 103.81) |          28 |
| (103.81, 104.47) |           7 |
| (104.47, 105.13) |          11 |

rel_frequencies = { interval: frequency / n for interval, frequency in gfd}

rel_frequencies_table = [(f"({start:.2f}, {end:.2f})", rel_freq) for (start, end), rel_freq in rel_frequencies.items()]
print(tabulate(rel_frequencies_table, headers=["Interval", "Relative frequency"], tablefmt="github"))

| Interval         |   Relative frequency |
|------------------|----------------------|
| (99.87, 100.53)  |                 0.03 |
| (100.53, 101.19) |                 0.06 |
| (101.19, 101.84) |                 0.06 |
| (101.84, 102.50) |                 0.1  |
| (102.50, 103.16) |                 0.29 |
| (103.16, 103.81) |                 0.28 |
| (103.81, 104.47) |                 0.07 |
| (104.47, 105.13) |                 0.11 |

acc_frequencies = {gfd[0][0] : gfd[0][1]}
for i in range(1, len(gfd)):
    previous_interval = gfd[i-1][0]
    interval = gfd[i][0]
    frequency = gfd[i][1]
    acc_frequencies[interval] = acc_frequencies[previous_interval] + frequency

acc_frequencies_table = [(f"({start:.2f}, {end:.2f})", rel_freq) for (start, end), rel_freq in acc_frequencies.items()]
print(tabulate(acc_frequencies_table, headers=["Interval", "Accumulative frequency"], tablefmt="github"))

| Interval         |   Accumulative frequency |
|------------------|--------------------------|
| (99.87, 100.53)  |                        3 |
| (100.53, 101.19) |                        9 |
| (101.19, 101.84) |                       15 |
| (101.84, 102.50) |                       25 |
| (102.50, 103.16) |                       54 |
| (103.16, 103.81) |                       82 |
| (103.81, 104.47) |                       89 |
| (104.47, 105.13) |                      100 |

rel_acc_frequencies = {interval: acc_frequency / n for interval, acc_frequency in acc_frequencies.items()}

rel_acc_frequencies_table = [(f"({start:.2f}, {end:.2f})", rel_acc_freq) for (start, end), rel_acc_freq in rel_acc_frequencies.items()]
print(tabulate(rel_acc_frequencies_table, headers=["Interval", "Relative accumulative frequency"], tablefmt="github"))

| Interval         |   Relative accumulative frequency |
|------------------|-----------------------------------|
| (99.87, 100.53)  |                              0.03 |
| (100.53, 101.19) |                              0.09 |
| (101.19, 101.84) |                              0.15 |
| (101.84, 102.50) |                              0.25 |
| (102.50, 103.16) |                              0.54 |
| (103.16, 103.81) |                              0.82 |
| (103.81, 104.47) |                              0.89 |
| (104.47, 105.13) |                              1    |

pdf = {interval: rel_frequency / h for interval, rel_frequency in rel_frequencies.items()}

pdf_table = [(f"({start:.2f}, {end:.2f})", f"{pdf_value:.4f}") for (start, end), pdf_value in pdf.items()]
print(tabulate(pdf_table, headers=["Interval", "pdf analog value"], tablefmt="github"))

| Interval         |   pdf analog value |
|------------------|--------------------|
| (99.87, 100.53)  |             0.0457 |
| (100.53, 101.19) |             0.0913 |
| (101.19, 101.84) |             0.0913 |
| (101.84, 102.50) |             0.1522 |
| (102.50, 103.16) |             0.4413 |
| (103.16, 103.81) |             0.4261 |
| (103.81, 104.47) |             0.1065 |
| (104.47, 105.13) |             0.1674 |

histogram_data = { interval: frequency / h for interval, frequency in gfd}

histogram_intervals = list(histogram_data.keys())
histogram_frequencies = list(histogram_data.values())

left_edges = [start for start, _ in histogram_intervals]
right_edges = [end for _, end in histogram_intervals]
widths = [end - start for start, end in histogram_intervals]

plt.bar(left_edges, histogram_frequencies, width=widths, edgecolor='black', align='edge', alpha=0.7)

xticks = sorted(set(left_edges + right_edges))
plt.xticks(xticks, [f"{x:.2f}" for x in xticks], rotation=45)

plt.xlabel('$x_i$')
plt.ylabel('$\\frac{n_i}{h}$')
plt.title('Гистограмма частот')

plt.show()

intervals = list(rel_acc_frequencies.keys())
cum_values = list(rel_acc_frequencies.values())

x_step = [interval[0] for interval in intervals] + [intervals[-1][1]]
y_step = [0] + cum_values

plt.figure(figsize=(10, 6))
plt.step(x_step, y_step, where='post', color='b', linewidth=2)
plt.xlabel('$x_i$')
plt.ylabel('$\\hat{p_{x_i}}$')
plt.title('Эмпирическая функция распределения (Кумулянта)')
plt.ylim(0, 1.05) # Добавляем немного места сверху
plt.grid(True, alpha=0.3)
plt.show()

histogram_intervals = list(pdf.keys())
histogram_frequencies = list(pdf.values())

left_edges = [start for start, _ in histogram_intervals]
right_edges = [end for _, end in histogram_intervals]
widths = [end - start for start, end in histogram_intervals]

plt.bar(left_edges, histogram_frequencies, width=widths, edgecolor='black', align='edge', alpha=0.7)

xticks = sorted(set(left_edges + right_edges))
plt.xticks(xticks, [f"{x:.2f}" for x in xticks], rotation=45)

plt.xlabel('$x_i$')
plt.ylabel('$\\frac{\\hat{p_i}}{h}$')
plt.title('Эмпирическая плотности распределения')

plt.show()

mean = sum((interval[0] + h / 2) * rel_freq for interval, rel_freq in rel_frequencies.items())

print(mean)

102.97971428571428

variance = sum(rel_freq * ((interval[0] + h/2) - mean)**2  for interval, rel_freq in rel_frequencies.items())

print(variance)

1.2338007346938713

standard_deviation = variance**0.5

print(standard_deviation)

1.1107658325200103

skewness = sum(rel_freq * ((interval[0] + h/2) - mean)**3  for interval, rel_freq in rel_frequencies.items()) / standard_deviation**3

print(skewness)

-0.47492286625756835

kurtosis = (sum(rel_freq * ((interval[0] + h/2) - mean)**4  for interval, rel_freq in rel_frequencies.items()) / standard_deviation**4) - 3

print(kurtosis)

0.0761210322638406

modal_class, n_modal_class = max(gfd, key=lambda gfd_elem: gfd_elem[1])

modal_class_index = gfd.index((modal_class, n_modal_class))
_ , n_prev = gfd[modal_class_index - 1]
_ , n_next = gfd[modal_class_index + 1]

mode = modal_class[0] + ( (n_modal_class - n_prev) / ( (n_modal_class - n_prev) + (n_modal_class - n_next) ) ) * h

print(mode)

103.12428571428572

median_class, median_class_acc_freq = next((interval, acc_frequency) for (interval, acc_frequency) in acc_frequencies.items() if acc_frequency >= n / 2)
median_class_freq = frequencies[median_class]

acc_frequencies_list = list(acc_frequencies.items())
median_class_index = acc_frequencies_list.index((median_class, median_class_acc_freq))
_ , acc_frec_prev = acc_frequencies_list[median_class_index - 1]

median = median_class[0] + ( (n/2 - acc_frec_prev) / median_class_freq ) * h

print(median)

103.06650246305419

coefficient_of_variation = standard_deviation / mean

print(f'{coefficient_of_variation * 100}%' )

1.0786258635736958%

print(f"Выборочное среднее (X̂): {mean:.4f}")
print(f"Выборочная дисперсия (D̂): {variance:.4f}")
print(f"Выборочное СКО (δ̂): {standard_deviation:.4f}")
print(f"Коэффициент асимметрии (Â): {skewness:.4f}")
print(f"Коэффициент эксцесса (Ê): {kurtosis:.4f}")
print(f"Мода (M̂o): {mode:.4f}")
print(f"Медиана (M̂e): {median:.4f}")
print(f"Коэффициент вариации (V̂): {coefficient_of_variation:.4f} ({coefficient_of_variation*100:.2f}%)")

Выборочное среднее (X̂): 102.9797
Выборочная дисперсия (D̂): 1.2338
Выборочное СКО (δ̂): 1.1108
Коэффициент асимметрии (Â): -0.4749
Коэффициент эксцесса (Ê): 0.0761
Мода (M̂o): 103.1243
Медиана (M̂e): 103.0665
Коэффициент вариации (V̂): 0.0108 (1.08%)

Лабораторная работа 1¶

1¶

Вычисление отрезка $[a,b]$, на котором лежат все элементы выборки¶

Расчет числа полуинтервалов $k$, на которые нужно разбить $[a,b]$¶

Расчет длины $h$ частичных полуинтервалов¶

Разбитие отрезка $[a,b]$ на полуинтервалы длины $h$¶

Расчет числа элементов выборки sample, принадлежащих каждому частичному интервалу¶

Получение интервального вариационного ряда выборки sample¶

2¶

Вычисление частот¶

Вычисление частостей попадания данных в частичные интервалы¶

Вычисление накопленных частот¶

Вычисление накопленных частостей¶

Вычисление аналога функции плотности распределения¶

3¶

Построение гистограммы частот¶

Построение графика эмпирической функции распределения (кумулянты)¶

Построение графика эмпирической плотности распределения¶

4¶

Вычисление выборочного среднего¶

Вычисление выборочной дисперсии¶

Вычисление выборочного среднего квадратического отклонения¶

Вычисление выборочного коэффициента асимметрии¶

Вычисление выборочного коэффициент эксцесса¶

Вычисление выборочной моды¶

Вычисление выборочной медианы¶

Вычисление коэффициента вариации¶

Резюме¶

5¶

Выборочное среднее ($\hat{X} \approx 99.77$)¶

Выборочная дисперсия и выборочное среднее квадратическое отклонение¶

Коэффициент вариации ($\hat{V} \approx 11.17\%$)¶

Коэффициент асимметрии ($\hat{A} \approx -0.62$)¶

Коэффициент эксцесса ($\hat{E} \approx 0.42$)¶

Мода и Медиана ($\widehat{Mo} \approx 103.38$, $\widehat{Me} \approx 101.93$)¶

Общий вывод¶

В контексте темпов роста¶