Нелинейные зависимости

Нелинейные зависимости

Нелинейные зависимости

Какпроводить анализ данных, если функцияспроса не является линейной? Есть дваподхода – параметрический инепараметрический.

Впервом случае подбираем подходящеесемейство функций и по результатамизмерения (опроса) оцениваем параметры.Степенное семейство:

D**(p)=cpα.

Приэтом полезно преобразование переменных,приводящее задачу к линейному виду. Вслучае степенного семейства необходимопрологарифмировать обе части последнегоравенства. Тогда получим:

lnD**(p)= ln c+ lnp.

Затемобозначим:

у=lnD**(p), x= lnp,d=lnc.

Исходяиз введенных обозначений, имеем линейноеуравнение:

у= x+ d.

Задачаоценивания параметров степеннойзависимости сведена к ранее рассмотреннойзадаче оценивания параметров линейнойфункции.

Теперьперейдем к обработке данных опроса спомощью метода наименьших квадратов.Для начала необходимо составить таблицу исходных данных – пар чисел (x= lnp,у=lnD(p))также в порядке возрастания значенийпараметра x(см. табл. 5 на следующей странице).Далее рассчитаем прогностическуюстепенную функцию.

Таблица5.

Оцениваниефункции спроса методом наименьшихквадратов.

iЦена PiСпрос D(pi)xi=ln(pi)yi=ln D(pi)fixifiyifiyi2fixiyifi
13000508,0063683,912023432,0254715,64809202256,4076865125,2843765
24000468,294053,828641216,58817,657282793137,582518963,50988359
35000448,5171933,78419759,6203526,48932744507,798059225,6147193
47000378,8536653,61091818,8536653,61091791378,3873915131,96985909
57500368,9226583,58351918,9226583,58351893879,6138311331,974515
68000358,9871973,555348217,974397,110696123161,539413463,90522559
79500339,1590473,49650819,1590473,49650756183,8881433732,02467736
810000329,210343,46573611101,313738,12309493933,1340674351,1266803
911000219,3056513,04452219,3056513,04452243886,5951321928,3312619
1015000209,6158052,9957321096,1580529,95732274924,6371503288,0637881
1117000109,7409692,30258519,7409692,30258509394,8864697222,42940914
122000099,9034882,197225439,613958,788898309392,316262887,04074501
132200059,9987981,60943819,9987981,60943791299,9759560916,09244415
1425000410,126631,386294110,126631,386294361102,548657514,0384916
1540000310,596631,098612110,596631,098612289112,288667711,64159314
1650000210,819780,693147221,639561,386294361234,135204214,99939762
50461,6377155,29340524285,7346121408,047067
∑/n9,2327533,105868104

Найдемоценки параметров αиb:

b= 3,106; d*= baxср.=3,106 – (- 1,093)*9,23 = 13,198.

Получиливыражение:

у=- 1,093x+ 13,198

α= — 1,093;

lnc=13,198– значит, c= e13,198= 539094,27.

Степеннаяфункция имеет вид:

D**(p)= 539094,27p-1,093

Графикистепенной и выборочной функций спросаможно увидеть на рис.3. на следующейстранице.

Рис.3. Выборочная и степенная функции спроса

Определимоптимальную розничную цену pопт.3приразличных значениях оптовой цены:

(pp0)D**(p)→ max

Дляслучая степенной зависимости:

(pp0)cpαmax

Точка,в которой достигается максимум, неменяется при умножении максимизирующейфункции на константу. Поэтому задачапринимает следующий вид:

(pp0)pα=h(p)max

Длянахождения максимума функциипродифференцируем ее и приравняемпроизводную к нулю:

h’(p)= αpα-1(p-p0)+pα= pα-1[α(p-p0)+p]

(1+α)p= αp0

Получаемформулу для расчета оптимальногозначения розничной цены, максимизирующегоприбыль:

Сравним(табл.6) оптимальные цены, найденные спомощью метода степенной аппроксимации(pопт.3)и рассчитанные ранее с помощью первогометода (pопт.1).

Таблица6.

Сравнениеметодов расчета оптимальной цены.

p0pопт.3pопт.1
200023505,3815000
500058763,4415000
800094021,5115000
13000152784,9540000
21000246806,4550000

Какможно заметить из табл.6, значенияоптимальных цен pопт.3,найденные с помощью метода степеннойаппроксимации, сильно отличаются отзначений pопт.1ипри увеличении значения оптовой ценыp0резко возрастают.

Это связано с тем, чтофункция, полученная при методе степеннойаппроксимации, имеет вид гиперболы и,посмотрев на рис.

3, можно заметить, чтопри увеличении цены график степеннойфункции не уходит в зону отрицательногоспроса (как в случае с восстановленнойлинейной зависимостью), а бесконечностремиться к асимптоте – оси абсцисс.

Поэтому, если бесконечно увеличиватьзначение оптовой цены и рассчитыватьдля него оптимальную розничную цену,то полученные значения оптимальных центоже будут бесконечно возрастать и невходить в интервал цен от 3000 до 50000,полученный в результате опроса. Можносделать вывод о том, что расчет оптимальныхцен в методе линейной аппроксимацииболее точен, чем расчет оптимальных ценв методе степенной аппроксимации.

Источник: https://studfile.net/preview/1673164/page:3/

R — значит регрессия

Нелинейные зависимости

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных.

Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии.

Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Если имеется корреляционная зависимость между переменными y и x, возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения называется регрессией y по x.

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей минимальна.

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г.

По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу.

Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений вокруг регрессии является дисперсия.

  • k — число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости приводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x.

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

В матричном виде это выгладит

  • y — зависимая переменная;
  • x — независимая переменная;
  • β — коэффициенты, которые необходимо найти с помощью МНК;
  • ε — погрешность, необъяснимая ошибка и отклонение от линейной зависимости;

Случайная величина может быть интерпретирована как сумма из двух слагаемых:

  • полная дисперсия (TSS).
  • объясненная часть дисперсии (ESS).
  • остаточная часть дисперсии (RSS).

Еще одно ключевое понятие — коэффициент корреляции R2.

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

  1. Линейность, собственно. Увеличение, или уменьшение вектора независимых переменных в k раз, приводит к изменению зависимой переменной также в k раз.
  2. Матрица коэффициентов обладает полным рангом, то есть векторы независимых переменных линейно независимы.
  3. Экзогенность независимых переменных — . Это требование означает, что математическое ожидание погрешности никоим образом нельзя объяснить с помощью независимых переменных.
  4. Однородность дисперсии и отсутствие автокорреляции. Каждая εi обладает одинаковой и конечной дисперсией σ2 и не коррелирует с другой εi. Это ощутимо ограничивает применимость модели линейной регрессии, необходимо удостовериться в том, что условия соблюдены, иначе обнаруженная взаимосвязь переменных будет неверно интерпретирована.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

  • Автокорреляция проверяется статистикой Дарбина-Уотсона (0 ≤ d ≤ 4). Если автокорреляции нет, то значения критерия d≈2, при позитивной автокорреляции d≈0, при отрицательной — d≈4.
  • Неоднородность дисперсии — Тест Уайта, , при нулевая гипотеза отвергается и констатируется наличие неоднородной дисперсии. Используя ту же можно еще применить тест Бройша-Пагана.
  • Мультиколлинеарность — нарушения условия об отсутствии взаимной линейной зависимости между независимыми переменными. Для проверки часто используют VIF-ы (Variance Inflation Factor).

В этой формуле — коэффициент взаимной детерминации между и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

  1. Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln.
  2. Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln, или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.
  3. Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией. Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

> hist hist
points reads comm faves bytes31 11937 29 19 13 1026593 34122 71 98 74 1499532 12153 12 147 17 2247630 16867 35 30 22 957127 13851 21 52 46 1882412 16571 44 149 35 997218 9651 16 86 49 1137059 29610 82 29 333 1013126 8605 25 65 11 1305020 11266 14 48 8 9884…

  • points — статьи
  • reads — Число просмотров.
  • comm — Число комментариев.
  • faves — Добавлено в закладки.
  • — Поделились в социальных сетях ( + ).
  • bytes — Длина в байтах.

Проверка мультиколлинеарности.

> cor(hist) points reads comm faves bytespoints 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379reads 0.5641858 1.0000000 0.54785197 0.57451189 0.57092464 0.24359202comm 0.6148937 0.5478520 1.00000000 -0.01511207 0.51551030 0.08829029faves 0.2410445 0.5745119 -0.01511207 1.00000000 0.23659894 0.14583018 0.6169665 0.5709246 0.51551030 0.23659894 1.00000000 0.06782256bytes 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

Теперь собственно сама модель, используем функцию lm.

Источник: https://habr.com/post/350668/

Основные виды нелинейных зависимостей, сводящихся к линейным

Нелинейные зависимости

Предыдущая9101112131415161718192021222324Следующая

1) y = a·bx — показательная функция;

2) y = a·eb·x – экспоненциальная зависимость;

3) — дробно-линейная функция;

4) y = a ·ln(x) + b — логарифмическая функция;

5) y = a · xb — степенная функция;

6) — гиперболическая функция;

7) — дробно-рациональная функция.

Приёмы сведения нелинейной зависимости к линейной

На следующем примере рассмотрим некоторые приёмы сведения нелинейных зависимостей к линейной.

Пример 3.3.

Известно, что приведённые в таблице экспериментальные данные {x}, {y}

x 3,5
y 4,53 3,12 2,7 1,88 1,55

могут быть описаны с помощью следующих теоретических зависимостей общего вида:

y1(х) = a ·eb·x

1 Определить, какая из предложенных теоретических зависимостей наилучшим образом описывает набор экспериментальных данных {x}, {y}, для чего:

а) вычислить параметры каждой теоретической зависимости;

б) вычислить сумму квадратов отклонений для каждой зависимости;

в) отобразить на графиках (отдельно для каждой зависимости) экспериментальные точки и теоретические зависимости;

2 Предсказать значение Y при Х = 11. Показать соответствующие точки на графиках.

Решение.

Для первой зависимости:

y1(х) = a ·eb·x

Чтобы от произведения перейти к сумме и избавиться от возведения числа е в степень – прологарифмируем обе части выражения. Получим:

ln(y) =ln(a) + b · x

Затем, выполним замену переменных:

z = ln(y), c = ln(a),

сводим зависимость к линейной:

z = c + x · b.

Далее в Excel c помощью функций НАКЛОН и ОТРЕЗОК найдём коэффициенты с и b.

Затем вычислим коэффициент a : a = exp(c).

Решение в Excel:

1 В ячейки А2:В7 введём исходные данные (рисунок 3.8).

2 В ячейку С3 введём формулу =LN(B3) и скопируем её в ячейки С4:С7.

3 Для вычисления коэффициента a в ячейку В11 введём формулу =EXP(ОТРЕЗОК(С3:С7;А3:А7)).

4 Для вычисления коэффициента b в ячейку В12 введём формулу =НАКЛОН(С3:С7;А3:А7).

5 Для вычисления квадратов отклонений заданной зависимости от экспериментальных данных в ячейку D3 введём формулу =($B$11*EXP($B$12*A3)-B3)2 и скопируем её в ячейки D4:D7.

6 В ячейке D8 вычислим сумму квадратов отклонений: =СУММ(D3:D8).

7Для построения теоретической кривой, используя найденные коэффициенты, в ячейку Е3 введём формулу =$B$11*EXP($B$12*A3) и скопируем её в ячейки Е4:Е7.

8 Для предсказания значения Y при Х=11 в ячейку А9 введём 11, а в ячейку Е11 скопируем полученную формулу.

Рисунок 3.8 – Вычисление коэффициентов а и b для зависимости y1(х) = a ·eb·x
путём сведения её к линейной

9Выделим диапазоны А2:В7 и Е2:Е7. С помощью Мастера диаграмм построим точечный график.

10 Для добавления на график предсказанного значения Y при Х=11 на вкладке Ряд (рисунок 3.9) щёлкнем по кнопке Добавить и заполним соответствующие поля.

11 Щёлкнем по кнопке Готово.

12 На полученном графике с помощью форматирования представим теоретическую кривую в виде гладкой линии без маркеров (рисунок 3.10).

Рисунок 3.9 – Добавление на график точки с предсказанным значением

Рисунок 3.10 – Результат решения для первой зависимости в Excel

Для второй зависимости:

Чтобы свести данную зависимость к линейной перевернём обе части исходной зависимости:

ð

и выполним замену переменных:

В результате получим линейную зависимость:

z = a · x + b.

Далее в Excel c помощью функций НАКЛОН и ОТРЕЗОК найдём коэффициенты a и b, и затем вычислим с и d:

d = b · c .

Решение в Excel:

1 В ячейки А30:В35 введём (скопируем) исходные данные (рисунок 3.11).

2 В ячейку С31 введём формулу =1/B31 и скопируем её в ячейки С32:С35.

3 Для вычисления коэффициента c в ячейку В39 введём формулу =1/НАКЛОН(C31:C35;A31:A35).

4 Для вычисления коэффициента d в ячейку В26 введём формулу =ОТРЕЗОК(C31:C35;A31:A35)*B39.

5 Для вычисления квадратов отклонений заданной зависимости от экспериментальных данных в ячейку D31 введём формулу =($B$39/(A31+$B$40)-B31)2 и скопируем её в ячейки D32:D35.

6 В ячейке D36 вычислим сумму квадратов отклонений: =СУММ(D31:D35).

Рисунок 3.11 – Вычисление коэффициентов с и d для зависимости
путём сведения её к линейной

7Для построения теоретической кривой, используя найденные коэффициенты, в ячейку Е31 введём формулу =$B$39/(А31+$B$40) и скопируем её в ячейки Е32:Е35 (рисунок 3.12).

8 Для предсказания значения Y при Х=11 в ячейку А37 введём 11, а в ячейку Е37 скопируем полученную формулу.

9Выделим диапазоны А30:В35 и Е30:Е35. С помощью Мастера диаграмм построим точечный график.

10 Для добавления на график предсказанного значения Y при Х=11, как и для предыдущей зависимости, на вкладке Ряд щёлкнем по кнопке Добавитьи заполним соответствующие поля.

11 Щёлкнем по кнопке Готово.

12 На полученном графике с помощью форматирования представим теоретическую кривую в виде гладкой линии без маркеров.

Рисунок 3.12 – Результат решения для зависимости в Excel

Предыдущая9101112131415161718192021222324Следующая .

Источник: https://mylektsii.ru/13-76996.html

Refpoeconom
Добавить комментарий