Лекция 1. Мотивация и обзор курса

Статистический анализ данных

Дмитрий В. Наумов (ОИЯИ)

Важное замечание

  • Я не профессиональный статистик. Я физик, который применяет статистический анализ на практике.
  • На курсе мы разберем ключевые концепции, приемы и язык, на котором физики обсуждают результаты:
    • Я обнаружил сигнал со значимостью 5 \(\sigma\)!
    • Мы наблюдаем избыток в данных.
    • Значимого избытка не наблюдается.
    • Мы исключаем эту область параметров на уровне 95% C.L.
    • Мы устанавливаем верхний предел на сечение.
    • Фит хорошо сошелся.
    • Доминирующая неопределенность является систематической.
    • Корреляции между бинами важны.
    • Эти nuisance-параметры были профилированы в фите.
    • Нужно использовать полную ковариационную матрицу.

Обозначения

  • Скалярные величины обозначаются курсивом: \(x\), \(y\), \(\theta\)

  • Векторы обозначаются полужирным шрифтом: \(\mathbf{x}=(x_1,x_2,\dots,x_n)\)

  • Матрицы обозначаются полужирными заглавными буквами: \(\mathbf{V}\), \(\mathbf{M}\)

  • Случайные величины обозначаются заглавными буквами: \(X\), \(Y\)

  • Их наблюденные значения обозначаются строчными буквами: \(x\), \(y\)

  • Вероятность события \(A\) обозначается как \(P(A)\)

  • Функция плотности вероятности обозначается как \(f(x)\) или \(p(x)\)

  • Параметры модели обозначаются через \(\theta\)

  • Оценки параметров обозначаются через \(\hat{\theta}\)

Обозначения (продолжение)

  • Математическое ожидание: \(\mathbb{E}[X]\)

  • Дисперсия: \(\mathrm{Var}(X)\)

  • Стандартное отклонение: \(\sigma_X=\sqrt{\mathrm{Var}(X)}\)

  • Ковариация: \(\mathrm{cov}(X,Y)\)

  • Коэффициент корреляции: \(\rho(X,Y)\)

Частотный и байесовский подходы

Есть два основных подхода к интерпретации вероятности.

  • Относительная частота (Frequentist)
    \(A\), \(B\), … , это исходы повторяемого эксперимента.

    \[ P(A)=\lim\limits_{n\to\infty}\frac{\text{число наблюдений исхода }A}{n} \]

  • Субъективная вероятность (Bayes)

    \[ P(A)=\text{степень уверенности в истинности }A \]

    \[ P(A\mid B)=\frac{P(B\mid A)\,P(A)}{P(B)} \]

  • На этом курсе мы в основном будем говорить о частотной статистике.

Литература

Зачем нам статистика в физике?

Четыре основных шага

  • Теория:
    • Эффект закодирован в \(\mathbf{t}\).
    • Пример: число бозонов Хиггса, рожденных на LHC.
  • Эксперимент:
    • Поиск эффекта. Наблюдаемое значение: \(\mathbf{d}\).
  • Статистический анализ:
    • Сравниваем ожидание модели \(\mathbf{t}\) с наблюдением \(\mathbf{d}\).
    • Делаем вывод:
      • теория подтверждается, это экспериментальное открытие.
      • теория опровергается, область параметров исключается.
  • Пишем статью.

Умеете ли вы читать такие типичные графики в современной физике?

Открытие бозона Хиггса

  • Что такое
    • \(p\)-value?
    • \(\sigma\)?

Daya Bay: открытие ненулевого \(\theta_{13}\)

Опубликовано в: Phys.Rev.Lett. 108 (2012) 171803

  • Что такое осцилляционный фит?
  • Что такое значение best fit?
  • Что такое статистическая значимость фита?

Daya Bay: исключение области параметров стерильного нейтрино

Опубликовано в: Phys.Rev.Lett. 133 (2024) 5, 051801

  • Что здесь исключено?
  • Почему это исключение обосновано?
  • Что такое “FC sensitivity”?
  • Что такое CL\(_s\)?

В этих графиках скрыто много понятий

  • случайные флуктуации
  • распределения вероятности
  • правдоподобие и \(\chi^2\)
  • best fit
  • доверительные интервалы и контуры
  • значимость и \(p\)-value
  • систематические неопределенности
  • nuisance-параметры
  • профилирование
  • верхние пределы и исключения

Если пока не все из этого понятно, этот курс для вас

Чему мы научимся?

  • Вероятность, теорема Байеса
  • Случайные величины и плотности вероятности
  • Математическое ожидание, распространение ошибок
  • Различные распределения вероятности
  • Метод Монте-Карло
  • Статистические тесты: общие понятия
  • Статистики тестов, многомерные методы
  • Тесты goodness-of-fit: p-value, значимость, открытие и исключение

Чему мы научимся?

  • Фельдман-Казинс, CL\(_s\) и другие методы
  • Оценивание параметров, максимальное правдоподобие
  • Метод наименьших квадратов
  • Интервальные оценки, установление ограничений
  • Nuisance-параметры, систематические неопределенности
  • Примеры байесовского подхода

Начинаем

Игрушечный пример: определение ширины гауссианы

  • Предположим, что данные имеют гауссову форму \[ y(x)=\exp\!\left(-\frac{x^2}{2\sigma^2}\right), \] с известным центром \(x_0=0\) и нормировкой \(N=1\) и неизвестной шириной \(\sigma\).

  • Ваша задача: найти \(\sigma\), сравнив модель с данными.

  • Для каждого выбранного значения \(\sigma\) вычисляется \[ \chi^2(\sigma)=\sum_i \frac{[y_i-y(x_i;\sigma)]^2}{\delta y_i^2}. \]

  • Значение \(\sigma\), соответствующее best fit, минимизирует \(\chi^2\).

Псевдоданные и фит

Задачи

✍️ Одинаковый и разный ответ: вероятность орла на следующем броске

Монета имеет неизвестную вероятность выпадения орла \(p\).

После \(n\) бросков наблюдалось \(k\) орлов.

Рассмотрим две оценки вероятности орла на следующем броске:

  • частотная подстановка \[ P_{\mathrm{freq}}(\text{орёл})=\hat p=\frac{k}{n}, \]

  • байесовская predictive probability при равномерном prior \[ p\sim \mathrm{Beta}(1,1),\qquad P_{\mathrm{Bayes}}(\text{орёл}\mid k,n)=\frac{k+1}{n+2}. \]

  1. Посчитайте обе вероятности для случая \[ n=2,\qquad k=1. \]

  2. Посчитайте обе вероятности для случая \[ n=1,\qquad k=1. \]

  3. В каком случае ответы совпали? В каком — различаются?

Подсказка. Для \(n=2,\;k=1\) обе вероятности равны \(1/2\). Для \(n=1,\;k=1\) ответы уже разные.