top of page
оценка точности прогнозов погоды

Оценка точности прогнозов погоды

Экспериментальная оценка точности прогнозов погоды на примере данных от Gismeteo.

Первая публикация: 12.01.2016. Последние изменения: 10.12.2017.

Введение

 

Прогнозирование - одно из любимых занятий человечества. Это и полезно, и интересно. Прогнозируется все: экономическое развитие, политические процессы, курсы, цены, результаты соревнований. Один из универсальных прогнозов, т.е. таких, которые интересуют практически каждого, - прогноз погоды.

 

Большинство специализированных организаций сегодня дают прогноз погоды на 10-14 дней. Также даются прогнозы на месяц, но с указанием, что достоверность их небольшая, т.к. такие длительные прогнозы строятся на основе статистики (“с использованием архивных данных и применением статистических методов регрессионного анализа”, как сказано на сайте центра Фобос). Иногда попадаются и прогнозы на больший период - до полугода. Сложно говорить об их точности.


Какова точность прогнозов? Можно было бы предположить, что те, кто прогнозы составляет, сами же в первую очередь и интересуются их достоверностью. Так и есть на самом деле. Однако такие оценки чаще всего не выходят за стены "кухни". В качестве примера такого анализа приведем данные, ежемесячно публикуемые Методическим кабинетом Гидрометцентра России. Обзор этого анализа можно посмотреть на нашем сайте на странице Анализ Гидрометцентра. Гидрометцентр России также предоставляет доступ к архиву прогнозов. Подчеркнем, что это архив именно прогнозов, а не фактической погоды, что весьма ценно.

 

В данном исследовании представлены оценки точности прогнозов погоды, выполненные автором на основе собственных архивов прогнозов погоды (собранных с интернет-ресурсов) и собственных программ, которые эти архивы накапливают и обрабатывают (ссылки на программы и результаты обработки даются в тексте).

Автор продолжает развивать свои идеи. Смотрите, пожалуйста, два действующих сайта со сравнительным анализом точности прогнозов погоды. Один сайт исследует точность прогнозов погоды от двух метео-центров (Гисметео и Рамблер) для 40 населенных пунктов Земли. На втором сайте сравнивается точность прогноза погоды для 13 метеоцентров и 13 населенных пунктов (крупнейших городов мира).

1. Цель и задачи исследования

 

Целью настоящего исследования является получение статистических характеристик ошибок прогнозов ряда параметров погоды для периода до 13 дней и до месяца.

 

В ходе исследования необходимо:

- определить источник данных прогноза;

- определить набор прогнозируемых параметров погоды, по которым будет определяться погрешность прогнозов;

- собрать из выбранного источника прогнозы, сделанные на протяжении некоторого времени;

- определить метод получения ошибок прогноза;

- по мере накопления базы прогнозов вычислять статистические показатели ошибок прогноза;

- разработать программные средства для автоматизации выполнения основных задач.

2 Методика решения задачи

 

2.1 Прогнозируемые параметры

 

Итак, требуется получить статистические характеристики погрешностей прогноза погоды на срок до двух недель и месяца. Обычными статистическими характеристиками ошибок являются математические ожидания и средние квадратические отклонения наблюдаемых параметров. В метеорологии применяется характеристика "оправдываемость" - величина, связанная с названными двумя характеристиками. Параметрами прогноза обычно выступают температура, атмосферное давление, скорость и направление ветра, влажность, облачность, количество и вид выпавших осадков. Для своего исследования мы выберем первые пять параметров, т.к. с облачностью сложно оперировать количественно, а прогноз количества выпавших осадков тот источник прогнозов, который будет использован, не предоставляет.

 

2.2 Источник данных

 

Существует множество сайтов, на которых размещаются прогнозы погоды. При этом самих источников прогноза намного меньше. Мы будем брать прогнозы с сайта Gismeteo.ru. Сайтом управляет ООО НПЦ «Мэп Мейкер» - российская компания, производящая программное обеспечение для сбора, обработки и представления метеорологической информации. На сайте предоставляется прогноз погоды в сотнях тысяч населенных пунктов мира (как проверил автор путем перебора номеров (кодов) страниц, на 08.01.2016 - в 296884 населенных пунктах: код 1 - г. Звевегем, Бельгия, код 296884 -  г. Иннополис, Россия). По устаревшей информации на 2011 год Gismeteo строил прогнозы на бесплатных американских метеорологических данных. Каковы сегодняшние источники информации - автору неизвестно.

 

2.3 Содержание и структура прогноза на сайте

 

Как указывается на сайте, “Мы даем погоду на утро, день, вечер и ночь. Для всех сроков прогнозируются температура, давление, облачность, осадки, грозы, скорость  и направление ветра, относительная влажность воздуха, параметр комфортности”.

 

“Утро, день, вечер и ночь” соответствуют времени суток 3, 9, 15, 21 часов. Прогноз дается на две недели, т.е. на сегодня и последующие 13 дней, а также на месяц. Обновляется четыре раза в сутки.

 

2.4 Методика определения ошибки прогноза

 

Погрешность или ошибка есть разность между фактическим значением и предсказанным значением (в данном случае). Предсказанное значение, как говорилось, берем с сайта. Фактическое значение явно на сайте не обозначено. Поэтому будем считать таковым прогноз на сегодня. Таким образом, ошибку прогноза каждого учитываемого параметра будем определять как разность между сегодняшним его значением и предсказанным на сегодня один, два, три и т.д. дней назад. Например, ошибка прогноза на один день, вычисляемая 20 числа, равна значению этого параметра на сегодня, т.е. 20-е число, минус прогнозное значение этого параметра на 20-е число, полученное 19-го числа. Ошибка прогноза на два дня - это разность прогноза на сегодня и прогноза на сегодня от 18-го числа. И т.д. Последняя в этом ряду ошибка - на 13 дней. Она равна разности сегодняшнего прогноза и прогноза от 7-го числа. Более ранние двухнедельные прогнозы, чем от 7-го числа, прогноз на 20-е число еще не содержали.

 

Таким образом, получая каждый день очередной прогноз и сравнивая его с прогнозами предыдущими, вычисляем ошибки на один, два и т.д дней. Так заполняется база ошибок прогноза.

 

2.5 Обработка накопленных данных

 

Обработка накопленных ошибок прогноза состоит в вычислении математических ожиданий (м.о.), средних квадратических отклонений (с.к.о.) этих ошибок и оправдываемости прогноза. По этим данным строятся графики. Также строятся графики распределений ошибок. Укажем здесь на определение термина оправдываемость. Прогноз по температуре считается оправдавшимся, если ошибка не превысила трех градусов (в любую сторону). Оправдываемость - доля оправдавшихся прогнозов к их общему числу.


Для исследования из четырех прогнозов на сутки (2, 8, 14, 20 часов) выбирался только прогноз на день (14 часов).

 

Далее будем рассматривать результаты анализа прогноза на две недели. Анализ прогноза на месяц рассматривается на странице  Прогноз на месяц.

3 Результаты наблюдений

 

3.1 Число наблюдений

 

На момент последнего редактирования этого текста (07.03.2016) число собранных прогнозов составило 404 (прогнозы собирались 410 дней, 6 дней было пропущено). К сожалению, с начала наблюдения собирались только прогнозы температуры, только позже к температуре были добавлены еще четыре параметра: давление, скорость ветра, направление ветра и влажность. Прогнозов этих последних четырех параметров собрано 184.

 

3.2 Оправдываемость прогноза, м.о. и с.к.о. ошибок прогноза


Ниже приведены графики оправдывемости прогноза, м.о. и с.к.о. ошибок прогноза температуры для периода прогнозирования от одного до 13 дней.

Если считать, что ошибки описываются нормальным законом (мы этого не проверяли), то вероятность попадание ошибки в коридор плюс-минус с.к.о. равна примерно 68,3%, в коридор плюс-минус два с.к.о. - примерно 95,5%, и в коридор плюс-минус три с.к.о. - около 99,7%. Например, как видно из графика с.к.о., ошибка прогноза на один день будет располагаться в диапазоне +/- 1,6 градуса около нуля с вероятностью 68% (с.к.о. для одного дня - 1,6 градуса), в диапазоне +/- 3,2 градуса - с вероятностью 96%, и почти наверняка (с вероятностью 99,7%) - в коридоре +/- 4,8 градуса.

 

Кстати, наши оценки (для Харькова) совпали с теми, что обещаны синоптиками Росгидромета: оправдываемость прогноза на один день, по их данным, составляет как раз 96% (напомним, что оправдываемость - это попадание в коридор +/- 3 градуса).

 

Точность прогноза, как видно из графиков и вполне ожидаемо, с увеличением длительности прогноза уменьшается. Для самого удаленного прогноза, на 13 дней (с.к.о. ошибки прогноза составляет 6,5 градуса), т.е. 32% ошибок (100 - 68) выходят за пределы коридора +/- 6,5 градусов. А если считать достоверным прогноз с надежностью 96%, то необходимо представлять, что фактическая температура может отклониться от предсказанной на 13 дней на 13,0 градусов. Т.е. если было предсказано, например, 7 градусов (осень), то фактическая температура может составить и 20 градусов (7 + 13 = 20, лето), и -6 градусов (7 - 13 = -6, зима). Это с гарантией, повторим, 96%.

 

Результаты для остальных четырех параметров прогноза приведены на странице Дополнительные материалы.

3.3 Распределение ошибок


Наконец, приведем графики распределения ошибок прогноза температуры. Они отражают те же самые данные, которые уже разобраны при анализе величин с.к.о., но позволяют судить о законе распределения.

Как видно, закон распределения ошибок напоминает нормальный. Обратим внимание, что предельная ошибка прогнозирования на один день составила 7 градусов, на два дня - 6, на 3 дня - 9, на 4 дня - 10, на 5 дней - 14, на 6 дней - 16, на 7 дней - 21, на 8 дней - 17, на 9 дней - 15, на 10 дней - 18, на 11 дней - 23, на 12 дней - 20, на 13 дней - 20 градусов (ранее, приняв закон нормальным, мы определили, что гарантированный с вероятностью 99,7% коридор для ошибки на 13 дней составляет как раз 20 градусов).

 

Распределения ошибок для остальных четырех параметров приведены на странице Дополнительные материалы.

4 Программа для компьютера

 

4.1 Общее описание


Сбор и обработка данных прогноза на две недели выполнялись написанной автором программой (еще одна программа, программа для обработки месячного прогноза - на странице Прогноз на месяц). Программа автоматически запускалась при запуске операционной системы, запрашивала данные на сайте, заносила их в базу данных, рассчитывала ошибки прогноза и строила графики. Также программа отображала текущий прогноз. Внешний вид программы с открытой страницей, отображающей текущий прогноз, приведен ниже:

оценка точности прогнозов погоды

Коротко опишем особенности её работы.

 

4.2 Работа программы

 

4.2.1 Выбор населенного пункта

 

Пользователь может по своему усмотрению выбрать населенный пункт для наблюдения за прогнозами погоды. По умолчанию при первом запуске программы выбирается населенный пункт Харьков (код города в Gismeteo.ru - 5053). Для изменения населенного пункта необходимо ввести его код в окно кода и нажать клавишу <Ввод> (<Enter>). Этот код запомнится в реестре и в дальнейшем программа будет начинать работать с прогнозом по этому населенному пункту. При работе с программой можно произвольно менять код населенного города, изменения каждый раз запоминаются в реестре. Таким образом, при запуске программы она выдает прогноз по последнему населенному пункту предыдущей сессии, т.е. по населенному пункту, с которым программа была закрыта в последний раз.

 

Код необходимого населенного пункта можно посмотреть на сайте Gismeteo.ru, выбрав на сайте этот населенный пункт и посмотрев адрес страницы с прогнозом на две недели. Например, адрес страницы для Минска https://www.Gismeteo.ru.ru/city/weekly/4248/, откуда берем код города Минска: 4248.

 

Автор не стал вводить возможность выбора населенного пункта непосредственно из программы из-за большого объема кодов. На данный момент, как указывалось, Gismeteo.ru выдает прогнозы для 296884 населенных пунктов.

 

4.2.2 Создаваемые папки

 

В процессе работы программа создает папку с названием Weather auxiliary (в той же папке, где и размещена программа), а в этой папке - еще две папки: Data и Pict. В папке Data накапливаются прогнозы по каждому населенному пункту, который был пользователем запрошен. Для каждого из этих населенных пунктов создается свой файл, название которого состоит из кода и названия населенного пункта. Расширение файла - dat. Например, файл с полученными прогнозами по Харькову называется 5053_Харьков.dat. В этом файле содержатся все прогнозы, полученные при запуске программы при выставленном коде Харькова (5053). Удаление папки Data или какого-нибудь файла с прогнозами *.dat приведет к тому, что статистика будет утеряна и начнет собираться заново. На получение и отображение текущего прогноза эта папка влияния не оказывает.

 

В папке Pict собираются картинки сайта Gismeteo.ru, иллюстрирующие состояние погоды. На работу программы эта папка не влияет.

 

4.2.3 Особенности работы

 

В период от 0 часов и в течение нескольких минут прогноз на 13-й день сайтом Gismeteo.ru может не выдаваться. В программе этот прогноз заменяется нулями для всех прогнозируемых параметров. По этой причине отображение давления имеет необычный вид, т.к. программа отображает давление от нуля до некоторого значения, близкого к 760, из-за чего рисуется слишком много горизонтальных линий (в обычном режиме, при наличии прогноза на 13-й день, диапазон значений давления значительно меньше, например, между 720 и 780, соответственно горизонтальных линий на графике мало).

 

4.2.4 Исполняемый файл


Программа доступна для скачивания и свободного использования. Вы можете самостоятельно для своего населенного пункта ежедневно с её помощью просматривать прогноз погоды и накапливать статистический материал с одновременной его обработкой на предмет выяснения ошибок прогноза. По ссылке вы получите доступ к папке с программой (исполняемый файл) и накопленными архивными данными по двум населенным пунктам: Харькову и Красноярску.

М.А.

bottom of page