Извинения и Объяснения
В субботу 12 марта, с 14:05 по 20:01 (время GMT), сайт Betfair был недоступен. Мы понимаем, сколько разочарований это принесло нашим клиентам, и хотим извиниться за причиненные неудобства.
В настоящее время, мы работает над тем, чтобы случившееся в субботу, больше не повторилось.
Мы делаем все возможное, чтобы гарантировать максимальную работоспособность сайта Betfair. В течение обычной недели, мы делаем не менее 15 изменений сайта, но сейчас мы решили не запускать новые продукты в течение следующих семи дней. Это должно гарантировать максимальную стабильность в течение этой насыщенной событиями недели, включая Cheltenham, Чемпионат Мира по Крикету и Лигу Чемпионов.
Ниже описано, что случилось, и что мы предприняли для устранения проблемы.
Когда сайт перестал работать в субботу, первым делом мы сделали сайт недоступным для наших клиентов через веб, API и мобильные сервисы. Как только мы определили проблему сбоя, мы сделали сайт доступным, но без возможности заключения пари. Мы восстановили работу сайт около 18:00, и сделали доступным для ставок в 20:00.
Что конкретно случилось:
После выполнения определенных типов изменений веб-сайта возникла проблема, которая существенно замедлила работу наших серверов, обрабатывая только один процесс за один раз (последовательная обработка сообщений) вместо тысяч пользовательских запросов параллельно. Эта "последовательная обработка сообщений" была введена некоторое время назад, чтобы защитить от случайных сломанных страниц, вызванных изменением контента. Говоря техническим языком, наши серверы не были поточно-ориентированными в некоторых типах изменения контента.
Это стало причиной очень высокого трафика за последние несколько недель. В то время, у нас было несколько эксплуатационных защит в месте, чтобы ограничить эти типы изменений во время пиковой нагрузки, мы пропустили одно важное. Каждые 15 минут автоматизированный процесс издавал точный тип содержания, которое вызывает проблему, описанную выше. В субботу был переломный момент, и обновление веб-серверов занимало больше чем 15 минут.
Тогда в попытке быстро разгрузить сервера, мы вызвали процесс, который отключил некоторые требующие большого количества вычислений, опции. К сожалению, это привело к полной перекомпиляции каждой страницы нашего сайта у каждого клиента. При обычном субботнем траффике на сайте, восстановление занимает несколько часов. После обнаружения проблемы, мы поняли, что она началась еще 8 февраля 2011. В течение этого периода уже начали возникать проблемы с навигацией. Суббота просто стала пиковым днем.
В настоящее время, мы решили данную проблему. Мы сначала отключили оригинальную автоматизированную работу и аккуратно ее восстановили. Мы утроили способность наших серверов. Мы обновили наши эксплуатационные процессы и ввели совершенно новый плот контроля, чтобы определить этот тип проблемы. Мы также изолировали основную проблему веб-сервера так, чтобы мы могли изменять наш контент по желанию, не вызывая выключатель к последовательной обработке сообщений.
Мы надеемся, что данные изменения принесут стабильность и благодарим Вас за Ваше терпение.
С уважением,
Нил Васс – Директор по маркетинг и развитию
Тони МакАлистер – Главный инженер
Нажмите, чтобы раскрыть...