А теперь вбей в тест, любой сайт в домене .co, заканчивающийся на t (bit.co) Колумбийский интернет может обидеть каждый. Сколько легковерного народа, который думает, что всё так просто.
Добрый вечер, я из отдела по персоналу и социальным программам Федеральной службы по надзору в сфере связи, информационных технологий и массовых коммуникаций. Как можно с Вами связаться?
На DPI оборудовании нет регулярок, там другие оптимизированные способы матчинга на asic'ах. Регулярки это дорого, увеличивает задержку, снижает максимальный объем трафика, который можно пропустить через фильтр. Поэтому взяли просто самый тупой матчинг по вхождению заданной последовательности байт.
ты думаешь что товарищ майор умеет в регулярки?) я, честно говоря, подозреваю что они точку тоже не экранировали, так что если пострадали сайты по вхождению t.co (в смысле t[a-zA-Z0-9]co) - я ни капельки не удивлюсь
А не лучше ли проверять наличие не буквы с обоих сторон? Ошибок будет гораздо меньше, и парсится одинаково что регулярками, что не регулярками. Хотя домен может содержать ещё цифры, дефисы, ну да впрочем хватит и букв, что-бы не было хайпово.
¯\_(ツ)_/¯
Слишком сложно. Плюс знак валюты потенциального противника. Вы не иностранный агент случаем?
А теперь вбей в тест, любой сайт в домене .co, заканчивающийся на t (bit.co) Колумбийский интернет может обидеть каждый. Сколько легковерного народа, который думает, что всё так просто.
Ты тоже ошибся. Под эту регулярку подпадает какой-нибудь mit.co
Добрый вечер, я из отдела по персоналу и социальным программам Федеральной службы по надзору в сфере связи, информационных технологий и массовых коммуникаций.
Как можно с Вами связаться?
На DPI оборудовании нет регулярок, там другие оптимизированные способы матчинга на asic'ах. Регулярки это дорого, увеличивает задержку, снижает максимальный объем трафика, который можно пропустить через фильтр. Поэтому взяли просто самый тупой матчинг по вхождению заданной последовательности байт.
Не думаю, что там вообще регулярки используются. Они могут быть слишком медленные для такого. Скорее всего просто ищут подстроку в строке.
Сотрудники РКН:
Комментарий недоступен
Говорят еще и точка опциональна, так что даже просто tco попало под раздачу, а там как раз кремлевские сайты (rtcomm.ru) Просто браво!
ты думаешь что товарищ майор умеет в регулярки?) я, честно говоря, подозреваю что они точку тоже не экранировали, так что если пострадали сайты по вхождению t.co (в смысле t[a-zA-Z0-9]co) - я ни капельки не удивлюсь
str_contains($string, 't.co')
вопрос зачем юзать регулярные выражения для 1 условии блокировки.
и что они пытались сделать блокируя все найденные t.com не проверив это, это очень странно)
¯\_(ツ)_/¯
А не лучше ли проверять наличие не буквы с обоих сторон? Ошибок будет гораздо меньше, и парсится одинаково что регулярками, что не регулярками. Хотя домен может содержать ещё цифры, дефисы, ну да впрочем хватит и букв, что-бы не было хайпово.
Думаю, что дело конечно же в другом. Но если говорить о регулярках, то как насчёт такой?
^(\w*\.)*t\.co$