Главная | Настройки | NSFW
Тема:
Доски


[Ответить в тред] Ответить в тред

[Назад] [Обновить тред] [Вниз] [Каталог] [ Автообновление ] 19 / 2 / 11

Идея: механизм очистки борды от назойливых повторов Anonymous No.103
15390897401710.jpg (277 KB, 1074x716)
Сделать периодический топ-10 наиболее часто постящихся видеороликов/картинок. Постинг файлов, что попадает в него, автоматически запрещается на следующий период (допустим, неделю).

Если файл попадает в список несколько раз подряд, он банится на более длительный период.

Топ-10 можно разместить на глагне. А можно и не размещать, но я бы разместил — будет больше развлекухи.

Технические детали
Обычные хеши (SHA256, MD5, CRC32 и т.п), очевидно, для этой задачи не подойдут — они легко меняются дописыванием произвольного байта в файл. Идеально подойдут перцептивные хэши — они отображают степень похожести контента (изображений, звука) друг на друга. Как компромисс для упрощения первичной реализации, можно считать обычные хэши извлечённых из контейнеров дорожек.
Anonymous No.104
>>103 (OP)
Ну не знаю, есть картинки, которые достаточно часто используются и в тему, запрещать их постинг, считаю, было бы не слишком правильным.
Перцептивные хэши это интересно, но довольно ресурсозатратно. Плюс с ними есть нерешенная проблема хранения и поиска значений в базе данных, в плане того, что для них невозможно будет сделать индексацию, а значит поиск по базе будет работать крайне медленно, и тем медленнее, чем больше там записей.
Anonymous No.105
>>104
> есть картинки, которые достаточно часто используются и в тему, запрещать их постинг, считаю, было бы не слишком правильным
Чем дальше, тем они используются всё реже, к сожалению. И мне кажется, от того, что некоторые из них иногда будут исчезать на борде и вылезать на глагне, намного хуже не станет.

> довольно ресурсозатратно
Есть такое, да. Анализ видео по любому придётся откладывать в отдельный поток, даже если ограничиваться набором из десятка равноудалённых друг от друга ключевых кадров. Но новые видеоролики не так часто появляются, а анализ старых можно упростить до сравнения обычного хэша метаданных.

> Плюс с ними есть нерешенная проблема хранения и поиска значений в базе данных, в плане того, что для них невозможно будет сделать индексацию.
Она была решена. Алгоритм хэширования тут простой, для видео и картинок я могу его хоть шелл-скриптом с ффмпегом реализовать. Возможно, и для звука тоже, надо будет подумать.
Выражаясь математически
, короткие (1-2 символа) хэши сигнала с последовательно снижаюимся уровнем дискретизации последовательно сохраняется в итоговый хэш, что позволяет по разнице его значений определять степень похожести, от низкочастотной информации к высокочастотной.
Anonymous No.106
>>105
>Она была решена. Алгоритм хэширования тут простой
Ты меня не понял, я не про генерацию хешей, с ними как раз таки все относительно просто.
Проблема с поиском похожих хешей в базе. Если, в случае md5 я могу просто выбрать запись с таким же md5 хешем, то с перцептивными хешами такое не прокатит. Там степень схожести изображения определяется разницей двух хешей, для примера:
хеш 1: 3c3e0e1a3a1e1e1e
хеш 2: 3c3e0e3e3e1e1e1e
Хеши разные, но разница минимальна, значит картинки одинаковые. То есть индексирование тут бесполезно (потому что хеши одинаковых картинок не одинаковые) и надо сделать такую проверку для каждого хеша в базе, а это не эффективно и тем не эффективнее, чем больше записей в базе.
Anonymous No.111
>>106
Смотри. В хэш складываются мини-хэши редуцированных изображений в порядке снижения значимости. Первым делом идёт (и получает старший разряд) хэш уменьшенного до 2x2 пикселей изображения, потом 4x4 и т.д. Если 2x2 не такое, то 4x4 — и подавно, нет смысла сравнивать. Получается, разница хэшей численно выражает степень похожести и сами хэши в полной мере поддаются индексированию.
Anonymous No.112
>>103 (OP)
А какой в этом смысл?
Anonymous No.113
>>103 (OP)
Не вижу особо смысла. Тут и так сидят в основном из-за чатика.
Anonymous No.121
>>112
Развлекуха в основном. Фактор среды, который можно обсуждать, прогнозировать и провоцировать. Ещё некоторые палки в колёса аватаркам, легко преодолимые.

На борде нужна какая-то движуха. Просто чятик — это слишком уныло.
Anonymous No.122
Ещё в качестве развлекухи можно запилить смену лимита по расписанию.
Anonymous No.133
Кстати да, реализация этой хуйни автоматически запретит рельсофага.
Anonymous No.135
>>103 (OP)
Двачую этого
Anonymous No.224
>>103 (OP)
Или автоскрытие по медиафайлам и выбор глубины скрытия дерева ответов прикрутите к местному макакоскрипту.
Anonymous No.227
15408383395150.jpg (35 KB, 500x486)
>>103 (OP)
ТОП 1
Anonymous No.458
>>121
>Развлекуха в основном
Тут скорее развлекуха кодерам, а не анонам. Анонам по итогу будет похуй, получится очередная анальная модерация, и аноны снова вернутся на сосач
Anonymous No.465
>>458
Чего плохого в том, что вернутся те, против кого эта затея сработает?
Anonymous No.466
>>465
Ну и смысл тогда в создании новой борды? Ты, видимо, плохо понимаешь суть свободного общения. Сначала начнут банить за аватаркофажество, потом за вайп, а потом за фотки велосипедов. И скатится эта мелкоборда в тот же говнососач с его анальной модерацией и мэйлрушечкой. В подобных реалиях у данной борды не будет особых плюсов перед сосакой, не считая меньшего количества рака, но на сосаке его и поскрывать можно.
Anonymous No.509
Не нужно. На том же dristach.cf постоянно повторяется контент и все довольны
Anonymous No.512
>>509
Иди нахуй, дристаля
Anonymous No.516
>>466
Алё, при чём тут вообще баны? Просто перестают поститься файлы из списка, и всё. Заменяешь файл на другой и отправляешь пост.

[Назад] [Обновить тред] [Вверх] [Каталог] [ Автообновление ]
19 / 2 / 11

[Ответить в тред] Ответить в тред

15000

Ответ в тред No.103
Настройки
Избранное
Топ тредов