Обратный звонок
JavaAdTech

Сервис для издателей рекламного контента

Задача

Снизить расходы на хранение и обработку данных, связанных с таргетированием рекламы.

Результат

Разработана и построена графовая БД поверх HBase, которая может эффективно фильтровать дубликаты и выполнять транзитивный поиск идентификаторов. В результате затраты на хранение и обработку данных снижены в разы.

Бизнес заказчика

Таргетирование

Сервис предоставляет рекламные инструменты, технологии и услуги десяткам тысяч создателей контента, помогая им зарабатывать деньги, развивать бизнес и обладать доступом к огромному количеству общих данных, позволяющих получать ценную информацию.

Обработка данных

Заказчик управляет службами хранения и преобразования данных, которые подпитывают бизнес.

Данные как услуга

Отдел данных заказчика пытается улучшить свой подход «данные как услуга» (DaaS) для других отделов и подсистем, и, в частности, они хотели, чтобы мы создали хранилище для привязки идентификаторов пользователей к нескольким партнерам, с которыми они интегрированы.

Инструменты и решения

Подход к обработке и хранению большого количества связанных идентификаторов пользователей (идентификаторы заказчика, идентификаторы провайдеров и их отношения).

Примеры кода, как использовать хранилище в нисходящих потоках сервиса.

Процесс постоянного заполнения хранилища данных связей новыми идентификаторами.

Графов БД на основе HBase позволило эффективно дедуплицировать данные, что уменьшило нагрузку на хранилище.

Хранилище S3 имеет наливную интеграцию с HBase, что позволило легко и гибко управлять необходимыми размерами хранилища.

Технологический стек

HBase
Java
Scala
Apache Spark
SQS
SNS
AWS EventBridge
Terraform
AWS EMR
S3
DataDog

Почему это интересно?

Хранение в течении 90 дней

Учитывая огромное количество данных — 10 * 109 записей в день или ~ 115 тыс. записей в секунду, найти надежный, но экономичный способ их обработки и хранения в течение 90 дней — сложная архитектурная задача.

Создание хранилища Linkage

Оно ежедневно принимает новые связанные записи данных из 40 различных систем.

Какие трудности преодолели?

Какую технологию выбрать?

Мы активно прототипировали и тестировали решения на различных типах хранилищ:графовые базы данных (AWS Neptune, TigerGraph, Nebula),столбцовые базы данных (Сassandra, ScyllaDB).

Поиск подходящей технологии

AWS Neptune не справлялся с нагрузкой, TigerGraph был слишком дорог.

Нам потребовались десятки часов на общение со службой поддержки TigerGraph по устранению технических ошибок, и в конце концов мы решили использовать вместо него HBase, который оказался в десять раз дешевле.

Читать подробнее в PDF

Сообщение отправлено
отправить еще раз

Результат

01

Разработка архитектуры хранения данных и создание Linkage хранилища данных с 10*109 новых связанных записей данных из 40 различных систем ежедневно с TTL 90 дней.

02

Хранилище Linkage хранит 10*109 (!) новых связанных записей данных из 40 различных систем ежедневно с TTL 90 дней.

03

Заказчик планирует использовать данные о связях для решений на основе ИИ, чтобы значительно повысить финансовую эффективность показа рекламы для своих издателей.

04

Раньше заказчику приходилось работать с интенсивно дублируемыми данными (коэффициент дублирования 4х), теперь данные дедуплицируются автоматически при закладке в хранилище.

05

Благодаря дедупликации размер хранилища Linkage для хранения данных за 90 дней будет меньше, чем объем хранилища необработанных данных за 7 дней.

06

Хранилище Linkage на базе HBase будет стоить не более 10 тысяч долларов в месяц, что будет выгодно заказчику, который планирует ежемесячно возвращать 20 тысяч долларов от этой инвестиции.

Отправь заявку

подписаться на нашу рассылку

Сообщение отправлено
заполнить еще раз

позвоните мне