Обратный звонок
главнаякейсысервис для издателей рекламного контента

сервис для издателей рекламного контента

DevopsФронтенд
Отдел данных компании-заказчика реализует подход DAAS «данные как услуга» в своей работе.

каков бизнес заказчика?

Сервис предоставляет рекламные инструменты, технологии и услуги десяткам тысяч создателей контента, помогая им зарабатывать деньги, развивать свой бизнес и обладать доступом к огромному количеству общих данных, позволяющему получать ценную информацию.

Заказчик управляет службами хранения и преобразования данных, которые подпитывают бизнес.

Отдел данных заказчика пытается улучшить свой подход «данные как услуга» (DaaS) для других отделов и подсистем, и, в частности, они хотели, чтобы мы создали хранилище для привязки идентификаторов пользователей к нескольким партнерам, с которыми они интегрированы.

что мы сделали

Подход к обработке и хранению большого количества связанных идентификаторов пользователей (идентификаторы заказчика, идентификаторы провайдеров и их отношения)

Примеры кода, как использовать хранилище в нисходящих потоках сервиса

Процесс постоянного заполнения хранилища данных связей новыми идентификаторами.

почему это интересно?

Учитывая огромное количество данных — 10 * 109 записей в день или ~ 115 тыс. записей в секунду, найти надежный, но экономичный способ их обработки и хранения в течение 90 дней — сложная архитектурная задача.

Создание хранилища Linkage, которое ежедневно принимает новые связанные записи данных из 40 различных систем.

какие наиболее серьезные трудности мы преодолели?

Мы активно прототипировали и тестировали решения на различных типах хранилищ:
графовые базы данных (AWS Neptune, TigerGraph, Nebula),
столбцовые базы данных (Сassandra, ScyllaDB).

AWS Neptune не справлялся с нагрузкой, TigerGraph был слишком дорог.

Нам потребовались десятки часов на общение со службой поддержки TigerGraph по устранению технических ошибок TigerGraph, и в конце концов мы решили использовать вместо него HBase, который оказался в десять раз дешевле.

Наш стек технологий

HBase
Java
Scala
Apache Spark
AWS Lambda
SQS
SNS
AWS EventBridge
Terraform
AWS EMR
S3
DataDog

результат

Разработка архитектуры хранения данных и создание Linkage хранилища данных с 10*109 новых связанных записей данных из 40 различных систем ежедневно с TTL 90 дней

Хранилище Linkage хранит 10*109 (!) новых связанных записей данных из 40 различных систем ежедневно с TTL 90 дней.

Заказчик планирует использовать данные о связях для решений на основе ИИ, чтобы значительно повысить финансовую эффективность показа рекламы для своих издателей.

Раньше заказчику приходилось работать с интенсивно дублируемыми данными (коэффициент дублирования 4х), теперь данные дедуплицируются автоматически при закладке в хранилище

Благодаря дедупликации размер хранилища Linkage для хранения данных за 90 дней будет меньше, чем объем хранилища необработанных данных за 7 дней.

Хранилище Linkage на базе HBase будет стоить не более 10 тысяч долларов в месяц, что будет выгодно заказчику, который планирует ежемесячно возвращать 20 тысяч долларов от этой инвестиции.

Отправь заявку

подписаться на нашу рассылку

Сообщение отправлено
заполнить еще раз

позвоните мне