Автоматический матчинг: точное сопоставление товаров без рутины

Как это работает

  1. Импорт списка товаров (из прайс-листов или выбранных источников): SKU/артикул, EAN/GTIN, бренд, название, ключевые характеристики.
  2. Сбор предложений-кандидатов: запросы в маркетплейсы и магазины по комбинации правил и поиска, чаще — сбор категорий целиком.
  3. Оценка совпадений: нормализация текста (лемматизация/транслитерация), выравнивание единиц измерения, сравнение характеристик, бренда, объёма/цвета/модели, опционально схожесть изображений → вычисление confidence score.
  4. Принятие решения: автопривязка выше порога, ниже — в очередь на ручную проверку.
  5. Экспорт: ссылки и связки в XLSX/CSV, JSON‑API, отправка по почте/FTP.

Подходы к автоматическому матчингу (коротко)

ПодходКейсПлюсыОграничения
Точный по EAN/GTIN (1→1)Стандартизированные категории, наличие штрих‑кодовМаксимальная точность, минимум ручной работыНе покрывает товары без кода / разные партии
Правила + токены названияБренд/модель/объём/цвет в названииВысокое покрытие, быстроЧувствительно к «мусору» в текстах
По характеристикам (1→*)Вариации (объём/цвет), комплекты, серииГибкость: фильтры по атрибутамТребует качественного извлечения атрибутов
Гибрид с изображениямиГде названия неоднозначныСнижает ложные совпаденияНе всегда доступен медиа‑контент

Ручная правка и тонкая настройка

  • Очередь спорных совпадений: карточка «товар ↔ кандидат», конфиденс‑скор, ключевые расхождения, быстрые действия «привязать/отклонить».
  • Правила и словари: белые/чёрные списки продавцов, синонимы брендов/серий, стоп‑слова, обязательные/запрещённые атрибуты.
  • Порог доверия по категориям: отдельные значения для «техники», «fashion», «красота» и т.д.
  • Закрепления и исключения: ручная привязка (override), «заморозка» связок, игнор конкретных продавцов/URL.
  • Массовые операции: пакетное принятие/отклонение, импорт/экспорт пользовательских правил.
  • Журнал действий и откат: аудит, фильтр по пользователю/дате, восстановление версии.

Оценка и контроль качества

  • Эталонная разметка (golden set): выборка проверенных связок для регулярной проверки качества работы автоматизации.
  • Метрики: precision, recall, F1, истинные/ложные срабатывания по категориям и площадкам.
  • Семплирование: периодические спот‑чеки автопривязок и «почти пороговых» кейсов.
  • Мониторинг дрейфа: уведомления при падении метрик или всплеске спорных совпадений.
  • Контроль сроков актуальности: SLA на обновление связок, отчёт по «протуханию» данных.

Какие данные мы собираем

  • Источники: Ozon, Wildberries, Яндекс.Маркет, СберМегаМаркет, Kaspi.kz, Onliner.by и другие по запросу).
  • Поля: URL карточки, продавец, цена (учёт акций/СПП), бренд/модель, атрибуты (цвет, объём, размер), медиа, рейтинг/отзывы и другие.

Кому полезен

  • Бренды/дистрибьюторы: контроль РРЦ/представленности, поиск неавторизованных продавцов.
  • Розница: быстрый старт мониторинга цен без ручного подбора ссылок, конкурентный анализ.
  • Категорийные менеджеры/аналитики: сравнение ассортиментов, доля на полке, бенчмаркинг.

Мне интересно!

Если вы не хотите заниматься огромным объемом не самой интересной (но нужной) работы — напишите нам.

PS. Что делать если автоматический матчинг не возможен?

Если алгоритмы не справляются — остается только полностью ручной матчинг. Это дорогой и трудоемкий процесс, но в некоторых случаях без него не обойтись и мы так же можем с ним помочь.