Ми вже писали, як самостійно зібрати семантичне ядро. Але перед тим як розділити запити по категоріях, їх слід добре почистити. Як прибрати вісім рівнів шлаку і залишити чисте срібло? Знадобиться акаунт у Key Collector і 12 хвилин на прочитання цього посту. Веб-студия smart-web учитывает данные шаги, что делает seo продвижение сайтов более продуктивным.
1. Чистка семантичного ядра за словами-маркерами
Відкриваємо Key Collector і з допомогою фільтра відсіваємо всі невідповідні слова. Наприклад, для категорії «срібні кільця» основними маркерними словами будуть «срібні», «кільця», а також їх словоформи. Вписуємо тільки частину слова, щоб охопити всі словоформи.
В першу чергу відберемо всі запити без «кількість» Key Collector.
Для цього переходимо на вкладку з вибором умов фільтрації:
![8 крокыв1 8 крокыв1]()
8 крокыв1
І вибираємо відповідні умови (фраза не містить «кількість»):
Відзначаємо всі відфільтровані фрази і відправляємо в «кошик».
Далі за таким же алгоритмом відфільтруємо запити по слову «срібло-».
Щоб охопити більше фраз з однаковим значенням, Key Collector існує можливість створювати вкладені фільтри.
Для чого це потрібно? Наприклад, візьмемо запити «кулони» і «підвіски». Обидва варіанти у видачі будуть показувати ідентичні результати.
У даному прикладі ми виконали пошук інформаційних запитів, що містять слова «кулон» і «підвіска».
Всі створені фільтри за заданим умовам можна зберігати й використовувати в інших проектах.
Як це зробити:
2. Видалення повторюваних слів
Фрази з повторами часто сміттєві, тому має сенс видалити їх вже на перших етапах чищення семантики. Для цього вибираємо розширений фільтр і налаштовуємо правило: «Фраза» — «Містить повтори слів»:
3. Видалення латинських букв, символів, запитів з цифрами
Видалити латинські букви і спецсимволи можна з допомогою:
- розширеного фільтра;
- регулярних виразів.
За допомогою розширеного фільтра можна вибрати відразу кілька параметрів:
Фільтр за умовою «містить інші символи» вибере фрази з українськими символами «і», «ї».
Не забувайте застосувати правило АБО/І до всіх умов.
Інший метод — вивчити регулярні вирази і очистити семантичне ядро з їх допомогою.
Регулярний вираз \d+ допомагає позбутися цифр.
Наприклад, у разі семантичного ядра з срібним кільцям я залишала всі запити, що містять значення проби металу та ваги виробу, але видаляла рік випуску.
Регулярний вираз [a-z]+ потрібно для фільтрації літер латинського алфавіту.
Літери латинського алфавіту можуть бути в назвах брендів, колекцій чи інших елементів карток товарів. Перед видаленням таких запитів раджу уважно їх переглянути.
Фільтрацію за допомогою регулярних виразів можна проводити і за допомогою швидкого фільтра (як на прикладі вище), і з допомогою розширеного фільтра:
4. Чистка за допомогою стоп-слів
Переходимо на вкладку «Стоп-слова»:
Додаємо слова, які нам не потрібні. Зазвичай я ділю всі стоп-слова на кілька груп:
- інформаційні;
- міста (які не відповідають маркетинговим цілям);
- все, що відноситься до безкоштовних способів одержання товару: безкоштовно, недорого, дешево, дорого, на/під замовлення (не для всіх сайтів) і так далі.
- суб'єктивні поняття: самий кращий, красивий, незвичайний, прикольний, оригінальний.
- назви сайтів з оголошеннями: «пром юа», «олх», «клумба», «бігль юа».
- візуалізація: зображення, фото, відео, завантажити безкоштовно, дивитися, креслення, інструкції, схеми.
- дуже часто зустрічаються запити з приставкою «своїми руками», їх теж додаємо в стоп-слова.
Список груп може змінюватись в залежності від тематики сайту, але наведені вище приклади працюють практично в усіх випадках.
Повний список стоп-слів одного разу вирішив зібрати Антон Липський. З тих пір він регулярно поповнюється набутками інших фахівців.
Так виглядає чистка за допомогою список стоп-слів Key Collector:
Важливо! Інформаційні запити з приставками «як», «де», «що» раджу не видаляти. Краще перенести їх в окрему папку і в майбутньому використовувати для розробки контент-плану.
Також можна всі непотрібні слова додавати безпосередньо з повного списку запитів. У такому разі створюємо окрему групу — спеціально для таких стоп-слів.
Алгоритм дій:
1. Натискаємо на значок ліворуч від нерелевантного запиту:
2. У вікні вибираємо, що додати в список стоп-слів:
5. Чистимо ядро з допомогою функції аналізу групи слів
У KeyCollector переходимо на вкладку «Дані» — «Аналіз груп».
Відзначаємо групи зі словами, які не підходять:
Групи, зазначені в таблиці, автоматично відзначаються в основному списку запитів. Після того як були відзначені всі невідповідні слова, закриваємо таблицю і видаляємо всі непотрібні запити.
6. Шукаємо і видаляємо неявні дублі
Для використання цього методу необхідно спочатку зібрати інформацію про частотності запитів. Після цього переходимо на вкладку «Дані» — «Аналіз неявних дублів»:
Виділяємо необхідні налаштування:
Натискаємо кнопку «Розумна відмітка»:
Програма автоматично відзначить всі неявні дублі, частотність яких менше зазначеної в пошуковій системі.
7. Ручний пошук по групі запитів
Нарешті можна відзначити вручну всі непотрібні слова у семантичному ядрі: сленг, слова з помилками і так далі. Основний масив нерелевантних запитів вже був очищений раніше, так що ручна чистка не займе багато часу.
8. Очищення запитів по частотності
За допомогою розширеного фільтра у KeyCollector встановлюємо параметри частоти запитів і відзначаємо всі низькочастотні фрази. Даний етап потрібен далеко не завжди.
Висновки
Щоб якісно очистити семантичне ядро від сміття, слід виконати вісім кроків у KeyCollector:
- Чистка семантичного ядра за словами-маркерами.
- Видалення повторюваних слів.
- Видалення латинських букв, символів, запитів з цифрами.
- Чистка за допомогою стоп-слів.
- Очищення ядра за допомогою функції аналізу групи слів.
- Пошук і видалення неявних дублів.
- Ручний пошук по групі запитів.
- Очищення запитів по частотності.
На кожному етапі бажано переглянути слова, позначені для видалення, так як існує ризик видалити якісні релевантні запити.
Замість видалення непотрібних запитів краще створити окрему групу і переносити їх туди. У свіжих оновлення Key Collector з'явилася відповідна група за замовчуванням — «Кошик».
Після ретельного чищення семантичного ядра можна переходити до наступного етапу — кластеризації та групування запитів.
Зазначу, що завжди існує ризик втратити парочку нерелевантних запитів під час чищення ядра. Їх дуже легко виявити і видалити на етапі групування, але про це — наступного разу.