GSA SER: Як побудувати завершений список автоприйняття, користуючись інструментами SEO

1

Ласкаво просимо до мого посібника з побудови завершеного списку автоприйняття, користуючись інструментами SEO. На відміну від моєї публікації, пов’язаної з використанням лише GSA Search Engine Ranker, у цій статті будуть представлені й інші інструменти, які дають змогу прискорити весь процес. Якщо ви тільки починаєте цю діяльність, або маєте обмежений бюджет, то стаття, яка базується на використанні виключно SER, швидше за все, підійде вам краще. Вона дозволяє виконати більшість описаних тут дій, хоч і виконуватиме їх просто повільніше. А якщо ви волієте витратити гроші і заощадити час, то ви завжди можете пропустити обидва ці процеси і придбати готовий платний список, а потім використати процес фільтрації списку, описаний у моїй статті.

Ця стаття є частиною серії статей, яку потрібно читати в такому порядку:

  1. Введення в створення списку доменів автоприйняття
  2. Як побудувати власний список доменів автоприйняття, використовуючи GSA Search Engine Ranker
  3. Ця стаття

Інструменти, необхідні для цього процесу

Як я зазначав раніше, тут буде запропоновано деякі додаткові інструменти та сервіси для даного методу, які допомагають збільшити вихід кількості посилань з одночасним збільшенням швидкості процесу. Ці рекомендації можуть змінюватись в залежності від того, що саме є у вашому розпорядженні, але нижче я представлю ідеальний набір інструментів, а також основні пояснення, для чого використовується кожен інструмент.

Виділений сервер або кілька високопродуктивних VPS — Процес побудови списку потребує значних системних ресурсів, а це означає, що в ідеальному випадку він повинен виконуватися або на виділеному сервері, який розділений на три VPS, або на трьох високопродуктивних VPS. Після налаштування на кожному етапі роботи з посиланнями – отримання посилань, ідентифікація посилань та верифікація посилань – використовуватиметься один із цих VPS. Для збільшення швидкості отримання посилань можна додати додаткові VPS.

Dropbox — Особисто я використовую хмарне сховище файлів Dropbox, але цілком може використовуватись будь-яка система спільного доступу до файлів для того, щоб синхронізувати різні списки файлів, потрібні для різних VPS.

Scrapebox і Scrapebox Automator — Програма Scrapebox буде застосовуватися для обох методів отримання посилань — для отримання посилань і для виконання парсингу сигнатур. Використання Scrapebox Automator дозволяє інструменту Scrapebox виконувати кілька завдань з парсингу сигнатур весь день без простоїв.

GSA Platform Identifier — PI буде використано на етапі ідентифікації посилань у процесі побудови списку з метою сортування посилань, отриманих раніше.

GSA Search Engine Ranker — хоча на працюючих VPS для побудови посилань в активних проектах, використовуватиметься SER, виділений екземпляр цієї програми використовуватиметься для перевірки посилань, який PI вибере на етапі ідентифікації посилань.

Навіщо потрібні додаткові інструменти

Оскільки програма GSA Search Engine Ranker є 32-розрядним інструментом, вона, як готове рішення, може використовувати лише 2 Гб оперативної пам’яті. Це означає, що вона має у своєму розпорядженні обмежений обсяг ресурсів, що обмежує продуктивність інструменту.

За рахунок додавання інших інструментів, що виконують різні завдання процесу побудови списку посилань, SER здатний сконцентруватися на тому, що він робить найкраще – це публікація/верифікація посилань. Крім того, для отримання посилань найкращим інструментом є Scrapebox, який дозволяє користувачам при оплаті однієї ліцензії запускати на одному VPS кілька екземплярів цієї програми, що виконують різні завдання.

Поділ різних завдань між окремими інструментами також дозволяє масштабувати різні частини процесу, як показано на наведеній нижче схемі.

ic9nssyjhsy

Хороший виділений сервер верифікації зможе обробляти значно більше посилань, ніж може забезпечити його один VPS, зайнятий ідентифікацією посилань. Один VPS, що виконує ідентифікацію посилань, здатний обробити набагато більше посилань, ніж виробляє один VPS, що виконує отримання посилань. Це дозволяє користувачеві масштабувати систему там, де це потрібно.

Підготовка Dropbox

Так як весь процес буде розподілено між декількома різними VPS або серверами, то ми будемо використовувати сервіс Dropbox для синхронізації наших списків між різними етапами процесу, а також для створення списку посилань, що пройшли фільтрацію, в наших активних проектах побудови посилань.

Особисто я звик використовувати для кожного етапу головну папку, тому ми почнемо з папки для отримання посилань, папки для ідентифікації посилань, папки для верифікації посилань і результуючої папки для посилань, що пройшли фільтрацію. Після цього ми створимо папки, кожна з яких буде відповідати одному VPS, який працює над завданням. Ці папки будуть вкладені в кожну з головних папок, як показано в наведеному нижче прикладі.

1xgi4wakamm

Така організація дозволяє швидко здійснювати необхідну зміну конфігурації. Наприклад, кожна папка вилучення посилань збирає посилання, які зберігаються у відповідних вкладених папках. Потім ми налаштовуємо GSA Platform Identifier на моніторинг потрібних папок. У наведеному прикладі, у нас можуть використовуватися два екземпляри PI, один з яких стежить за вкладеними папками 1-3, а другий має справу з вкладеними папками 4 та 5.

Оскільки вилучення посилань зазвичай робить набагато більше посилань, ніж парсинг сигнатур, можна сказати, перший екземпляр PI буде простоювати протягом кількох годин на день. У той же час другий екземпляр програми, працюючи на максимальній швидкості і з максимальною продуктивністю, не встигатиме обробляти всі посилання, які розміщуються в папках, за якими він стежить.

Так як у нас є окремі папки для кожного VPS, що виконує отримання посилань, то ми можемо швидко і без особливих зусиль налаштувати перший екземпляр PI на моніторинг однієї папки вилучення посилань і передати папки парсингу сингнатур другому екземпляру PI. Коли я вперше сам почав виконувати цей процес, я викладав усі посилання, отримані в результаті скрапінгу та вилучення посилань в ту саму папку. Проблем було – не оберешся!

Продовжуючи цей приклад, припустимо, що обидва екземпляри PI ідентифікують свої посилання і надсилають усі результати своєї роботи до папки ідентифікації посилань 1. Примірник SER, що виконує верифікацію, може вибрати отримані посилання з цієї папки, і прогнати їх для перевірки через свої проекти, зберігаючи перевірені посилання у вкладеній папці верифікації посилань 1.

Потім, залежно від обсягу роботи, ви можете використовувати той самий або інший екземпляр SER з проектами, встановленими, як описано в посібнику з фільтрації списку. Посилання будуть вилучатися зі списку перевірених та відфільтрованих посилань приблизно раз на тиждень. Цей екземпляр буде виконувати повторну обробку перевірених посилань, очищаючи список від «мертвих» посилань, та підтримуючи роботу з оптимальною швидкістю екземплярів додатків, що будують список результуючих посилань. Після завершення проектів фільтрації ви просто видаляєте поточні URL-адреси з папки списку фільтрації, переносите знову відфільтровані перевірені посилання в цю папку і використовуєте ваші екземпляри побудови працюючих посилань, які будуть вибирати домени з цієї папки.

Як я вже казав, це просто приклад організації процесу, на якому я пояснюю процес і показую, як можна виконувати перемикання на ходу та масштабувати ваші папки у різних ділянках процесу. Для синхронізації всіх папок, що потрібні VPS, використовується Dropbox у фоновому режимі, дозволяючи знизити робоче навантаження.

Налаштування вилучення посилань

Як я зазначав, на етапі отримання посилань ми відмовляємося від використання GSA Search Engine Ranker на користь Scrapebox. Ми почнемо з парсингу сигнатур, тому що для того, щоб почати отримання посилань потрібна наявність вихідного пулу URL. В ідеальному випадку в такий пул повинні входити такі системи, як коментарі блогів, коментарі під зображеннями та гостьові книги.

Запуск парсингу сигнатур

Через те, що Scrapebox та SER використовують різні механізми, нам необхідно витягти сигнатури для пошуку з GSA Search Engine Ranker та імпортувати їх у Scrapebox. На щастя, останні оновлення SER зробили цей процес дуже простим!

У цьому прикладі я використовуватиму коментарі до блогів, коментарі до зображень і гостьові книги, які забезпечують мене доменами, якими я можу скористатися на етапі отримання посилань, але для побудови списку необхідно вибрати системи CMS.

Для експорту сигнатур відкрийте новий проект SER, виберіть платформи або системи, які потрібно використовувати, і клацніть правою кнопкою миші по списку платформ. Прокрутіть спливаюче меню команд до кінця та виберіть “Export Footprints of selected engines” (експорт сигнатур для вибраних систем). Після цього виберіть файл або буфер обміну, як показано на наведеному нижче скріншоті.

nlf1xg2j g4

Після того, як ви виберете сигнатури, я наполегливо рекомендую виконати описаний у моїй статті процес очищення сигнатур. Список сигнатур, що не пройшов оптимізацію, вимагатиме більше часу для роботи ваших інструментів, але при цьому необов’язково збільшить кількість отриманих посилань. Тому виконання цього процесу заощадить, зрештою, значний час.

Після проведення чищення списку сигнатур потрібно підготувати Scrapebox до парсингу пошукових систем. Як і у випадку з SER, під час проведення парсингу зі Scrapebox ви можете вибирати різні опції. Першою опцією є використання платних проксі, а другою опцією є використання безкоштовних публічних проксі. Парсинг із платними проксі дозволяє довше уникати їхнього програмного блокування пошуковими системами, але він більш надійний, якщо правильно налаштовані їхні потоки та затримки. Публічні проксі не вимагають оплати, але вони часто вже заблоковані в пошукових системах, а це означає, що безліч ваших спроб парсингу будуть невдалими. І такі проксі дуже пасують початківцям. У будь-якому випадку, вам необхідно оптимізувати потоки та затримки між запитами.

Щоб зробити це, натисніть кнопку “settings” (налаштування), а потім виберіть “Connections, Timeout, and Other Settings” (підключення, затримки та інші установки).

Відкриється меню, показане на скріншоті нижче

httqgbempja

  1. Число потоків збирача (харвестера). Якщо ви використовуєте для проведення парсингу платні проксі, бажано встановлювати тут невелику величину. Особисто я встановлюю цей параметр 1, так як це полегшує визначення необхідної для кожного проксі затримки. При використанні публічних проксі, я встановлюю кількість потоків, що дорівнює кількості, яка може обробити мій VPS або сервер.
  2. Налаштування розширених установок. Якщо ви використовуєте виділений сервер або високопродуктивний VPS, і вирішили при парсингу використовувати публічні проксі, тоді є сенс вибрати цю опцію, оскільки вона дозволить вам збільшити кількість потоків, перевищивши межі, встановлені за умовчанням.
  3. Встановлення затримок. Після того, як параметри початкової вкладки підключення були оптимізовані, необхідно провести оптимізацію величин затримок.

Якщо ви використовуєте лише VPS з низькою продуктивністю або виконуєте роботу на настільному комп’ютері чи ноутбуці, тоді потрібно залишити стандартне значення максимальної кількості потоків збирача.

Тепер ми переходимо до встановлення затримок, як показано нижче на скріншоті.

i4bbw983pnq

Якщо для парсингу пошукових систем ви використовуєте платні проксі, необхідно з’ясувати поріг їх програмного блокування пошуковими системами. Донедавна один проксі міг опитувати Google приблизно раз на сімдесят секунд, не побоюючись бути програмно заблокованим («забаненным»). Нещодавно виконаний мною скрапінг дозволив припустити, що ця величина була збільшена. Це означає, що вам необхідно перевірити та встановити ті затримки, які будуть працювати у вашому випадку.

Якщо ви вирішили працювати з публічними проксі, то рекомендую встановлювати затримку настільки малою, наскільки це можливо. Оскільки ці проксі публічні (безкоштовні), можливо, ними користується велика кількість людей. Це означає, що вам потрібно отримати від них максимум корисного, перш ніж вони будуть заблоковані програмно.

Тепер, після встановлення кількості потоків та затримок, ми переходимо до завдання сигнатур. Хоча ми надаватимемо фактичні сигнатури систем, нам потрібно, щоб Scrapebox трактував їх як ключові слова. Тоді він опитуватиме різні пошукові системи, використовуючи ці ключові слова, і збиратиме отримані результати. Для цього потрібно просто перенести сигнатури у вікно ключових слів, розташоване вгорі ліворуч у вікні головного меню Scrapebox, як показано на скріншоті.

tbsccpbghuk

Якщо ви хочете використовувати платні проксі, то ви можете додати їх, клацнувши по кнопці «load» (завантаження), показаної на наведеному нижче скріншоті, і вибрати файл із ними. Після того як ваші проксі додані, необхідно вибрати опцію “use proxies” (використовувати проксі), а якщо ви вирішили користуватися публічними проксі, то ми встановимо їх на наступному етапі.

3nabmohckms

Далі, клацніть по кнопці “Start Harvesting” (початок збору) у вікні «URL’s Harvested» (зібрані URL), розташованому вгорі праворуч у вікні Scrapebox.

Після цього буде відкрито вікно налаштування збирача URL, показане на наступному скріншоті.

fprns9 gg7e

Виберіть пошукові системи, які потрібно використовувати, зі списку, розташованого в лівій стороні вікна. Якщо ви виконуєте скрапінг за допомогою публічних проксі, то ви можете використовувати і локальні проксі, але слід мати на увазі, що Scrapebox видаляє раніше використані для проксі парсингу. Ви можете дозволити їх використання, клацнувши по кнопці «proxies» (проксі) внизу вікна, і вибравши опцію «user server proxies» (проксі на сервері користувача).

Вибір цієї опції дозволить використовувати публічні проксі, раніше використані при парсингу групою користувачів Scrapebox. Якщо ви використовуєте інші платні проксі, ви можете пропустити цей крок. Незалежно від того, який метод використання проксі ви вирішили вибрати, далі ви натискаєте кнопку «start»(пуск) у вікні збирача та залишаєте Scrapebox виконувати парсинг потрібних вам пошукових систем.

6ca90qjt e

Після завершення парсингу з’явиться спливаюче вікно, показане на наведеному вище скріншоті. Як можна бачити з двох правих колонок, пофарбованих у червоні тони, при використанні публічних проксі має місце велика кількість відмов, але вони принаймні безкоштовні, і дають якісь результати. Закривши це спливаюче вікно, ви повернетеся у вікно збирача Scrapebox, де зможете побачити деякі дані про завершення скрапінгу.

Закриття збирача додасть зібрані URL до вашого списку «URL’s Harvested» (зібрані URL), розташованому вгорі праворуч у головному вікні Scrapebox. Необхідно видалити з результатів скрапінгу повторювані URL, використовуючи кнопку “Remove / Filter” (видалити/фільтр), як показано на скріншоті нижче.

jubroyokwpk

Якщо ви виконуєте парсинг не контекстних доменів, достатньо видалити тільки повторювані URL, оскільки такі платформи, як блоги і коментарі під зображеннями можуть містити кілька сторінок для публікації на тому самому домені. Якщо ви працюєте з контекстними доменами, то ви можете видаляти домени, що повторюються, оскільки інструменти на кшталт GSA Search Engine Ranker досить «кмітливі» для переходу до сторінки створення облікового запису для підтримуваної системи.

Після видалення повторень збережіть зібрані URL на робочий стіл для переходу до етапу ідентифікації посилань.

Автоматизація процесу скрапінгу сигнатур

Як я вже раніше зазначав, Scrapebox дозволяє користувачеві, який має ліцензію, запускати стільки екземплярів програми на одному VPS, скільки дозволяє одна ліцензія. Теоретично, ви можете розподілити навантаження по парсингу сигнатур між 10 різними екземплярами програми, що працюють одночасно. На жаль, таке рішення викликає проблеми з кількістю проксі, доступних для парсингу, і в цілому знизить обсяг отриманих посилань.

Кращим підходом до виконання цього процесу є використання плагіна Scrapebox Automator. Цей платний плагін дозволяє користувачеві організувати чергу робіт для Scrapebox, які мають бути виконані протягом дня. Для цього потрібні невеликі налаштування, і ви можете отримати цілодобове безперервне отримання знайдених посилань в одну з ваших вкладених папок для отримання посилань. Потім ви надсилаєте ці посилання в GSA Platform Identifier.

До моменту написання цієї статті, вартість Scrapebox Automator складала близько 20$ за наявності регулярної ліцензії Scrapebox. Щоб придбати цей плагін, відкрийте Scrapebox, клацніть по меню “Premium Plugins” (платні плагіни), після чого виберіть команду “Show Available Plugins” (показати доступні плагіни).

Буде відкрито меню платних плагінів, що дозволяє придбати будь-який доступний плагін для Scrapebox, як показано на скріншоті. На даний момент нас цікавить лише Scrapebox Automator.

Після покупки та встановлення плагіна, у меню вашого екземпляра Scrapebox з’являться дві опції Automator. Перша опція відкриває меню конфігурації для плагіна, і її можна виявити, вибравши меню “Premium Plugins” (платні плагіни), а потім вибрати команду “Automator Plugin 64-Bit” (64-розрядний плагін Automator). В результаті буде відкрито вікно з меню конфігурації інструмента, яке показано на скріншоті.

n2hgiqewgsy

Розташована зліва панель містить опції майже всіх команд, які може виконати Scrapebox. Центральна панель містить команди, які мають бути виконані в тому порядку, в якому користувач додає їх. Права панель представляє різні опції, доступні користувачеві під час виконання специфічних завдань, вибраних у центральній панелі.

Для роботи плагіна Automator можна використовувати низку різних команд, що дозволяють точно поставити, що саме повинен робити інструмент. Я хочу уточнити, що тут не потрібно додавати окрему команду “Import/Export Keyword List” (імпорт/експорт списку ключових слів), тому що команда “Harvest URLs” (збирати URL) ця опція включена в конфігурацію в кінці її установок. Ця опція буде виводитись у правій панелі, як тільки буде обрана команда. Нижче наведений нижче скріншот показує необхідні команди для базової сесії автоматичного парсингу.

Буде виконано три послідовні скрапінги, експортуючи зібрані URL у те місце, яке ви вкажете в команді “Harvested URLs” (зібрані URL), крім того ви можете вибрати різний набір ключових слів/сигнатур для кожного виконання. Не забувайте, що це лише приклад. Ви можете отримати нескінченне повторення цих проектів, за умови, що забезпечуватимете інструмент свіжими проксі, щоб команди, показані на наведеному вище скріншоті, повторювалися десять-двадцять разів, знижуючи обсяг часу, необхідний для вашої взаємодії з фазою парсингу сигнатур під час отримання посилань.

Якщо ви є клієнтом сервісу SEOSpartans Catch-Alls (раджу краще використовувати CatchAllBoxes — прим. перекладача), то ви можете використовувати зручні безкоштовні інструменти. Це дозволить підняти Scrapebox Automator на новий рівень. Робиться це досить просто, якщо слідувати файлу readme, і вимагає близько п’яти хвилин для налаштування, а потім дозволяє вам нескінченно виконувати скрапінг з єдиним проектом, щоразу змінюючи ключові слова/сигнатури. Всі ваші зібрані URL-адреси будуть викладені в задану вами папку. Це означає, що GSA Platform Identifier зможе миттєво вибирати для обробки зібрані URL-адреси, для чого буде потрібно тільки початкова установка при запуску.

Подвоєння публічних проксі з GSA Proxy Scraper

Як я вже згадував, Scrapebox дозволяє вам запускати кілька екземплярів програми на тому самому VPS або сервері. За умови, що обладнання комп’ютера є досить швидкодіючим, це означає, що ми можемо використовувати один екземпляр для збору посилань шляхом їх вилучення. Інший екземпляр буде використовувати проксі-сервер Scrapebox за замовчуванням. Ще один екземпляр буде виконувати скрапінг сигнатур, використовуючи проксі, зібрані програмою GSA Proxy Scraper, або ще одним екземпляром Scrapebox, який виконує пошук проксі.

Я зазвичай використовую для цього GSA Proxy Scraper, тому що його легко налаштувати, і ви можете залишити його працюючим і безперервно список проксі. Найкращою характеристикою GSA PS є те, що можна встановити кілька різних завдань експорту, розділивши проксі для скрапінгу Google, скрапінгу Bing та ряду інших завдань.

Тепер я впевнений, що GSA PS може робити значно більше, ніж те, для чого я його використовував, але я завжди намагаюся використовувати його якомога простіше. Наскільки я знаю, цей інструмент автоматично почне скрапінг проксі, як тільки запуститься.

Так як він уже почав збирати проксі для вас, ви можете безпосередньо перейти до опції “Settings” (установки), щоб почати встановлювати свої правила автоматичного експорту для ваших проксі, як показано на скріншоті, наведеному нижче.

Виберіть вкладку “Automatic Export” (автоматичний експорт) і натисніть кнопку “Add” (додати), а потім виберіть “Send To File” (надіслати у файл), показану червоною стрілкою на попередньому скріншоті.

З’явиться вікно де ви можете присвоїти ім’я експорту на ваш вибір, але в даному прикладі я встановлю його для експорту проксі, що пройшли пошукову систему Bing. Я встановив інтервал в 1 хвилину, тому що хочу, щоб Scrapebox мав доступ до останньої версії проксі, коли його плагін Automator почне роботу і вибере проксі. Ім’я файлу може бути будь-яким, і крім того, ви можете вибрати різні формати для експорту, але так як результати будуть використовуватися в Scrapebox, то я вирішив використовувати внутрішні установки експорту.

1x5 7vbufgq

У наступному вікні правил експорту виберіть опцію «Export only working proxies» (експорт тільки робочих проксі) та у списку “Include Tags” (включаючи теги) виберіть платформи, для яких ви хочете експортувати проксі. У цьому випадку я вибрав лише Bing. Оскільки ці публічні проксі будуть використовуватися для парсингу, я експортую проксі всіх типів з усіх регіонів.

Після завершення налаштування правила експорту інструмент почне працювати автоматично. Все, що тепер залишається зробити, так це скопіювати вашу папку Scrapebox, дати їй найменування Scrapebox 2, і створити ярлик на .exe, що лежить в ній, на робочому столі для полегшення доступу. Після того, як ви встановите цей другий екземпляр Scrapebox Automator, потрібно встановити в Automator вихідний файл проксі як файл, в який буде експортувати свої результати GSA Proxy Scraper. Це дасть змогу вибирати свіжі проксі, які були експортовані GSA PS перед початком кожного скрапінгу. Матиме місце певне перетин між проксі, що використовуються першим екземпляром Scrapebox, який отримує свої проксі від сервера Scrapebox, і другим екземпляром, що використовує проксі від GSA PS. Але різних проксі буде достатньо, щоб виправдати використання двох екземплярів Scrapebox.

Експонентне зростання вилучення посилань

Як я згадував раніше в інших публікаціях, вилучення посилань має здатність експоненційно збільшувати розмір вашого списку, залежно від платформ і систем, на які ви націлені. Більше того, для цієї дії не потрібні проксі! Хоча SER і має певні можливості з вилучення посилань, але я волію використовувати Scrapebox, оскільки він дає користувачеві більше можливостей керувати процесом.

Сам по собі, Scrapebox не має можливості отримувати посилання, вам потрібно завантажити безкоштовний плагін для отримання посилань. Для цього достатньо клацнути на вкладці «Addons» (доповнення) і вибрати «Show available add-ons» (показати доступні доповнення).

Після цього буде відкрито вікно менеджера плагінів, яке надає можливість завантажити все, що вам потрібно. В даний момент нас цікавить плагін «ScrapeBox Link Extractor». Виберіть його, і натисніть кнопку “Install Addon” (встановити додаток) внизу вікна менеджера.

Перед тим, як ми відкриємо доповнення, нам потрібно вказати йому URL, які ми хочемо використовувати для отримання посилань. Для цього ми просто додаємо їх до збирача URL у верхній правій частині Scrapebox, як показано нижче на скріншоті. У цьому прикладі я додаю URL-адреси, зібрані в наведеному раніше прикладі парсингу сигнатур.

zbir4rfywpi

Щоб відкрити додаток для отримання посилань, достатньо клацнути по меню “Addons” (доповнення) та вибрати його. Після того, як відкриється вікно отримання посилань, нам потрібно завантажити ті URL, які ми хочемо використовувати для отримання посилань. Для цього потрібно натиснути кнопку “load” (завантажити) внизу зліва, а потім вибрати опцію “Load URLs from Scrapebox Harvester” (завантажити URL із Scrapebox Harvester).

Тепер, як я неодноразово говорив раніше, отримання посилань може вимагати значних ресурсів. Для VPS з невеликою продуктивністю може мати сенс при виконанні отримання посилань здійснювати моніторинг витрати ресурсів. І якщо навантаження доходить до максимуму можливостей обладнання VPS, то, можливо, варто припинити роботу, або закрити інші інструменти, що працюють в цей час на комп’ютері, до завершення вилучення посилань. При всьому сказаному високопродуктивні VPS або виділені сервери повинні справлятися з одночасною роботою таких інструментів, як SER, і вилучення посилань.

Внутрішнє або зовнішнє отримання посилань

Поглянувши на нижній рядок вікна вилучення посилань, ви побачите три опції, які дають змогу вибрати режим роботи інструмента. Це внутрішнє, зовнішнє, або внутрішнє та зовнішнє вилучення посилань.

За замовчуванням інструмент встановлюється в режим Internal & External (внутрішнє та зовнішнє), як показано на скріншоті. Але, на мою думку, такий режим нічим не виправданий і потребує ще більше системних ресурсів. На цьому етапі процесу отримання посилань особисто я волію працювати в режимі зовнішнього отримання посилань. Цей режим означає, що інструмент буде переглядати всі URL, які ми включили до Scrapebox, і перевіряти сторінки щодо наявності посилань на зовнішні домени. Це допомагає збільшити загальну кількість доменів у нашому списку автоприйняття, а також забезпечити нас новими доменами, з яких ми можемо отримати посилання на наступних етапах.

При цьому також може використовуватися внутрішнє (внутрішньодоменне) вилучення посилань. Але річ у наступному. Ми, звичайно, можемо використовувати інструмент для перегляду доданих до Scrapebox URL з метою вибірки з їхніх сторінок посилань, які також вказують і на той же домен. Але на даному етапі у нас немає списку ідентифікованих або перевірених доменів, а це означає, що ми можемо отримати всередині домену велику кількість посилань, які ми ніколи не будемо використовувати.

Після того, як весь процес буде завершено, і ми передамо наші посилання в екземпляр GSA Search Engine Ranker, щоб переконатися, що наша система може розміщувати посилання на цих сторінках, і що домени пройшли перевірку, ми можемо скористатися перевагами внутрішнього вилучення посилань.

Наприклад, така платформа, як коментарі до блогів та зображень, зазвичай має в одному домені безліч сторінок, якими ми цілком можемо скористатися. Після того, як за допомогою SER ми отримали перевірений список сайтів коментарів до блогів та зображень, ми можемо завантажити ці домени в Scrapebox, відкрити плагін вилучення посилань і встановити його на режим внутрішнього вилучення посилань. Після цього інструмент перегляне сторінки, вибираючи всі знайдені внутрішні посилання. Після завершення вилучення внутрішніх посилань, потрібно експортувати знайдені URL, видалити повторювані URL зі списку, а потім знову пропустити цей список через внутрішнє вилучення посилань. Цей процес повторюється кілька разів, після чого отриманий список URL-адрес можна експортувати до файлу.

Тепер, коли цей файл містить велику кількість результуючих URL з доменів, які вже пройшли через SER, можна вважати, що мають великі шанси пройти верифікацію. Тому я пропускаю фазу ідентифікації та імпортую їх безпосередньо до проекту SER для виконання верифікації. Одночасно з тим, як SER обробляє ці посилання, ви можете знову завантажити ваш файл зі всіма внутрішніми посиланнями назад у Scrapebox, відкрити плагін вилучення посилань, встановити його в режим зовнішнього вилучення посилань, і запустити.

Хоча ви вже отримали посилання з початкового набору сторінок у списку, зовнішнє вилучення посилань має збільшити кількість URL, а оскільки це домени коментарів до блогів і зображень, то є великий шанс того, що інші люди використовували ці сторінки для побудови власних посилань. Це означає, що коли ви проженете посилання на ці витягнуті всередині домену сторінки через вилучення посилань в режимі зовнішнього вилучення, інструмент перегляне всі ці сторінки, які мають зовнішні посилання, що дозволить вам безкоштовно отримати списки для SER від інших людей.

Я сподіваюся, що ви починаєте розуміти, як вилучення посилань може експоненційно швидко збільшити список ваших цілей. Якщо ви хочете витратити свій час і деякі гроші на інструменти, потрібні для цього процесу, то ви швидко зможете отримати списки URL, які пропонуються рядом платних списків, так само як і деякими приватними списками, і тим самим збільшити свій список автоприйняття.

Запуск у роботу

Тепер, коли домени для отримання посилань відправлені в інструмент отримання посилань, і він був налаштований на зовнішнє отримання посилань, настав час натиснути на кнопку «start» (пуск)! Через доступні ресурси системи та розмір цільового пулу URL, інструменти будуть виконувати процес вилучення посилань протягом декількох годин, і після завершення процесу меню інструмента вилучення посилань буде схожим на те, що наведено на скріншоті нижче.

9hary6ev7oi

Як можна бачити в цьому прикладі, інструмент вилучення посилань обробив 20 961 сторінку, отримавши 546 359 URL до видалення повторень. Я вважаю, що найлегший шлях отримати та підтримувати ваш список URL полягає в тому, щоб натиснути кнопку “Show save folder” (Показати папку збереження) у правому нижньому куті вікна інструменту.

Після натискання цієї кнопки відкриється папка, що дозволяє перетягнути мишею файл у розділ Harvested URL (зібрані URL) у правому верхньому куті вікна Scrapebox, і видалити після цього файл з папки, оскільки ці файли займають занадто багато місця, коли ви виконуєте цей процес 24 години день.

Після того, як вилучені URL-адреси були додані до секції зібраних URL, необхідно дещо видалити. Так як вилучення посилань збирає все, що має тег посилання, то в результаті буде зібрано велику кількість сміття, яке не має відношення до URL. Тому моїм першим кроком є видалення елементів списку, які не є URL-адресою.

Далі потрібно видалити повторювані елементи. Пам’ятайте, що якщо ви працюєте з контекстними платформами, то вам потрібно видалити повторення на рівні доменів, а якщо ви працюєте з не контекстними платформами, то видаляти потрібно тільки URL, що повторюється.

Для кращого пояснення того, чому робити потрібно саме так, наведено нижче два скріншоти. На одному повторення видаляються на рівні URL, а на другому – на рівні доменів.

1118ywevetbzwo 11111msz jazrc0

Це означає, що якщо ви використовуєте не контекстні посилання, ви можете втратити більше 60% результатів, фільтруючи на рівні доменів, а не на рівні URL.

Нарешті, тепер ми маємо особистий список видалень, що містить URL, які ми хочемо вичистити з отриманого списку. Я не планую робити цього на даному етапі прикладу, тому що буде видалено занадто більшу частину списку, в результаті чого залишок керівництва виглядатиме не дуже реалістично для людей, які вивчають його вперше. Цей список, по суті, є переліком доменів, щодо яких ми не впевнені, що зможемо розміщувати на них контент. Це можуть бути паразити типу amazon.com та YouTube, а також домени, які не пройшли процес верифікації.

На щастя, SER має опцію, яка дозволяє зробити це дуже легко. Все, що потрібно зробити — це вибрати папку з невдалими URL-адресами, і SER автоматично збереже URL-адресу в цю папку. При невдачі ви зливаєте всі файли .txt, у цій папці, і додаєте їх у головну папку очищення.

Видалення цих URL на даному етапі знижує робоче навантаження надалі, оскільки не доведеться витрачати ресурси в GSA Platform Identifier під час фази ідентифікації посилань та в GSA Search Engine Ranker під час фази верифікації посилань на віддалені URL, які, як ми знаємо, не допускають розміщення контенту.

Для очищення URL ми просто вибираємо опцію «Remove / Filter» (видалення/фільтрація) в Scrapebox і виконуємо команду «Remove URLs containing entries from» (видалити URL, що містять елементи з).

Після цього буде виконано прохід по вашому списку очищення, і будуть видалені URL зі списку зібраних URL, що стосуються домену, збереженого у файлі очищення. Після того як ця операція виконана, експортуйте зібрані URL у фазу ідентифікації посилань.

Перехід до ідентифікації посилань

Основним інструментом, який ми будемо використовувати на етапі ідентифікації посилань, є GSA Platform Identifier, але якщо хочете, то для цієї мети можете використовувати екземпляр GSA Search Engine Ranker. Як я неодноразово згадував у цьому блозі, особисто я волію, щоб мій SER займався публікацією посилань, замість витрачати ресурси на ідентифікацію.

Враховуючи сказане, якщо ваш бюджет обмежений, і ви не маєте іншої можливості, крім використання SER для ідентифікації посилань, ви можете виконати дії, показані на наведеному скріншоті.

qnnaie2vpyc

Але пам’ятайте, що таке рішення забере ресурси у можливості SER будувати списки посилань, і в залежності від розміру списку посилань, необхідного для обробки інструмент може сповільнити роботу на цій стадії на дуже довгий час. Якщо ви змушені використовувати SER для цього процесу, то можливо краще придбати готовий список для SER, або використовувати мій посібник з побудови основного списку автоприйняття з використанням тільки GSA Search Engine Ranker.

Переходячи до GSA PI, ми бачимо, що наведений нижче скріншот показує головне вікно інструменту без проектів. Саме так інструмент виглядатимуть, коли ви відкриєте його вперше.

kwjh9hgi6bg

Залежно від типів платформ та систем, які ви використовували на етапі отримання посилань, GSA PI може кілька разів опитувати один домен. Якщо ви націлені на коментарі до блогів і зображень, це легко може статися сотні, або навіть тисячі разів. Через це після інсталяції інструменту спочатку потрібно додати платні проксі. Це не дасть доменам можливості надсилати нашим провайдерам VPS або сервера скарги з приводу зловживань, і створить нам, зрештою, менше проблем. Для того, щоб зробити це, виберіть опцію «proxies» (проксі) в головному меню.

Після того, як це зроблено, виберіть «import» у верхній лівій частині меню проксі та імпортуйте ваші проксі або з файлу, або з буфера обміну. Оскільки нам потрібні надійні проксі, які не випадково відключатимуться через надмірне використання, то найкраще на цьому етапі використовувати платні проксі.

Далі нам потрібно створити проекти, які виберуть отримані посилання з різних папок та ідентифікують їх для використання на етапі верифікації. Для цього виберіть опцію New (новий) в головному меню інструмента.

d6ogcyldfje

  1. Введіть ім’я проекту. Зазвичай я даю ім’я проекту на ім’я папки Dropbox, моніторинг якої здійснює цей проект.
  2. Вкажіть файл, який обробляє проект. Це може бути зручним для одноразового парсингу. Наприклад, вам може бути потрібний єдиний пошук посилань на коментарі блогу, що стосуються конкретного ключового слова. І якщо ви не хочете, щоб результати цього процесу змішувалися з іншими URL, то ви можете налаштувати одноразовий проект PI для ідентифікації по цьому файлу.
  3. Налаштування проекту на моніторинг файлу з ідентифікованими URL-адресами. Цю опцію зазвичай використовую, виконуючи процес великого масштабу, коли потрібно стежити майже за всім. Scrapebox заносить URL до цієї папки, а GSA Platform Identifier вибирає їх звідти і перевіряє.
  4. Налаштування процесу виключно видалення повторень. Ця чудова можливість, і я зазвичай використовую один проект, налаштований на видалення повторень для кожної з моїх папок, щоб знизити кількість URL, що повторюються, оброблюваних в GSA PI. Хоча Scrapebox пропонує можливість видалення повторень, ця можливість реалізована на основі парсингу, що означає, що між двома парсингами повторення залишатимуться. Виконання проекту PI для видалення повторень із папки ще більше оптимізує весь процес.
  5. Це навігаційні кнопки, які дозволяють виконати пошук файлів та папок для проекту.
  6. У цьому вікні буде показано файл або шлях до папки, моніторинг яких здійснюється. Ви також можете безпосередньо перетягувати файли мишею у вікно.

r0oetkvfzsw

Встановлення результуючої папки, до якої експортуватимуться ідентифіковані посилання. Це має бути та папка, яку будуть використовувати інструмент SER, що виконує верифікацію, для отримання перевіряються URL.

8. Експортує результати до одного файлу, взятого з мого попереднього прикладу. Якщо ви виконуєте парсинг за конкретним ключовим словом, і не хочете, щоб ідентифіковані в ньому URL експортувалися туди ж, куди та інші URL, ви можете встановити окремий файл для них.

9. Фактично, я успішно використовував прогін нерозпізнаних URL через SER, щоб отримати перевірені URL-адреси. Ви можете вибрати цю опцію і передати URL, які GSA Platform Identifier не зміг ідентифікувати, файл, який оброблятиме SER. Якщо ви вирішите зробити це, то виділіть обробку файлу в SER низький пріоритет, оскільки кількість URL на виході буде набагато меншою, ніж у процесі ідентифікації посилань.

10. Ця установка повинна відповідати тій, яка використовується в SER, інакше SER не зможе зчитувати URL-адресу для верифікації.

11. Встановіть лічильник повторень запиту (у разі невдачі при «поганих» проксі), який вам здається підходящим.

12. Встановіть потрібну кількість потоків, що обробляються VPS або сервером (за замовчуванням воно дорівнює 64).

13. Встановіть цю опцію, щоб проект використовував ваші проксі.

14. Ви можете обмежити кількість зовнішніх посилань на сторінках, які будуть оброблятись. Зазвичай я навіть не вмикаю цю можливість через спосіб, яким я використовую посилання різного типу в моїх пірамідах.

15. Встановіть, як часто PI повинен перевіряти ваші папки

16. У панелі керування платформами та системами ви можете вибрати різні платформи та системи, які ви хочете отримати в результуючому списку.

17. Ця опція дозволяє вам увімкнути фільтрацію за ключовими словами, якщо ви намагаєтеся побудувати список, який точно відповідає конкретній ніші.

18. Ви можете фільтрувати URL з конкретної мови

19. Тут можна встановити фільтр метрики Moz для результуючого списку.

20. Як і попереднє, але не Moz, а PR (PageRank).

21. Ця опція пропустить посилання, наявні в чорному списку GSA PI, якщо ви вирішили використовувати його для запобігання повторенням на етапі верифікації посилань.

22. Автоматично додає оброблені URL-адреси до чорного списку.

23. Автоматично створює проект видалення повторень для цього проекту.

Наведене вище описує можливості установок для GSA PI. Все, що залишається зробити — запустити проекти та залишити їх обробляти отримані посилання та експортувати їх до папок верифікації.

Настав час верифікації

Етап верифікації посилань відносно простий, якщо ви знайомі з GSA Search Engine Ranker, оскільки верифікація, по суті, є декілька проектів, створених для того, щоб провести ідентифіковані URL через систему SER для перевірки та вибірки перевірених посилань. Якщо ви вже виконували якийсь проект із SER у минулому, то цей етап має бути для вас нескладним.

В першу чергу вам потрібно налаштувати один із шляхів до папки SER на папку, куди GSA PI експортує ідентифіковані URL. Для цього перейдіть до SER, натисніть кнопку «options» (опції) у головному екрані та виберіть вкладку «advanced» (додатково). Я зазвичай використовую для цього папку ідентифікованих URL, тому я натискаю маленьку стрілку вниз праворуч від шляху до файлу, і встановлюю папку згідно з наведеним нижче скріншотом.

Після того, як це зроблено, PI буде оновлювати цю папку, поміщаючи до неї знову ідентифіковані URL-адреси, і по можливості звільняти її від повторень, якщо ви встановите в PI проект видалення повторень для цієї папки.

Далі нам потрібно налаштувати проект SER для фактичної обробки URL. У налаштуваннях проекту SER існує така велика кількість варіантів, які ви можете активувати або забороняти, що я не зможу описати їх усі. Але якщо вам потрібна допомога з різних опцій, тоді зверніться до мого повного посібника з GSA Search Engine Ranker.

З огляду на сказане, я розгляну мінімальний проект верифікації, в якому правильно вибрані необхідні системи та платформи. У ньому для побудови посилань на деякий випадковий сайт без вибірки всіх верифікованих посилань, як сторінка встановлена підроблена або вибрана URL-адреса. Зазначена вихідна папка збігається з папкою експорту PI.

Нарешті, активуйте проект і запустіть його. Він проведе через систему всі ідентифіковані URL, щоб прибрати всі непридатні для вас посилання, створюючи чистий список URL, які потім можуть експортуватися з SER до папки Dropbox, і використовуватися в SER для побудови посилань діючих проектів.

Якщо ви хочете автоматизувати експорт перевірених посилань до папки Dropbox, то встановіть цю папку Dropbox як папку перевірених посилань в екземплярі SER, який буде використовуватися для верифікації. При цьому потрібно вибрати відповідну опцію, щоб дозволити SER автоматично записувати перевірені URL-адреси в папку.

Після цього, у діючих екземплярів побудови посилань SER одну з папок налаштуйте на папку Dropbox і встановіть проекти так, щоб вони вибрали вихідні посилання цієї папки, в результаті чого вони автоматично отримають чистий список URL, з яким потрібно працювати.

Останнім кроком процесу є фільтрація папки Dropbox з діючими посиланнями, щоб не допустити попадання до неї «мертвих» URL, і досягти максимально можливої ефективності роботи екземплярів SER, які будують посилання. Цей процес я повністю описую у своєму посібнику з фільтрації списків, тому не стосуватимуся його в цій статті.

На цьому моя стаття щодо побудови завершеного списку автоприйняття закінчується. Я сподіваюся, що вона допомогла моїм читачам зрозуміти, як вони можуть автоматизувати великі об’єми обробки, щоб зменшити кількість часу, який потрібний для виконання завдання. При цьому їм пропонується інформація щодо інструментів, що входять до набору GSA Toolset, а також можливостей, що пропонуються програмою Scrapebox.

 

SEOPRO