Рубрика: Контент|Сателлиты|Эксперимент
28 Янв 2009Сегодня я расскажу вам, откуда я беру уникальный контетнт, хотя я не раз уже об этом писал, но по повторю, что уникальный контент у меня получается после сканирования книг!
Итак, как я это делаю: иду к своему деду залазаю в его книжный шкаф и фильтрую книги вначале на художественную и научную литературу, так как художественную литературу трудно прибить к какой либо тематике, а после научную литературу фильтрую по принципу издательства до 1980г., в связи с тем, что поле 80-го часто попадаются книги, не выложенные в сети тратить время я считаю не рациональным.
После я проверяю книженцию на уникальность: сканю выборочно страниц 5 – 10 со всей книги, предпочтительней сначала с середины и конца, обрабатываю от лишних символов и проверяю на уникальность DCFinder , а также вставкой отдельных предложений в Яндекс, если копий и точных схождений не найдено, тогда начинаем сканить всю книгу, да побыстрее!
Обработка, самое к чему тщательно надо отнестись, так как, на сколько качественно обработан контент и будет зависеть срок жизни сателлита в сети. И так после сканирования и распознавания текста для этого я пользуюсь (ABBYY FineReader 9.0), помещаем распознанный текст в Word, а потом в блокнот (обязательно выполнять в этой последовательности, чтобы избавится от лишних символов), и приступаем к зачистке:
Нажимаем Ctrl + H и заменяем:
1) Что “¬” чем “” (кавычки игнорируем, т.е. заменяем ¬, на нечего)
2) Что “—” чем “ ” (заменяем этот супер длинный дефис на пробел)
3) Что “-” чем “” (заменяем – на пустоту чтобы убрать все переносы на другую строку, если же попались слова которые пишутся через – то при обработке ошибок в вёрде необходимо поставить)
4) Что “_” чем “ ” (заменяем _ на пробел)
5) Что “..” чем “.” (заменяем 1 точку на две)
6) Что “ ” чем “ ” (заменяем 2 пробела на 1, данную операцию советую повторить несколько раз, пока не исчезнут все двойные пробелы)
7) Если в тексте книги использовались рисунки и прочие чертежи то зачастую можно увидеть следующую фразу см. рис. 7 что само за себя говорит что текст просто напросто отсканен, и для борьбы есть 2 способа:
– Изменить слово “рис.” на “см. статью”
– Полностью убрать слово “рис. 1″
Я обычно пользуюсь вторым вариантом!
После всей этой работы, копируем наш текст обратно в ворд и приступаем к исправлению ошибок, после чего у нас на выходе получается качественный, а главное уникальный контент!
Заработать бабла =)
Комментирование закрыто.