• Ваяю сайт с огромным количеством страниц. Страницы — документы (ГОСТЫ, СНиПы, Указы правительства и пр.) На руках все это добро в формате docx. В технических документах полно картинок, графиков, схем и прочей ерунды графического содержания. Перевести врукопашную такое количество документов где множество графических вставок — проще застрелисться. Подскажите как можно автоматизировать данный процесс? Поиск пользовал — не нашел.

    До обращения сюда было испробовано:
    1. Сохранить из ворда как htm
    2. Экспорт textKit-ом Free версии (все вроде бы ничего — но картинки видимо всеравно придется вынимать вручную, давать им имена в соответствии с теми что вбиты в код и заливать на хостинг врукопашную, а именно этого я и пытаюсь избежать)
    3. Ворд-XML он не понимает…
    4. Google + бубен
    WP 3.7.1

    В идеале мне бы превратить docx файл в код + набор картинок по именам соответствующих коду. Потом я смогу залить картинки массово на хостинг, а в коде автозаменой переписать пути к файлам.

    Или научить его импортировать htm файл сохраненный из ворда10.

    Или может я не в ту сторону пошел искать? В итоге задача стоит так: пара тысяч ворд-файлов с картинками и готовым форматированием нужно выложить в виде страницы (или записи) в wordpress. На перевод (публикацию) одного документа должно уходить не более 2-5 минут.

Просмотр 15 ответов — с 1 по 15 (всего 30)
  • Подскажите как можно автоматизировать данный процесс?

    Купить\заказать\нанять скрипт\программу\людей.
    (например платная версия ТК может заливать посты с картинками по ХМЛ-РПС. И не только это)

    Ну т.е. это не проблемы ВП.

    Да я и не говорю что это проблемы ВП =)
    Просто хотел попросить совета как поступить, может решение есть, просто я не могу его найти.
    Если готового бесплатного решения нет, то придется дальше устраивать мозговой штурм.

    Как решение нашел для себя выход, опишу его тут если кому вдруг понадобится.

    Для выполнения поставленной задачи нам потребуется:
    1. textKit Free бесплатная лицензия
    2. Word 2010 (я делал из 10-ки, по поводу есть ли подобный функционал в более ранних версиях не знаю, скорее всего есть)
    3. TotalCommander подключенный к FTP хостинга (не обязательно но сэкономит время).

    Порядок действий:
    1. Из ворда сохраняем наш файл в формате «веб страница» ака htm
    2. Запуск textKit, импорт=>подготовленный ворд(html)=>выбираем наш файл и импортируем его в тексткит.
    3. Экспорт в вордпресс из тексткит, прописываем при экспорте адрес папки в которой собираемся хранит картинки для конкретно этого документа, например: нашхостинг/нашсайт/pictures/doc1(doc2,doc3,doc4…)
    4. Импортируем полученный файлик в ВП через WordPress Importer. На данном этапе мы получаем нормально отформатированную страницу, точно как в ворде (ну или очень похоже). Теперь стоит проблема — картинки. Для этого продолжаем танцы.
    5. Наш файл htm нам тут как раз пригодится. Открываем его браузером (я делал хромом)
    6. Тыкаем ПКМ в произвольное место — сохранить как… вебстраница полностью, выбираем куда сохранить.
    7. Идем по адресу и наблюдаем файл htm и !!!! папку с картинками проименованными так как нам нужно! Остается только массово залить содержимое этой папки на хостинг в нужную нам папочку (!проверьте пути в коде!)
    8. Profit!
    Манипуляций много, действия примитивны и дилетанны, но способ действует и в любом случае это быстрее рукопашки. ХВАЛА БУБНУ ВСЕМОГУЩЕМУ =)
    Если кто сможет рассказать как сделать проще, тому буду благодарен без меры.

    Не пробовал… Сегодня уже некогда, завтра покурю, спасибо за наводку

    Да я и не говорю что это проблемы ВП =)

    А тут форум поддержки ВП, на минуточку.

    Если кто сможет рассказать как сделать проще

    Если бы Вы читали документацию к ТК, то избавились бы от некоторых лишних телодвижений.
    Путь к картинкам задаётся сразу при генерации файла импорта.

    Но проблема этого способа — они не попадают в медитатеку и, как следствие — у них нет миниатюр, с ними не работают плагины и тд. Не говоря уже за названия файлов, которые им даёт ворд при экспорте в хтмл, а также отсутствие необходимых атрибутов (альты, тайтлы).

    Ну и тут нет автоматизации импорта «пары тысяч ворд-файлов с картинками», о которой Вы спрашивали вначале.

    Ваяю сайт с огромным количеством страниц. Страницы — документы (ГОСТЫ, СНиПы, Указы правительства и пр.) На руках все это добро в формате docx. В технических документах полно картинок, графиков, схем и прочей ерунды графического содержания. Перевести врукопашную такое количество документов где множество графических вставок — проще застрелисться. Подскажите как можно автоматизировать данный процесс?

    Мне кажется есть очень простое решение этой проблемы. Плагин Google Doc Embedder позволяет вставлять в записи и страницы сайтов WP документы в формате Word,Ecxel. и PDF в их оригинальном виде.
    Есть возможность маштабирования просматриваемого документа и его постраничного просмотра. Можно открыть документ для просмотра на полном экране. Есть возможность разрешить или запретить скачивание или копирование документа. И многое — многое другое!
    Плагин на русском языке и вполне работоспособен.

    Я этот плагин использую очень активно и даже написал своё мнение о нём.
    http://l-konstantin.ru/my-plugins-for-wordpress-3 Там же ссылка на страницу плагина

    Вот за эту подсказку ОГРОМНЕЙШЕЕ спасибо! Сам бы я долго искал нечто подобное! С-П-А-С-И-Б-О!
    Единственное, может подскажите, как вывод документов в таком виде влияет на индексацию и вероятность поднятия в списках по запросам?

    как вывод документов в таком виде влияет на индексацию и вероятность поднятия в списках по запросам?

    Честго говоря даже не думал об этом. Но мне кажется никак не влияет. А чтобы влияло. я думаю, надо в ключевых словах и описании записи (страницы) где находятся эти документы, прописать их описание\название. А для этого можно использовать обязательный для каждого сайта плагин All In One SEO Pack
    http://l-konstantin.ru/my-plugins-for-wordpress-2

    Фокус в том, что сам документ в себе содержит огромное количество ключевых слов и фраз для контекстного поиска, и вывод страницы поисковиком может заключаться также и по информации внутри текста. А при использовании данного плагина, я так понимаю, вывод поисковиком будет производиться только по названию документа, ключевым словам и прочим SEO премудростям…
    Просто сам по себе текст на 300 вордовских страниц (пара десятков тысяч слов) является неплохим основанием для индексации поисковиком (как-то криво выразился, но надеюсь меня поймут).
    Ладно, я в этом дилетант… буду курить матчасть, век живи-век учись, за советы спасибо!

    Фокус в том, что сам документ в себе содержит огромное количество ключевых слов и фраз

    Но из них надо выбрать 5-10 важнейших из важнейших. отражающих основную суть документа. его уникальность. Иначе можно и переборщить…. Избыток ключевых слов — это тот самый случай. когда «кашу маслом можно испортить» И вообще. в принципе, достаточно названия документа. Иначе никак!

    SEO оптимизация вообще и оптимальный подбор ключевых слов в частности- это не так просто, как может показаться на первый взгляд. Во всяком случае по этому поводу написано десятки статей и советов на просторах и-та.

    И вообще «привлекать внимание» поисковиков должен в первую очередь сам сайт и его содержание, а не содержание расположенных в нем текстовых документов. Я так думаю.

    Путь к картинкам задаётся сразу при генерации файла импорта.
    Но проблема этого способа — они не попадают в медитатеку

    С этой проблемой справляется плагин Add from server. Папку с картинками кинуть в wp-content/uploads/папка, дальше пара кликов и плагин все сделает.

    С этой проблемой справляется плагин Add from server

    Это малая часть решение проблемы. Они всё равно остаются не связанные с постами. (Или он уже научился привязывать?) К ним нельзя применить лайбоксы, вызов миниатюр, галереи и тп.

    Т.е. всё равно ручная рутина неизбежна.

    ручная рутина неизбежна

    И еще какая )

    Получается все-таки проще воспользоваться Google Doc Embedder, выложить всю нужную информацию, а потом тихо-мирно сидеть заниматься продвижением…

    Получается все-таки проще воспользоваться Google Doc Embedder

    И вы еще сомневались в этом?! Или вы не ищете лёгких путей?

Просмотр 15 ответов — с 1 по 15 (всего 30)
  • Тема «импорт htm в wordpress» закрыта для новых ответов.