Microsoft представляет MarkItDown, инструмент для преобразования ваших документов в Markdown

Маркитдаун

Некоторое время назад, вскоре после публикации руководство по Markdown, я искал информацию, чтобы узнать, можно ли использовать LibreOffice для создания документов такого типа. Я ничего не нашел, кроме ответов типа "почему ты хочешь это сделать?" считать. Идея заключалась в том, чтобы создать документ с помощью редактора типа Word или Writer, а затем сохранить его в формате .md, но, как я уже сказал; Я ничего не нашел. Недавно Microsoft выпустила нечто подобное, инструмент под названием Маркитдаун.

Маркитдаун - это библиотека Python который можно установить в системе (не в Linux, начиная с Python 3.12) или в виртуальной среде (env). После установки базовое или необработанное использование потребует написания нескольких строк на Python, которые приведены ниже. Но это не единственный способ его использования.

MarkItDown с использованием Python

API очень прост:

из markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)

Судя по вышеизложенному, первая строка импортирует библиотеку; второй создает совместимый объект; В третьем он выполняет преобразование — в файл, который в примере называется text.xlsx, а в четвертом — выводит результат в консоль. Кроме того, как поясняется в на GitHub, можно сделать совместимым с LLM, например ChatGPT, все это на вкус потребителя и в зависимости от знаний каждого человека.

Если код нам не подходит, разработчик по имени Мэтт Палмер создал сеть чтобы облегчить задачу. Несмотря на то, что он на английском языке, использовать его очень просто. В нижней части окна показаны поддерживаемые файлы: PDF, PPTX, DOCX, XLSX, изображения, аудио, HTML и текстовые файлы. Единственное, что нам нужно будет сделать, это перетащить файл в коробку и дождаться волшебства, как показано на скриншоте заголовка.

На момент написания возникла проблема с загрузкой файла, вместо текста отображается сообщение об ошибке. Возможно, я не проверял, что я вижу это, потому что я создал файл в Linux, LibreOffice или в обоих, но я вижу эту ошибку при загрузке файла. Он хорошо выполняет преобразование, и вы всегда можете скопировать сгенерированный им простой текст, вставить его в текстовый файл и сохранить с расширением .md.

Чтобы просмотреть его, в Linux мы можем использовать такие инструменты, как Okular, Visual Studio Code или какую-либо программу. она готова, Среди других.

Пожалуйста, обратите внимание,

Хотя инструмент создан Microsoft, не всегда все будет хорошо. Чтобы получить наилучшие результаты, необходимо использовать правильные параметры. Например, поставить # Titular o ## Título 2, вам нужно выбрать это в параметрах Word или Writer. То же самое с упорядоченными или неупорядоченными списками, ссылками, изображениями... Если вместо использования правильных параметров мы выделим текст и назначим жирный и более крупный шрифт, Markdown так не будет работать, и мы можем получить смешанные результаты. Для получения дополнительной информации о поддерживаемых брендах мы отсылаем вас по ссылке, которую вы найдете в первом абзаце этой заметки.

Теперь это официальный инструмент Microsoft, и он может быть лучшим вариантом для преобразования поддерживаемых файлов в Markdown.


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.