diff --git a/ppstructure/pdf2word/README.md b/ppstructure/pdf2word/README.md index 6edd6a2f3bccbeaa1673d59f5dbb1935a0d6b2c2..4ed83a737cf9613f159d5eab8967288940cd4e98 100644 --- a/ppstructure/pdf2word/README.md +++ b/ppstructure/pdf2word/README.md @@ -1,16 +1,32 @@ # PDF2Word -PDF2Word是PaddleOCR社区开å‘者[whjdark](https://github.com/whjdark) 基于PP-Structure智能文档分æžæ¨¡åž‹å®žçŽ°çš„PDF转æ¢Word应用程åºï¼Œæä¾›å¯ç›´æŽ¥å®‰è£…çš„exe,方便windows用户è¿è¡Œ +PDF2Word是PaddleOCR社区开å‘者 [whjdark](https://github.com/whjdark) 基于PP-StructureV2版é¢åˆ†æžä¸Žæ¢å¤æ¨¡åž‹å®žçŽ°çš„PDF转æ¢Word应用程åºï¼Œæä¾›å¯ç›´æŽ¥å®‰è£…çš„exe应用程åºï¼Œæ–¹ä¾¿Windows用户离线ã€å…环境é…ç½®è¿è¡Œ ## 1.使用 ### åº”ç”¨ç¨‹åº -1. 下载与安装:针对Windowsç”¨æˆ·ï¼Œæ ¹æ®[软件下载]()一节下载软件åŽï¼Œè¿è¡Œ `å¯åŠ¨ç¨‹åº.exe` 。若您下载的是lite版本,安装过程ä¸ä¼šåœ¨çº¿ä¸‹è½½çŽ¯å¢ƒä¾èµ–ã€æ¨¡åž‹ç‰å¿…è¦èµ„æºï¼Œå®‰è£…时间较长,请确ä¿ç½‘络畅通。serve版本打包了相关ä¾èµ–,安装时间较çŸï¼Œå¯æŒ‰éœ€ä¸‹è½½ã€‚ +1. 下载与安装:针对Windowsç”¨æˆ·ï¼Œæ ¹æ®[软件下载]()一节下载软件并解压åŽï¼Œè¿è¡Œ `å¯åŠ¨ç¨‹åº.exe` 。 -2. 转æ¢ï¼šç”±äºŽPP-Structureæ ¹æ®ä¸è‹±æ–‡æ•°æ®åˆ†åˆ«è¿›è¡Œé€‚é…,在转æ¢ç›¸åº”文件时å¯**æ ¹æ®æ–‡æ¡£è¯è¨€è¿›è¡Œç›¸åº”选择**。 + > 版本说明: + > + > - mini版体积较å°ï¼Œåœ¨å®‰è£…过程ä¸ä¼šè‡ªåŠ¨ä¸‹è½½ä¾èµ–包ã€æ¨¡åž‹ç‰å¿…è¦èµ„æºï¼Œå®‰è£…时间较长,请确ä¿ç½‘络畅通。 + > - full版打包了ä¾èµ–包与模型文件,故压缩包较大,相对ç‰å¾…时间较çŸï¼Œå¯æŒ‰éœ€ä¸‹è½½ã€‚ -### 脚本è¿è¡Œ +2. **打开文件与转æ¢ï¼š** + + - `ä¸æ–‡è½¬æ¢ã€è‹±æ–‡è½¬æ¢` :针对 `图片型PDF` 文件的转æ¢æ–¹æ³•ï¼Œå³**当PDF文件ä¸çš„æ–‡å—æ— æ³•å¤åˆ¶ç²˜è´´æ—¶**,推è使用本方法通过OCR转æ¢æ–‡ä»¶ï¼Œç”±äºŽPP-Structureæ ¹æ®ä¸è‹±æ–‡æ•°æ®åˆ†åˆ«è¿›è¡Œé€‚é…,在转æ¢ç›¸åº”文件时å¯**æ ¹æ®æ–‡æ¡£è¯è¨€è¿›è¡Œç›¸åº”选择**。 + - `PDF解æž` : 针对å¯ä»¥å¤åˆ¶æ–‡å—çš„PDF文件,推è直接点击 `PDF解æž`ï¼ŒèŽ·å¾—æ›´åŠ ç²¾å‡†çš„æ•ˆæžœã€‚ + +3. 打开结果:点击`显示结果`,å³å¯æ‰“开转æ¢å®ŒæˆåŽçš„文件夹 + +> 注æ„: +> +> - åˆæ¬¡å®‰è£…程åºæ ¹æ®ä¸åŒè®¾å¤‡éœ€è¦ç‰å¾…1-2分钟ä¸ç‰ +> - 使用Office与WPS打开的Word结果会出现ä¸åŒï¼ŒæŽ¨è以Office为准 +> - 本程åºä½¿ç”¨ [QPT](https://github.com/QPT-Family/QPT) 进行应用程åºæ‰“包,感谢 [GT-ZhangAcer](https://github.com/GT-ZhangAcer) å¯¹æ‰“åŒ…è¿‡ç¨‹çš„æ”¯æŒ + +### 脚本å¯åŠ¨ç•Œé¢ 首次è¿è¡Œéœ€è¦å°†åˆ‡æ¢è·¯å¾„到 `/ppstructure/pdf2word` ,然åŽè¿è¡Œä»£ç @@ -18,11 +34,14 @@ PDF2Word是PaddleOCR社区开å‘者[whjdark](https://github.com/whjdark) 基于P python pdf2word.py ``` +### PaddleOCR whl包 + +针对Linuxã€Mac用户,推è安装 `paddleocr` whl包直接应用版é¢æ¢å¤åŠŸèƒ½ï¼Œè¯¦æƒ…å¯æŸ¥çœ‹[链接](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/quickstart.md) + ## 2.软件下载 -如需获å–已打包程åºï¼Œå¯ä»¥æ‰«æ下方二维ç ,关注公众å·å¡«å†™é—®å·åŽï¼ŒåŠ å…¥PaddleOCR官方交æµç¾¤å…费获å–20G OCRå¦ä¹ 大礼包,内å«OCR场景应用集åˆï¼ˆåŒ…å«æ•°ç 管ã€æ¶²æ™¶å±ã€è½¦ç‰Œã€é«˜ç²¾åº¦SVTR模型ç‰7个垂类模型)ã€ã€ŠåŠ¨æ‰‹å¦OCR》电å书ã€è¯¾ç¨‹å›žæ”¾è§†é¢‘ã€å‰æ²¿è®ºæ–‡ç‰é‡ç£…资料 +如需获å–已打包程åºï¼Œå¯ä»¥æ‰«æ下方二维ç ,关注公众å·å¡«å†™é—®å·åŽï¼ŒåŠ å…¥PaddleOCR官方交æµç¾¤å…费获å–20G OCRå¦ä¹ 大礼包,内å«OCR场景应用集åˆï¼ˆåŒ…å«æ•°ç 管ã€æ¶²æ™¶å±ã€è½¦ç‰Œã€é«˜ç²¾åº¦SVTR模型ç‰10个垂类模型)ã€ã€ŠåŠ¨æ‰‹å¦OCR》电å书ã€è¯¾ç¨‹å›žæ”¾è§†é¢‘ã€å‰æ²¿è®ºæ–‡ç‰é‡ç£…资料 <div align="center"> <img src="https://user-images.githubusercontent.com/50011306/186369636-35f2008b-df5a-4784-b1f5-cebebcb2b7a5.jpg" width = "150" height = "150" /> </div> -