作者 主题: 清洗整理pf的各类数据  (阅读 625 次)

副标题: 把html格式的翻译文本提取成纯文本,进一步用数据库存储

离线 inertia

  • Peasant
  • 帖子数: 12
  • 苹果币: 1
清洗整理pf的各类数据
« 于: 2020-03-15, 周日 14:27:20 »
最近由于疫情在家里闲着,就启动了一个pf数据清洗的计划。主要目的是把chm里面的各项法术、专长、奇物的html代码截断整理出来,用正则匹配名字、环位等等信息,然后存进数据库里。本来的想法是写一个qqbot来实现qq上实时查询的目的,后面发现还可以做成通用的pf数据库,不过工作量太大了。

目前只搞定了crb的法术,其它扩展文本的格式不太统一,用正则匹配html的时候遇到了不少困难。不知道果园有没有人做过类似的工作,有没有什么思路可以参考一下。之前在果园发现过一个有一定相关的帖子  http://www.goddessfantasy.net/bbs/?topic=59639.0

ps.好像大家对这件事都不太感兴趣啊。秉承开源的精神,我把crb法术清洗后的数据丢在这好了,总共623个法术,都按照名称-学派-环位-施法时间-成分-距离-目标-持续时间-豁免-法术抗力-内容-html源码的结构列好了。

Onedrive链接:https://1drv.ms/u/s!Ak9hbC18SN0CxXMP0P6DS_zMQRNL?e=GO505V 
« 上次编辑: 2020-03-15, 周日 15:57:42 由 inertia »

离线 希尔

  • Chivary
  • *****
  • 帖子数: 1219
  • 苹果币: -1
  • 带头大鸽
Re: 清洗整理pf的各类数据
« 回帖 #1 于: 2020-03-15, 周日 14:28:40 »
crb和apg那几本的应该有人做过查询app
« 上次编辑: 2020-03-16, 周一 21:25:01 由 希尔 »
见证了丢人的币+1

离线 sleepinglord

  • 睡教觉主
  • Flawless
  • *******
  • 帖子数: 4828
  • 苹果币: -1
Re: 清洗整理pf的各类数据
« 回帖 #2 于: 2020-03-15, 周日 23:52:26 »
终于有想干这个的人了嘛?!来加个QQ聊一聊。
设定控。比快乐多的人思路广,比思路广的人快乐多!
3R DIY:PF1 DIY:

离线 张辽

  • Chivary
  • *****
  • 帖子数: 1019
  • 苹果币: 4
  • 年轻的人啊,去读陀思妥耶夫斯基吧,那里有你要的所有答案。
Re: 清洗整理pf的各类数据
« 回帖 #3 于: 2020-03-16, 周一 00:19:54 »
给你点赞
有没有想写小说的少年啊,可以找我涅。

独阅读

欧陆风云
PF私用翻译

1人话是一种接近失传的语言,地球上活着的会说人话的人应该没有超过一百个。
2耶稣:你们中无罪的,可以拿石头打她。
众人一听纷纷拿起石头争先恐后将其砸死。

离线 灯泡powerbult

  • 論壇模式
  • Knight
  • ***
  • 帖子数: 540
  • 苹果币: 2
Re: 清洗整理pf的各类数据
« 回帖 #4 于: 2020-03-16, 周一 00:32:17 »
虽然给您点赞,但真想搜的大概会用男神

离线 inertia

  • Peasant
  • 帖子数: 12
  • 苹果币: 1
Re: 清洗整理pf的各类数据
« 回帖 #5 于: 2020-03-16, 周一 18:00:19 »
虽然给您点赞,但真想搜的大概会用男神
请问男神是指什么?

离线 Kh

  • 努力的新人
  • Chivary
  • *****
  • 帖子数: 1018
  • 苹果币: 5
  • 好像過了能自稱新人的時期了
Re: 清洗整理pf的各类数据
« 回帖 #6 于: 2020-03-16, 周一 18:45:42 »
mark一下 期待成果
現代忍法戰鬥TRPG忍神
2024年度模組投票
規則介紹與新人導航
繁簡中全書漢化
Roll20平台忍神教學

星之河多媒體LOG計畫:盡力運用論壇排版,轉製Roll20跑團元素為Log(卷死自己)
EP.0 - 繁星所向
EP.1 - 原點

离线 璀璨星炬

  • Diver
  • ******
  • 帖子数: 3103
  • 苹果币: 2
Re: 清洗整理pf的各类数据
« 回帖 #7 于: 2020-03-16, 周一 21:15:39 »
好!(赞赏)
理想的译法是这样的:先把原文看懂,照原文译出来,看看念不念得下去,试删掉几个不一定用得着的字,看看是否有损文义和文气。如果有损,再补回来。试把不可少的字加进去,看看是否超出原文范围,增减以后和原文再校对一次。有些地方是否译错,语气的轻重是否恰如其分,原文的弦外之音译文是找不找得到?原文的意思要消化;译文的文字要推敲。有经验的译者可能一下笔就译好了,不过还是要推敲的时候多。

离线 inertia

  • Peasant
  • 帖子数: 12
  • 苹果币: 1
Re: 清洗整理pf的各类数据
« 回帖 #8 于: 2020-03-21, 周六 00:16:30 »
crb和apg那几本的应该有人做过查询app
我和它的开发者交流过了。这个app收录的数据相对来说不够完善,收录的扩展较少,我目前的进度已经覆盖它的内容了。

离线 灯泡powerbult

  • 論壇模式
  • Knight
  • ***
  • 帖子数: 540
  • 苹果币: 2
Re: 清洗整理pf的各类数据
« 回帖 #9 于: 2020-03-21, 周六 09:13:42 »
虽然给您点赞,但真想搜的大概会用男神
请问男神是指什么?
https://www.aonprd.com/,p子现在的官方rd。
嘛,中文译文想整理起来最大障碍应该是各路译名不统一吧,楼主真能完成这项工作的确是功德无量的。