中国慈善家 · 2025-12-10
中国慈善家 · 2025-12-10

浩如烟海的古籍去哪里看?怎样最快找到你想要的那一本?能不能在影印原件和翻译文字间即时无缝地对照切换?有没有费用和时间都是零成本的方式?
“识典古籍”给出了答案。
打开识典古籍网页或者App,用户可以输入书名、作者或任意字词,检索到可供筛选的所有文本;也可以创建或加入团队,参与古籍整理;又能领取校对任务,提升电子书质量;还能使用AI深度研究助手,瞬时启动专业任务。
2022年10月,识典古籍数据库开始完全对外免费开放;年底,平台上线的古籍超过1万部。截至2025年12月,识典古籍平台收录古籍资源数已突破4万部。
这是古籍研究者和爱好者额手称庆的时刻。
古籍也能数字化
社会需求是企业运营的核心出发点,也是公益的起点,这在字节跳动的产品与运营实践中得到诠释。
藉由十年积累的内容影响力,字节跳动在2021年成立了公益平台,回应公益项目、慈善组织和个人发动募捐、传播善意的多样化需求。在推动公益平台建设的过程中,团队发现传统文化领域的内容很受欢迎,尤其中华古籍作为优秀传统文化的重要载体,非常值得关注,于是策划发起了字节跳动古籍保护公益项目。
古籍是稀缺资源。古籍的研究者和爱好者往往要去特定的图书馆,但一般很难获得查阅权限;而线上的资料良莠不齐,渠道也非常有限。
在古籍文献领域具有权威地位的中华经典古籍库,学术性很强,所收纳的古籍多为精品,但精品也意味着体量有限,而古书浩如烟海,还有太多古书没有收进来。社会上还有一些商业化的数据库,则缺乏权威性,很多书真伪难辨,此外费用也往往让人望而却步。
对于古籍研究的资料门槛,清华大学人文学院副教授严程深有体会。2010年前后,严程开始着手古代女性的研究,她每周都得有两三天要到校外借阅书籍、手抄资料,非常耗时耗力。研究者需要大量的文献资料,但一方面关于古代女性的文献特别少,而即便是有出版的相关书籍,往往也买不起。互联网发展起来后,可以借助网络找到一些电子资料,但仍然是不够全面。
据不完全统计,我国现存古籍大约20万种、3000万册(件),很大一部分湮没无闻。
针对这些痛点,字节跳动在2021年专门成立了古籍保护公益项目团队,利用自身技术和平台优势,通过公益的方式,为“国宝重生”出资出力。

首先,项目从古籍修复开始。字节跳动联合中国文物保护基金会,于2021年6月成立了古籍保护专项基金,资助国家图书馆等机构开展古籍修复与人才培养,并资助故宫开展1000块满文大藏经雕版、300册/件善本古籍数字化扫描与整理等工作。
古籍数字化和古籍活化,也是两个关键方向。2022年3月,字节跳动向北京大学教育基金会提供捐赠,联合成立“北京大学-字节跳动数字人文开放实验室”,研发古籍数字化平台。同年10月,以390部古籍为基础,第一版识典古籍在网页端、今日头条古籍频道正式上线。
用了3年时间,识典古籍从390部增加到4万部,体量扩充了一百多倍。如此规模的数量激增,仅靠人工绝难完成,主要是得益于人工智能的高速发展。项目团队利用人工智能技术,开发出光学字符识别(OCR)、句读、实体识别等技术;又借助字节跳动旗下国内领先的豆包大模型,通过精调等工程工作,实现古籍文白翻译、知识图谱构建等技术,实现古籍的智能化整理。
利用自然语言处理(NLP)和大模型技术后,识典古籍既能自动处理“己巳已”等版刻混用字,又能做到将“苏轼”“子瞻”“东坡”识别为同一人,还能绘制实体关系图,让读者对三国人物错综复杂的纠葛一目了然。
在识典古籍平台上,用户能够轻松进行分词检索、图文对照、简繁转换。平台还提供字典释义、文白对读、实体百科等功能。AI深度研究助手尤其值得一提,用户读不懂古文可以问AI,还能用聊天的方式让AI总结内容,提出可供参考的问题,实现互动式学习,或以抽丝剥茧的方式开展研究。

项目运营负责人陈景收说,识典古籍的AI技术和市面上其他AI品类的最大区别,在于它的数据源。“AI是存在幻觉的,我们为深度研究助手的数据源划定了明确的范围,必须基于识典古籍平台收录的古籍内容,再结合元信息、实体、翻译等,幻觉要小很多。”
专业之事,还要靠专业人才去推动,古籍项目的另一优势是人力支撑。
在字节内部,项目组由40多名员工构成,分别来自企业社会责任部、火山引擎、基础架构、AI等十余个部门,大家交叉协作,合力推进古籍数字化和古籍活化任务。
在北京大学和字节跳动共创的数字人文开放实验室,由北大数字人文研究中心负责拓展学术资源、引入古籍资源,并由北大人工智能研究院、信息管理系、中文系、历史系、儒藏中心、外国语学院的优秀师生及志愿者具体执行古籍整理、校对等工作,共同输入识典古籍平台的大部分内容。项目还吸纳了其他一些高校人才的参与,此外还有十余支专家团队也参与识典古籍合作,共建专题数据库。
目前,字节跳动内部评估的机器识别准确率已经达到95%以上,经过专业人士的努力,这一数字还在提升。
开放性共创
识典古籍向所有人开放,内容完全免费。平台上的整理校对也完全免费,研究者可以在平台上高效、便捷、无门槛地开展数字化检索和研究。
2024年底,字节跳动资助北大进行《儒藏》数字化项目,不到一年时间完成了50种。此前的进度是二十年500种,如今速度快了一倍。

在北京市方志馆,馆藏旧志约有100种1000卷,到馆借阅的读者年均达到一万人次,另有传统文化爱好者选择在线阅览古籍。这本是学习北京历史、提高人们文化素养的惠民服务,馆长刘宗永却发现,阅读体验让很多人望而却步。因为不管是纸本还是线上扫描件,旧志文本基本都是繁体、竖排、无标点,对普通读者而言晦涩难懂,门槛较高。
而在识典古籍平台上,大家共同探索和解决这些难题。比如在今年10月上线的“北京旧志数据库”,由北京方志馆提供原始古籍,字节技术团队处理上传平台;AI对古籍进行识别标注,同时结合人工校点接力完成审核校对工作。这样一来,人工只需要处理少量不确定的情况,大大减轻了人工审核的工作量。
AI对古籍进行处理后,校对工作并不全部托付给专家,有些工作交给了志愿者。只要在识典古籍首页点击“领取校对任务”,便可以参与校对。志愿者处理后的资料,再交给专家精校和考证。
这样一来,不仅大大提高了古籍整理的工作效率,还鼓励更多的人参与到平台的共建共创中来。陈景收介绍说,截至目前,已有将近4000个外部团队使用平台进行古籍研究整理工作。他们所整理的典籍资料,公开与否全凭自愿。“整理完的书,如果愿意公开,我们就有一种共建关系;不愿意公开,你下载拷贝走,我们也欢迎。”陈景收说,“我们希望这个产品确实能帮到人,这就够了,这是我们项目组的一个共识。”
在识典古籍平台,严程组建了包括清华和其他高校学生的项目团队,将收集到的女性著作图像上传到平台上进行整理审核,形成“女子艺文资料库”。截至今年12月初,上架文献已达500多种。

“在文献学领域,这是一个相当惊人的数目,任何一个学者都会觉得它是很不错的一个成果。”严程说。
这是一件多方共赢的事——文献学资料得到了扩充,识典古籍内容得到了丰富,整理团队的师生也得到激励。同学们不仅获得学问的提升,还收获了实践学分。
更多人的参与,也意味着传统文化的推广普及。古籍项目产品负责人王宇向《中国慈善家》分享了一串后台统计数字:参与众包的古籍整理者超过3.6万人;仅App客户端的日活用户量就有2.8万以上,周活用户、月活用户分别将近10万和30万人次;而网页端每天会有三、四十万次的浏览使用。
“各个应用端都有反馈渠道,我们有值班制度,收集对功能和内容的需求,然后去完善。”王宇介绍说,像书架分类、App听书等功能,都是为用户日常体验而设计的。“比如喜欢佛经的人,可以一边干活一边听《金刚经》,每天都可以浸润在自己心仪的诗书之中。”
机场安全调度员九卫从小对历史感兴趣,工作之余总要埋首古书。以前是转换成Word格式、打印、做成书册,2024年9月,他偶然刷到识典古籍平台的“我用AI校古籍”活动,一下找到趁手的工具,开始边读书边给典籍“做CT”。从此沉浸其中,找到了最好的解压活动。

目前,像九卫这样的社会“校书官”已达1.5万人,还有1450多所高校的1.8万余名学生加入了“我用AI校古籍”活动,共完成约2万部、14.5亿字的粗校;由此产生480部、1亿字的古籍底本,交由北大进行精校。
更深度的挖掘
识典古籍不仅是一座数字图书馆,还是一个多功能工具箱。
在网页端下方,很容易看到三个分支书库——《哈佛燕京》《创世纪》《永乐大典》。
2025年4月,“我用AI校古籍”活动取得标志性成果,“哈佛燕京图书馆善本古籍馆”正式上线。创立于1928年的哈佛燕京图书馆,是西方规模最大的东亚文献收藏中心之一。将其部分搬到线上,极大推动了海外中文古籍的数字化回流与共享。
《创世纪》是流传于云南四川地区的纳西族文化史诗,用目前世界上唯一活着的“图画象形文字”东巴文写就。识典古籍不只将其收录,还通过东巴文和汉文对照、字符解析、原文吟诵、故事解读进行全面展示,并利用多媒体动画、交互视听的体验方式呈现给读者。

2023年2月,《永乐大典》高清影像数据库在识典古籍上线,其所囊括的40册内容首次在网上公开。《永乐大典》数字化项目,是国家图书馆申请入选的国家级项目,集合了北京大学和字节跳动双方的力量,历时一年多建成。和《创世纪》一样,读者能够沉浸式全面了解它六百多年来的辑录过程与命运浮沉。
动态效果、多元呈现,让古籍变活了。如今,4万部数字古籍通过线上公开课、纪录片等方式,不断扩大影响,为优秀传统文化的传播和继承发力。
“借助抖音、今日头条等平台强大的传播能力以及移动端优势,识典古籍有条件成为中华文化在全球的传播站。”北京大学数字人文研究中心主任王军如此评价。
除了传播的广度以外,藉由识典古籍平台上集体共创的研究能力,中华传统文化也得到更深度的探索和挖掘。传统和经典,由此有了新的意义。
作者:王琦
图片来源:字节跳动公益
图片编辑:张旭
值班编辑:张旭