关键词提取有哪些方案?刘志远回答

news/2025/2/26 3:25:04

作者:刘知远
链接:https://www.zhihu.com/question/21104071/answer/24556905
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

我博士阶段的研究课题就是关键词抽取,欢迎下载阅读我的论文“基于文档主题结构的关键词抽取方法研究”。
以我做关键词抽取的经验,建议如下:
1. TFIDF是很强的baseline,具有较强的普适性,如果没有太多经验的话,可以实现该算法基本能应付大部分关键词抽取的场景了。
2. 对于中文而言,中文分词和词性标注的性能对关键词抽取的效果至关重要。
3. 较复杂的算法各自有些问题,如Topic Model,它的主要问题是抽取的关键词一般过于宽泛,不能较好反映文章主题。这在我的博士论文中有专门实验和论述;TextRank实际应用效果并不比TFIDF有明显优势,而且由于涉及网络构建和随机游走的迭代算法,效率极低。这些复杂算法集中想要解决的问题,是如何利用更丰富的文档外部和内部信息进行抽取。如果有兴趣尝试更复杂的算法,我认为我们提出的基于SMT(统计机器翻译)的模型,可以较好地兼顾效率和效果。
4. 以上都是无监督算法,即没有事先标注好的数据集合。而如果我们有事先标注好的数据集合的话,就可以将关键词抽取问题转换为有监督的分类问题。这在我博士论文中的相关工作介绍中均有提到。从性能上来讲,利用有监督模型的效果普遍要优于无监督模型,对关键词抽取来讲亦是如此。在Web 2.0时代的社会标签推荐问题,就是典型的有监督的关键词推荐问题,也是典型的多分类、多标签的分类问题,有很多高效算法可以使用。

转载于:https://www.cnblogs.com/yisawatbek/p/7632948.html


http://www.niftyadmin.cn/n/3040881.html

相关文章

数据库创建表,插入数据,修改

--要求查询出工资比SMITH工资要高的全部雇员信息select ename,sal from emp where sal>800;--查询不是职位不是“CLERK”的员工信息(至少用2种方式查询) select * from emp; select * from emp where job not like%CLERK%;select empno as 雇员编号是…

解决在安装gulp的时候遇到的问题

1.需要python等环境2.npm i undertaker3.安装windows平台依赖 npm install -g windows-build-tools4.如果npm install报错,先删除node_modules模块5.不要用cmd,用git bash6.安装node-sass模块, npm install -g node-sass或 yarn add global n…

CCF NOI1026 表演打分

问题链接:CCF NOI1026 表演打分。 时间限制: 1000 ms 空间限制: 262144 KB 题目描述 在一次运动会方队表演中,学校安排了十名老师进行打分。对于给定的每个参赛班级的不同打分(百分制整数),按照去掉一个最高分、去掉…

jdbc读取百万条数据出现内存溢出的解决办法

本人在做项目实施时,我们使用的是mysql数据库,在不到一个月的时间已经有了2千万条数据,查询的时候非常慢,就写了一个数据迁移的小项目,将这两千万条数据存放到MongoDB中看效率怎么样,再读取数据时老是出现内…

安卓非微信内置浏览器中的网页调起微信支付的方案研究

问题来源 之前在app中集成过微信支付,此种微信支付方式为app支付,即在我们自己的应用中嵌入微信支付SDK,由Native代码调起微信支付。 后来由于业务需要在我们app的WebView中打开第三方店铺的网页,在第三方网页中有微信支付按钮&am…

ABAP 术语发布结束

经历了大约三个月,终于把 BC417 教程附录中的 ABAP 术语全部摘录完了。本分类以后将不再更新,从下周起不定期更新 SAP 语法、表、函数模块等文章分类,从理论走回实践。 老外很喜欢搞术语表,一般的技术书籍后面都会附一个术语表&am…

js初级-2

变量提升: 变量提升是浏览器的一个功能,在运行js代码之前,浏览器会给js一个全局作用域叫做window,window分为两个模块,一个叫内存模块。一个叫运行模块,内存模块找到当前作用域下的所有带var和function的关…

omv系统mysql_OMV中mysql配置文件my.cnf

搜了好多,都不成功,最后找到配置文件在/etc/mysql/mariadb.conf.d/ 50-server.cnf默认datadir /var/lib/mysql停止mysqlservice mysql stop复制数据存放文件到U盘cp -a /var/lib/mysql /srv/dev-disk-by-label-XXXXX实际目录/mysqldata修改配置文件&…