python同义词替换的实现(jieba分词)

yipeiwu_com6年前Python基础

TihuanWords.txt文档格式

注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。

年休假 年假 年休
究竟 到底
回家场景 我回来了

代码

import jieba


def replaceSynonymWords(string1):
 # 1读取同义词表,并生成一个字典。
 combine_dict = {}
 # synonymWords.txt是同义词表,每行是一系列同义词,用空格分割
 for line in open("TihuanWords.txt", "r", encoding='utf-8'):
   seperate_word = line.strip().split(" ")
   num = len(seperate_word)
   for i in range(1, num):
     combine_dict[seperate_word[i]] = seperate_word[0]
   print(seperate_word)
 print(combine_dict)

 # 2提升某些词的词频,使其能够被jieba识别出来
 jieba.suggest_freq("年休假", tune=True)

 # 3将语句切分成单词
 seg_list = jieba.cut(string1, cut_all=False)

 f = "/".join(seg_list).encode("utf-8")
 f = f.decode("utf-8")
 print(f)
 # 4返回同义词替换后的句子
 final_sentence = " "
 for word in f.split('/'):
   if word in combine_dict:
     word = combine_dict[word]
     final_sentence += word
   else:
     final_sentence += word
 # print final_sentence
 return final_sentence


string1 = '年休到底放几天?'
print(replaceSynonymWords(string1))

结果

以上就是本文的全部内容,希望对大家的学习有所帮助。

相关文章

Python切片操作深入详解

本文实例讲述了Python切片操作。分享给大家供大家参考,具体如下: 我们基本上都知道Python的序列对象都是可以用索引号来引用的元素的,索引号可以是正数由0开始从左向右,也可以是负数...

Linux 下 Python 实现按任意键退出的实现方法

某天在群内有同学问到,在python下我用input或者raw_input都得输入完后回车才能获取到输入的值,那如何实现任意键退出暂停等功能呢,我当时也没有多想,因为接触python时间...

对PyQt5中的菜单栏和工具栏实例详解

对PyQt5中的菜单栏和工具栏实例详解

在这一部分,我们学习创建状态栏,菜单栏和工具栏。一个菜单是位于菜单栏的一组命令。一个工具栏有一些按钮,这些按钮在应用程序中拥有一些常用命令。状态栏显示状态信息,通常位于应用窗口下方。 Q...

tensorboard实现同时显示训练曲线和测试曲线

tensorboard实现同时显示训练曲线和测试曲线

在做网络训练实验时,有时需要同时将训练曲线和测试曲线一起显示,便于观察网络训练效果。经过很多次踩坑后,终于解决了。具体的方法是:设置两个writer,一个用于写训练的数据,一个用于写测试数...

使用Python开发windows GUI程序入门实例

今天终于可以用wxPython开发GUI程序了,非常高兴。把其中的一些注意点写下来以供参考。在windows XP平台下,首先需要做以下环境的配置: 1. 首先是安装python ,安装...