首页 / 知识
Python实现文章自动生成
2023-11-12 13:40:00
下面的Python程序实现了通过从网页抓取一篇文章,然后根据这篇文章来生成新的文章,这其中的原理就是基于概率统计的文本分析。
过程大概就是网页抓取数据->统计分析->生成新文章。网页抓取数据是通过BeautifulSoup库来抓取网页上的文本内容。统计分析这个首先需要使用ngram模型来把文章进行分词并统计频率。因为文章生成主要依据马尔可夫模型,所以使用了2-gram,这样可以统计出一个单词出现在另一个单词后的概率。生成新文章是基于分析大量随机事件的马尔可夫模型。随机事件的特点是在一个离散事件发生之后,另一个离散事件将在前一个事件的条件下以一定的概率发生。
fromurllib.requestimporturlopen
fromrandomimportrandint
frombs4importBeautifulSoup
importre
defwordListSum(wordList):
sum=0
forword,valueinwordList.items():
sum=sum+value
returnsum
defretrieveRandomWord(wordList):
randomIndex=randint(1,wordListSum(wordList))
forword,valueinwordList.items():
randomIndex-=value
ifrandomIndex<=0:
returnword
defbuildWordDict(text):
text=re.sub('(\n|\r|\t)+',"",text)
text=re.sub('\"',"",text)
punctuation=[',','.',';',':']
forsymbolinpunctuation:
text=text.replace(symbol,""+symbol+"")
words=text.split('')
words=[wordforwordinwordsifword!=""]
wordDict={}
foriinrange(1,len(words)):
ifwords[i-1]notinwordDict:
wordDict[words[i-1]]={}
ifwords[i]notinwordDict[words[i-1]]:
wordDict[words[i-1]][words[i]]=0
wordDict[words[i-1]][words[i]]=wordDict[words[i-1]][words[i]]+1
returnwordDict
defrandomFirstWord(wordDict):
randomIndex=randint(0,len(wordDict))
returnlist(wordDict.keys())[randomIndex]
html=urlopen("http://www.guancha.cn/america/2017_01_21_390488_s.shtml")
bsObj=BeautifulSoup(html,"lxml")
ps=bsObj.find("div",{"id":"cmtdiv3523349"}).find_next_siblings("p");
content=""
forpinps:
content=content+p.get_text()
text=bytes(content,"UTF-8")
text=text.decode("ascii","ignore")
wordDict=buildWordDict(text)
length=100
chain=""
currentWord=randomFirstWord(wordDict)
foriinrange(0,length):
chain+=currentWord+""
currentWord=retrieveRandomWord(wordDict[currentWord])
print(chain)
buildWordDict(text)函数接收文本内容,生成的内容如下
{‘itself’:{‘,’:1},‘night’:{‘sky’:1},‘You’:{‘came’:1,‘will’:1},‘railways’:{‘all’:1},‘government’:{‘while’:1,‘,’:1,‘is’:1},‘you’:{‘now’:1,‘open’:1,‘down’:1,‘with’:1,‘.’:6,‘,’:1,‘that’:1},
主要就是生成一个字典,键是文章中所有出现的词语,值其实也是一个字典,这个字典是所有直接出现在键后边的词语及其出现的频率。这个函数就是ngram模型思想的运用。
retrieveRandomWord(wordList)函数的wordList代表的是出现在上一个词语后的词语列表及其频率组成的字典,然后根据统计的概率随机生成一个词。这个函数是马尔可夫模型的思想运用。
然后运行这个程序会生成一个长度为100的文章,如下面所示
fail.Wewillstirourselves,butwewillneverbefore.Donotshareoneheartandpleasantitbackourjobs.Weareinfusedwiththeorderlyandrailwaysallofthegangsandrobbedourjobsfortheirsuccesswilldeterminethecivilizedworld.Wewilltheirsuccesswillbeagreatmenandhighwaysandmillionstoallbleedtheworld.Itbelongstogreatnationalefforttodefendourproducts,constantlycomplaining,D.Wewillbeignoredagain.ItbelongstoharnesstheexpenseofAmerica.
生成的文章看起来语法混乱,这也难怪,因为只是抓取分析统计了一篇的文章。我想如果可以抓取足够多的英文文章,数据集足够大那么语法准确度会大大提高。
以上内容为大家介绍了Python实现文章自动生成,希望对大家有所帮助,如果想要了解更多Python相关知识,请关注我们http://www.mobiletrain.org/
最新内容
相关内容
linux命令行连数据库?
linux命令行连数据库?,地址,服务,信息,名字,数据库,密码,网络,一致,软件,系统,linux怎么连接mongodb数据库1、在这里使用的是MongoVUE进行连接怎么把数据库导入navicat?
怎么把数据库导入navicat?,软件,信息,密码,管理,数据库,服务,电脑,按钮,类型,文件,Navicat是一个强大的数据库管理工具,它可以连接和管理多种数深入理解python函数传参机制
深入理解python函数传参机制,培训,对象,函数,变量,类型,复本,下面,操作,机制,内存,首先需要申明的一点是,python里是没有像C和C++里那样按值传大学生报名Python培训课程的好处是
大学生报名Python培训课程的好处是什么?,培训,企业,社会,项目,行业,工作,时间,技术,都会,素养,一、报名学习前沿技术在IT行业,技术在不断变化和报名Python培训选择哪种方式比较好
报名Python培训选择哪种方式比较好?,培训,工作,基础,时间,情况,在线,最划算,环境,系统,方式,Python不仅是一种高级的编程语言,而且还是一种应用Python数据分析有哪些重要的库?
Python数据分析有哪些重要的库?,数据,分析,标准,庞大,通用,平台,培训,工具,基础,灵活,众所周知,有很多编程语言都可以应用于数据分析领域,但PythPython数据分析相关的技术
Python数据分析相关的技术,数据,工具,化学,设计,分析,网络,软件,系统,工程,商业,1.机器学习和计算机视觉Crab:灵活、快速的推荐引擎gensim:人性Python有哪些常用函数?
Python有哪些常用函数?,数据,函数,地址,数字,培训,工作,网络,位置,字符串,字符,Python常用函数有哪些?我想大家都比较好奇这个问题,今天小编特在Python培训中有哪些必学的运算符
在Python培训中有哪些必学的运算符?,项目,培训,数字,变量,赋值,符号,两个,表示,数学,示例,不论是Python还是其他后端编程语言,都少不了运算符的深圳python培训课程哪家靠谱?
深圳python培训课程哪家靠谱?,深圳,人工智能,培训,检测,分析,实战,行业,转型,时间,体系,Python语言简单、易学、易读、易维护,学习成本和时间相学习Python有必要报培训班吗?
学习Python有必要报培训班吗?,项目,培训,企业,实战,行业,技术,做好,汽车,行情,体系,伴随着人工智能的广泛应用,Python被广泛应用于web开发、运Python数据分析要学什么数学
Python数据分析要学什么数学,数据,分析,技术,基础,体系,信息,基础知识,培训,下降,量化,因为不知道所学的数学知识到底有什么用。对于IT公司的