距离海岛之行已经过去近二十天了,就在清理手机存储空间的时候,忽然翻到了相册里的照片,这才决定开始整理这篇海岛游记。此次前往的外伶仃岛,也是期待许久的海岛之一,可能是因为沉寂太久了吧。早在去年的端午节,就有这个计划,只是当时船票售罄,车票时间点不行,加上六月那会周末时间凑不齐,就推延至七月,等七月真正来了之后,台风也随之而来,自然因素再次致使计划推延,久而久之,这事也就不了了之了。一场说走就走的旅行,其实没那么容易,但也没那么难。这一年,心里还一直惦记着,毕竟工作之余,总要有些盼头,心心念念的事情总归还是要有所期待才行。就在六月下旬的某个夜晚,脑海里忽然浮现出一个想法,那就是利用周末的时间前往外伶仃岛。所以,外伶仃岛,我来了。

Read More »

吾本山间人士,地处湘西五溪之内,性内,为寻世之奥秘,立念于心底,破斧沉舟,誓出之。经学二十余载,辗转伏枕,唯风雨伴行,虽厉江湖之险恶,然未有大事临身,行之幸之。忆往昔,盖追三年有余,于故土则渐而远之,心之所念亦随之朦胧也,泪捂矣。愚以为心中有梦,行为之者奋,则亦有不负人之果也,奈时不我与,夙夜忧叹,悲者如斯哉!

Read More »

之前写过一篇电影数据分析的文章”豆瓣13万电影数据统计与分析“,引起了一些读者的关注,并且在后台咨询我是否可以分享下源码。为了满足大家的需要,我在五一期间将源码略作整理了下,并从中筛选了几个绘图源码在这里分享给大家,如有疑问,可在评论区留言。特别说明下,文中分析的数据来自电影数据集Moviedata-10M中的movies.csv文件,需要的童鞋可以按照官方的说明进行下载即可。

Read More »

五一假期快到了,终于有时间写文章了😁。这篇文章启发于年前在工作中碰到的一个任务,其实是一个比较简单的算法题。有一次,业务方有个功能点需要我们支撑,大致意思就是给出几个实体(图谱数据中的实体),判断这几个实体之间是否存在某种联系,如果有孤立的实体,那么就是非关联的。针对这个问题,大致分析下,首先我们的数据底层是知识图谱数据库,这些实体以及实体与实体之间的关系构成了整个庞大的知识图谱,现在的目的就是从这张图谱中判断节点之间是否存在连接(直接或者间接),我们称之为图的连通性探测。

Read More »

最近一个劲地开始怀旧起来,可能真的是年纪大了,不知不觉就快要到了而立之年,就连某宝也开始推荐我要准备养老了🤣。前段时间,刚看完《念书的孩子》和《遥望南方的童年》两部电影,之后的一段时间里,心里面总感觉热腾腾的难以平复。这两部影片都是豆瓣高评却冷门的国内电影,剧情朴实,画面感人,内容也非常真实,典型的回忆杀,影片的很多镜头都能让人回想起童年时候的自己,山坡、绿林、青草、池蛙、还有那田间小路,仿佛昨日一般,渐渐地将自己带入到童年的生活之中,沉睡的心也随之苏醒,就连听的歌,也都可以追溯到上个世纪了。罢了罢了,言归正传,谈谈这一路丢失的2020吧!

『夜幕来临前的深圳湾——with XL』
Read More »

2019年,正式步入了工作的第三个年头,也是踏入社会的第二个完整年,没有风风火火,也没有冷冷清清,一切平静而安详,似乎“山雨欲来风满楼”。放下手中的手机,停下眼前的键盘,翻阅着过去这些年的经历,零零碎碎的画面又在脑子里浮现而开,有无数个难忘的瞬间,也有模糊的已经记不清的镜头。2019,注定是一场黑与白的旅行。

Read More »

前几天,tx云的客服突然打电话给我,说我的域名备案有问题,一是域名绑定解析的服务器非tx云服务器;二是网站内容带有评论,属于交互式类型,与备案不符。限一天之内整改,否则域名将无法接入tx云。当时还在上班,也没多谈。晚上回去之后,没时间去修改,第二天直接被邮件通知说已上报管局。这波操作真的是有点蛮横霸道,不讲情面,毫无商量的余地啊!原本我的一级域名托管在Github是没有问题的,只是想开通下二级域名,而将二级域名绑定到tx云服务器,需要备案才行。现在备案不成,一级域名也被将被列入“黑名单”了。可能是因为与处女座隔得太近的原因,心里面对这个事情一直放不下,趁着周末时间充足,就想着抓紧时间把这个问题给了结了。

Read More »

对于NL2SQL,也许在以前很多人会比较陌生。自从今年6月天池出现首届中文NL2SQL挑战赛之后,算是掀起了一股浪潮,中文NL2SQL也可以说是得到了进一步的发展。NL2SQL是CUI(Conversation User Interface)的新兴研究热点,其研究目的是将用户输入的自然语言转为可用的SQL语句,提高用户查询数据的效率。笔者接触NL2SQL方向并不长,所以也不敢在各位大神面前班门弄斧。比起情感分析、推荐系统、知识图谱这些领域,NL2SQL的文章真是少到可怜。本文也是出于学习目的对NL2SQL方向进行概括和总结,要是相关童鞋也在做这个方向,我们不妨一起交流交流。

Read More »

倒腾豆瓣电影短评情感分析也有一阵时间了,一直抓着这个不放也不是个事,得赶紧腾出时间去总结下KG。本文算是笔者对情感分析的进阶篇,也是关于情感分类模型覆盖最全的文章。首先,从传统的特征提取方面对比了BOW、TF-IDF、N-Gram技术,并使用不同的机器学习算法构建了不同的子模型,然后又采用了Stacking模型融合技术对短评情感进行了进一步的探索,最后进阶到深度学习,构建神经网络模型进行文本分类。全文各个模型并不是参数最优,但也有一定的参考价值,因为针对不同的数据集,模型的预测结果都是不尽相同的。言归正传,下面一起来看看电影短评情感分析的结果吧!

Read More »

前段时间国庆,回家休息了几天,每天熬夜玩手机,整个人算是有点颓废了。回来工作之后,渐渐地又过上了有规律的生活,说到底,还是自制力不够呀!本想着国庆的时候好好分析下影评数据,结果只是跑了个模型,其他啥也没干成,想想就真的有点浪费时间了。人生苦短,转眼间很多熟悉的人都结婚了,而自己却终究还是过不去那个坎。不过现在无所谓了,压力不是很大,抓紧时间不断学习和总结才是王道。言归正传,在国庆前,针对豆瓣的电影评论数据做了一个比较简单的情感分析,效果不是很好,最近又进行了进一步尝试,发现了一点点关于情感分析数据集的小门道,这里简单的总结下,后续做文本分析,或许还可以使用上。

Read More »

数据集概况

本数据集采集于豆瓣电影,电影与明星数据收集于2019年8月上旬,影评数据(用户、评分、评论)收集于2019年9月初,共945万数据,其中包含14万部电影,7万演员,63万用户,416万条电影评分,442万条影评,该数据集正好弥补下国内公开电影​数据集的空缺。数据已经过初步清洗,可用于推荐系统、情感分析、QA问答、知识图谱等多个领域。

Read More »

在八月上旬,爬取了13万电影数据和28万影评数据,并在后续的日子中对13万豆瓣电影做了系统的分析,并根据电影数据构建知识图谱,建立QA问答系统。近期,查看评论数据的时候发现,数据严重缺失,每个电影最多只有5条评论,同时缺少评论评分的字段,为此重新修改了爬虫模型,并重新爬取了350万的评论数据。本文,主要除了介绍评论的爬取方法以外,还对评论做了初步的分析,方便后续的实践工作。

Read More »

在前几篇文章,我们对豆瓣电影数据进行了一系列地处理、分析,并进行了QA问答建模等操作,有的童鞋可能对数据获取环节感兴趣。为此,本文将重点分享下我是如何构建豆瓣电影数据爬取模型,如何处理爬虫过程中遇到的问题,最终得到13w+电影数据加上28w+的影评数据。闲话少说,我们来看细节吧!

Read More »

在上一篇文章基于豆瓣电影数据构建知识图谱里面,讲到如何采用Neo4j来构建电影图谱,并且掌握了Neo4j里面的初级查询功能(搜索实体属性、实体间的关系等)。接下来,将进入电影图谱问答系统的学习,通过知识库和知识图谱来构建电影问答系统。针对QA问答系统,由于笔者当前能力有限,本文仅介绍基于模板的知识库问答,讲解过程中如果有阐述不周之处,还请读者指出!下面,我们来看看如何对问题进行解析,并将图谱应用到电影问答系统。

Read More »