首先通过阅读题目,抽象问题。
交代了问题的背景——舆情分析。
获得一些消息,消息是一群人的谈话的网络,要求从消息中找到同谋者和组织领导人。
1.仔细阅读题目,看看出题人要求你做到什么程度。
要得到的最终的结论:1. 一个优先级列表2. 一个判别是否为同谋人的分界线
要求这个模型具有一般性,而不是解决这一个特殊问题,更具有普遍性。
2.最后确定所有需要或者能够做的思路
3.明确符合条件的思路
4.建立简单模型
5.逐渐增加复杂度,建立精细化模型
6.论文完善
论文读书报告
Abstract
首先介绍问题,然后简洁的解释自己的模型,侧重于建立模型之后得到了什么样的效果,或者结论,论文分为三个模型,这三个模型都过有简单到复杂的原则进行展开,首先模型1建立单个节点的判断方式,模型2建立节点与相邻节点共同作用确定结论,模型3则是通过整个信息网络来确定为同某者的概率,最后介绍自己模型具有很好的应用价值,可以适用于数据量庞大的事件。
Declaration of the given data
对于数据量比较大的问题,这一步还是有必要的,对数据进行进一步的说明或者说是预处理。
1.对奇异数据(如果是冗余的数据)可以忽略不考虑,可是并不是所有的数据都是可以去掉的,对于这些数据就要进行数据的拟合近似进行数据总体的平滑性处理。
2.对数据应该仔细分析,一点一点认真看,把所有的噪点进行处理
3.这其中可以包含对数据的假设性的近似(在你的模型需要的基础上),这就是数据的预处理
这个paper可能对数据的预处理做得比较好。是亮点。
Problem analysis and assumption
这个部分写的就比较凌乱了,如果分条陈述可能更加直观一些,实话说,这个问题的假设比较困难,也就是说看起来没有什么好假设的,这个时候就应该把公理摆出来,就是公认为正确的不用用语言说明的基本假设。
假设所有的同谋者肯定至少和一个其他的同谋者进行交流,假设发出信息和受到信息具有相同的作用,没有什么区别(对于做出是否是同谋者的结论)。
Model 1
简单模型,只是考虑收到的和发送信息中敏感话题词出现的频率来估计作为同谋者的概率,
接着分析合理性与局限性,首先肯定这个模型能够解决大部分问题,但是对于小部分的问题不适用,引出下一个模型
Model 2
这个是通过这个节点的概率也是有其相邻节点影响,如果相邻节点的概率越高那么他对这个节点概率的影响就愈大。这是这个模型的核心,具体的处理过程,是通过一个复杂的公式进行一步一步的渲染,有两种确定的人,概率分别为1,0;然后通过这些人进行拓展他们的下直接相邻节点,然后有这些节点再拓展下一集节点,这样经过好多代以后就会逐渐稳定了。
Model 3
对图论进行简单的介绍,特别是最短路问题。
假设,用谋者用最短路进行信息的传播路径,在此假设的基础上对问题进行精细化,使得概率更加准确
模型基本建立完成,分析模型所得到的数据,比较一步步建立模型的效果,指出,通过模型一到模型三的建立,能够有效的解决奇异点的问题。
Model 4
继续深入问题,模型四实际上是对问题的拓展,题目中已经明确了,做这个模型的目的不是为了解决这个问题,而是应对超大数据量,因此应该对建立的模型进行一定的调整,使其更加实用。
论文中也是这样做得,通过在继续精细化的表示各种参数,对精度比较小的的参数进行优化,得到更加好的模型。
最后就是对自己的模型的优缺点分析,
分模型有条理的进行逐个分析,要确实公正的进行。
论文值得学习的地方:
接下来,对自己没有能力考虑的东西也进行定性的分析与讨论,文章中对舆情分析的关键技术进行讨论,因为如果自己是用比较高深的技术,那么这片文章写作就相当困难,所以文章选择小的切入点进行逐渐的拓展,其中运用的思想是借用高级的技术,像最段路的方法。
文章总结:
这篇文章的值得学习的地方不是论文的写作方式,而是明确问题建立模型的有条不紊性,能够清晰认识到自己哪些方面是可以做的,那些方面是做不了的,所以文章中就有侧重,而且模型不是一下建立到位,成功的论文都是一个循序渐进的过程,都是建立最简单的模型,然后继续修正模型,继续考虑需要考虑的因素,最后讨论的参数需要完整和全面但不一定都要考虑很详细,要有侧重点的进行。
对这个问题的一点小思路:
为什么不用类似遗传的算法来解决这个问题呢?
在网络中,和各个点的可能性不是的,可以先用基本的模型给定每个点一初始概率,然后用各点之间的相互作用和影响来修正这个概率,经过若干代后,概率回趋近稳定值,即得到结果,觉得这个思路可以做。而且很新颖。