基于 WordPress | Theme by 90平空间 | 通过 XHTML 1.1CSS 3 验证
  • 网络营销软件工具,邮件营销,论坛营销,博客营销,网店营销,网店推广,网络自动投票
  • 网上开店推广工具

    现在网上开店容易了 是人有身份证就可以免费开个店,可事实上呢,开了店有什么用呢,没人知道。网络正是因为他的门槛进入低,所以竞争也激烈,加之目前诚信体系又差,你开个店不要说马上就赚钱了,想让别人知道也不是件容易的事情–所以呢,我们要进行推广

       说到网店的推广,很多人无非就是去QQ里给别人发发信息,QQ里的信息现在有几人相信,又有几个敢点? 关键是问题是QQ里发不了图片的链接,光发文字别人根本不感兴趣了,就以为是病毒了。而且你一天能发几个QQ呢, 这种推广的用处基本没有。

      排除QQ推广 那么还有什么其他快速有效的办法来进行推广呢? 当然是邮件,我想看这篇文章的人都一定收到过 taobao 包括一些人才网的邮件,你点进去看的机会也一定不小,为什么你会进去看呢,总结原因,这些邮件大都图文并茂,非常的吸引人,而且东西有是你觉得可能会需要的,所以你忍不住就会进去点了。这样宣传者的目的达到了,而且如果是一个有创意的邮件广告,还会得到非常好的印象分。对你小小的网店来说,同样如此,你做好的信息精美的展示在别人面前,别人有什么理由拒绝呢。

  • 网页数据抓取


    1 首先用WebClient类下载网页源码

    public static string DownLoadHtml(string url)
    {
    string output = “”;
    Encoding encode
    = Encoding.Default;
    WebClient webclient
    = new WebClient();
    try
    {
    webclient.Headers.Add(
    Referer, url);
    byte[] buff = webclient.DownloadData(url);
    output
    = encode.GetString(buff);
    }

    catch
    {
    }

    return output;
    }

    需要注意的:
    有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
    这是就要具体问题具体分析比如在头部加入cookie
    webclient.Headers.Add(”Cookie”, cookie);
    这样可能需要一些重载方法。根据需要写就可以了。

    2 下一步过滤掉不必要的特殊字符,把下载下来的网页内容清干净,方便抓取(比如空格双引号)

    过滤特殊字符

    3最后也是最重要的即从目标字符串的第begin个字符处开始,读取以 strBegin 开头,
    strEnd 结束的字符串.并返回获取到的内容,如果不存在,返回空。

    public static string GetHTMLContent(string strTarget, string strBegin, string strEnd, ref int begin)
    {
    string result;
    int posBegin, posEnd;
    posBegin
    = strTarget.IndexOf(strBegin, begin);
    if (posBegin != -1)
    {
    posEnd
    = strTarget.IndexOf(strEnd, posBegin + strBegin.Length);
    if (posEnd > posBegin)
    {
    result
    = strTarget.Substring(posBegin, posEnd + strEnd.Length - posBegin);
    begin
    = posEnd + strEnd.Length;
    return result;

    }

    }

    begin
    = -1;
    return “”;
    }

    需要注意的:
    begin是引用类型,有可能一段网页中可能会有重复的关键词
    比如<!–文章标题–>,<!–文章标题–>,如果你想对第二个文章标题里的内容
    操作那么begin就派上用场了,他每次抓取完都返回抓取内容的结尾,在调用
    此方法就可以得到第二个<!–文章标题–>的内容。

    在抓取完的数据一般都存在数据库中,如果是一个表直接存放就可以了.
    如果是两个表比如新闻名称和新闻内容分开,这是你就需要用到sql server的一个全局变量
    Select @@IDENTITY;它可以标识生成记录的唯一ID。以用作插入新闻内容用。(两个表以news_id关联)

    4 因为是精确抓取在程序处理的过程中要用到很多正则,比如去除连接去除括号等,这当然是简单的正则了。
    (见到有高手说动态生成正则还没弄懂学习之~)
    Regex pattern1 = new Regex(”<a.*?</a>”, RegexOptions.Singleline | RegexOptions.IgnoreCase);
    Regex pattern2 = new Regex(”(.*?)”, RegexOptions.Singleline | RegexOptions.IgnoreCase);
    newscontent = pattern1.Replace(newscontent, “”);
    newscontent = pattern2.Replace(newscontent, “”);
    程序里除了主要的方法外用得最多的就属正则表达式了,处理字符串用正则表达式那是当仁不让,

    5 下面是抓取时一些特殊情况的处理:

    1比如新闻只让抓当日的
    static DateTime todaysdate = DateTime.Now.Date;
    //date为抓取的日期
    DateTime newsday = Convert.ToDateTime(date);
    newsday
    = newsday.Date;
    TimeSpan s
    = todaysdate - newsday;
    if (s.TotalDays.ToString() == 0)
    {
    这里干活
    }

    2过滤特殊字符比如url里有bbs关键字的不抓
    if (newsurl.IndexOf(bbs) > 0)
    {
    continue;
    }

    3写入新闻唯一id到文件避免同一天抓两次数据引起新闻重复(再抓的时候比较就可以了)
    FileStream fs
    = new FileStream(filepaths, FileMode.OpenOrCreate, FileAccess.Write);
    StreamWriter sw
    = new StreamWriter(fs, System.Text.Encoding.GetEncoding(gb2312));
    sw.Flush();
    sw.BaseStream.Seek(
    0, SeekOrigin.Begin);
    //唯一id
    sw.Write(newsqid);
    sw.Close();


    6抓数据的时候可以把要抓的网站和一些关键字写入xml一边程序里直接调用
    这样比较省时省力,比如:

    <?xml version=”1.0″ encoding=”utf-8″ ?>
    <GetDatas>
    <MyData>
    <CarUrl>http://www.webhost/mysite.html</CarUrl>
    <CarFilterf><![CDATA[列表页特征字符串开始]]></Filterf>
    <CarFilters><![CDATA[列表页特征字符串结束]]></Filters>
    <CarDetailFilterf><![CDATA[详情页特征字符串开始]]></CarDetailFilterf>
    <CarDetailFilters><![CDATA[详情页特征字符串结束]]></CarDetailFilters>
    <NewsKey>种类一</NewsKey>
    </MyData>
    <MyData>
    <CarUrl>http://www.webhost/mysite.html</CarUrl>
    <Filterf><![CDATA[列表页特征字符串开始]]></CarFilterf>
    <Filters><![CDATA[ 列表页特征字符串结束 ]]></CarFilters>
    <DetailFilterf><![CDATA[详情页特征字符串开始]]></CarDetailFilterf>
    <DetailFilters><![CDATA[详情页特征字符串结束]]></CarDetailFilters>
    <NewsKey>种类二</NewsKey>
    </CarData>
    <MyData>
    程序里根据newskey的种类写入数据库方便调用。
  • 乐思网络信息采集系统软件

    什么是网络信息采集?
    网络信息采集是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的过程。

    我们提供Web2DB网络信息采集服务,您只需要告诉我们你的目标网页以及你的数据需求,其它的工作全由我们来做,很快您就可以直接得到你需要的数据了。数据库的格式可以为Excel, CSV, Access, MSSQL, 以及MySQL.

    我们提供产品化的乐思网络信息采集系统软件,您可以在任何时间自行配置采集任何网站的任何内容。 我们丰富的采集经验将为你提供强大的技术保障。

    有何利益?
    您将在信息采集,资源整合方面节约大量的人力与资金。
    广泛应用于行业门户网站,竞争情报系统,知识管理系统,网站内容系统,垂直搜索,科研等领域。

  • 垃圾邮件回应率不到0.00001%-依然产生高额利润

    加州大学伯克利分校和圣地亚哥分校的计算机科学家进行的一项研究揭示了垃圾邮件的盈利模式,并认为垃圾邮件制造者每发1250万封邮件,才有一个邮件回应.

    不到0.00001%的回应率也能保证垃圾邮件的高额利润,研究人员通过控制一个正在运行的垃圾邮件网络,揭示了垃圾邮件制造者的致富秘诀.同时,该研究指出,尽管垃圾邮件的回复率非常低,但大规模的发送垃圾邮件每年可创造高达数百万英镑的盈利.研究还显示,垃圾邮件制造者本身也易受攻击,因此造成发送垃圾邮件成本偏高.

    据悉,这一研究于今年年初开始,研究人员控制了用于传播垃圾邮件的Storm网络中的部分电脑,并进行分析.据信,Storm网络最高峰时控制有100多万台电脑.负责该项研究工作的斯德凡·萨维奇(Stefan Savage)称,研究垃圾邮件的最好办法就是自己充当垃圾邮件制造者.

    研究人员创建了一些所谓的“代理肉机”,作为Storm网络和受控家庭电脑信息传递的管道.他们通过这些“代理肉机”,共控制了75869台电脑,并通过这些电脑发送欺骗性垃圾邮件.其方式包括:一、模仿Storm网络采取病毒式传播,二、诱使网民浏览虚假医药网站,购买提高性能力的中草药.

    据统计,研究人员共发送了4.69亿封垃圾邮件其中大部分是采取的第二种方式.研究报告称,“启动后的26天内,共发送了约3.5亿封垃圾邮件,仅有28 封回复邮件”.据此,该垃圾邮件发送的响应率不到0.00001%,远低于合法的直投机构公布的平均2.15%的响应率.

    研究人员预计,整个Storm网络的操控者每天净盈利7000美元,合每年350万美元.研究人员指出,尽管发送垃圾邮件能拥有良好回报,但垃圾邮件制造者所获利润较过去人们预计得要低.

  • 正则表达式-网页数据收集解析-网页内容提取

    正则表达式(Regular Expression)为字符串模式匹配提供了一种高效、方便的方法。几乎所有高级语言都提供了对正则表达式的支持,或者提供了现成的代码库供调用。本文以ASP环境中常见的处理任务为例,介绍正则表达式的应用技巧。

    一、检验密码和邮件地址的格式

    我们的第一个实例示范正则表达式的一项基本功能:抽象地描述任意复杂的字符串。它的意思就是,正则表达式给予程序员一种形式化的字符串描述方法,只需很少的代码即可描述出应用遇到的任意字符串模式。例如,对于不从事技术工作的人来说,密码格式的要求可以描述如下:密码的第一个字符必须是字母,密码最少4个字符且不超过15个字符,密码不能包含除字母、数字和下划线以外的字符。

    作为程序员,我们必须把上面对密码格式的自然语言描述转换成其他形式,使得ASP页面能够理解并应用它来防止非法的密码输入。描述这个密码格式的正则表达式是:^[a-zA-Z]\w{3,14}$。在ASP应用里,我们可以把密码验证过程写成可重用的函数,如下所示:

    Function TestPassword(strPassword)
    Dim re
    Set re = new RegExp
    re.IgnoreCase = false
    re.global = false
    re.Pattern = “^[a-zA-Z]\w{3,14}$”
    TestPassword = re.Test(strPassword)
    End Function

    下面我们把这个检验密码格式的正则表达式和自然语言描述对比着看看:
    密码的第一个字符必须是字母:正则表达式描述是“^[a-zA-Z]”,其中“^”表示字符串的开始,连字符告诉RegExp匹配指定范围的所有字符。
    密码最少4个字符且不超过15个字符:正则表达式描述是“{3,14}”。
    密码不能包含除字母、数字和下划线以外的字符:正则表达式描述是“\w”。

    几点说明:{3,14}表示前面的模式匹配至少3个、但不超过14个的字符(加上第一个字符就成了4到15个字符)。注意花括号内的语法要求极其严格,不允许在逗号的两边加入空格。如果加入了空格,它将对正则表达式的含义产生影响,导致密码格式检验时产生错误。另外,上面的正则表达式末尾也没有加上 “$”字符。$字符使得正则表达式匹配字符串直至末尾,确保合法的密码后面没有加上任何其他字符。

    类似于密码格式检验,检查email地址的合法性也是一个很常见的问题,用正则表达式进行简单的email地址检验可以实现如下:

    <%
    Dim re
    Set re = new RegExp
    re.pattern = “^\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,3}$”
    Response.Write re.Test(”aabb@yahoo.com”)
    %>

    二、提取HTML页面的特定部分

    从HTML页面提取内容所面临的主要问题是,我们必须寻找一种方法精确地识别出自己想要的那一部分内容。例如,下面是一个显示新闻标题的HTML代码片断:

    <table border=”0″ width=”11%” class=”Somestory”>
    <tr>
    <td width=”100%”>
    <p align=”center”>其他内容…</td>
    </tr>
    </table>
    <table border=”0″ width=”11%” class=”Headline”>
    <tr>
    <td width=”100%”>
    <p align=”center”>伊拉克战争!</td>
    </tr>
    </table>
    <table border=”0″ width=”11%” class=”Someotherstory”>
    <tr>
    <td width=”100%”>
    <p align=”center”>其他内容…</td>
    </tr>
    </table>

    观察上述代码,很容易看出新闻标题由位于中间的表格显示,它的class属性设置为Headline。如果HTML页面非常复杂,使用Microsoft IE从5.0开始提供的一项附加功能可以只查看被选中部分页面的HTML代码,请访问http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解详情。对于本例,我们假定这是唯一class属性设置为Headline的表格。现在我们要创建正则表达式,通过正则表达式找到这个Headline表格并把这个表格包含到自己的页面中。首先是编写支持正则表达式的代码:

    <%
    Dim re, strHTML
    Set re = new RegExp ‘ 创建正则表达式对象
    re.IgnoreCase = true
    re.Global = false ‘ 第一次匹配之后结束查找
    %>

    下面考虑一下我们要提取的区域:在这里,我们要提取的是整个<table>结构,包括结束标记和新闻标题的文本。因此查找的起始字符应该是<table>开始标记: re.Pattern = “<table.*(?=Headline)”。

    这个正则表达式匹配表格的开始标记,能够返回开始标记直至“Headline”之间的所有内容(换行除外)。下面是返回已匹配HTML代码的方法:

    ‘ 把所有匹配的HTML代码放入Matches集合
    Set Matches = re.Execute(strHTML)
    ‘ 显示所有匹配的HTML代码
    For Each Item in Matches
    Response.Write Item.Value
    Next
    ‘ 显示其中一项
    Response.write Matches.Item(0).Value

    运行这段代码处理前面显示的HTML片断,正则表达式返回一次匹配的内容如下: <table border=”0″ width=”11%” class=”。正则表达式中的“(?=Headline)”没有获取字符,所以不能看到表格class属性的值。

    要获取表格剩余部分的代码也相当简单: re.Pattern = “<table.*(?=Headline)(.|\n)*?</table>”。其中:“(.|\n)”后面的“*”匹配0个到多个任意字符;而“?” 使得“*”匹配范围最小化,即在找到表达式的下一部分之前匹配尽可能少的字符。</table>是表格的结束标记。

    “?”限制符非常重要,它防止了表达式返回其他表格的代码。例如对于前面给出的HTML代码片断,如果删除这个“?”则返回内容将是:

    <table border=”0″ width=”11%” class=”Headline”>
    <tr>
    <td width=”100%”>
    <p align=”center”>伊拉克战争!</td>
    </tr>
    </table>
    <table border=”0″ width=”11%” class=”Someotherstory”>
    <tr>
    <td width=”100%”>
    <p align=”center”>其他内容…</td>
    </tr>
    </table>

    返回的内容不仅包含了Headline表的<table>标记,而且还包含了Someotherstory表格,由此可以看出,这里的“?”是必不可少的。

    本例假设了一些相当理想化的前提。实际应用中情况往往要复杂得多,特别是你对正在使用的源HTML代码的编写没有任何影响力时,编写ASP代码尤为困难。最有效的方法是,多花些时间分析待提取内容附近的HTML,经常地测试,确保提取出来的内容正是自己所需要的。

    另外,应当重视并处理正则表达式不能匹配源HTML页面任何内容的情形。内容的更新可能非常快速,不要只因为别人改变了内容的格式而让自己的页面出现低级可笑的错误。

    三、解析文本数据文件
    数据文件的格式和种类很多,XML文档、结构化文本甚至非结构化文本都经常成为ASP应用的数据源。下面我们要看的一个例子是使用限定符的结构化文本文件。限定符(比如引号)表示字符串各个部分不可分割,即使字符串内部包含把记录分隔成字段的分隔符也一样。 下面是一个简单的结构化文本文件:

    姓,名, 电话, 说明
    孙,悟空, 312 555 5656, ASP很好
    猪,八戒, 847 555 5656, 我是电影制片人

    这个文件非常简单,它的第一行是标题,下面两行是用逗号作为分隔符的记录。要解析这个文件也很简单,只需先把文件分割成行(根据换行符号),然后把各个记录按照字段分割。但是,如果我们在某个字段内容中加入了逗号:

    姓,名, 电话, 说明
    孙,悟空, 312 555 5656, 我喜欢ASP,还有VB和SQL
    猪,八戒, 847 555 5656, 我是电影制片人

    解析第一个记录时就会出现问题,因为在只认可逗号分隔符的解析器看来它的最后一个字段包含了两个字段的内容。为了避免出现这类问题,包含分隔符的字段必须用限定符包围。单引号就是一种常用的限定符。把上面的文本文件加上单引号限定符之后,它的内容如下所示:

    姓,名, 电话, 说明
    孙,悟空, 312 555 5656, ‘我喜欢ASP,还有VB和SQL’
    猪,八戒, 847 555 5656, ‘我是电影制片人’

    现在我们能够肯定哪一个逗号是分隔符、哪一个逗号是字段内容了,即只需把引号内部出现的逗号视为字段的内容。接下来我们要做的就是实现一个正则表达式解析器,由这个解析器确定何时根据逗号分割字段、何时把逗号视为字段内容。

    这里的问题与大多数正则表达式所面临的略有不同。通常我们查看的是文本的一小部分,看看它是否能够和正则表达式匹配。但在这里,只有考虑了整行文本之后我们才能可靠地判断出哪些内容位于引号之内。

    下面是一个说明该问题的例子。从某个文本文件随意抽取半行内容,得到:1, 沙滩, 黑色, 21, ‘, 狗, 猫, 鸭子, ‘, 。在这个例子中,因为“1”的左边还有其他数据,要解析清楚它的内容是极其困难的。我们不知道这个数据片断的前面有多少单引号,从而也就无法判断哪些字符位于引号之内(在引号之内的文本解析时不能分割)。如果这个数据片断之前有偶数个(或者没有)单引号,那么“’, 狗, 猫, 鸭子, ‘”是用引号界定的字符串且不可分割。如果前面的引号数量是奇数,那么“1, 沙滩, 黑色, 21, ‘”是某个字符串的结束部分且不可分割。

    因此,正则表达式必须分析整行文本,全面考虑出现了多少引号才能确定字符是处在引号对的内部还是外部,即:,(?=([^']*’[^']*’)* (?![^']*’))。这个正则表达式首先找到一个引号,然后继续查找并保证逗号后面的单引号数量或者是偶数、或者是0。该正则表达式以下面这个判断为基础:如果逗号后面的单引号数量是偶数,那么这个逗号位于字符串之外。下表给出了更详细的说明:
    , 寻找一个逗号
    (?= 继续向前查找以匹配下面这个模式:
    ( 开始一个新的模式
    [^']*’ [非引号字符]0个或者多个,然后是一个引号
    [^']*’[^']*) [非引号字符]0个或者多个,然后是一个引号。结合前面的内容之后它匹配引号对
    )* 结束模式并匹配整个模式(引号对)0次或者多次
    (?! 向前查找,排除此模式
    [^']*’ [非引号字符]0个或者多个,然后是一个引号
    ) 结束模式
    下面是一个VBScript函数,它接受一个字符串参数,根据字符串中的逗号分隔符、单引号限定符分割字符串,返回结果数组:

    Function SplitAdv(strInput)
    Dim objRE
    Set objRE = new RegExp
    ‘ 设置RegExp对象
    objRE.IgnoreCase = true
    objRE.Global = true
    objRE.Pattern = “,(?=([^']*’[^']*’)*(?![^']*’))”
    ‘ Replace方法用chr(8)替换我们要用到的逗号,chr(8)即\b
    ‘ 字符,\b在字符串中出现的可能极为微小。
    ‘ 然后我们根据\b把字符串分割保存到数组
    SplitAdv = Split(objRE.Replace(strInput, “\b”), “\b”)
    End Function

    总而言之,用正则表达式解析文本数据文件具有高效、缩短开发时间的优点,能够节省大量分析文件、根据复杂的条件提取有用数据的时间。在一个迅速发展的环境中仍会有许多传统的数据可资利用,掌握如何构造高效的数据分析例程将是一种宝贵的技能。

    四、字符串替换

    在最后一个例子中我们要看看VBScript正则表达式的替换功能。ASP经常用于动态地格式化从各种数据源获得的文本。利用VBScript正则表达式的强大功能,ASP能够动态地改变匹配的复杂文本。通过加入HTML标记突出显示部分单词就是一种常见的应用,比如突出显示搜索结果中的搜索关键词。
    为说明实现方法,下面我们来看一个突出显示字符串中所有“.NET”的例子。这个字符串可以从任何地方获得,比如数据库或者其他Web网站。

    <%
    Set regEx = New RegExp
    regEx.Global = true
    regEx.IgnoreCase = True
    ‘ 正则表达式模式,
    ‘ 寻找任何结尾为“.NET”的单词或者URL。
    regEx.Pattern = “(\b[a-zA-Z\._]+?\.NET\b)”
    ‘ 用于测试替换功能的字符串
    strText = “微软建立了一个新网站www.ASP.NET。”
    ‘ 调用正则表达式的Replace方法
    ‘ $1表示把匹配的文本插入当前位置
    Response.Write regEx.Replace(strText, _
    “<b style=’color: #000099; font-size: 18pt’>$1</b>”)
    %>

    这个例子中有几个重要的地方必须注意。整个正则表达式被放入了一对圆括号中,它的作用是截取所有匹配的内容供以后使用,这些内容在替换文本中通过$1引用。类似的截取每次替换可以使用多达9个,分别通过$1到$9引用。正则表达式的Replace方法和VBScript本身的Replace函数不同,它只需要两个参数:被搜索的文本,替换用的文本。
    在这个例子中,为了突出显示搜索到的“.NET”字符串,我们用粗体标记以及其他样式属性来包围这些字符串。使用这种搜索和替换技术,我们能够方便地为网站搜索程序加上突出显示搜索关键词的功能,或者自动为页面中出现的关键词加上指向其他页面的链接。

    结束语

    希望本文介绍的几种正则表达式技巧对你在何时、如何应用正则表达式有所启发。虽然本文的例子用VBScript编写,但在ASP.NET中正则表达式同样也大有用武之地,它是服务器端控件表单检验的主要机制之一,而且通过System.Text.RegularExpressions命名空间导出到了整个.NET框架之中。(责任编辑:铭铭)

营销软件大全|友情链接|

版权所有 网络营销软件-商巴网

置顶 debug_footer